Полная версия
Голая статистика. Самая интересная книга о самой скучной науке
Но, как любят повторять в телевизионных рекламных роликах, это еще не все! Хол Вариан, главный экономист компании Google, в интервью The New York Times сказал, что в следующем десятилетии работа со статистическими данными станет «модной профессией», а точнее «сексуальной» (дословное выражение Хола Вариана: the sexy job)[6]. Я, наверное, окажусь первым, кто пришел к выводу о весьма превратном представлении некоторых экономистов о том, что следует считать «сексуальным». Тем не менее предлагаю рассмотреть несколько никак не связанных между собой вопросов.
• Как уличить учебные заведения в подтасовке результатов стандартизированных тестов?
• Откуда Netflix[7] известно о том, какого рода фильмы вам нравятся?
• Как определить, какие вещества и образ жизни вызывают раковые заболевания, учитывая, что мы не можем проводить над людьми экспериментов, приводящих к заболеванию раком?
• Можно ли рассчитывать на более успешный исход хирургической операции, если молиться за пациента?
• Существует ли реальная экономическая выгода в получении диплома какого-либо из престижных колледжей или университетов?
• Что является причиной роста заболеваемости аутизмом?
Статистика способна помочь нам (или, как мы рассчитываем, поможет в ближайшем будущем) получить ответы на эти вопросы.
Наш мир все быстрее и быстрее генерирует все большие и большие объемы данных. Тем не менее, как справедливо отметила The New York Times, «данные – всего лишь исходный материал знаний»[8],[9]. Статистика – самый мощный из имеющихся в нашем распоряжении инструментов для практического использования информации, например для оценивания эффективности действий бейсболистов или более справедливой оплаты труда преподавателей. Ниже приведен краткий обзор того, как статистика способна придать смысл исходным данным.
Описание и сравнениеСчет партии в боулинг является описательной (дескриптивной) статистикой. То же можно сказать и о каком-либо среднем показателе (например, в спорте). Большинство американских спортивных болельщиков в возрасте старше пяти лет неплохо разбираются в описательной статистике. Мы используем численные показатели в спорте и других сферах жизни для подытоживания информации. Насколько Микки Мэнтл был хорош как бейсболист? Его итоговый рейтинг как хиттера составил 0,298. Для бейсбольных болельщиков это весьма красноречивое число. Итоговый рейтинг 0,298 – выдающийся показатель, если принять во внимание, что в нем учитываются результаты Микки Мэнтла за восемнадцать лет карьеры профессионального бейсболиста[10]. (Хотя, согласитесь, если итог жизни человека можно выразить одним-единственным числом, это несколько разочаровывает и настраивает на мысли о бренности человеческого бытия.) Разумеется, фанаты бейсбола должны помнить о существовании другой описательной статистики, которая, возможно, отражает ценность того или иного бейсболиста гораздо лучше, чем пресловутый средний показатель.
Академическая успеваемость учащихся школ и колледжей в США оценивается с помощью среднего балла. В стране используется шкала с буквенными обозначениями, где каждой букве соответствует определенный балл: как правило, A = 4 балла, B = 3 балла, C = 2 балла и т. д. По окончании учебного заведения, когда абитуриенты поступают в колледжи, а выпускники колледжей подыскивают себе работу, средний балл становится удобным инструментом для оценивания их академического потенциала. Тот, у кого средний балл 3,7, явно сильнее выпускника со средним баллом 2,5. Таким образом, средний балл является весьма полезной описательной статистикой. Его легко вычислить, понять и сравнивать с баллами других учащихся.
Тем не менее данный показатель не идеален. В нем не учитывается сложность учебных программ, которые проходят разные ученики. Как можно сравнивать знания учащегося со средним баллом 3,4, обучавшегося по относительно легкой программе, и его сверстника со средним баллом 2,5, изучавшего математику, физику, химию и другие сложные предметы? В свое время я посещал школу, которая пыталась решить эту проблему, присваивая таким дисциплинам дополнительные весовые коэффициенты, в результате чего оценка A по предмету повышенной трудности соответствовала пяти баллам, а по обычному предмету приравнивалась к четырем. Однако у данного подхода были существенные минусы. Моя мать довольно быстро уяснила, как эта «поправка» влияет на средний балл. Дело в том, что для таких учеников, как я (изучавших много сложных предметов), максимальная оценка A по любому из обычных предметов (например, по физкультуре или основам безопасности жизнедеятельности) не могла превышать 4 баллов, что снижало средний балл, как бы хорошо мы ни учились. В результате родители запретили мне посещать в школе курсы вождения автомобиля, поскольку даже самые высокие оценки по этому курсу уменьшали мои шансы на поступление в какой-либо престижный колледж и последующие занятия писательским трудом. Поэтому они отправили меня в частную (платную) школу вождения, которую мне пришлось посещать летом.
Глупость? Конечно! Но одной из тем, которые я затрону в этой книге, будет опасность чрезмерного увлечения любой из описательных статистик, поскольку это может привести к ошибочным умозаключениям и подтолкнуть к нежелательным действиям. В первоначальном варианте книги я использовал выражение «упрощенная описательная статистика», однако в конечном счете выбросил слово «упрощенная», поскольку оно показалось мне заведомо избыточным. Описательная статистика для того и существует, чтобы упрощать, что всегда подразумевает некоторую потерю нюансов и деталей. Каждый, кто работает с числами, должен воспринимать это как данность.
УмозаключенияСколько бездомных живет на улицах Чикаго? Как часто женатые пары занимаются сексом? На первый взгляд у этих вопросов нет ничего общего. На самом же деле на каждый из них можно ответить (правда, не с абсолютной точностью) с помощью базовых статистических инструментов. Одна из ключевых функций статистики – использование имеющихся данных для выдвижения аргументированных предположений, касающихся вопросов, исчерпывающий ответ на которые невозможно дать из-за отсутствия полной информации. Короче говоря, мы можем использовать данные из «известного мира» для построения обоснованных гипотез относительно «неизвестного мира».
Начнем с вопроса о бездомных. Точно подсчитать их количество в крупном мегаполисе и дорого, и затруднительно. Тем не менее располагать численной оценкой этой группы населения необходимо с целью предоставления социальных услуг, обоснования права на получение части доходов штата и федеральных доходов и соответствующего представительства в Конгрессе. Одним из важных статистических методов является выборочное исследование – процесс сбора данных по какой-то небольшой области, например нескольких районов, где проводилась перепись населения, чтобы на их основе сделать умозаключение о количестве бездомных в городе в целом. Такой подход требует значительно меньших ресурсов, чем попытка сосчитать всех бездомных; к тому же при правильном проведении выборочного исследования можно получить очень близкий к точному результат.
Опрос общественного мнения – еще одна форма статистической выборки. Скажем, исследовательская организация опрашивает членов среднестатистических семей, чтобы выяснить их точку зрения на ту или иную проблему или их мнение о том или ином политическом деятеле. Сделать это, естественно, гораздо проще, дешевле и быстрее, чем обойти все домохозяйства в соответствующем штате или стране в целом. По расчетам Американского института общественного мнения (Институт Гэллапа), методологически правильный опрос 1000 семей дает практически такие же результаты, как и опрос всех семей в Соединенных Штатах.
Именно таким способом нам удалось выяснить, как часто, с кем и как американцы занимаются сексом. В середине 1990-х годов Национальный центр изучения общественного мнения при Чикагском университете провел масштабное исследование сексуального поведения населения страны. Результаты основывались на детальных опросах крупной репрезентативной выборки взрослых американцев. Если вы продолжите чтение этой книги, то в главе 10 узнаете подробности. В каких еще книгах, посвященных статистике, вы могли бы почерпнуть подобные сведения?
Оценивание риска и событий, имеющих вероятностный характерКазино никогда не бывают внакладе в долгосрочной перспективе. Это не означает, что они зарабатывают деньги в любой момент, но в конечном итоге остаются прибыльными, как бы ни складывалась каждая отдельно взятая игра. Весь игорный бизнес построен на азартных играх, поэтому исход каждой из них непредсказуем. В то же время базовые вероятности наступления соответствующих событий – выпадения двадцати одного очка в блек-джек или зеро при игре в рулетку – известны. И когда эти базовые вероятности выступают в пользу казино (а это происходит всегда), можно не сомневаться, что по мере увеличения количества ставок вероятность того, что истинным победителем окажется игорное заведение, повышается, несмотря на мелкие «досадные недоразумения», случающиеся по ходу дела.
Данный феномен характерен не только для казино, но и для многих других сфер нашей жизни. Компаниям постоянно приходится оценивать риски, связанные со всевозможными неблагоприятными факторами. Полностью исключить такие риски невозможно – точно так же как казино не может гарантировать, что, сделав ставку, вы не сорвете крупный куш, доставив тем самым владельцам заведения немалое огорчение. Однако любой бизнес, сталкивающийся с неопределенностью, может управлять рисками, организовав соответствующие процессы таким образом, чтобы снизить вероятность того или иного неблагоприятного исхода (начиная со стихийного бедствия и заканчивая выпуском бракованного изделия) до приемлемого уровня. Компании на Уолл-стрит зачастую пытаются оценивать риски, связанные с их портфелями при разных сценариях, причем каждому из этих сценариев в зависимости от вероятности его реализации присваивается определенный вес. Финансовый кризис 2008 года отчасти спровоцировали события на рынке, наступление которых считалось крайне маловероятным (например, как если бы все игроки в казино за один вечер оказались в крупном выигрыше). Далее в этой книге я попытаюсь доказать, что модели, которыми руководствовались компании на Уолл-стрит, были изначально ущербными, а данные, использовавшиеся для оценивания ключевых рисков, – слишком ограниченными, однако сейчас я лишь хочу сказать, что в основу любой модели, имеющей дело с рисками, должны быть положены вероятности.
Когда отдельные люди и фирмы не в состоянии полностью устранить неприемлемые для них риски, они пытаются обезопасить себя другими способами. Вся страховая индустрия построена на требовании клиентов защитить их от того или иного негативного события, такого как автомобильная авария, пожар и т. п. Страховая отрасль зарабатывает деньги отнюдь не на устранении подобных случаев: ДТП происходят каждый день, собственно, как и пожары. (Бывает даже так, что автомобиль, врезавшись в дом, становится причиной пожара.) Она процветает за счет взносов владельцев страховых полисов, которых оказывается более чем достаточно, чтобы покрыть ожидаемые страховые выплаты в случае автомобильной аварии или пожара в доме. (Страховая компания может также попытаться снизить ожидаемые страховые выплаты путем поощрения методов безопасного вождения, установки детекторов дыма в каждой спальне, ограждений вокруг водоемов и т. п.)
В определенных случаях концепцию вероятности можно даже использовать для поимки мошенников. Фирма Caveon Test Security специализируется на так называемой экспертизе данных, позволяющей выявить некие закономерности, которые предполагают обман[11]. Например, эта компания (между прочим, основанная бывшим разработчиком тестов SAT[12]) обратит внимание общественности на результаты экзаменов в том или ином учебном заведении или каком-либо другом месте их проведения, если обнаруженное количество идентичных неправильных ответов окажется крайне маловероятным (обычно речь идет о картине, которая складывается реже чем один раз на миллион). При этом она руководствуется следующей математической логикой: когда большая группа учащихся правильно отвечает на какой-то вопрос, из этого нельзя сделать однозначный вывод. Здесь возможны два варианта: либо они дружно списали правильный ответ у кого-то из своих товарищей, либо все как один очень умные ребята. Но когда большая группа учащихся отвечает на какой-то вопрос неправильно, это настораживает: все не могут ответить одинаково неправильно – по крайней мере вероятность такого сценария чрезвычайно мала. Это говорит о том, что они списали неправильный ответ у кого-то из одноклассников. Кроме того, Caveon Test Security выявляет экзамены, в ходе которых экзаменуемые отвечают на сложные вопросы значительно лучше, чем на простые (в таком случае предполагается, что ответы им были известны заранее), или количество исправлений неправильного ответа на правильный существенно превышает количество исправлений правильного ответа на неправильный (в таком случае предполагается, что после экзамена преподаватель или экзаменатор подменил листы с ответами).
Разумеется, нетрудно заметить ограничения, присущие использованию вероятностей. Достаточно большая группа экзаменуемых может абсолютно случайно дать одинаково неправильные ответы на какой-то вопрос; к тому же чем больше учебных заведений будет проверяться, тем выше вероятность натолкнуться на подобную картину. Однако никакая статистическая аномалия не опровергает принципиальную правильность предлагаемого подхода. В 2008 году Делма Кинни, пятидесятилетний житель города Атланта, выиграл в мгновенную лотерею миллион долларов, а затем, в 2011-м, еще миллион[13]. Вероятность такого совпадения равна примерно один к 25 триллионам. Естественно, оснований арестовывать г-на Кинни за мошенничество, опираясь исключительно на аналогичные математические выкладки, нет (правда, не мешало бы проверить, не работает ли кто-то из его родственников в лотерейной комиссии штата). Вероятность – лишь один из инструментов в арсенале статистики, и этот инструмент требует умелого обращения.
Выявление важных зависимостей (работа статистика-детектива)Действительно ли курение вызывает рак? У нас есть ответ на этот вопрос, однако процесс его получения был не так прост, как может показаться на первый взгляд. Научный метод диктует, что при проверке той или иной гипотезы необходимо провести управляемый эксперимент, в ходе которого именно интересующая нас переменная (например, курение) должна определять разницу между экспериментальной и контрольной группами. Если между двумя этими группами в чем-то (в нашем случае – в частоте возникновения рака легких) прослеживается заметная разница, то можно с уверенностью заключить, что к такому результату привела именно искомая переменная. Однако мы не имеем права ставить над людьми подобные эксперименты. Если, согласно нашей рабочей гипотезе, курение является причиной раковых заболеваний, то было бы неэтично, скажем, разделить недавних выпускников колледжа на две группы, курящих и некурящих, и спустя двадцать лет со дня окончания колледжа, когда они соберутся отметить эту круглую дату, выяснять, кто из них заболел раком легких, а кто – нет. (Управляемые эксперименты над людьми оправданны, если нужно проверить, поможет ли новое лекарство или метод лечения улучшить состояние их здоровья. Но когда речь идет о вероятности летального исхода и нам это хорошо известно, мы не имеем права подвергать людей опасности лишь ради того, чтобы подтвердить или опровергнуть свое предположение.)[14]
Итак, нам не стоит проводить весьма сомнительный в этическом плане эксперимент, чтобы изучить последствия курения. А не проще ли вместо всей этой заумной методологии взять и сравнить во время встречи по случаю двадцатилетнего юбилея со дня окончания колледжа процент заболевания раком у бывших выпускников – курильщиков и некурильщиков?
Не проще! Курильщики и некурильщики, скорее всего, будут отличаться не только своим отношением к курению. Например, не исключено, что у курильщиков выработался ряд специфических привычек, таких как тяга к алкоголю или склонность к перееданию, что тоже негативно сказывается на их здоровье. Поэтому мы не можем быть твердо убеждены, что их нездоровый вид – следствие именно курения, а не каких-либо других пагубных пристрастий. Кроме того, у нас возникла бы серьезная проблема с данными, на которых основывается наш анализ. Курильщики, действительно заболевшие раком (не говоря уже о тех, кто к тому времени от него умер), вряд ли придут на празднование юбилея. В результате на точности любого анализа состояния здоровья тех, кто пришел (касается ли этот анализ вреда курения или чего-либо другого), существенно скажется то обстоятельство, что в этом праздновании, скорее всего, примут участие лишь те, кто не испытывает особых проблем со здоровьем. Чем больше лет пройдет с момента окончания учебы в колледже (скажем, будет отмечаться сорокалетний или пятидесятилетний юбилей), тем меньшей будет точность анализа.
Мы не можем относиться к людям как к подопытным кроликам. В итоге статистика оказывается сродни профессии детектива. Исходные данные могут подсказать нам модели, которые в конечном счете способны привести к правильным выводам. Вы наверняка смотрели увлекательные полицейские сериалы наподобие CSI: New York, где очень симпатичные детективы и эксперты-криминалисты скрупулезно исследуют всевозможные «мелочи»: ДНК из остатков слюны на сигаретном окурке, отпечатки зубов на яблоке, кусочек волокна из автомобильного коврика, – а затем используют полученные улики для поимки преступника. «Изюминка» сериала заключается в том, что поначалу эксперты не располагают традиционными вещественными доказательствами (например видеозаписью камер наружного наблюдения или живым свидетелем преступления), позволяющими им изобличить «плохого парня», поэтому им приходится прибегать к научным методам и логическим умозаключениям. Статистика, по сути, идет тем же путем. Исходные данные дают нам некое хаотическое нагромождение подсказок и намеков – так сказать, сцену преступления. А статистический анализ их упорядочивает и систематизирует таким образом, чтобы на их основе можно было сделать логический вывод.
После прочтения главы 11 вы сможете по достоинству оценить телевизионное шоу, которое я планирую предложить какому-либо из телеканалов: CSI: Regression Analysis («CSI: регрессионный анализ»). Это шоу лишь немного отличалось бы от множества других остросюжетных полицейских сериалов. Регрессионный анализ – инструмент, позволяющий исследователям вычленить взаимосвязь между двумя переменными, такими как курение и раковые заболевания, удерживая при этом постоянным (или «учитывая») влияние других важных переменных, таких как режим питания, физические упражнения, вес и т. п. Когда вы читаете в газете о том, что ежедневное употребление в пищу хлеба из отрубей снижает риск заболевания раком толстой кишки, вы не должны думать, что группу несчастных испытуемых насильно кормили хлебом из отрубей в подвале какой-то федеральной лаборатории, в то время как контрольная группа, находившаяся в соседнем здании, с удовольствием уплетала яичницу с беконом. Вовсе нет! Исследователи собирают подробные сведения о тысячах людей (в том числе как часто они едят хлеб из отрубей), а затем используют регрессионный анализ, чтобы сделать две важные вещи: во-первых, выразить в количественной форме связь между употреблением в пищу хлеба из отрубей и снижением вероятности заболевания раком толстой кишки (например, гипотетический вывод о том, что у тех, кто ежедневно ест хлеб из отрубей, рак толстой кишки встречается на 9 % реже, с учетом других факторов, которые могут вызывать это заболевание); и во-вторых, вычислить вероятность того, что связь между ежедневным поеданием хлеба из отрубей и снижением заболеваемости раком толстой кишки, наблюдаемая в этом исследовании, является простым совпадением – случайностью в данных именно для этой выборки людей, – а не устойчивой закономерностью: связью между режимом питания и состоянием здоровья человека.
Разумеется, в телешоу CSI: Regression Analysis будут участвовать профессиональные актеры, которые выглядят на экране гораздо лучше реальных ученых, исследующих такие данные. Этим актерам и актрисам (многие из которых, между прочим, несмотря на молодой возраст, будут иметь ученые степени) предстоит изучить огромные массивы данных и использовать новейшие статистические инструменты для ответа на важные социальные вопросы (например, каковы самые эффективные методы борьбы с преступностью и насилием и какие социальные типы чаще всего становятся террористами). Далее в этой книге мы обсудим концепцию «статистически значимого» вывода, то есть когда в результате анализа выявляется связь между двумя переменными, которая не является случайной. Ученые рассматривают такой статистический вывод как «явную улику». Я предполагаю, что в телешоу CSI: Regression Analysis героиней будет девушка-исследователь, работающая поздно вечером в компьютерной лаборатории, поскольку днем она интенсивно тренируется в составе олимпийской сборной США по пляжному волейболу. Получив распечатку со статистическим анализом, девушка видит именно то, на что и рассчитывала: ярко выраженную статистически значимую связь между некой, по ее мнению, важной переменной и развитием аутизма. Естественно, она тут же спешит поделиться своим открытием с коллегами!
Девушка берет распечатку и бежит по коридору; скорость ее передвижения замедляют лишь высокие каблуки и очень узкая короткая черная юбка. Моя героиня вбегает в комнату к коллеге, симпатичному загорелому парню (и когда он только успел так загореть, ежедневно просиживая по четырнадцать часов за компьютером?), и демонстрирует ему распечатку. Он задумчиво теребит пальцами свою аккуратно подстриженную эспаньолку, вынимает из ящика письменного стола пистолет калибра 9 мм марки Glock и сует его в боковой карман своего костюма от Hugo Boss за 5000 долларов (и откуда, интересно, взялся у него такой костюмчик, учитывая, что размер его годовой заработной платы составляет примерно 38 000 долларов?). Затем они быстрым шагом направляются в кабинет к боссу, прожженному ветерану сыска, которому уже удалось наладить отношения со своей женой и вылечиться от алкоголизма…
Ладно, вам вовсе не обязательно смотреть телевизор, чтобы оценить важность подобных статистических исследований, практически все важнейшие социальные проблемы решаются с помощью систематического анализа огромных массивов данных. (Во многих случаях их сбор – весьма дорогостоящий и трудоемкий – играет решающую роль в этом процессе, что я постараюсь продемонстрировать в главе 7.) Возможно, я несколько приукрасил своих героев в CSI: Regression Analysis, но это отнюдь не снижает актуальности решаемых ими вопросов. Существует научная литература о террористах и террористах-смертниках – теме, которую было бы очень трудно изучать на живых примерах, используя добровольцев в качестве подопытных кроликов. Одну из таких книг, What Makes a Terrorist («Как человек становится террористом»), написал мой преподаватель статистики в магистратуре. Материал книги основан на данных, собранных по результатам террористических актов в разных странах. Вот один из важных выводов, сделанных ее автором, экономистом Принстонского университета Аланом Крюгером: «Террористы отнюдь не всегда оказываются выходцами из беднейших слоев населения или малообразованными людьми, наоборот, обычно они принадлежат к среднему классу; уровень их образования также достаточно высок»[15].
В чем тут дело? В этой ситуации проявляется одно из ограничений регрессионного анализа. С помощью статистического анализа мы можем изолировать сильную связь между двумя переменными, но далеко не всегда можем объяснить причину ее существования, а в некоторых случаях даже не знаем наверняка, носит ли она причинно-следственный характер (то есть что изменение одной переменной действительно влечет за собой изменение другой переменной). Что касается терроризма, то профессор Крюгер считает, что, поскольку террористы мотивированы определенными политическими целями, те, кто наиболее образован и богат, движимы сильным желанием изменить общество. Особенно таких людей возмущает подавление свободы – еще один фактор, связанный с терроризмом. Согласно исследованию, выполненному Крюгером, странам с высоким уровнем политических репрессий присущ более высокий уровень террористической деятельности (при условии и неизменности прочих факторов).
Это обсуждение возвращает меня к вопросу, поставленному в названии главы: в чем суть? Точно не в том, чтобы заниматься сложными математическими выкладками или поражать друзей и коллег мудреными статистическими методами. Суть в том, чтобы узнать вещи, которые позволяют нам лучше понимать свою жизнь.