bannerbanner
Ложь, наглая ложь и статистика. Приемы, которые помогут видеть правду за цифрами
Ложь, наглая ложь и статистика. Приемы, которые помогут видеть правду за цифрами

Полная версия

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
1 из 7

Тим Харфорд

Ложь, наглая ложь и статистика: приемы, которые помогут видеть правду за цифрами

Tim Harford

HOW TO MAKE THE WORLD ADD UP


© Tim Harford, 2020



В оформлении обложки использована иллюстрация:

hauvi / Shutterstock / FOTODOM

Используется по лицензии от Shutterstock / FOTODOM



© Левина Е.Л., перевод на русский язык, 2024

© Оформление. ООО «Издательство «Эксмо», 2024

Вступление

Как лгать при помощи статистики

Настоящая же проблема… заключается не в том, чтобы доказать, что ложь – это ложь, а в том, чтобы доказать истинность истинного объекта.

Умберто Эко1

Знаете старую байку про то, что детей приносят аисты? Это чистая правда.

Сейчас я докажу это при помощи статистики.

Возьмите число аистов в каждой стране и сравните его с числом рождений за год. По всей Европе эти два числа на удивление четко коррелируют. Больше аистов – больше младенцев; меньше аистов – меньше младенцев. Закономерность достаточно заметная, чтобы пройти отсев в научном журнале. Есть даже опубликованная научная работа под названием «Аисты приносят детей (p = 0.008)». Не будем вдаваться в детали, скажу лишь, что все эти нули говорят о том, что это не простое совпадение2.

Вы, наверное, уже догадались, в чем тут подвох. В крупных европейских странах вроде Германии, Польши и Турции много младенцев и много аистов. В небольших странах, таких как Албания и Дания, и младенцев, и аистов меньше. Между числом тех и других есть взаимосвязь, но это не означает, что младенцы появляются благодаря аистам.

Создается впечатление, что при помощи статистики можно «доказать» все что угодно – даже то, что детей приносят аисты.

Если вы читали «Как лгать при помощи статистики», вы наверняка пришли к такому выводу. Эту остроумную и циничную книжку выпустил в 1954 малоизвестный тогда американский журналист-фрилансер Дарелл Хафф. The New York Times немедленно написала на нее восторженный отзыв, и с тех пор было продано более миллиона экземпляров этой книги, что, возможно, сделало ее самой популярной книгой по статистике на свете.

Книга заслуживает и славы, и похвалы. Это – настоящее чудо популярной статистики. Среди любителей чисел Дарелл стал легендой. Бен Голдакр, эпидемиолог и автор бестселлера «Обман в науке», восхищается тем, какую «бомбу» написал «брюзга Хафф». Американский писатель Чарльз Уилан говорит, что его книга «Голая статистика» вдохновлена «классической» работой Хаффа. Через 50 лет со дня выхода книги Хаффа известный журнал «Статистическая наука» организовал в его честь ретроспективу.

Я и сам раньше так думал. Подростком я зачитывался книгой «Как лгать при помощи статистики». Эта блестящая, хлесткая, да еще и забавно проиллюстрированная книга позволила мне проникнуть за завесу статистических манипуляций и научила меня распознавать обман.

Хафф использует море примеров. Для начала он задается вопросом, сколько зарабатывают выпускники престижного Йельского университета. Если верить опросу, проведенному в 1950 году, выпускники 1924 года зарабатывали в среднем что-то вроде 500 000 долларов в год в пересчете на сегодняшние деньги. Ну что ж, можно в это поверить – в конце концов, речь идет о Йеле, – но полмиллиона долларов в год – это целое состояние… неужели и правда это средний доход?


Вовсе нет. Хафф объясняет, что источник этой «невероятно привлекательной» информации – ответы самих выпускников, а как же не приукрасить рассказ о себе любимом и не сказать, что зарабатываешь больше, чем на самом деле? Кроме того, опрос учитывает только тех, кто взял на себя труд ответить на вопросы – и только тех, кого исследователи смогли найти. А кого легче всего найти? Конечно, людей богатых и известных. «Что же это за заблудшие овечки, которые в списках выпускников значатся под рубрикой «адрес неизвестен?» – спрашивает Хафф. Йель следит за успехами выпускников-миллионеров, но их менее успешные товарищи могли не попасть в его поле зрения. Все это говорит о том, что в результатах опроса зарплата намного выше, чем в реальности. Хафф галопом пробегается по галерее статистических преступлений – от рекламы зубной пасты, подтвержденной лишь искусно подобранными данными, до схем, которые, в зависимости от того, как их раскрасить, меняют значение. Хафф выразился вот как: «Пройдохам эти фокусы давно известны. Люди честные должны о них знать, чтобы их не обвели вокруг пальца».

Если вы прочитаете «Как лгать при помощи статистики», вы поймете, как часто вас обманывают числа. Это умная и полезная книга.

Но я больше десятилетия рассказываю людям о статистике и проверяю заявления, основанные на числовой информации, – и чем дальше, тем больше у меня сомнений по поводу книжки «Как лгать при помощи статистики» и того, что она собой представляет. Что можно подумать о статистике – и о нас самих – если самая известная книга на эту тему от корки до корки состоит из рассказов о ложной информации?

Дарелл Хафф напечатал свою книгу в 1954 году. Но в том же году случилось кое-что другое: британские ученые Ричард Долл и Остин Брэдфорд Хилл выпустили одно из первых убедительных исследований, демонстрирующих, что курение сигарет приводит к раку легких3.

Без статистики Долл и Хилл никогда не пришли бы к этому выводу. За 15 лет число случаев рака легких в Соединенном Королевстве выросло в шесть раз. Уже в 1950 году страна лидировала по числу случаев заболеваний, а число смертей от рака легких впервые превысило число смертей от туберкулеза. Статистический подход нужен был уже хотя бы для того, чтобы заметить эти изменения. Доктора-одиночки располагали информацией лишь о единичных случаях.

Статистика была необходима и чтобы доказать, что убивают именно сигареты. Многие тогда полагали, что рак легких возникает из-за автомобилей. В этом была своя логика. В первой половине двадцатого века автомобили стали привычным явлением, а вместе с ними появились и выхлопные газы, и всепроникающий запах новых асфальтовых дорог. В то же самое время выросло и число случаев рака легких. Чтобы понять, в чем дело, чтобы догадаться, что не машины, а сигареты вызывают рак легких, недостаточно просто оглядеться по сторонам. Для этого нужны ученые, которые тщательно считают и сравнивают данные. Короче говоря – нужна статистика.

Многие скептически относились к гипотезе о сигаретах, хоть она была и не нова. К примеру, нацистская Германия активно пыталась доказать вред сигарет, а Адольф Гитлер относился к ним с отвращением. Не сомневаюсь, что фюрер был доволен, когда немецкие врачи доказали, что курение приводит к раку. Но нацисты – так себе пример для подражания, и табак не терял своей популярности.

Поэтому Долл и Хилл решили провести свои собственные статистические изыскания. Ричард Долл был красивым, тихим и безупречно вежливым молодым человеком, участником Второй мировой. У него была масса идей, как использовать статистику для революции в медицине. Его наставник, Остин Брэдфорд Хилл, служил пилотом в Первой мировой, а потом едва не умер от туберкулеза[1]. Харизматичный и острый на язык Хилл считался одним из лучших специалистов по медицинской статистике в двадцатом веке4. Их совместная работа по анализу данных спасла не одну жизнь.

Коллеги начали свое исследование первого января 1948 года. Под предводительством Долла они исследовали порядка 20 больниц на северо-западе Лондона. Всякий раз, когда в больницу прибывал пациент с раком, медсестра должна была подобрать ему в пару человека того же пола и примерно того же возраста – руководствуясь одной лишь случайностью. И больных раком, и их «напарников» подробно опрашивали о том, где они живут и работают, как проводят свое время, что едят, а также как долго и как часто курят. Понемножку, неделя за неделей, месяц за месяцем набиралось все больше ответов.

В октябре 1949 года, меньше чем через два года после начала исследований, Долл бросил курить. Ему было 37, и всю свою взрослую жизнь он был курильщиком. Что же обнаружили Долл и Хилл? Курение не просто удваивает, утраивает или учетверяет риск рака легких. Курение увеличивает этот риск в 16 раз5.

Результаты исследования Хилл и Долл опубликовали в сентябре 1950 года и тут же принялись за более масштабное, длительное и амбициозное исследование. Хилл написал каждому врачу в Соединенном королевстве – а было их 59 600 – и попросил заполнить «опросник» касательно здоровья и курения. Рассуждали они так: врачи с легкостью смогут описать, что и когда они курили. Они внесены в медицинский реестр, значит, их всегда можно будет найти без труда. А когда доктор умирает и устанавливают причину его смерти, этой информации точно можно доверять. Доллу и Хиллу просто нужно было немножко подождать.


На призыв Хилла откликнулись более 40 тысяч врачей, но рады ему были далеко не все. Следует понимать, что курение в то время было крайне распространено. Неудивительно, что в первоначальной выборке Долла и Хилла 85 % врачей-мужчин курили. Кому приятно слушать, что ты медленно, но верно ведешь себя к верной гибели – тем более если твой метод самоубийства вызывает такую сильную зависимость?

Однажды на лондонской вечеринке Хилла остановил какой-то сердитый врач и выдал: «Так это вы хотите, чтобы мы бросили курить». «Вовсе нет, – ответил Хилл, который в то время еще курил трубку. – Если вы продолжите курить, мне любопытно знать, как вы умрете. Если бросите курить – мне тоже любопытно, как вы умрете. Так что выбор – курить или не курить – за вами. Мне это безразлично. И так и так все подсчитаю»6.

Не правда ли, обаятельный парень? Я забыл упомянуть, что Хилл учился на экономиста.

Исследование продолжалось на протяжение десятилетий, но довольно быстро Долл и Хилл набрали достаточно данных, чтобы с уверенностью заявить: курение вызывает рак легких, и чем больше вы курите, тем больше риск. Более того – курение также вызывает сердечные приступы (это была новая гипотеза).

Врачи не лыком шиты. Когда в 1954 году результаты исследования были опубликованы в «Британском медицинском журнале», профессиональном журнале медиков, они сделали соответствующие выводы. В тот же год Хилл бросил курить, а с ним и многие его коллеги. Врачи стали первой социальной группой в Великобритании, которая массово бросала курить.

Получается, что в один и тот же год, в 1954 году, в мире было два разных подхода к статистике. Многочисленные читатели книги Дарелла Хаффа «Как лгать при помощи статистики» считали статистику игрой, популярной среди шулеров и жуликов, – и развлекались попытками раскусить негодников. Но для Остина Брэдфорда Хилла и Ричарда Долла статистика была делом серьезным. Они понимали: в их игре на кону самый большой куш на свете, и, если играть усердно и по-честному, они смогут спасти сотни жизней.

К весне 2020 года стало ясно, насколько велико значение тщательных, своевременных и верных статистических подсчетов. Мир захватил новый коронавирус.

Давно уже политикам не приходилось принимать такие масштабные решения – а принимать их надо было в спешке. Эти ключевые решения основывались на исследовательской работе эпидемиологов, специалистов по медицинской статистике и экономистов. Речь шла о десятках миллионов жизней и рабочих местах целых миллиардов людей. Специалисты по анализу данных отчаянно пытались понять, с чем же столкнулась наша планета, но данные приходили намного позже, чем нужно. Эпидемиолог Джон Иоаннидис писал в марте 2020 года, что Covid-19 – «провал доказательной медицины – возможно, крупнейший на нашем веку»7. Приходилось на ощупь разбираться в вопросах жизни и смерти. Однако через несколько недель аналитики данных начали набрасывать портрет вируса и вызываемой им болезни. Обнаружилось, что многие становятся заразными еще до проявления симптомов. Обнаружилось, что некоторые вообще не испытывали симптомов болезни. Надо было понять, сколько таких людей. (Сейчас полагают, что около 25 %. Но если поразмыслить, вы поймете, что без тщательной аналитической работы ответить на этот вопрос нелегко.) Мы быстро смекнули, что для пожилых риск намного выше, чем для молодежи. Удалось даже прикинуть долю смертности от инфекции. В богатых странах с большой долей пожилых людей она составляла что-то около одного процента. Не одно копье сломалось об это число, а тем временем оно изменяется, ведь медицинская наука движется вперед, а вирус мутирует. Но эти ранние оценки оказались на удивление живучи.

Хоть кое-что так и продолжает оставаться тайной, с течением времени картина прояснялась. Нам удалось расширить программы тестирования, проанализировать клинические случаи и даже отследить генетические мутации вируса. Не зря было столько шума по поводу тестирования: оно помогло увидеть невидимого врага при помощи сбора данных – особенно в случаях, когда тесты проводились и результаты анализировались по правилам, как это делала, например, Национальная статистическая служба Соединенного королевства. В дни пандемии статистика играла роль радара.

Я начал писать эту книгу задолго до того, как вирус Sars-Cov-2 инфицировал свою первую жертву. Смертельная пандемия вновь и вновь подтверждала правильность трех моих главных тезисов, но это меня не радовало.

Первый тезис такой: наши эмоции, предубеждения и политические взгляды могут сильно исказить то, как мы интерпретируем полученные данные. Это ключевая проблема книги, и ей посвящена первая глава.

Это легко заметить на примере того, как США отреагировали на пандемию. В конце февраля 2020 гшода президент Трамп заявил: «Она пройдет. Наступит день, когда она пройдет – просто сама по себе». Выдавать желаемое за действительное – отличный прием. Прошло четыре недели, а мистер Трамп продолжал воодушевленно рассказывать, как уже на Пасху все смогут пойти в церковь8. К моменту, когда он оставил свой пост, умерли 400 000 американцев.

Если дело касается Трампа, люди всегда четко делятся на два лагеря. Подозреваю даже, что, скажи он: «Как приятно в жаркий день съесть эскимо», – часть американцев станет питаться одним лишь эскимо, а другая устроит шумные демонстрации возле кафе-мороженых. То же было и с ковидом. Многие сторонники Трампа гордились, точно медалью, своей безрассудной и извращенной привычкой не надевать маску ни при каких обстоятельствах. Его противники ударились в другую крайность: много шуму наделал твит американского журналиста, который писал, что пандемия в Британии «вышла из-под контроля», так как люди, гуляя в парке, не надевали маски. Британца такое заявление приводит в замешательство, но и только. Все данные показывают, что риск передать вирус во время прогулки на открытом воздухе очень низок, и неважно, есть на вас маска или нет. К тому же в конце января 2021 года, когда этот твит был опубликован, ситуацию в Британии неподконтрольной никак нельзя было назвать: число случаев заболеваний стремительно падало.

Этот твит имеет смысл расценивать исключительно как политический выпад в битве двух непримиримых сторон касательно правильного ношения маски. Ни те, ни другие не были заинтересованы в поиске истины. Как это ни странно, но фанатическую приверженность к той или иной группировке проще заметить, если сами вы в этом не замешаны. Если вы воюете на стороне республиканцев или демократов, вы слишком погружены в борьбу и неспособны как следует рассуждать. А если ты стоишь в стороночке и с интересом наблюдаешь за сражением, ясную голову сохранить гораздо проще.

Во-вторых, от решений политиков зависит, какие статистические данные мы собираем и распространяем, а также какие данные игнорируются или скрываются. К примеру, в самом начале ковидного кризиса геополитическая борьба осложнила распространение достоверной статистической информации – к этой проблеме мы еще вернемся в Главе 8. Тайвань жаловался, что в конце декабря 2019 года он предоставил Всемирной организации здравоохранения важные свидетельства того, что вирус способен передаваться от человека к человеку. Но даже в середине января ВОЗ все еще с оптимизмом заявляла, что Китай не нашел свидетельства о передаче вируса от человека к человеку. (Тайвань не состоит в ВОЗ, так как Китай считает его своей территорией и требует, чтобы остров не рассматривали как независимое государство. Не исключено, что именно это помешало своевременному распространению информации – если эта задержка и правда имела место)9.

А так ли это важно? Скорее всего, да. Поскольку количество случаев удваивалось каждые несколько дней, кто знает, как развивались бы события, узнай мы об этом на пару недель раньше.

В-третьих, статистика позволяет нам увидеть вещи, которые в противном случае так и остались бы незамеченными. Это не просто способ приукрасить газетную статью или кольнуть противника в политическом споре. Получаем ли мы надежную статистическую информацию или искаженные, неполные данные – вопрос жизни и смерти.

Когда весной 2020 года я работал над черновиком первого издания «Как посчитать все на свете», многое было неизвестно, много информации было недоступно. Каждую пару дней рос уровень смертности – не было времени ждать у моря погоды. Политические лидеры погрузили экономику в искусственную кому: в течение одной лишь недели в конце марта более трех миллионов американцев называли себя безработными, что в пять раз превышает предыдущий «рекорд». Следующая неделя была еще хуже: безработными назвали себя шесть с половиной миллионов. Так ли ужасны были перспективы здравоохранения, чтобы лишить заработка стольких людей? Тогда считали, что да, – но у эпидемиологов было очень мало информации, и они должны были действовать наугад.

Сложно представить себе более наглядную иллюстрацию того, насколько мы в обычной жизни привыкли к точной, систематически собранной статистической информации.

До коронавируса прилежные статистики годами по крупице собирали данные касательно различных важных сфер жизни. Зачастую эти данные мог бесплатно скачать любой желающий. Но мы и не замечали, в какой роскоши живем и что частенько прохаживаемся по поводу «лжи, наглой лжи и статистики» (фраза из мемуаров Марка Твена, которую он приписывает Дизраэли, о трех существующих видах лжи. – прим. пер.). История с Covid-19 напомнила нам, что отсутствие статистики может сильно ухудшить ситуацию.

После Дарелла Хаффа многие стали считать статистику всего лишь трюком фокусника: забавно, но и только. Еще задолго до коронавируса я опасался, что такой подход ни к чему хорошему не приведет. Нам больше не кажется, что статистика помогает понять, как устроен мир. Не то что бы мы по умолчанию считаем все статистические данные ложными – но нам кажется, что отделить правду от лжи просто невозможно. Поэтому каждый человек верит в то, во что хочет (об этом еще поговорим в следующей главе), а в остальном мы ведем себя как Хафф: пожимаем плечами или цинично усмехаемся, а то и то и другое сразу.

Это не просто досадный подход – это трагедия. Если мы поверим, что больше неспособны понять, что правда, а что ложь, то потеряем важнейший инструмент. Именно этот инструмент доказал нам, что сигареты смертельно опасны. Этот инструмент – наша единственная надежда найти выход из коронавирусного кризиса, да и вообще понять, как устроен наш непростой мир. Но если мы привыкнем отвергать всякую неприятную нам статистическую информацию, этот инструмент нам не поможет. Конечно, я не призываю к легковерности, но лекарство от легковерности – не отрицание всего вообще, а способность оценить достоверность информации с уверенностью, любознательностью и здоровым скептицизмом.

Статистика – это не цирковой трюк, а скорее магия. Статистика – не очковтирательство; наоборот, она позволяет нам ясно увидеть, что к чему. Статистика – это как телескоп для астронома, микроскоп для бактериолога, рентгеновский аппарат для рентгенолога.

Если мы этого захотим, статистика поможет нам разглядеть в нас самих и в окружающем нас мире то, чего иначе мы никак бы не увидели, от мелких деталей до важных особенностей. Главная задача этой книги – вовсе не доказать, что оптимисты Долл и Хилл правы, а циник Хафф неправ. Я хочу показать вам, что при помощи статистики можно увидеть мир таким, какой он есть на самом деле. Для этого мне надо убедить вас, что вы можете самостоятельно использовать статистическую логику, чтобы оценивать прочитанное и услышанное в СМИ, в соцсетях и в повседневных разговорах. Я хочу научить вас оценивать заявления без предварительной подготовки и – что не менее важно – помочь вам найти информацию, на которую можно положиться.

Хочу вас порадовать: это будет весело. Разбираться в статистике – настоящее удовольствие. Вы станете более уверены в себе, узнаете много всего интересного и освоите новые навыки. Вместо того чтобы оставаться в стороне и ехидно усмехаться, вы дойдете до самой сути.

Теория Дарелла Хаффа – это как еда из фаст-фуда: выглядит аппетитно, но быстро надоедает, да и для организма вредно. Но это не значит, что я буду вас потчевать одной овсянкой и морковкой: блюда будут вкусные и разнообразные.

В этой книге я расскажу, что мне довелось узнать с 2007 года, когда BBC пригласила меня стать ведущим радиопрограммы «Более-менее» о числах в жизни и в новостях. Создатели шоу, журналист Майкл Бластлэнд и экономист сэр Эндрю Дилнот, хотели передать свое детище в хорошие руки. Я не так уж хорошо подходил на эту роль, как считала BBC: я ведь изучал экономическую теорию, а не статистику. Да, я приобрел некоторую уверенность в том, что касается чисел, но это было скорее самозащитой: я научился находить ошибки и уловки, да, пожалуй, и все.

Тогда-то я и начал разочаровываться во взглядах Дарелла Хаффа.

Каждую неделю мы с коллегами оценивали статистические данные, озвученные политиками или напечатанные на передовицах. Эти данные часто грешили против истины, но просто проверять, правда это или нет, было не особенно интересно. За каждым утверждением – истинным, ложным или чем-то средним – открывался целый мир, и этот мир нам предстояло исследовать. Неважно, что мы обсуждали: распространенность инсультов, доказательства того, что долг тормозит экономику, или даже сколько раз слово «она» использовано в «Хоббите» – числа могли как пролить свет на мир, так и, наоборот, скрыть что-то из поля зрения. Как наглядно показала эпидемия коронавируса, чтобы принимать решения, всем нам – частным лицам, организациям, обществу в целом – нужны достоверные данные. И точно так же, как в случае с коронавирусом, статистическую информацию часто собирают только перед лицом бедствия. Возьмите, к примеру, уровень безработицы – показатель, сколько людей хочет работать, но сидит без работы. Сейчас этот показатель использует правительство любой страны, которому интересно, в каком состоянии находится его экономика, но спросите вы в 1920 году, сколько людей ищет работу, и вам никто бы не смог ответить10. Только когда после нескольких рецессий этот вопрос стал считаться важным, правительства начали собирать соответствующую информацию.

Наш огромный и удивительный мир полон вопросов, ответы на которые можно дать только тщательно анализируя числовые данные. Поднимает ли Facebook[2] нам настроение или наоборот, и можно ли предсказать реакцию конкретного человека? Сколько видов находится под угрозой исчезновения, как много это с учетом общего количества видов и в чем причина их вымирания: климатические изменения, распространение сельского хозяйства или что-то совсем иное? Ускорилась ли модернизация или, наоборот, затормозила? Как влияет опиоидный кризис на здоровье американского среднего класса? Стали ли подростки меньше пить – и если да, почему?

Мне становилось все более не по себе, когда поклонники нашей радиопрограммы восхищались тем, как мы «разоблачаем статистические мифы». Да, конечно, мы занимались разоблачениями, и это было здорово. Но потихоньку, узнавая все больше и больше, я понял, что самое приятное – не разносить в клочья ложь, а пытаться найти истину.


В ходе работы над «Более-менее» я узнал, что здравый смысл – удивительно надежное подспорье для анализа данных. Главные принципы этого подхода я и опишу в этой книге.

Почти все исследователи и продюсеры, как и я, не учились толком работать с числами. Но даже в узкоспециализированных областях зачастую достаточно было задать ряд простых вопросов и, может быть, воспользоваться поисковиком, чтобы получить интересные результаты. Конечно, в некоторых случаях нам не помешала бы ученая степень по статистике, но задавать правильные вопросы мы могли и без нее. Сможете и вы.

Накануне Рождества в 1953 году члены высшего руководства производителей табачных изделий собрались в нью-йоркском отеле «Плаза». Масштабное исследование Долла и Хилла опубликуют только в следующем году, но сигаретные компании уже понимали, что наука не на их стороне. Они встретились, чтобы разработать план действий в этой кризисной ситуации.

На страницу:
1 из 7