Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet45/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   41   42   43   44   45   46   47   48   ...   84
Bog'liq
Тёмные данные. 2021

Темные данные и общая картина 
В известной статье Джон Иоаннидис, профессор медицины и статистики в Стэнфорде, 
утверждает: «Можно доказать, что большинство заявленных результатов исследований 
являются ложными»8. Это смелое утверждение сделало его одним из самых цитируемых 
ученых. 


97 
Такая точка зрения вполне обоснованна, более того, причины для ее появления существуют 
уже на протяжении десятилетий. Благодаря тому, что Иоаннидис привлек к этой проблеме 
внимание, она получила неожиданно большой резонанс в научной и, в частности, 
медицинской исследовательской литературе, вызвав широкий интерес и спровоцировав 
волну опасений. И что еще более удивительно — последующие прения по этому вопросу 
показали, насколько широко распространены базовые заблуждения относительно самой 
природы научного процесса. Причем зачастую заблуждаются именно те, кто должен лучше 
всех знать ответы на острые вопросы: «Почему наука перестала удовлетворять основному 
критерию воспроизводимости?», «Нарушен ли процесс научного познания?», 
«Действительно ли наука столкнулась с кризисом воспроизводимости?». 
Ниже приводятся некоторые цифры, позволяющие обосновать утверждение Иоаннидиса в 
контексте различных дисциплин. 
Брюс Бут, партнер венчурной компании Atlas Venture, специализирующейся в области 
биологических наук, утверждает, что в соответствии с негласным правилом среди венчурных 
капиталистов ранней стадии по крайней мере 50% опубликованных исследований, даже те, 
которые публикуются в ведущих научных журналах, «не удается повторить с теми же 
результатами в промышленных лабораториях». Как следствие этого, Atlas Venture теперь 
требует независимой проверки в качестве предварительного условия для дальнейших 
инвестиций9. 
Опрос, проведенный журналом Nature, показал, что более 70% из 1576 респондентов 
пытались воспроизвести чужую работу и не смогли этого сделать10. Конечно, не следует 
принимать результаты этого опроса за чистую монету — вполне вероятно, что они искажены 
темными данными. Например, те ученые, которые не смогли воспроизвести чью-либо работу 
в прошлом, были более склонны отвечать на вопросы, чем те, кто преуспел в этом деле. Или, 
возможно, было какое-то одно исследование с аномальными результатами, которые многие 
респонденты пытались, но не смогли воспроизвести (вспомните случай с холодным ядерным 
синтезом). Тем не менее даже с учетом этого их доля поразительно велика. 
Гленн Бегли и Ли Эллис провели работу, нацеленную на воспроизведение результатов 53 
ключевых доклинических исследований методов лечения рака. Они обнаружили, что 
результаты воспроизводятся только в 6 из 53 исследований, что составляет всего 11%11. 
Леонард Фридман и его коллеги приводят данные исследований, которые оценивают 
количество невоспроизводимых доклинических медицинских исследований в диапазоне от 
51 до 89%. Оценка стоимости финансирования исследований, результаты которых не 
удалось позднее воспроизвести, показала, что они обходятся примерно в $28 млрд в год12. 
Основываясь на данных такого рода, Брайан Носек из Вирджинского университета возглавил 
проект «Воспроизводимость», в рамках которого была осуществлена попытка воспроизвести 
100 исследований, опубликованных в 2008 г. в научной литературе по психологии13. Из 97 
исследований, которые первоначально дали статистически значимые[8] результаты, команде 
Носека удалось повторить только 35. Как и следовало ожидать, сам проект Носека тоже не 
был бесспорным — некоторые ученые обратили внимание на серьезные недостатки его 
работы, такие как намеренный выбор 100 исследований для воспроизведения. Это 
справедливо говорит о том, что даже исследования темных данных могут страдать от 
проблем с ними связанных. Темные данные есть везде — и это не преувеличение. 
Подобные выводы, безусловно, тревожат, но мы не должны ни на мгновение забывать, что 
наука — это процесс отсеивания. Многие критики, словно дети, придерживаются 
идеализированного взгляда на науку, полагая эксперимент неким разовым мероприятием, 
которое должно «доказать» или «опровергнуть» существование какого-либо явления. Но 


98 
наука куда сложнее. И это нормально. Сама природа научных исследований указывает на то, 
что они проводятся на границах известного — там, где доминирует неопределенность. 
Поскольку исследователи пытаются выделить некий крошечный сигнал из шума, разумно 
ожидать, что часто этот шум будет влиять на результаты, сдвигая их в неверном 
направлении. В самом деле, мы могли бы пойти дальше и заявить, что, если бы не было 
экспериментальных результатов, которые не прошли тест на воспроизводимость, это 
означало бы, что ученые просто не выполняют свою работу. Иными словами, они 
недостаточно предприимчиво и креативно раздвигают границы нашего понимания. 
Смысл всего вышесказанного заключается в том, что процесс научного познания не 
нарушен. Невоспроизводимость является признаком того, что наука остается наукой, что 
гипотезы проверяются, а те, которые не соответствуют действительности, в итоге 
отклоняются. Кроме того, мы видим, что наука действительно работает. Достаточно 
взглянуть на наши успехи в понимании природы и передовые технологии, воплощенные в 
материалах, машинах и медицине. 
Однако, даже если научный процесс не нарушен, очевидно, чем меньше изначально 
неверных выводов, тем лучше (при условии, что верные научные теории отклоняются на 
раннем этапе не слишком часто). И путь к этому лежит через улучшение проектирования 
исследований. Но, кроме того, существуют аспекты научной культуры, которые часто 
побуждают людей идти на риск и заставляют переступать границу. Иоаннидис и многие из 
тех, кто высказывался на эту тему после, обращали внимание на эти аспекты. Мы еще 
вернемся к ним, но прежде проведем аналогию с космической программой США. 
На заре ракетостроения, когда ракетные двигатели и системы лишь отрабатывались, границы 
нашего понимания того, как они поведут себя, были намного уже, и, естественно, сбои 
происходили довольно часто. Как описал Том Вулф в своей книге «Битва за космос»[9], 
пессимизм ученых выражался короткой фразой: «Наши ракеты всегда взрываются». Всякий 
раз при исследовании границы вы непроизвольно переступаете черту, а иногда проводите 
даже до половины своего времени с той стороны, если сидите прямо на этой границе. И на 
основе этих результатов (возможно, в ракетостроении их принято называть «неудачами», но 
все-таки с научной точки зрения это «результаты»), благодаря тщательному проектированию 
вы пытаетесь попасть на «правильную сторону» в будущем, чтобы ваши ракеты не 
взорвались, а ваши научные выводы оказались верными. Но сама природа исследования 
означает, что вы рискуете. Это риск, на который приходится идти, чтобы узнать, где 
проходит граница. 
Итак, какие аспекты научной культуры могут подтолкнуть исследователей к тому, чтобы 
оказаться не с той стороны границы, то есть к ложным утверждениям и невоспроизводимым 
результатам? 
Понятие «предвзятость публикаций» описывает тот факт, что опубликованная научная 
литература не является достоверным представлением всей проводимой в науке работы. Это 
означает, что большое количество научных данных не опубликовано и пылится в ящиках 
столов или обрастает метафорической пылью на жестких дисках, на которые никто не 
заглядывает. Эти скрытые результаты являются не просто случайным выбором, они 
становятся таковыми из-за действия нескольких сил (DD-тип 3: выборочные факты). Одна из 
таких сил — склонность журналов отдавать предпочтение удивительным результатам и 
новшествам. Эксперимент, который привел к неожиданному результату, с большей 
вероятностью вызовет интерес, чем тот, о котором скажут: «Да, это именно то, что я 
ожидал». 
Этот эффект «пылящихся файлов» привел к появлению «Журнала незначимых отклонений» 
(The Journal of Non-Significant Differences). В статистике «значимость» — чисто технический 


99 
термин, и мы о нем еще будем говорить подробнее. Пока же вкратце: значимым результатом 
является тот, который вряд ли будет получен, если тестируемая гипотеза верна. Поэтому, 
если он все же получен, это заставляет усомниться в истинности гипотезы. И наоборот, 
незначимый результат — это тот, который подтверждает гипотезу, тот, о котором и говорят: 
«Да, это именно то, что я ожидал». «Журнал незначимых отклонений» публикует только те 
исследования, которые дают незначимые результаты, с целью донести «до понимания тот 
факт, что исследования не должны быть обязательно значимыми, чтобы обеспечить ценными 
сведениями процесс познания»14. (Между прочим, существует еще и «Журнал 
невоспроизводимых результатов» (The Journal of Irreproducible Results), основанный в 1955 
г., но это журнал научного юмора — не перепутайте их!15) 
Почему же предпочтение оригинального и необычного может приводить к 
невоспроизводимым результатам? Да, экстремальные, нестандартные или аномальные 
значения могут возникать в силу истинности некоего явления: возможно, этот препарат 
действительно намного эффективнее, чем другие, или этот сплав действительно химически 
менее активен, чем ожидалось. Но такие значения чаще возникают по причине случайных 
колебаний. Случайное совпадение исходных условий (примеси в препарате или сплаве, 
участники психологического эксперимента, подверженные погодному влиянию) или простая 
ошибка измерения могут привести к неожиданно высоким или низким значениям. В конце 
концов, как мы успели убедиться, никакие измерения не являются абсолютно точными и 
никогда две экспериментальные установки или образцы не будут полностью идентичными. 
Из этого следует, что маловероятно, чтобы такая же случайная конфигурация или ошибка 
измерения повторилась при воспроизведении эксперимента. В среднем, как мы уже видели в 
главе 3, когда исследовали возврат к среднему значению, следует ожидать, что последующие 
репликации приведут к значениям, которые будут менее экстремальными. Нас не должно 
удивлять, если аномальный результат исчезнет, и мы должны ожидать, что «заявленные 
результаты исследований окажутся ложными», как выразился Иоаннидис. С точки зрения 
этой книги необычно экстремальные значения возникают из-за определенного вида темных 
данных — ошибки измерения, которая искажает базовые значения. 
Склонность редакторов научных журналов публиковать только будоражащие воображение 
результаты — лишь конечное звено цепи. За ним скрывается тот факт, что авторы сегодня 
стараются не писать статей, которые, по их мнению, имеют слабые шансы быть принятыми к 
публикации, а это уже имеет довольно неожиданные последствия. 
Особый престиж исследованиям придают публикации в авторитетных журналах, таких как 
Nature или Science, имеющих значительный коэффициент влиятельности, или 
импакт-фактор. Это показатель, основанный на количестве цитирований журнальных статей, 
то есть характеризующий степень уделенного им внимания. Исследователи с большей 
вероятностью предоставят престижным журналам впечатляющие «прорывные» результаты, 
чем результаты более скромные, но не менее важные просто потому, что понимают их 
предпочтения (DD-тип 4: самоотбор). Это, в свою очередь, означает, что журналы, как 
правило, выделяют и публикуют наиболее захватывающие достижения из предложенных к 
публикации, что еще выше поднимает и без того высокий престиж впечатляющих 
результатов (DD-тип 11: искажения обратной связи и уловки). Но такие выдающиеся 
результаты будут, скорее всего, невоспроизводимы по причине возврата к среднему 
значению, о чем мы уже говорили. Кроме того, подобная ситуация провоцирует некоторых 
исследователей подгонять результаты своей работы, чтобы увеличить шансы на публикацию 
в журналах с высоким импакт-фактором (как мы увидим позже, зачастую честный выбор 
значений от выбора мошеннического отделяет очень тонкая грань). Вследствие этого, более 
престижные журналы, скорее всего, будут публиковать менее достоверные результаты. 


100 
Как ни странно, но информация, публикуемая в ведущих научных журналах, с меньшей 
вероятностью оказывается истинной. Однако, похоже, именно к такому выводу сегодня 
приходят авторы. Так, Феррик Фанг и его коллеги сообщают, что ими «была обнаружена 
значимая корреляция между импакт-фактором журнала и частотой отзыва научных статей 
из-за допущенных ошибок, намеренного искажения результатов или подозрений на это»16. 
Ирония заключается в том, что следует избегать публиковаться в источниках, которые 
имеют высокий уровень ложных результатов. Иначе говоря, сторониться наиболее 
престижных журналов?.. Да, все это крайне запутанно! Но не стоит забывать, что 
причинно-следственные связи порой бывает довольно сложно установить. Чем влиятельнее 
журнал, тем по определению шире круг его читателей, а значит, публикуемые в нем статьи 
подвергаются более тщательному анализу, который подразумевает, что сомнительные 
выводы с высокой вероятностью будут обнаружены, даже если их уровень не выше, чем в 
других журналах. 
Частичное решение проблемы состоит в том, чтобы публикации новых результатов 
основывались на более чем одном исследовании, то есть независимые воспроизведения 
должны проводиться до момента публикации (вспомним «негласное правило» Брюса Бута). 
Так уже делается, например в фармацевтическом секторе, где лекарства, представленные на 
одобрение регулирующими органами, должны иметь подтверждение нескольких 
клинических испытаний. Но в других контекстах, особенно в академических 
исследовательских кругах, приоритет публикаций является ключевым показателем 
эффективности, и исследователи не хотят рисковать, давая другим возможность застолбить 
открытие (вспомните стремление Лайнуса Полинга опубликовать свою статью о структуре 
нуклеиновых кислот). Они предпочитают поскорее объявить об открытии, которое может 
стать крупным прорывом, даже если существует риск признания его ошибочным. 
Стремление сделать эффектное открытие привело к практике препарирования данных 
бесконечным множеством методов и реконфигурирования наборов данных до тех пор, пока 
не будет найдено что-то существенное. Например, сравнивая две группы пациентов, мы 
можем измерить 100 характеристик каждого пациента, а затем сравнить средние значения 
двух групп по каждой из них. Было бы удивительно, если бы при этом не обнаружилось хотя 
бы несколько существенных отличий между группами — исключительно из-за случайных 
ошибок измерения. Такую манипуляцию иногда называют p-хакингом. Этот любопытный 
термин пришел из статистики и описывает явление, с которым стоит разобраться. 
Для начала нужно признать тот факт, что если мы изучаем данные (особенно большие 
наборы данных) многочисленными и отличающимися друг от друга методами, то, по сути, 
это говорит о нашей убежденности в том, что необычные закономерности могут случайно 
выявляться даже тогда, когда реальные данные не имеют таких взаимосвязей. Например, 
если задействовано много переменных, то какие-то их пары в конечном наборе данных могут 
иметь высокую корреляцию, даже если реальные базовые значения никак не коррелируют, 
— просто в силу случайности или ошибок измерения. Применительно к исследованиям, в 
которые вовлечено много объектов (например, людей), это означает, в частности, наличие 
небольших групп, которые так же случайно будут удивительно похожи друг на друга по тем 
или иным признакам. 
Для наглядности представим, что мы случайным образом сгенерировали строку из 1000 
цифр. Вот первые 30 из них: 
678941996454663584958839614115. 
После этого мы можем начать поиск, например, последовательных 10 вхождений в нее одной 
и той же цифры. Если это ничего не даст, можно попытаться найти последовательность из 


101 
девяти цифр, идущих по порядку (123456789). Затем, в случае неудачи, мы можем заняться 
поиском последовательности чередующихся цифр (например, 2323232323). Если и эта затея 
не удастся… В итоге, если продолжать в том же духе достаточно долго, мы обязательно 
найдем в наших данных некоторую повторяющуюся структуру. Но вот проблема: эта 
структура, эта аномалия не будет иметь ничего общего с реальной закономерностью. Если 
повторить этот эксперимент и сгенерировать еще одну тысячу цифр в случайном порядке, то 
нет никаких оснований предполагать, что мы найдем среди них такую же необычную 
конфигурацию. Открытия не состоится — оно не будет воспроизводимым. 
Экономист Рональд Коуз вкратце описал эту ситуацию, заявив, что, если пытать данные 
достаточно долго, они непременно признаются. Но, как известно, признания, полученные с 
помощью пыток, далеко не всегда отражают истину. В нашем примере цифры были 
сгенерированы случайным образом и в структурах, которые мы можем в них обнаружить, 
нет никакого скрытого смысла. 
Концепция p-хакинга формализует эту ситуацию. Начнем с того, что фундаментальным 
инструментом в научных исследованиях является проверка значимости. Это формальная 
статистическая процедура для проверки гипотез. Она начинается с расчета сводной 
статистики для нашей выборки. Например, мы можем обобщить выборку, используя среднее 
значение, медиану или дисперсию, в зависимости от того, какой аспект данных нам 
интересен. Теперь, если мы возьмем другую выборку, вполне вероятно, что ее сводная 
статистика будет иметь другие значения. Таким образом, если взять множество выборок, 
можно получить распределение статистических значений. Статистические методы 
позволяют рассчитать форму этого распределения, если допустить, что наша гипотеза верна. 
Затем, сравнивая фактические наблюдаемые значения сводной статистики с этим 
распределением, мы можем увидеть, как часто нам следует ожидать экстремальных значений 
в случае, если гипотеза верна. Вероятность получить для данной модели распределения 
значений такое же или более экстремальное значение статистики по сравнению с ранее 
наблюдаемым называется p-значением проверки. Очень низкое p-значение, скажем, равное 
1%, будет означать, что если наша гипотеза верна, то мы должны получить выборку с такими 
же или более экстремальными значениями лишь в 1 из 100 случаев. Это говорит о том, что 
либо наша гипотеза верна и произошло маловероятное событие, либо гипотеза ошибочна. 
Для удобства p-значения сравнивают с обычными пороговыми значениями. Если наш анализ 
дает p-значение, не превышающее порогового значения, то говорят, что результат является 
статистически значимым для этого порогового уровня. Так, если мы выбрали порог 5%, 
тогда p-значения той же величины или меньше позволят нам утверждать, что результат 
значим на уровне 5%. 
Приведу пример. Допустим, я выдвигаю предположение, что некая монета абсолютно 
честная, то есть вероятность выпадения решки всякий раз, когда я подбрасываю ее, будет 
равна 50%. Чтобы проверить это, я должен много раз подбросить монету и посмотреть, какая 
доля исходов придется на решку. Предположив, что монета честная, я бы ожидал, что это 
будет около половины всех бросков, но совсем не обязательно орлы и решки выпадут 
совершенно одинаковое число раз. Напротив, я бы как раз ожидал некоторого 
незначительного отклонения от 50%, но не слишком большого, и уж тем более не 
экстремального. Проверка значимости сообщит нам вероятность (при условии, что монета 
честная), с которой мы можем наблюдать отклонение равное или превышающее отклонение, 
полученное в ходе эксперимента. Очевидно, что если маловероятные экстремальные 
результаты все-таки получены, то имеет смысл усомниться в истинности выдвинутой 
гипотезы. Например, шанс того, что при подбрасывании честной монеты решка выпадет 90 
или более раз из 100, астрономически мал (этот шанс и представляет собой p-значение). 


102 
Поэтому, если такое все же произошло и монета 90 раз из 100 упала решкой вверх, мы 
должны заподозрить, что она нечестная. 
Между прочим, смысл p-значения часто понимается абсолютно неверно. Принято думать о 
нем как о показателе вероятности того, что гипотеза верна. Это не так. Гипотеза либо верна, 
либо ошибочна, а p-значение просто показывает вероятность получения определенных 
экстремальных результатов в первом случае, то есть когда гипотеза верна. 
Итак, мы разобрались с «р-значением», но что означает «p», если к нему добавить «хакинг»? 
Этот термин появился благодаря пагубной практике проводить бесконечное множество 
проверок значимости без учета их количества. Почему это становится проблемой, понять 
несложно. Предположим, что мы проверяем 100 никак не связанных между собой гипотез, 
каждая из которых верна, но нам это неизвестно. Далее предположим, что мы рассматриваем 
p-значение на уровне 2% для любой из этих 100 гипотез как достаточно низкое, чтобы 
отнестись к ней с сомнением. Для каждой взятой в отдельности проверки значимости это 
вполне разумно, поскольку означает, что вероятность ложных подозрений в отношении этой 
единственной гипотезы, если она верна, составляет всего 2%. Но в случае, если вы проводите 
для каждой из 100 гипотез 100 проверок с уровнем p-значения 2%, получается, что 
вероятность возникновения сомнений по крайней мере для одной из них составит 87%. 
Скорее всего, вы решите, что хотя бы одна из гипотез является ошибочной, даже если все 
они будут верны. Вспомните о достаточно долгих пытках данных! Если вы скрываете тот 
факт, что провели 100 проверок, по сути, превращая их в темные данные (DD-тип 2: данные, 
о которых мы не знаем, что они отсутствуют), то ваши выводы могут быть очень 
обманчивыми. 
Такая грубая ошибка допускается в научной литературе раз за разом. Рандомизированное 
исследование, проведенное в 1987 г. на материале четырех ведущих медицинских журналов, 
показало, что «74% всех испытаний имели по меньшей мере одно сравнение, отклонившее 
верную гипотезу, а 60% имели по меньшей мере одно сравнение, подтвердившее 
ошибочную, что явилось негативным следствием статистической проблемы множественных 
сравнений. Ни в одном из испытаний, в которых были обнаружены нарушения, не 
рассматривалось потенциальное влияние проблемы множественных сравнений на сделанные 
выводы». Под «негативным следствием… множественных сравнений» авторы 
подразумевают, что в исследованиях не учитывалась многочисленность статистических 
тестов, поэтому ложноположительные результаты были весьма вероятными. Хотелось бы 
надеяться, что эта проблема уже осталась в прошлом, однако по опыту могу сказать, что она 
до сих пор недостаточно осознается17. 
Давайте обратимся к классической статье по этой проблеме, написанной Крейгом Беннеттом 
и его коллегами, которая гораздо интереснее, чем можно ожидать судя по названию: 
«Нейронные корреляции межвидового восприятия, полученные после смерти атлантического 
лосося: аргумент в пользу коррекции множественных сравнений»18. Статья основана на 
результатах МРТ-сканирования мозга мертвого лосося, которому «показали серию 
фотографий, изображающих людей в различных ситуациях и… попросили определить, какие 
эмоции они испытывают». Вероятно, вы и без экспериментальных данных уже сделали свой 
вывод о реакции мозга мертвого лосося на показ фотографий. Но дело в том, что результат 
МРТ-сканирования представляет собой примерно 130 000 элементов объемного 
изображения, которые по аналогии с двумерными пикселями называют вокселями. И каждый 
из этих вокселей имеет небольшой шанс показать электрическую активность сканируемого 
материала исключительно в силу случайных фоновых шумов оборудования, а вовсе не 
потому, что клетки мозга мертвого лосося действительно реагируют. И хотя отдельно взятый 
воксель имеет лишь крошечный шанс дать ложный сигнал, вероятность его появления резко 
возрастает с учетом большого количества самих вокселей. Суммируйте огромное число 


103 
крошечных шансов, и вот уже один, а то и более вокселей показывают электрическую 
активность, создавая впечатление, что некоторые нейроны мозга лосося активизируются, 
даже если сам лосось мертв. И действительно, Беннетт и его коллеги обнаружили несколько 
вокселей, подающих явные сигналы. В результате они пришли к такому выводу: «Либо мы 
наткнулись на поразительное открытие на стыке ихтиологии и посмертных когнитивных 
функций, либо что-то не так с нашим статистическим подходом. Можем ли мы заключить из 
этих данных, что лосось выразил свое мнение, отвечая на поставленный вопрос? Конечно, 
нет. Контролируя когнитивные способности субъекта, в данном случае мы полностью 
исключили эту возможность». 
Статья Беннетта получила Шнобелевскую премию в 2012 г. Эта награда присуждается за 
«достижения, которые сначала заставляют людей рассмеяться, а затем — задуматься». 
На эту тему есть анекдот. Экспериментатор A говорит экспериментатору Б, что у него 
большие проблемы с воспроизведением результатов, полученных Б. «Неудивительно, — 
отвечает тот, — ведь я тоже не смог получить их первые 100 раз, когда проводил 
эксперимент». 
Серхио Делла Сала и Роберто Кубелли19 приводят случай, который может стать еще одним 
примером p-хакинга: Рэндел Суонсон и его коллеги сообщили о поражении мозга у 
американских дипломатов в Гаване якобы в результате воздействия «неизвестного источника 
энергии, повлиявшего на слуховые и сенсорные процессы»20. Суонсон и его команда 
пришли к выводу, что «эти люди, по-видимому, получили обширные повреждения клеток 
мозга, не вызванные травмой головы». 
Но как они проверили свое предположение? Таблица, приложенная к статье Суонсона, 
описывает 37 результатов нейропсихологического теста, а в сноске к ней указано: «Жирный 
шрифт означает ненормальность, или менее 40-го процентиля». Кажется, это подразумевает, 
что любой, кто наберет менее 40-го процентиля распределения в любом тесте, может быть 
классифицирован как «ненормальный». Естественно, Делла Сала и Кубелли тоже 
интерпретировали это так. Но если бы все 37 тестов были идеально коррелированы (то есть 
все дали одинаковый результат для любого выбранного человека), это означало бы, что 
только 60% населения получат оценку выше 40-го процентиля во всех тестах и, 
следовательно, будут классифицированы как нормальные. В то же время если бы результаты 
тестов не имели никакой корреляции между собой, то простой расчет показывает, что даже 
одного человека из 100 млн нельзя было классифицировать как нормального во всех тестах. 
На первый взгляд кажется, что Суонсон с коллегами сделали все возможное, чтобы доказать 
наличие повреждения мозга по меньшей мере у некоторых людей. Как отмечают Делла Сала 
и Кубелли, было бы правильнее применить существенно более строгий критерий 
ненормальности, скажем, 5% вместо 40%, однако ключевая проблема заключается в другом 
— в том, чтобы баллы ниже порогового значения в любом из 37 тестов в принципе не 
означали отклонения от нормы. 
Кстати, замечу: все это совсем не означает, что вышеозначенные лица не страдали 
нарушениями функций мозга. Просто заключение о таких нарушениях почти наверняка 
можно сделать даже для группы здоровых людей. 
Тем не менее иногда нам действительно требуется оценить широкий ряд аспектов набора 
данных. Например, в клиническом исследовании мы могли бы измерить 100 характеристик 
пациентов, сравнивая две группы, и попытаться узнать, отличаются ли они по какой-либо из 
них. (Действительно, если организуется дорогостоящее исследование, то имеет смысл 
измерить как можно больше вещей.) 


104 
К счастью, существуют инструменты для решения проблемы p-хакинга и снижения риска 
получения ложных и невоспроизводимых результатов при проведении множественных 
проверок гипотез. Первый такой метод появился в 1930-х гг. и был назван поправкой 
Бонферрони. Это способ корректировки p-значения каждой отдельно взятой проверки с 
учетом количества проведенных проверок. В частности, если мы добиваемся, чтобы у 
каждой из 100 проверок p-значение было на уровне 0,1% (то есть шанс ошибочно отвергнуть 
истинную гипотезу равен 1 из 1000) вместо 2%, то вероятность по крайней мере одного 
выявления значимости — если все гипотезы верны — составит всего 10%, а не 87%, как это 
было в примере выше. Проще говоря, если все 100 гипотез верны, то теперь существует 
лишь 10%-ная вероятность того, что хотя бы одна из них будет отклонена как ложная. Это 
уже куда более приемлемо. 
За последние три десятилетия был разработан целый ряд существенно более действенных 
инструментов решения проблемы множественных проверок. Многие из них являются 
расширенными и усовершенствованными вариантами метода Бонферрони, например 
контроль последовательности, в которой проводятся испытания. Но особенный прогресс в 
этом вопросе произошел благодаря работе Йоава Бенджамини и Йосефа Хохберга. Они 
переключили внимание с p-значения (то есть вероятности сделать неверный вывод, если 
гипотеза верна) на так называемую частоту ложных открытий. Это ожидаемая доля ошибок 
среди гипотез, помеченных как ложные. По всей видимости, такой подход эффективнее: он 
показывает, с какой вероятностью мы допускаем ошибку, когда признаем, что гипотеза 
неверна. 
Помимо p-хакинга существует и другая, более фундаментальная причина неспособности 
воспроизвести результаты — потенциальные различия в условиях эксперимента. Отчеты об 
экспериментах, приведенные в научной литературе, традиционно должны быть краткими: 
этого требует стоимость публикации одной страницы в научных журналах (хотя сегодня, в 
эпоху интернета, такое ограничение уже не является необходимым), поэтому статьи редко 
описывают процедуры исследований в мельчайших деталях. К тому же, как мы уже 
говорили, сами исследования находятся на границе известного, и незначительные изменения 
условий эксперимента могут оказать большое влияние на его результаты. 
Еще одной причиной ошибочных результатов является пагубная практика, получившая 
название HARKing, по первым буквам выражения «Hypothesizing After the Result is Known», 
или выдвижение гипотез, когда известны результаты проверки. 
HARKing имеет место, когда гипотеза проверяется на тех же данных, с помощью которых 
была выдвинута. Если вы исследовали набор данных и обнаружили в нем нечто, что 
подтолкнуло вас к идее, некорректно использовать тот же набор данных для проверки ее 
истинности. Очевидно, что те же самые данные будут вызывать сомнения в гипотезе с очень 
низкой вероятностью! Например, если я заметил, что средний вес 1000 песчинок, взятых с 
одного пляжа, больше, чем средний вес 1000 песчинок, взятых с другого пляжа, я, конечно, 
могу предположить, что в целом песчинки на первом пляже более тяжелые, чем на втором, 
но я вряд ли смогу проверить свое предположение на тех же самых песчинках, поскольку 
они, естественно, его подтвердят. Идея должна проверяться на новом, независимом от 
первого наборе данных. Нам нужно собрать такие данные, которые еще не анализировались, 
то есть являющиеся темными данными в контексте гипотезы. 
Обратите внимание, что просеивать, изучать и анализировать данные в поиске интересных 
свойств вполне нормально. Такие изыскания являются важным и, более того, 
фундаментальным методом выдвижения гипотез, генерирования идей и обнаружения 
скрытых ранее явлений. Однако те же самые данные нельзя использовать повторно, чтобы 
проверить, верны ли ваши идеи. 


105 
HARKing можно устранить, если требовать от исследователей публикации гипотез перед 
этапом сбора данных. Некоторые научные журналы уже предпринимают шаги в этом 
направлении, гарантируя публикацию статьи независимо от того, какие будут получены 
результаты, при условии, что гипотеза сформулирована заранее, а дизайн исследования и 
методология соответствуют строгим стандартам. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   41   42   43   44   45   46   47   48   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish