Выход за пределы данных: что, если ты умрешь первым?
Нас часто интересует, сколько времени пройдет, прежде чем произойдет то или иное
событие. Например, вам наверняка бывает любопытно, как долго вы будете трудиться на
нынешнем месте работы, сколько продлится чей-нибудь брак или как скоро двигатель
вашего автомобиля выйдет из строя. В хирургии бывает необходимо снизить артериальное
давление пациента с помощью гипотензивного препарата, но при этом врачи знают, что
после операции артериальное давление должно нормализоваться как можно скорее.
Следовательно, важно понимать, сколько времени займет операция и получится ли вернуть
артериальное давление к нормальному уровню сразу по ее завершении. В более общем
плане, что касается здравоохранения, нас могут интересовать такие вещи, как
127
продолжительность жизни конкретного пациента, время, спустя которое болезнь может
возобновиться, или срок, после которого конкретный орган может перестать
функционировать.
Проблемы такого типа относятся к анализу выживания. Они имеют давнюю историю,
особенно в области медицины и в сфере страхования, где с ними работают актуарии, строя
таблицы продолжительности жизни определенных групп людей и анализируя
потенциальный срок службы производственных объектов.
Сложность оценки вероятного времени выживания иллюстрируется на примере пациентов с
раком простаты третьей стадии. Эта стадия означает, что имеются свидетельства
проникновения раковой опухоли в близлежащие ткани. Чтобы определить, какой из двух
методов лечения более эффективно продлевает жизнь, пациентов случайным образом
распределяют по двум группам, после чего сравнивают средние интервалы выживания в
каждой из них. Однако непременно будут пациенты, которые проживут еще довольно долго
— возможно, десятилетия. Это хорошая новость для них, но мы не можем ждать столько
времени, чтобы узнать, какой из методов лучше. Таким образом, исследование, скорее всего,
будет прекращено до того, как умрут все пациенты. Это означает, что мы не будем знать
интервалы выживания тех пациентов, которые остались живы после прекращения
исследования, — так появляются недостающие данные. Кроме того, пациенты, умершие в
ходе наблюдений, могут умереть по какой-то другой причине. Данные о том, как долго они
прожили бы до наступления смерти от рака, также отсутствуют. И, как вы уже можете
предположить, есть и третья категория темных данных, связанная с теми, кто выйдет из
исследования по причинам с ним не связанным.
Очевидно, что если просто проигнорировать пациентов, реальное время выживания которых
нам неизвестно, то мы попадем в ловушку ошибочных выводов. Например, предположим,
что один из методов лечения был эффективным настолько, что все, кроме пары пациентов,
выжили и продолжили жить после окончания исследования. В этом случае если бы мы
игнорировали всех, кроме двух умерших пациентов, то сильно бы недооценили
эффективность лечения.
Однако, хотя мы не будем знать продолжительность жизни пациентов, оставшихся в живых
после завершения исследования, а также тех, кто умер по другим причинам или добровольно
выбыл, нам будет известен тот момент, когда они перестали наблюдаться. Такие временные
интервалы называются «цензурированные», они показывают, что период времени между
моментом, когда пациенты вошли в исследование и когда они должны были умереть от рака
простаты, больше, чем период времени, в течение которого они находились под
наблюдением.
В 1958 г. в Journal of the American Statistical Association была опубликована интересная
статья, в которой Эдвард Каплан и Пол Мейер показали, как оценить вероятность выживания
людей за пределами временного интервала, то есть когда время выживания некоторых из них
будет больше, чем время наблюдения 5. Значимость этой статьи иллюстрируется в докладе
Георга Дворского, где, в частности, приводится тот факт, что статья Каплана–Мейера
занимает 11-е место в рейтинге наиболее цитируемых научных статей всех времен6.
Учитывая, что общее число научных статей превышает 50 млн можно сказать, что это
немалое достижение.
Иногда нам нужно выйти за рамки простой оценки вероятности выживания людей дольше
какого-то периода. Например, когда мы оцениваем средний интервал выживания.
Распределения интервалов выживания, как правило, имеют положительное смещение. Это
означает, что более длительные интервалы по сравнению со средним значением выживания
встречаются реже, чем более короткие, то есть может быть много коротких интервалов и
128
лишь небольшая горстка длинных. Статистики описывают такое распределение как
«длинный хвост». Учитывая, что несколько наибольших значений при положительном
смещении распределения могут быть намного больше, чем основная масса значений, их
отсутствие в анализе способно сильно повлиять на оценку среднего значения. Представьте
себе, например, расчет среднедушевого дохода в Соединенных Штатах, исключив из него
Билла Гейтса и других миллиардеров. Результат получится намного ниже. Что касается
времени выживания, это может означать исключение тех пациентов, которые прожили
дольше всех, что, несомненно, существенно исказит любые выводы.
Так что же делать с этой проблемой?
О расширении выборки, на этот раз включающей выбывших из исследования до наступления
смерти от рака простаты, не может быть и речи. Мы не сможем, например, включить в
выборку тех, кто умер от других причин, чтобы увидеть, через какое время они умерли бы от
рака простаты (и снова контрфактуальность!).
Вместо этого нам приходится прибегать к другим методам моделирования распределения
тех, за кем мы не можем наблюдать. Обычно предполагают, что общее распределение
времени имеет уже известную нам форму. Это предположение может основываться на
прошлом опыте и наблюдениях за другими заболеваниями. Для придания наглядности
можно привести одно распространенное предположение, которое состоит в том, что
интервалы выживания имеют экспоненциальное распределение. Для такого типа
положительно смещенных распределений характерно множество маленьких значений и
несколько исключительно больших. Выбор конкретной модели этого типа может быть
сделан на основе времени наблюдения выживания, а также того факта, что цензурированные
интервалы должны быть больше наблюдаемых.
Хотя этот подход приемлем для многих случаев, мы не должны забывать, что в его основе
лежит предположение о соответствии экспоненциальному распределению. Поэтому, как и
всегда, если предположение сделано неверно, выводы будут искаженными.
Анализ выживания сочетает в себе интервалы выживания тех, чья смерть от изучаемой
причины наступила в процессе наблюдений, и очевидный факт, что интервалы выживания
остальных были дольше, чем этот процесс. Если бы мы могли оценить интервалы выживания
этих остальных, то смогли бы суммировать все интервалы — и наблюдаемые, и оценочные.
Это подводит нас к самому общему методу борьбы с недостающими данными — вменению.
Ему и посвящен следующий раздел.
Do'stlaringiz bilan baham: |