130
может быть приемлемым, когда отсутствующие данные принадлежат категории NDD, но в
остальных случаях оно только усложнит нашу задачу.
К сожалению, со средним вменением связана и другая проблема. Как правило маловероятно,
чтобы все недостающие значения, будь они измерены, оказались идентичными. Это
означает, что подстановка одного и того же значения на место всех недостающих делает
«полные данные» искусственно однородными. Например, проделай мы это для возраста в
табл. 6, и дисперсия (мера того, насколько сильно отличаются друг от друга значения)
полной выборки по возрасту будет, скорее всего, меньше фактической, когда все возрасты
наблюдаются реально.
Перенос вперед данных последнего наблюдения
Недостающие значения в табл. 6, по-видимому, не имеют какой-либо закономерности и
отсутствуют случайным образом. В отличие от этого, как мы уже успели убедиться, часто
обнаруживается, что люди с течением времени выпадают из исследования, так что каждое
такое наблюдение ограничено временем выпадения, после которого все более поздние
значения отсутствуют. Хорошей иллюстрацией этого служит рис. 4 в главе 2.
Когда возникает такая модель выпадения, мы можем использовать конкретный метод
вменения, называемый «перенос вперед данных последнего наблюдения» (LOCF), суть
которого отражена в его названии: пропущенное значение для пациента заменяется
последним из зарегистрированных. Такой метод подразумевает, что измеряемые параметры
не меняются за время, прошедшее с момента последнего измерения до момента
возникновения недостающего значения. Это довольно смелое предположение (с учетом того,
что «смелость» иногда служит эвфемизмом для «безрассудства»). И, конечно, встает вопрос
о целесообразности такого подхода — ведь, как правило, сама причина повторения
наблюдений заключается в том, что мы ожидаем изменений параметров с течением времени.
Неудивительно, что метод LOCF активно подвергается критике.
«Если бы существовал приз за самую неподходящую аналитическую технику при
исследовании деменции, то последнее наблюдение, перенесенное вперед было бы вне
конкуренции»7.
«Вся аналитика на базе LOCF имеет сомнительную достоверность, если не сказать,
что она явно ложная (может казаться истинной, но фактически является ложной)…
LOCF не следует использовать ни в каком анализе»8.
«Как LOCF, так и подстановка среднего значения ложно увеличивает заявленную
точность оценок, поскольку не учитывает неопределенность недостающих данных и
обычно дает искаженные результаты»9.
«Использование LOCF нарушает статистические принципы, и подобные допущения
могут быть оправданными лишь изредка»10.
Такие комментарии обоснованно вызывают сомнения по поводу использования LOCF.
Do'stlaringiz bilan baham: