Рис. 9. Векторная модель соотношения «прямых» и «обратных» эмпирических пунк-
тов с релевантным (измеряемым) фактором и иррелевантными («шумовыми») факторами
Последовательность действий при проверке надежности:
1. Узнать, существуют ли данные о надежности теста, предполагаемого к использованию,
на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки
не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку
надежности с учетом указанных ниже возможностей.
2. Произвести повторное тестирование на всей выборке стандартизации и подсчитать все
коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных ко-
эффициентов позволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест
интервальную шкалу (высокий r) или только диагностичен для крайних групп (высокий φ),
насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз -
проекция тестового балла на будущее), в каких своих пунктах тест менее надежен (анализ этих
пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунк-
тов с испытуемыми).
3. Если возможности обследования испытуемых ограниченны, произвести повторное те-
стирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую
или четырех-клеточную корреляцию для оценки внутренней согласованности и стабильности те-
ста в целом.
3.3. ВАЛИДНОСТЬ ТЕСТОВ
Проблемы валидизации психологических тестов являются центральными для дифференци-
альной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой про-
блемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата
дифференциальной психологии.
Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения
состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых
свойств объектов, т, е. относительно предмета измерения. Отличие понятия валидности от
надежности измерения удобно раскрывать с помощью различения «объекта» и «предмета» изме-
рения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обяза-
тельно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда
исследователь вначале предлагает определенную процедуру измерения, показывает ее надеж-
ность -способность устойчиво различать объекты, но вопрос о валидности остается открытым.
Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной
степени затушеванным тем обстоятельством, что простейшие физические стимулы достаточно
однозначно детерминируют измеряемые свойства ощущений, то в дифференциальной психомет-
рике значимость проблемы валидности резко возрастает. Здесь ситуация подобна той, когда в
70
психофизическом опыте испытуемому не указывают, по какому именно параметру следует срав-
нивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо
сравнивать по весу, а испытуемый Б - по размеру. Если процедура измерения будет повторена по
отношению к тем же объектам, то она даст вполне устойчивые данные относительно объектов,
но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «разме-
ра».
При измерении способностей предъявляемый тест отнюдь не обязательно актуализирует
именно тот психический процесс, который предполагается измерить. Например, столкнувшись с
уже встречавшейся однажды задачей (например, с анаграммой «дзиканпр»), испытуемый может
начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»),
чем заново решать эту задачу. Здесь будет измеряться скорее уровень словесной памяти, чем
уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрыва-
ется только в результате значительного опыта работы с ними. Например, доказано, что ряд те-
стов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые
особенности индивида, чем операциональные возможности интеллекта, например, методика
«креативного поля» Д. Б. Богоявленской.
Устойчивость теста относительно объектов (испытуемых) является необходимым, но не до-
статочным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов.
Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает
основное соотношение психометрики:
валидность ≤ надежность.
Это означает, что валидность теста не может превышать его надежность.
Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональ-
ную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к
повышению валидности
1
. В терминах А. Анастази валидность определяется ре-
презентативностью теста относительно измеряемой области поведения. Если эта область поведе-
ния складывается из разнообразных феноменов, то содержательная валидность теста автоматиче-
ски требует представленности в нем моделей всех этих разнообразных феноменов. Возьмем гло-
бальное понятие «речевая способность» (этому психолингвистическому термину в традиционной
тестологии соответствует термин «вербальный интеллект»). Сюда относятся такие относительно
независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержатель-
ной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку
этих довольно разных по своему операциональному составу компонентов вербального интеллек-
та. Вводя разнородные пункты и субшкалы (субтесты), мы обязательно сокращаем внутреннюю
согласованность, одномоментную надежность теста, но зато добиваемся существенного повыше-
ния валидности. Таким образом, для расширения области применения теста психодиагност дол-
жен избегать излишнего повышения внутренней согласованности. Одновременно с этим сниже-
нием внутренних корреляций между различными пунктами теста (об этом уже говорилось в раз-
деле 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых бал-
лов, и она все более приближается по форме к нормальной кривой.
Эмпирическая валидность. Если в случае с содержательной ва-лидностью оценка теста
производится за счет экспертов (устанавливающих соответствие заданий теста содержанию
1
Предельной внутренней согласованностью будет, например, обладать тест-опросник, состоящий из повторения
одного и того же вопроса. Но валидность в данном случае будет минимальной.
71
предмета измерения), то эмпирическая валидность измеряется всегда с помощью ста-
тистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по те-
сту и показателей по внешнему параметру, избранному в качестве критерия валидности.
Прагматические традиции западной тестологии привязывали эмпирическую валидность
теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются
показателями, обладающими непосредственной ценностью для определенных областей практи-
ки. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в об-
ласти педагогической психологии это «успеваемость» (которую надо повысить), в психологии
труда это «производительность труда» и «текучесть кадров», в медицине - «состояние здоровья
пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юри-
дической психологии - «преступность» (которую надо понизить) и т. п.
Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать
результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения
валидности и задачу измерения практической эффективности своей психодиагностической про-
граммы. Если получен значимый коэффициент корреляции, то можно считать, что решены с по-
зитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео-
пределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессо-
устойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между
психическим свойством и социально значимым показателем (стрессоустойчивость не влияет на
процент аварийных ситуаций).
Таким образом, социально-прагматические критерии являются комплексными: они позво-
ляют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На
практике психолога часто ожидает и еще более сложная ситуация, когда заказчик требует от пси-
холога на основании полученного диагноза сразу же определенных мер по вмешательству в си-
туацию (отбор, консультирование, обучение и т. п.). В этом случае повышение показателей (до-
стоверное по сравнению с контрольной группой) доказывает одновременно и валидность-
эффективность диагностики, и эффективность самого вмешательства. А отрицательный резуль-
тат дает еще большую неопределенность, так как оказывается невозможным отделить неэффек-
тивность вмешательства от низкой валидности диагностики.
Ориентация на социально-прагматические критерии, приводящие к склейке понятий «ва-
лидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдержива-
ла и продолжает сдерживать развитие концептуального аппарата дифференциальной психологии.
При этом суть самого предмета измерения: измеряемого психического свойства - оказывается
вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом слу-
чае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого
«нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное
признание.
Процедура эмпирической валидизации. Организация выборки при эмпирической валидиза-
ции зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретро-
спективная валидизация), то к участию в психодиагностическом обследовании достаточно при-
влечь только тех испытуемых, которые оказались на экстремальных полюсах по этому крите-
рию
1
. В результате применяется метод экстремальных (контрастных) групп. Коррелирование с
суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле
1
В этом случае имеет место схема исследования, известная под названием «квазиэксперимент»: контроль осуществ-
ляется не в виде воздействия на независимую переменную, а в виде привлечения особой выборки испытуемых. По-
дробнее о квазиэкспериментах см. кн.- Д. Кэмпбелл, 1980.
72
(3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказыва-
ется сам критерий валидности:
x— сумма баллов по тесту, полученных «высокой» группой по
критерию; pq - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низ-
кой» (q) групп.
Если критерий - будущее событие (проспективная валидизация), то выборка должна быть
составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например,
нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск
психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемио-
логических исследований известно, что в течение трех лет из. 1000 здоровых людей этими бо-
лезнями заболевают 57 человек. Это означает, что превентивной (предупреждающей) диагности-
кой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы
(заболевших) порядка 100 человек. Проспективная валидизация выявляет прогностическую эф-
фективность диагностической процедуры. Высокая прогностическая валидность доказывает как
валидность самого измерения, так и наличие предполагаемой причинной связи.
Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух
задач. Например, если для исследования личностной предрасположенности к совершению краж
проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступле-
ние), то выявление акцентированных черт «тревожности», «агрессивности» и т. п. еще не может
интерпретироваться как свидетельство причинных факторов преступности - эти черты могут
быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т. п.
(Ратинов А. Р., 1979). Во многих медико-психологических исследованиях был выделен особый
диагностический синдром «госпитализации», который обнаруживается у любой категории гос-
питализированных больных (обычно он выражается в повышении шкал «депрессии» и «ипохон-
дрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя
интерпретировать в смысле симптомов предрасположенности к определенным психогенным за-
болеваниям, ибо они относятся к следствиям, а не к причинам этих заболеваний.
Конструктная валидность. В отличие от прагматической валидизации собственно психоло-
гическую валидизацию порой оказывается провести гораздо труднее в силу отсутствия какого-
либо более объективного внутрипсихологического критерия, чем сам тест.
Наиболее благополучная ситуация имеется тогда, когда для измерения данного свойства в
психологии уже имеется процедура с известной валидностью. В этом случае корреляция между
баллами двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает
на то, обладает ли новый тест конвергентной валидностью по отношению к старому. Если новый
тест обнаруживает высокую конвергентность результатов со старым и одновременно оказывает-
ся более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают
возможность использовать новый тест вместо старого.
Однако во многих случаях для измеряемого свойства психодиагност не может найти в ли-
тературе ни одного уже апробированного теста с известной валидностью. В этом случае он мо-
жет сформулировать ряд предсказательных гипотез о том, как будет коррелировать его новый
тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы
выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтвержде-
ние указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста.
В западной литературе это операциональное определение конструктяой валыидности называется
предполагаемой валидностью (assumed validity).
Представления о конструктной валидности тестов постоянно развиваются с пополнением
репертуара методик. Эмпирические исследования взаимосвязей результатов, получаемых с по-
73
мощью разных методик, обогащают теоретические представления об измеряемых свойствах.
С другой стороны, понятие конструктной валидности указывает на высокую зависимость
эмпирических связей теста от теоретических представлений его автора об измеряемом свойстве.
Для иллюстрации приведен пример взаимоотношений между двумя популярными тест-
опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочисленные корреляционные исследова-
ния, проведенные на репрезентативных выборках, показали, что шкала MAS (тревожность) Ж.
Тейлор положительно коррелирует со шкалой «нейротизм» и отрицательно со шкалой «экстра-
версия» Айзенка. Эти соотношения можно проиллюстрировать графически (рис. 10): вектор
MAS оказывается расположенным в квадранте «Нейротизм - Интроверсия», образованном си-
стемой из ортогональных (статистически независимых) факторов EPL С точки зрения концепции
Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Ж.
Тейлор: MAS коррелирует не только с релевантным фактором «нейротизм», но и с иррелевант-
ным фактором «интроверсия». С этой точки зрения, опросник EPI оказывается просто нечувстви-
тельным к особой разновидности «нейротизма» - к нейротизму (тревожности) экстравертов; в
перечне пунктов MAS отсутствуют высказывания, в которых могла бы проявиться тревожность
экстраверта. Однако с точки зрения тоготеоретического смысла, который приписывают показа-
телям MAS К. Спенс и Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не яв-
ляется артефактом - следствием дефекта их диагностического средства. Согласно К. Спенсу, пы-
тавшемуся перенести на человеческое поведение теорию научения Халла, MAS измеряет общий
уровень драйва - неспециализированного побуждения, которое достигает максимума как раз при
сочетании нейротизма (специфическая активация по Г. Айзенку) и интро-версии (неспецифиче-
ская активация)
Do'stlaringiz bilan baham: |