Параллельное тестирование. В этом случае многократность измерения организуется с помощью параллельных (parallel), или эквивалентных тестов.
Схема использования параллельных тестов для измерения надежности имеет следующий вид:
(См. дополнительный иллюстративный материал.)
Рассчитанный между двумя параллельными тестами коэффициент корреляции называется эквивалентной надежностью.
Высокие значения коэффициента корреляции между параллельными формами указывают не только на надежность этих двух тестов, но и на эквивалентность их психологического содержания. Поэтому, когда эквивалентная надежность низкая, то это может быть связано либо с неэквивалентностью психологического содержания тестов, либо с низкой надежностью, либо с тем и другим вместе. Чтобы исключить некоторые альтернативы, следует получить оценки ретестовой надежности для параллельных тестов. При низкой ретестовой надежности низкую эквивалентную надежность логично считать следствием ненадежности тестов, в противном случае, когда ретестовая надежность высокая, приходится признать, что параллельные формы неэквивалентны по психологическому содержанию. Если имеются сомнения в эквивалентности психологического содержания тестов, то эти сомнения не снимаются никакими статистическими расчетами. Эквивалентность подтверждается психологическим анализом, экспертными суждениями специалистов и только в дополнение к этому - статистическими критериями.
Создание параллельных форм тестов связано с преодолением ряда трудностей. В мировой практике известно довольно мало тестов, имеющих параллельные формы. В качестве примера таких тестов можно назвать уже упоминавшиеся ранее многофакторные личностные тесты, разработанные сотрудниками Иллинойского университета под руководством Р.Б. Кэттелла, - CPQ, CSPQ, HSPQ, 16PF, каждый из которых имеет две или более параллельных формы.
Метод расщепления. Он является развитием метода параллельного тестирования и базируется на допущении о параллельности не только отдельных форм теста, но и отдельных заданий внутри одного теста. Для вычисления коэффициента надежности методом расщепления тест разбивается на отдельные задания или группы заданий. Наиболее распространенная процедура "расщепление" теста на две части: в одну часть собираются результаты четных заданий, а в другую - нечетных. При расщеплении теста на две части индекс надежности вычисляется по формуле Спирмена - Брауна, предложивших ее независимо. Их статьи с выводами формулы были опубликованы в одном и том же номере психологического журнала.
где R1,2 - коэффициент корреляции двух половин теста.
Разделить тест на две равные части можно разными способами, и каждый способ дает новую численную оценку надежности. Для преодоления этого недостатка метода расщепления разрабатываются способы вычисления коэффициентов надежности, которые исходят из предположения деления теста не на две части, а на большее число частей, в пределе равном числу заданий. Но никто еще не дал исчерпывающего теоретического обоснования этой проблемы: на практике большинство критериев опираются на тот факт, что матрица корреляций отдельных заданий надежного теста состоит из коэффициентов, величина которых близка к единице. Поэтому наиболее естественно рассматривать в качестве индекса надежности средний модуль коэффициента корреляции всех заданий теста или средний коэффициент детерминации.
Коэффициент надежности, полученный методом расщепления, называют коэффициентом внутренней согласованности или гомогенности теста (homogenety). Гомогенность теста свидетельствует о том, что все задания теста устойчиво измеряют одну и ту же психологическую характеристику. Это означает, что если испытуемые имеют одинаковые тестовые оценки, то и степень выраженности у них измеряемого качества одинакова.
Итак, мы рассмотрели три эмпирических метода оценки надежности тестов: повторное тестирование одним и тем же тестом, повторное тестирование параллельной формой теста и расщепление теста. При использовании метода повторного тестирования получаем оценку степени устойчивости результатов во времени и в зависимости от условий тестирования. Поэтому ретестовый коэффициент надежности называют также коэффициентом устойчивости или стабильности теста. При использовании метода параллельных форм и метода расщепления оценивается степень взаимной согласованности частей теста. Поэтому коэффициенты надежности, полученные этими двумя методами, интерпретируются как показатели гомогенности, однородности теста.
Главная проблема теории тестов заключается в том, как по измеренным результатам определить истинные результаты. Существуют два основных определения истинных результатов тестирования, которые имеют значение для психометрии:
специфические;
обобщенные (генерализированные).
Под специфическим истинным результатом измерения понимается точный результат, полученный с помощью конкретного теста. Это понятие близко к понятию действительных точных (или "выровненных") оценок, используемых при измерении физических величин. Здесь истинность результатов понимается с точки зрения точности метода измерения. Для характеристики специфической истинности результатов тестирования и разработано понятие надежности. Оно характеризует соотношение наблюдаемого результата и его действительной величины. (См. дополнительный иллюстративный материал.)
Do'stlaringiz bilan baham: |