ГЛАВА 2. СОЗДАНИЕ ВАЛИДНОГО И НАДЕЖНОГО ТЕСТА: СОВРЕМЕННЫЕ ТРЕБОВАНИЯ

Большинство авторов рекомендует выделять следующие этапы в конструировании теста:

Спецификация теста

Прежде чем приступить к созданию теста, необходимо знать, для чего он нужен. Поэтому первым шагом является формулирование цели будущего теста. После этого выделяются содержательные области и манифестации (проявления) каждой из них. Например, при конструировании «опросника супружеского статуса» выделяются такие содержательные области как «зависимость-независимость», «вербальная – невербальная коммуникация» и т.д. Решение вопроса о количестве заданий, включаемых в тест, также крайне важно, так как для обеспечения надежности теста требуется не менее 20 заданий (Бурлачук Л.Ф., 2002). Купер К. рекомендует разработать первоначально такое количество заданий, чтобы в последующем была возможность уменьшить количество заданий не менее чем на 20 (Купер К., 2000).

Разработка заданий

Купер К. (2000) отмечает, что разработка заданий – решающий шаг в разработке теста. Если задания написаны плохо, то никакая психометрическая премудрость не сможет обеспечить надежную и валидную шкалу (Купер К., 2000).

Kline (1986) сформулировал следующие правила для написания заданий:

1. Задания должны быть соответствующим образом подобраны и касаться каждой отдельной стороны концепта. Опросник по диагностике депрессии должен включать вопросы, касающиеся разных видов

поведения (например, нарушения сна или привычек питания), также как и чувств. Целесообразно составить список основных граней оцениваемого феномена и написать равное количество заданий, затрагивающих каждую грань. Для более полного и законченного понимания предмета, рекомендуются руководства такие как DSM-IV.

2. Тест должен быть достаточно длинным для гарантии того, что он охватит все аспекты изучаемого предмета и включать не менее 30 заданий.

3. Каждое задание должно оценивать только ту черту, для измерения которой оно предназначено. Ответы на задания не должны зависеть от индивидуальных различий в словарном запасе, социальной желательности и т.д.

4. Каждое задание должно быть тщательно проанализировано в соответствие с культуральными особенностями (цит.по Купер К., 2000).

Купер К. (2000) рекомендует несколько правил для подготовки заданий, если они разрабатываются для личностных тестов:

1. Утверждения необходимо писать так, чтобы они были четкими, недвусмысленными и требовали как можно меньше самоанализа. Меньше обращаться к чувствам и больше – к поведению. Например, «на прошлой недели тревоги не давали мне возможность заснуть».

2. В каждом пункте может быть задан только один вопрос. Например, не рекомендуется использовать утверждения «Временами я чувствовал себя подавленным и пытался совершить самоубийство», поскольку крайне депрессивные люди, которые не помышляют о попытке самоубийства, не согласятся с этим утверждением.

3. Следует избегать утверждений с двойным отрицанием, таких, как «Мне не нравятся студенты». Поскольку ответ может быть «Да, не нравятся» или «Нет, не нравятся».

4. Рекомендуется избегать вопросов, касающихся частоты и количества. Например, вместо вопроса «Вы много читаете?», задается вопрос

«Перечислите книги, которые вы прочитали ради удовольствия в

прошлом месяце?».

5. Необходимо убедиться, что ни один вопрос не допускает двойного толкования. Например, в один личностный вопросник был включен вопрос: «Получаете ли вы удовольствие от веселых вечеринок?», хотя слово «веселый» (Gay) по-английски может означать индивидуума с гомосексуальной ориентацией.

6. Если вы должны спросить о чем-то социально нежелательном, рассмотрите возможность формулировки утверждения как бы с точки зрения другого человека, например: «Вы скупой?» – не годится, лучше как «Некоторые люди могут описывать меня как скупого».

7. Рекомендуется иметь текст инструкции, чтобы она призывала респондентов давать первый ответ, который естественным образом приходит в голову и не искать скрытые смыслы в заданиях (Купер К., 2000).

После формулировки заданий необходимо решить вопрос, в каком виде разработчик хочет получить ответы. Какие либо правила, определяющие количество вариантов выбора ответа, отсутствуют. В личностных опросниках, как правило, используют три типа заданий: дихотимические, трихотимические и задания с рейтинговыми шкалами. Дихотимические задания (или задания с альтернативным выбором) обладают рядом достоинств, а именно, они просты для понимания, легки и удобны в обработке, и требуют наименьшего времени для ответа. К их недостаткам относится то, что испытуемые часто не удовлетворены предлагаемой альтернативой и требуют больше вариантов ответа. Трихотимические задания имеют преимущества, так как помогают испытуемому более точно выразить себя, так как на утверждения теста предлагаются ответы «Да», «Нет», «Не знаю». Рейтинговые шкалы предполагают варианты выбора до семи для более точного выражения испытуемым самого себя (Бурлачук Л.Ф., 2002).

В одном опроснике используется только один тип заданий (Бурлачук Л.Ф., 2002).

Оформление теста

Оформление методики представляет собой очевидную (лицевую) валидность. От оформления зависит, насколько серьезно воспринимается методика как диагностический инструмент обследования. В обязательном порядке должен быть представлен блок основной информации, включающей имя испытуемого, возраст, пол, образование.

Инструкция к заполнению должна быть ясной и доступной для понимания. В ней должно быть указано, каким образом выбирать ответ и каким образом отмечать его в опроснике. Здесь же содержится информация, которую разработчик считает необходимым сообщить обследуемому. Например, «отвечайте настолько быстро, насколько это возможно», или «отвечайте на каждый вопрос искренне, это очень важно для того, чтобы мы могли оказать вам необходимую помощь». Выделяется информация, способствующая эффективной работе испытуемого, например, о соблюдении конфиденциальности.

При оформлении теста рекомендуется пронумеровать задания, расположить текст заданий, отделив одно от другого и придать опроснику эстетически привлекательный вид (особенности шрифта, бумаги, и др) (Бурлачук Л.Ф., 2002).

Пилотажное исследование

Прежде чем проводить проверку надежности и валидности теста, необходимо убедиться, что все задания измеряли один и тот же конструкт. Чтобы сделать это, необходимо предъявить тесть большой выборке людей (более 200), по своим характеристикам сходным с теми, которые будут, в конечном счете, тестироваться при помощи этого теста. Если, например, опросник предназначен для лиц, имеющих проблемы с алкоголем, то пилотажное обследование должно проводиться в соответствующих клиниках и центрах. Или, если тест будет проводиться для окончивших обучение соискателей в определенную организацию,

нельзя проводить пилотажное исследование на 16-летних школьниках (из-за разницы в академической подготовке) и пенсионерах (из-за разницы в возрасте). Если невозможно создать репрезентативную выборку, обычно достаточно составить выборку, приблизительно похожую на репрезентативную. Минимальное количество респондентов, которое требуется для пилотажного исследования, должно быть в два раза больше, чем количество заданий (Купер К., 2000; Бурлачук Л.Ф., 2002).

Анализ заданий

Анализ заданий, полученных в пилотажном исследовании, имеет своей целью отбор наилучших заданий для окончательной версии опросника и включает в себя определение доли ответивших правильно (в соответствии с ключом). Составляется матрица для анализа заданий, в которую вписываются соответствующий балл по каждому заданию. После этого вычисляется индекс эффективности задания. Этот показатель подсчитывается делением количества обследуемых, давших правильный ответ, на их общее количество. В идеале, этот индекс должен располагаться в интервале от 0.25 до 0.75, приближаясь в среднем к 0.5 для всего опросника. Индекс менее 0.25 показывает, что задание неэффективно, так как очень немногие обследуемые отвечают на него правильно; а показатель выше 0.75 указывает на то, что на данное задание получено слишком много правильных ответов. Задания менее 0.25 и больше 0.75 удаляются из окончательной версии опросника (Купер К., 2000; Бурлачук Л.Ф., 2002).

Задания только тогда следует включать в окончательную версию опросника, если они измеряют те же самые личностные особенности, что и другие, предназначенные для этого задания. Для определения дискриминтативности заданий используется коэффициент корреляции каждого задания с общим баллом теста. Чем выше коэффициент корреляции, тем выше дискриминтативность, тем лучше задание. Это основной критерий. Минимальная корреляция 0.2. 9 (Л.Ф.Бурлачук, 2002).

Однако, окончательное решение об оставлении или исключении задания, необходимо принимать, только с учетом ряда факторов. Например, можно оставить задание с низкой дискриминтативностью, если заданий, измеряющий определенный параметр мало. Исключение ряда заданий может повлиять на баланс заданий с прямыми и обратными ответами, и т.д. Все это скажется на валидности и надежности теста. Поэтому только разработчик выносит окончательное решение об оставлении или исключении задания из окончательной версии оапросника (Л.Ф.Бурлачук, 2002).

Определение надежности теста

Надежность – крайне сложное и многоплановое понятие, одна из функций которого — оценить постоянство тестовых испытаний. Надежность должна обосновывать ошибку измерения – она должна показывать, какая часть изменчивости показателей ошибочна (Психологическая диагностика: проблемы и исследования, 1981). Для установления надежности теста рекомендуется несколько способов:

1. Повторное проведение испытаний тем же тестом через какой-то срок, длительность которого определяется характером теста и задачами исследования (ретестовая надежность).

2. Проведение двух эквивалентных форм теста.

3. Расщепление теста (надежность частей теста) (Гуревич Г.М., 2008).

Самый очевидный и понятный метод определения надежности теста – это его повторное проведение. Ретестовая надежность (временная стабильность, коэффициент устойчивости) проверяет, в какой степени оценки остаются более или менее постоянными в течение времени.

Проводя сравнение результатов, полученных при первом и повторном тестировании, исследователь получает информацию о том, насколько устойчиво свойство психики (функция, умение, способность и др.), для диагностирования которой был применен тест. Коэффициент корреляции, вычисляемый в этом случае, указывает на степень

стабильности диагностируемого свойства (Гуревич Г.М., 2008). Вычисляется ретестовая надежность определением корреляции между показателями, полученными одними и тем же испытуемыми в каждом из двух случаев проведения теста (Анастази А., Урбина С., 2003; Мельников В.М., Ямпольский Л.Т., 1985).

Личностное расстройство предполагает стабильность клинических признаков в течение времени, и мы должны получить схожие оценки у индивидуумов, если они тестировались с интервалом в несколько недель при условии, что: тест хорошо измеряет черту и нет значительных событий в интервале тестирования (Купер К., 2000).

Рекомендуемый интервал тестирования – от одного месяца (чтобы минимизировать вероятность того, что испытуемые запомнят ответы) и не слишком большим (до 6 месяцев), чтобы изменения, обусловленные жизненными событиями, обучением и др. не могли изменить измеряемый признак (Купер К., 2000, Анастази А., Урбина С., 2003).

Наименьшим удовлетворительным значением для ретестовой надежности является коэффициент корреляции равный 0.7 ( Бурлачук Л.Ф., 2002).

Проведение двух эквивалентных форм теста дает экспериментатору совершенно особую информацию – это информация о том, насколько близки по существу две различные формы теста, два его варианта. Если две формы дали при испытаниях близкие или одинаковые результаты на избранной выборке, из этого следует, что при разработке теста найден достаточно отчетливый психологический принцип, положенный в основу диагностических инструментов, что позволяет использовать их позднее как взаимозаменяемые (Гуревич Г.М., 2008).

Надежность параллельных форм определяется как коэффициент корреляции между показателями по одной и другой форме теста, результаты которых получены при двух отдельных процедурах тестирования через какой-то временной интервал (Клайн П., 1994).

Возможно определение надежности при однократном проведении теста (путем расщепления или эквивалентных половин). Главным

достоинством этого типа надежности является независимость результатов тестирования от таких элементов деятельности как тренировка, практика, утомление, врабатывание и др.( Психологическая диагностика: проблемы и исследования, 1981).

Проверяя надежность способом расщепления, исследователь получает информацию о внутренней однородности теста (его гомогенности) (Гуревич Г.М. , 2008).

Надежность частей теста определяется путем делением опросника на две части (обычно четные и нечетные задания), после чего и рассчитывается корреляция между двумя частями. После этого полученный коэффициент вставляется в формулу Спирмена-Брауна: R=2R/(1+R). Это надежность, полученная путем расщепления (Прыгин Г.С., 1999).

Альтернативный метод вычисления эквивалентных половин теста был разработан Рюлоном. Требуется знать только дисперсию разностей между показателями каждого испытуемого по обоим половинам теста и дисперсию по полному тесту. Коэффициент надежности Рюлона высчитывается по формуле: а = 1 – (S_e² /S_x²), где S_e² – это дисперсия разностей частей теста, S_x^{2 –}дисперсия целого теста (Анастази А., Урбина С., 2003).

Возможен и другой вариант деления теста на части, например когда первая половина теста сопоставляется со второй, либо первая с третьей, либо вторая с четвертой (Психологическая диагностика под ред. М.К. Акимовой, К.М. Гуревича, 2008). При таком делении каждый раз могут быть получены разные значения коэффициента надежности. Чтобы избежать этого, используется способ деления теста на такое количество частей, сколько в нем содержится отдельных пунктов. В этом случае, внутренняя согласованность теста подсчитывается с помощью формулы Кронбаха (Альфа Кронбаха) (Прыгин Г.С., 1999).

Методика признается надежной, когда полученный коэффициент надежности, полученной путем расщепления не ниже 0.75-0.85. Лучшие психологические тесты дают коэффициенты 0.9 и более (Психологическая диагностика, 2008). 58

Все исследования надежности должны выполняться на достаточно больших выборках (рекомендуется 200 и более испытуемых) (Бурлачук Л.Ф., 2002).

Клайн П. (1994) дает следующие рекомендации по формированию выборки для изучения надежности теста: следует обращать внимание на объем выборки и ее состав. Причем состав выборки имеет большее значение, чем объем, так как большая по объему, но не соответствующая по составу выборка может дать полностью ошибочные значения надежности. Важно, чтобы выборка отражала ту категорию лиц, для которой предназначен тест. Например, если тест разрабатывается для высоко квалифицированных работников, то показатели надежности должны быть получены именно на этой специализированной выборке. Аналогично, надежность теста, разработанного для нужд психиатрии, должна быть показана на соответствующих пациентах. Для теста, предназначенного к использованию в разных группах, определяется надежность для каждой группы в отдельности. Здесь допустимы объемы выборки ниже 200 человек. Например, тест предназначен для диагностики какого-либо параметра у школьников, пациентах психиатрической клиники и студентов. Отдельно необходимо определить надежность для каждой из этих групп (например, в объеме 100 человек). Выборка из 300 человек не будет показывать надежность для каждой из групп (Клайн П., 1994).

Определение валидности

Валидность теста – понятие, относящиеся к тому, что тест измеряет и насколько хорошо он это делает (Анастази А., Урбина С., 2003). Различают внешнюю и внутреннюю валидность.

Определение внешней валидности. Внешняя валидность – мера возможности распространения результатов тестирования на генеральную совокупность. Внешняя валидизация осуществляется путем отработки репрезентативности экспериментальной выборки при отработке теста и перекрестной валидизации, то есть определения валидности теста на

выборке, отличающейся от той, на которой отрабатывался стимульный материал и задания к тесту.

Репрезентативность выборки – представленность экспериментальной выборки, которая отражает основные свойства генеральной совокупности. Репрезентативность определяется путем сопоставления качественных и количественных характеристик экспериментальной выборки с характеристиками исследуемой популяции с целью определить их однородность. К качественным характеристикам могут быть отнесены демографические, профессиональными и другие характеристики популяции, которые влияют на предмет исследования. Количественная характеристика экспериментальной группы это минимальная численность, сохраняющая свойства генеральной совокупности.

Перекрестная валидизация производится на выборке отличной от экспериментальной. Перекрестная валидизация осуществляется с целью определить границы применения методики по критерию «характеристика популяции» (например, дети, подростки, женщины, мужчины и т.д). Вывод о возможности применения теста на данной популяции делается при помощи параметрических критериев (F-критерий Фишера, t-критерий Стьюдента) (Носc И.Н., 2000).

Определение внутренней валидности. Очевидная валидность описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности. Очевидная валидность приобретает особое значение в современных условиях.

Конкурентная валидность оценивается по корреляции

разработанного теста с другими, валидность которых относительно измеряемого параметра уже установлена.

Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Для определения содержательной валидности подбираются эксперты, которые указывают, какая область поведения наиболее важна,

например, для определения музыкальных способностей и, исходя из которых, генерируются задания теста. После этого задания снова оценивают эксперты.

Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест ( Бурлачук Л.Ф., 2002).

Купер К. предлагает несколько подходов проверки конструктной (концептуальной) валидности. Один из полезных способов проверки того, действительно ли тест измеряет то, что он должен измерить, – проведение продуманных экспериментов. Суть конвергентной валидизации состоит в том, чтобы проверить, связаны ли тестовые оценки с другими показателями, как ожидается. Например, необходимо проверить валиден ли тест по измерению тревоги. В арсенале методик имеются другие тесты по измерению тревоги. Группе студентов предъявляются сразу два теста и полученные ряды оценок подвергают корреляционному анализу. Высокие показатели корреляции говорят о том, что шкала валидна.

Второй подход – исследование «дивергентной валидности» - устанавливает, что тест не измеряет никакой другой черты, для которой он теоретически не должен быть связан. Например, в литературе утверждается, что тревога не связана с интеллектом, социальным статусом, социальной желательностью. Поэтому если тест, предназначенный для измерения тревоги, на самом деле обнаружил высокую корреляцию с любой из этих переменных, должны возникнуть сомнения в том, действительно ли он измеряет тревогу в целом (Купер К., 2000).

Стандартную процедуру для определения конструктной валидности предложил Д.Т. Кэмпбелл и Д.В. Фиске. Эта процедура предполагает использование наряду с валидизируемым тестом специальной батареи тестов, подобранных таким образом, чтобы в нее входили тесты предположительно связанные с валидизируемым тестом, так и не связанные с ним. Экспериментатор должен заранее предсказать, какие тесты будут высоко коррелировать с валидизируемым тестом, а корреляция с какими тестами будет низкой. Тесты, которые по предположению, высоко

коррелируют с валидизируемым тестом, называются конвергирующими, а не коррелирующие – дискриминантными. Концептуальная валидность может считаться удовлетворительной, если коэффициенты корреляций валидизируемого теста с группой конвергирующих тестов статистически значимо выше коэффициентов корреляций с группой дискриминантных тестов (Мельников В.М., Ямпольский Л.Т., 1985).

Стандартизация теста

Стандартизация является одним из важных отличий психометрических тестов, так как позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или в соответствующих группах. Тем самым достигается адекватная интерпретация показателя отдельного испытуемого. Для получения стандартных норм необходима репрезентативная выборка (не менее 500 человек). В некоторых случаях приходится формировать несколько групп (отличных по возрасту, полу, и др). Устанавливать нормы не всегда обязательны и достаточно «сырых» показателей теста (Бурлачук Л.Ф., 2002).

Дата добавления: 2018-11-24; просмотров: 739; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

Мы поможем в написании ваших работ!