Дискриминативность тестового задания



Дискриминативность (дифференцирующая способность, различающая способность) задания - это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых.

Если задание одинаково выполняется и слабыми, и сильными, то можно говорить о низкой дискриминативности задания. Если задание выполняется сильными испытуемыми, а слабые дают отрицательный результат, то мы имеем высокую дискриминативность. Высокая дискриминативность тестовых заданий важна для нормативно-ориентированных тестов, основная цель которых - ранжирование учащихся по уровню достижений. Один из способов вычисления дискриминативности - вычисление с применением метода крайних групп, где для расчета берутся показатели самых слабых и самых сильных испытуемых. Чаще всего это 27 (30) % худших и 27 (30) % лучших по результатам выполнения тестового задания.

Индекс дискриминативности определяется как разность долей правильных ответов сильной и слабой групп.

(r дис)j = (p1)j - (p0)j, или (r дис)j = ((P1)j - (P0)j)/100%,

где r - индекс дискриминативности, p1 - доля правильных ответов в сильной подгруппе (27 % от всего количества), p0 - доля правильных ответов в слабой группе (27 %). Значение индекса дискриминативности располагается в интервале [- 1; 1]. Если индекс дискриминативности выше нуля (больше 0,3 считается удовлетворительным), а еще лучше стремится к 1, то это свидетельствует о том, что задание обладает хорошим (максимальным) дифференцирующим эффектом. Если r = 0, то это значит, что и слабые, и сильные испытуемые выполняют задание одинаково. Отрицательный показатель дискриминативности, появляется в том случае, когда слабые учащиеся выполняют задание правильно, а сильные - неправильно, что свидетельствует о некачественном (невалидном) задании. Соответственно тестовые задания с показателями rдис близким к 0 и rдис< 0 следует удалить

Трудность и дискриминативность – взаимосвязанные характеристики тестового задания. Высокая дискриминативность, которая свидетельствует о сильном дифференцирующем эффекте тестового задания, характерна для заданий со средним показателем трудности (0,5). 

Основными показателями качества теста являются надежность и валидность теста.

Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.

Тест является надежным, если при повторном тестировании (при условии, что подготовка испытуемого не изменилась) он дает примерно такие же результаты.

Статистическая оценка надежности теста предполагает учет ошибки измерения.

По классической теории тестов наблюдаемый балл (X) включает в себя истинный балл (T) испытуемого и некоторую ошибку измерения (E). Формула наблюдаемого балла будет выглядеть следующим образом X = T + E. Истинный балл определяется как показатель испытуемого в гипотетической генеральной совокупности заданий бесконечного теста.

Ошибка измерения - статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Дисперсия наблюдаемых тестовых баллов будет равна сумме дисперсий истинных и ошибочных составляющих .

Соответственно, чем ближе показатель дисперсии наблюдаемых баллов к дисперсии баллов истинных, тем выше корреляция между множеством наблюдаемых баллов (Х) и множеством истинных баллов (Т), т.е. тест надежнее. Поэтому надежность теста (коэффициент надежности теста - rн) определяется через отношение дисперсии истинного балла к дисперсии наблюдаемого тестового балла

Стандартная ошибка измерения находится как корень квадратный из дисперсии ошибочной компоненты

Валидность

Валидность (от англ. Validity - значимость, обоснованность, пригодность) - это характеристика способности теста служить поставленной цели измерения [13], т.е. способность теста измерять то, для чего он предназначен.

С помощью подсчета значений бисериальной или точечно-бисериальной корреляции также оценивается валидность отдельных заданий теста. Коэффициенты считаются, когда один набор значений распределения задается в дихотомической шкале, а другой - в интервальной. В нашем случае мы находим показатель связи между результатами выполнения каждого задания (дихотомическая шкала) и суммой баллов испытуемых по заданиям теста (интервальная шкала). Мы будем использовать формулу для нахождения точечно-бисериального коэффициента, так как он, в отличии от бисериального, не может выходить за рамки [-1; 1], что более удобно для интерпретации.

, где

 - среднее значение индивидуальных баллов испытуемых, выполнивших верно j-ое задание теста;  - среднее значение индивидуальных баллов испытуемых, выполнивших неверно j-ое задание теста; Sx – стандартное отклонение по множеству значений индивидуальных баллов; (N1)j – число испытуемых, выполнивших верно j-ое задание теста; (N0)j – число испытуемых, выполнивших неверно j-ое задание теста; N – общее число испытуемых.

В целом задание можно считать валидным, если rpbis близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно. Если цель – дифференциация учеников по уровню подготовленности, то валидные задания должны четко отделить хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Значения rpbis близкие к нулю, указывают на низкую дифференцирующую способность заданий теста. Все задания у которых rpbis<0, подлежат удалению из теста, так как на эти задания верно отвечают слабые ученики, а сильные либо ошибаются либо пропускают это задание.

Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (Анастази А.; Майоров А.Н.): содержательную, критериальную и конструктную (концептуальную) валидность.

1) Содержательная валидность – это такой вид валидности, когда рассматривается соответствие теста как измерительного инструмента той области содержания, знания и умения которую проверяют данным тестом. Так для критериально-ориентированных тестов одно из требований содержательной валидности станет полнота отображения, при нормативно-ориентированном подходе тест можно охарактеризовать как валидный по содержанию, если он будет хорошо дифференцировать испытуемых и отражать самое важное, свидетельствующее о знании дисциплины.

Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания.

2)  Критериальная валидность - это характеристика теста, отражающая обоснованность, значимость его результатов по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием). Практически критериальную валидность определяют как корреляцию результатов тестирования и некоторым внешним критерием. В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания. Критериальная валидность в зависимости от выбранного критерия может быть текущей (внешний критерий - текущие оценки) или прогностической (критерий - некоторый будущий результат). Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.

Формула:

sx2 – дисперсия индивидуальных баллов, N – число студентов, -отклонение тестового балла i – го студента от среднего балла по тесту, -отклонение экспертного балла i – го студента от среднего арифметического экспертных оценок. Критериальная валидность измеряется от –1 до 1, валидность более 0,3 считается удовлетворительной. Высокой прогностической валидностью должны обладать тесты для приема абитуриентов в вузы

Конструктная (концептуальная) валидность. Об этом виде валидности говорится в том случае, если представление об измеряемом феномене существует только в проекте. Чаще всего это относится к психологическим тестам. Для педагогических тестов понятие конструктной валидности применимо в процессе разработки теста, когда его качественные и количественные характеристики еще не имеют определенных характеристик.

5.5. Стандартизация и нормирование теста

Одной из основных характеристик теста является стандартизация – комплекс процедур, позволяющий создать для всех испытуемых равные условия и подвести итоги тестирования. Разработанные тесты обязательно должны проходить процедуру стандартизации, суть которой состоит в определении оптимальных норм. При проведении первичного тестирования баллы, которые получат учащиеся можно считать «сырыми», так как они пока не дают никакой информации о реальном уровне знаний; один и тот же результат можно истолковывать по-разному, все зависит от того слабая это была или сильная группа. Чтобы адекватно интерпретировать первичные результаты, необходимо «сырые» баллы сопоставить с определенными нормами выполнения теста.

 Нормы – это множество показателей, которые устанавливаются эмпирически, в зависимости от того, как выполняет задания теста некоторая четко определенная выборка тестируемых. К нормам предъявляют ряд требований [10]. Она должна быть:

1. дифференцированной — ученики, работающие по разным программам, должны сравниваться исходя из разных норм;

2. соответственной, т.е. отражающей реальный контингент и реальные требования, вытекающие из современной ситуации в образовании;

3.репрезентативной — предполагающей организацию репре­зентативной случайной выборки, обеспечивающей несмещенные нормативные оценки.

Норма — весьма относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Поэтому при стандартизации теста особое внимание обращают на формирование выборки. Выборка должна точно отражать категорию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой погрешности измерений, чтобы ею можно было пренебречь в процессе стандартизации теста.

 


Дата добавления: 2022-01-22; просмотров: 122; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!