Этапы разработки тестов учебных достижений
Общий полный перечень этапов создания тестового инструментария может быть представлен следующим списком:
1. Определение целей тестирования.
2. Определение ресурсных возможностей разработчиков.
3. Отбор содержания учебного материала.
4. Конструирование технологической матрицы.
5. Составление тестовых заданий.
6. Построение выборки для апробации заданий и тестов.
7. Компоновка заданий для апробации.
8. Апробация тестовых заданий.
9. Определение и расчёт показателей качества тестовых заданий.
10. Отбраковка заданий и составление теста.
11. Апробация теста.
12. Определение и расчёт показателей качества теста.
13. Составление окончательного варианта теста.
14. Стандартизация теста.
15. Нормирование теста.
16. Оснащение теста.
Этот список полный, поскольку в нём представлены все этапы создания тестов и общий, поскольку подходит для создания большинства видов тестов.
Создание теста начинается с определения целей тестирования. Конечно, для тестов, которые предполагается использовать для сравнения результатов между несколькими классами одного образовательного учреждения, и тестами, предназначенными для итоговой аттестации учащихся, существует значительная разница.
Требования к тестам
Выяснив цели составления тестов, уточнив подходы и выбрав уровень использования, разработчик определяет необходимые этапы создания тестового инструментария. После этого необходимо отобрать содержание образования, то есть составить модель объекта педагогического тестирования. Она может быть представлена в виде технологической матрицы. Технологическая матрица задаёт содержание, которое будет отобрано для проверки, и важность того или иного элемента содержания. Она может содержать уровни достижений, которые будут проверены, их соотношение, соответствие стандарту и некоторые другие компоненты.
|
|
Для тестов, ориентированных на критерии (критериально-ориентированных), отбор содержания теста является самым важным этапом создания, так как для принятия решения о достижении данной цели обучения, например стандарта, необходимо достаточно точно и полно описать содержание стандарта и выразить его представительной совокупностью заданий. Поэтому главной проблемой в разработке тестов, используемых для оценки достижения образовательных стандартов, является соотношение содержания стандарта и содержания теста.
В самом общем виде тестовые задания должны:
· быть составлены с учётом соответствующих правил;
· соответствовать содержанию учебного материала;
· быть проверены на практике (апробированы);
· иметь рассчитанные показатели качества - сложность и дискриминативность;
|
|
· быть максимально разнообразными по форме.
Несмотря на многообразие видов заданий, все они могут быть сведены к нескольким типам или их сочетанию. Например, задача с переструктурированием данных может быть представлена как совокупность задач последовательности и соответствия; задания на нахождение ошибок - как частный случай заданий на исключение лишнего и так далее.
С точки зрения разработчика, минимальные требования к тестовому заданию заключаются в наличии трёх частей:
1. Инструкции.
2. Текста задания (вопроса).
3. Правильного ответа.
Инструкция должна указывать на то, что должен сделать испытуемый, каким образом выполнять задание, где и как делать пометки и записи, описывать то, что ученик должен сделать руками. Например:
- «ответ запишите в рамку, которая находится ниже задания. Для промежуточных вычислений используйте место слева от вопроса...»;
- «в третьем столбце над строчками впишите цифры, соответствующие понятиям, обозначенным буквами в этой же строке...»;
- «используя калькулятор, проведите вычисления, ответ запишите в бланке в строке 4...» и т.д.
В тестах допускается делать одну инструкцию для группы однотипных заданий и помещать её в начале данной группы заданий. Для проверки того, как испытуемые поняли инструкцию, желательно снабдить её несколькими примерами, которые разбираются вместе с проводящим тестирование.
|
|
Текст задания или вопроса представляет собой содержательное наполнение задания.
Правильный ответ – обязательный атрибут любого тестового задания. Без него задание, за исключением, пожалуй, самых тривиальных, теряет смысл, поскольку не может быть точно проанализировано и оценено с учётом авторского замысла.
Перечисленные части тестового задания являются минимально необходимыми для составления тестов.
Кроме того, составителям тестовых заданий целесообразно указывать:
· - возраст(класс), на который рассчитано задание;
· тему (предмет или предметную область, в соответствии с технологической матрицей);
· предполагаемое автором время выполнения задания;
· сроки предъявления (календарные сроки, поскольку одно и то же задание, будучи предъявленным, например, в октябре и феврале, даст разные результаты и соответственно должно иметь разные характеристики);
· предполагаемую статистическую сложность;
· уровень, который соответствует данному заданию, или умения, которые оно выясняет;
|
|
· соответствие стандарту или программному материалу;
· данные составителя;
· возможные варианты невербальной поддержки;
· некоторые другие сведения, содержание которых определяется, как правило, специфическими целями создания данного инструмента.
Как правило, для составителей заданий готовятся специальные бланки, в которых формализуется требуемая информация.
Существует основное требование к тестовым заданиям:
Тестовое задание должно иметь однозначный правильный ответ.
Данное правило требует пояснения. Часто понятие однозначности ответа трактуется как требование единственности или наличия предполагаемого образца. В данном случае однозначность понимается как возможность любого пользователя на основе сравнения ответа учащегося и правильного ответа, предложенного разработчиком, сделать однозначный вывод о том, выполнил данный ученик это задание верно или нет. Поэтому правильный ответ разработчика может заключаться не только в эталонном ответе, но и в описании схемы анализа, содержать конструкции «и, ... и», «...или...», описывать вариант неправильного ответа, считая все остальные правильным.
Все формулировки ожидаемых ответов должны быть предельно ясными и недвусмысленными, чтобы при оценивании у проверяющего не могло возникнуть сомнения в правильности засчитываемого ответа.
Существует два типа заданий, которые объединяют пять видов. К этим видам может быть сведено всё многообразие существующих заданий без ущерба для их качества.
К заданиям закрытого типа относят задания трёх видов: альтернативных ответов, множественного выбора и восстановления соответствия.
Тестовые задания закрытого типа предусматривают различные варианты ответа на поставленный вопрос: из ряда предлагаемых выбирается один (или несколько) правильный ответ, выбираются правильные (или неправильные) элементы списка и др. Это задания с предписанными ответами, что предполагает наличие предварительно разработанных вариантов ответа на заданный вопрос.
1. Задания альтернативных ответов (АО).
К каждой задаче этого вида даётся только два варианта ответов. Испытуемый должен выбрать один из них - «да» или «нет», «правильно» или «неправильно» и пр.
Форма задания:
утверждение 1 да нет
утверждение 2 да нет
утверждение 3 да нет
утверждение 4 да нет и т.д.
Инструкция для заданий альтернативных ответов: обведите кружком вариант ответа «да» или «нет», который вы считаете правильным.
Задания АО являются самыми простыми, но не самыми распространёнными при составлении тестов. Это связано в основном со специфичностью того материала, которому в большей степени соответствует форма заданий. Задания альтернативных ответов применяются для оценки одного элемента знаний. Их использование в виде отдельного вопроса приводит, как правило, к тривиальному тестированию и применяется достаточно редко. Эта форма целесообразна для использования в серии, когда для одного элемента знания задаётся несколько вопросов. В такой форме задания альтернативных ответов в большей степени подходят для выявления уровня овладения сложными определениями, знания достаточно сложных графиков, диаграмм, схем и т.д.
2. Задания множественного выбора. Это основной вид заданий, применяемый в тестах достижений.
Задачи с множественным выбором предполагают наличие вариативности в выборе. Они состоят из двух частей: формулировки задания и вариантов ответов. Испытуемый должен выбрать один из предложенных вариантов, среди которых чаще всего только один правильный. Однако задачи формулируются так, чтобы в них было не менее 3 правдоподобных, похожих на правильные ответов. Именно этим обеспечивается независимость результатов от случайного выбора.
Форма представления заданий:
Вопрос (утверждение):
А. Вариант ответа 1.
В. Вариант ответа 2.
С. Вариант ответа 3.
D . Вариант ответа 4.
Е. Вариант ответа 5.
Инструкция для заданий множественного выбора: обведите кружком букву, соответствующую варианту правильного ответа.
3. Задания на восстановление соответствия.
В задачах соответствия (восстановления соответствия) необходимо найти или приравнять части, элементы, понятия конструкциям, фигурам, утверждениям; восстановить соответствие между элементами двух списков. К этому же типу следует отнести и задания, в которых требуется восстановить порядок ряда, упорядочить. Предложенные элементы задания могут рассматриваться как частный случай заданий на восстановление соответствия, в которых только один ряд. Данный вид заданий имеет достаточно много модификаций, от которых зависят инструкции. Наиболее распространённой формой ответа, которая реально применяется педагогами, особенно в начальной школе, является вариант с использованием стрелочек: нарисуйте стрелочки от элементов первого списка ко второму, соедините стрелками соответствующие понятия и т.д. Сам по себе способ с использованием стрелочек вполне правомерен, однако он имеет два существенных недостатка: первый – сложность проверки, особенно когда необходимо проверить большое количество работ; и второй – опасность того, что ученики, привыкнув к рассматриваемому способу и встретив в дальнейшем классическую форму задания, воспримут её как неизвестную, что может снизить их результаты. Форма представления:
Ряд 1
Ряд 2
Место для ответов 1. А _____ 2. В _____ 3. С _____ 4. О
Инструкция: «в графу для ответов впишите цифры ряда 1, соответствующие ряду 2».
Задания открытого типа.
К ним относятся задания двух видов: – свободного изложения (свободного конструирования) и дополнения. Первый вид предполагает свободные ответы испытуемых по сути задания. Ограничения на ответы не накладываются, однако формулировки заданий должны обеспечивать наличие только одного правильного ответа. В заданиях-дополнениях (задачах с ограничением на ответы) испытуемые также должны самостоятельно давать ответы на вопросы, однако их возможности ограничены. Ограничения обеспечивают объективность оценивания результата выполнения задания, а формулировка ответа должна дать возможность однозначного оценивания.
Инструкция для заданий дополнения: вместо каждого многоточия впишите только одно слово (символ, знак и т.д.); вместо многоточия впишите нужное слово; выпишите на бланк слова, которые пропущены в тексте; вместо многоточия впишите нужный символ; запишите ответ в отведённое место, то есть один пропуск подразумевает одно слово (знак, символ, выражение).
Инструкция для заданий свободного изложения: закончите предложение (фразу), впишите вместо многоточия правильный ответ; дополните определение, записывая ответ в бланке, и т.д., то есть вместо многоточия можно вписать словосочетание, фразу, предложение или даже несколько предложений.
Выполнение основного требования для заданий дополнения не представляется сложным, правильным ответом будет то самое выражение, слово и т.д., которое необходимо вписать испытуемому. Для заданий свободного изложения выполнение основного требования к тестовым заданиям сложнее. Для этого необходимо формализовать сам ответ.
В том случае, когда результатом выполнения задания служат цифровые выражения, структура фразы подразумевает два-три однозначных слова. Для других случаев возможно: а) выделить в ответе ключевое слово или фразу и в зависимости от их наличия оценивать ответ как правильный или неправильный; б) выделить несколько смысловых, фиксируемых элементов и ранжировать на их основе правильные ответы. Например, «ответ на данный вопрос оценивается двумя баллами, если он содержит слова «геологической» и «организмами»; если он содержит одно из этих слов, то – одним баллом; во всех остальных случаях задание считается невыполненным»; в) если предложенные варианты на подходят, использовать для задания иную форму.
Специфические требования к заданиям открытого типа:
· использовать не более трёх пропусков подряд, лучше один-два;
· дополнять наиболее важное понятие, определение, знание которого нужно проверить;
· дополнения лучше ставить в конце предложения.
Достаточно часто в тестах достижений можно найти попытки использования специфичных заданий, специально разработанных психологами для тестов интеллекта. Это в основном три вида заданий: аналогии, классификации и исключения лишнего.
Их особенность заключается в том, что результат выполнения зависит не только от знания предметного содержания задания, но и от той интеллектуальной операции, выполнение которой предполагает данное задание. Как говорят психологи, эти задания нагружены разными факторами, один из которых - собственно результаты обучения, а другой отражает личностные особенности испытуемого. Поэтому использовать их в тестах нужно очень аккуратно, а лучше вообще отказаться в пользу нейтральных форм заданий. По форме это могут быть задания как открытого, так и закрытого типа.
Рассмотрим специфику каждого из этих трёх видов заданий.
Задания «аналогии».
Форма представления: А так относится к В, как С относится к ...?
Задания аналогии имеют сокращённую форму записи, которая применяется тогда, когда задания представлены серией и нет необходимости повторять инструкции для каждого задания: А:В=С:?
Задания исключения.
В таких заданиях испытуемому предъявляется список объектов, слов, фигур, чисел и т.д. – всего, что только может придумать разработчик тестов. Испытуемый должен найти общие закономерности отношения между элементами списка и на их основании сделать заключение о подобии или различии предложенных объектов. Очевидно, что при этом необходимо выявление отношений и связей.
Задания «последовательности».
В них от учащегося требуется продолжить ряд, добавить элемент ряда в начало или середину. Наиболее известные задания этого типа – числовые последовательности.
Для правильного составления тестовых заданий важно соблюдать следующие требования:
· вопрос должен содержать одну законченную мысль;
· при составлении вопросов следует особенно внимательно использовать слова «иногда», «часто», «всегда», «все», «никогда», которые, с одной стороны, сами по себе содержат неопределённость и могут пониматься субъективно, что может приводить к ошибочным ответам, а с другой стороны, дают возможность учащимся догадываться о правильном ответе;
· вопрос должен формулироваться чётко, избегая слов «большой», «небольшой», «малый», «много», «мало», «меньше», «больше» и т.д.;
· чаще использовать количественные термины;
· избегать вводных фраз или предложений, имеющих мало связи с основной мыслью; не следует прибегать к пространным утверждениям, так как они приводят к правильному ответу, даже если учащийся его не знает;
· число ответов «да» и «нет» в тесте должно быть приблизительно равным, что исключает тенденцию отвечать одинаково на все вопросы;
· не следует задавать вопросы с подвохом (скорее всего, в заблуждение будут введены наиболее способные или осведомлённые учащиеся, которые знают достаточно много для того, чтобы попасться в ловушку. Кроме того, это противоречит цели - определению уровня знаний и понимания);
· лучше использовать один вариант правильного ответа, и если инструкция требует выбрать правильный ответ, то таковым должен быть только один. В противном случае в инструкции необходимо указать, что правильных ответов несколько;
· все варианты ответов должны быть грамматически согласованы с основной частью задания;
· неправильные ответы должны быть разумны, умело подобраны, не должно быть явных неточностей;
· как можно реже использовать отрицание в основной части, особенно - многократно в одном предложении. С одной стороны, это приводит к противоречиям при чтении задания, с другой - отрицательные знания не так важны, как позитивные;
· ответ на поставленный вопрос не должен зависеть от предыдущих ответов;
· место правильного ответа должно быть определено таким образом, чтобы оно не повторялось от вопроса к вопросу, не было закономерным, а давалось в случайном порядке;
· правильные и неправильные ответы должны быть однозначны по содержанию, структуре и общему количеству слов;
· если ставится вопрос количественного характера, то ответы к нему должны располагаться упорядоченно от меньшего к большему или наоборот;
· лучше не использовать варианты ответов «ни на один из перечисленных» и «все перечисленные». Применение первого целесообразно, когда существует недвусмысленный правильный ответ. Второй приводит к допустимости подбора вариантов с низкой дискриминативностью, поскольку разработчик знает, что все ответы правильные;
· лучше использовать длинный вопрос и короткий ответ. В противоположной ситуации на прочтение ответов уходит больше времени и больше сил тратится на анализ высказываний. Это противоречит поставленной в данном случае цели - выявлению усвоенных учащимся заданий.
После того как задания будут составлены, необходимо их упорядочить. Для этого существуют определенные правила (по П. Клайну):
1. Составьте базу данных для заданий, при этом представьте каждую задачу на отдельном листе, предусмотрев место для занесения экспертных оценок, времени, необходимого для её выполнения, уровня сложности и прочих характеризующих её данных.
2. Проверьте содержание и формулировку задач во взаимосвязи друг с другом.
3. Располагайте задания каждого типа вместе. Инструкцию и пояснения необходимо давать один раз для каждой группы заданий. Это даёт возможность испытуемым приспособиться к данному типу заданий.
4. Располагайте задания в порядке возрастания предполагаемой трудности. Это предотвратит случаи, когда слишком старательный испытуемый тратит всё своё время (или большую его часть) на задания, которые он не может решить, и таким образом лишает себя возможности выполнить другие, по которым он мог бы получить баллы, а в результате все формы анализа заданий будут неточными. При апробации теста бывает полезно включить в инструкцию пункт о том, что если испытуемому не удаётся справиться с заданием, его необходимо пропустить, а после окончания работы, если останется время, вернуться к вызвавшему трудность заданию.
5. Не комплектуйте вместе такое количество заданий, для выполнения которых среднему испытуемому потребуется более получаса – для детей начальной школы; для старшеклассников – более часа (примерно столько длится период сосредоточения у детей.) Если существует необходимость выполнения заданий большей продолжительности, технология проведения должна предусматривать перерыв. Необходимо отметить, что время появления утомления во многом зависит от мотивации (при этом слишком высокая и слишком низкая мотивация быстрее вызывают утомление), разнообразия» материалов тестирования, способа проведения, эмоциональной подготовленности учеников.
6. При конструировании бланковых тестов лучше размещать задачи на листах брошюры так, чтобы они были пространственно разнесены и легко воспринимались. Задания и варианты ответов к ним должны располагаться на одной странице.
7. Важные части инструкции должны быть подчёркнуты или выделены особым шрифтом. Сделайте бланки ответов. Размножьте брошюры и бланки. Можно считать, что для проведения апробации всё готово, за исключением одного – необходимо выбрать контингент, на котором будет испытан тест. Правила построения выборки мы обсуждали в предыдущей главе. Для профессиональной работы необходимо обратиться к одному из изданий, приведённых в конце книги.
Проверка трудности задач
Важным шагом в конструировании теста является проверка трудности
предложенных задач. Для этого необходимо провести предварительное тестирование экспериментальной группы (выборки). После того, как определён состав выборки, испытуемым предлагается решить составленные задачи. Полученные ответы анализируются с целью установления трудности, обоснованности и дискриминативности каждого вопроса, пригодности каждого варианта ответов. Результатом анализа становится отбор и корректировка задач, а также их перераспределение внутри теста.
Трудность задачи является важнейшей характеристикой, определяющей её место в тесте. Трудность может быть субъективной и статистической.
Субъективная трудность задачи связана с индивидуально-психологическим барьером учащихся. В психологии величина этого барьера определяется различными факторами, в том числе:
1. Условиями решения задачи (временем, отведённым на решение, понятностью инструкции т.п.).
2. Уровнем формирования необходимых для решения знаний, умений и навыков.
3. Состояние испытуемого и т.д.
Для снижения влияния перечисленных факторов определяется стандартная форма процедуры тестирования.
В большинстве случаев для тестов достижений достаточно учитывать только правильность решения задач и меньше внимания уделять способу решения, характеру затруднений, энергетическим затратам испытуемого. В связи с этим определяется и используется статистическая трудность задач.
Статистическая трудность определяется долями решивших и не решивших задачу в выборке. Например, если задачу решили только 20% участников тестирования, то её можно оценить как трудную для данной выборки, если 80% – как лёгкую. При этом значимым является только факт выполнения или невыполнения задания, причины неудач не рассматриваются.
Статистическая трудность позволяет определить место задачи в тесте. Так, если задачу решает большинство испытуемых, то её, как лёгкую, помещают в начале; в том случае, когда с задачей справляется незначительный процент испытуемых, то её, как трудную, помещают в конце теста. Самые лёгкие задачи (одну-две) выносят перед основными задачами теста и используют в качестве примеров. Итогом распределения задач по степени их трудности должна стать «лестница» усложняющихся задач, каждая ступень которой представлена процентом испытуемых, решивших соответствующую задачу.
В тестах достижений трудности задач лучше всего определять в условиях «мягкого» лимита времени или совсем без его ограничения, фиксируя правильность и время решения.
Если трудность задания нормативно-ориентированного теста составляет меньше 20 или больше 80%, то его необходимо переработать или отбраковать. Для тестов, ориентированных на критерий, значение трудности не так существенно.
Определение дискриминативности (дифференцирующей способности) заданий
Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью. Дискриминативность обозначает различительную способность задачи.
Для ее определения могут применяться коэффициент и индекс дискриминации, формула Фергюссона.
Самый простой и наглядный способ вычисления дискриминативности – применение метода крайних групп, когда при расчете учитываются результаты учащихся, наиболее и наименее успешно справившихся со всем тестом. Как правило, берут по 27% лучших и худших по результатам выполнения всего теста. Индекс дискриминации вычисляется как разность долей испытуемых из высокопродуктивной и низкопродуктивной групп, правильно
Если ученики, лучше справившиеся со всем тестом, задание выполняют хуже или так же, как ученики, справившиеся со всем тестом плохо, дискриминативность признается неудовлетворительной. Это означает, что задание имеет существенные изъяны.
Типичными недостатками задач, оказывавшихся непригодными, являются:
1. Излишняя сложность, запутанность формулировки.
2. Неоднозначность условия.
3. Очевидность решения.
4. Зависимость результата от памяти или от других индивидуальных особенностей испытуемого, а не от уровня развития тех умений и навыков, для оценки которых разрабатывается тест (кроме заданий, где необходима именно работа памяти).
5. Абсурдность, нереальность вариантов ответов.
6. Появление двух и более правильных ответов, не оговоренное в условии.
Таким образом, дискриминативность ставит заслон некачественным заданиям.
Определение дискриминативности обязательно для тестов, использующихся для отбора учащихся, вступительных экзаменов, итоговой аттестации.
Показатели качества тестов
Требования к тестам как измерительному инструменту содержат требования к расчету показателей качеств тестов и требования к их оснащению.
Надежность
Надежность теста является одним из критериев его качества и показывает, насколько точно измеряет данный тест изучаемое явление, его «помехоустойчивость». Она, как правило, определяется после проведения анализа задач и составления окончательной формы теста.
Надёжность характеризует точность теста как измерительного инструмента, его устойчивость к действию помех (состояния испытуемых, их отношения к процедуре тестирования и т.п.). Качественный тест не может быть создан без тщательного изучения этого важного аспекта измерения. Использование ненадёжных тестов, допуск большого количества ошибок в таком ответственном деле, каким является тестирование людей, могут стать причинами педагогических и административных ошибок, последствия которых трудно исправить.
В психологии термин «надёжность» применяется в двух значениях. Во-первых, тест называется надёжным, если он является внутренне согласованным.- Во-вторых, тест называется надёжным, если он даёт одни и те же результаты для каждого испытуемого при повторном тестировании. Такая надёжность называется ретестовой.
Для тестов учебных достижений особую важность приобретает ретестовая надёжность, поскольку специфика заданий тестов учебных достижений делает внутреннюю согласованность достаточно прозрачной.
Если балл, полученный учеником в результате теста по оценке результатов, будет соответствовать той оценке, которую они получили бы при повторном прохождении того же теста или идентичного с ним по форме, то данная оценка считается высоко надёжной. Все тестовые результаты содержат некоторый процент ошибок (в связи с различием факторов, таких, как условия тестирования или студенческие ответы), но процент ошибок может быть уменьшен путём увеличения количества и усовершенствования качества вопросов, задаваемых в тесте. Чем длиннее тест, тем более надёжными и адекватными будут результаты.
Надёжность определяется как коэффициент корреляции.
Для его выявления необходимо получить два ряда оценок, в которых будут присутствовать результаты оцениваемого инструмента. Результаты должны быть получены в разных условиях.
Теоретически может быть всего три варианта получения таких рядов: либо разнесение результатов по времени, либо разделение теста на две части и проведение этих частей на одинаковой выборке учащихся, либо разделение группы учащихся на эквивалентные подгруппы и тестирование их одним инструментом.
На практике используются три основных метода оценки надёжности тестов:
1. Повторное тестирование (ретестирование).
2. Расщепление теста (тестирование параллельной формой теста).
3. Расщепление группы.
Метод повторного тестирования (ретестирование) является основным при определении надёжности психологических тестов, но его применение к тестам достижений ограничено.
Этот метод предусматривает повторное тестирование через некоторый промежуток времени. Однако за это время дети успевают подрасти, узнать что-то новое, иногда забыть известное. Таким образом, высокая динамика изменений объекта измерения ограничивает применение данного метода для тестов школьных достижений.
Поэтому при подготовке тестов школьных достижений для использования остаются два способа – разделение теста на части и тестирование эквивалентных групп.
Источниками неудовлетворительной надёжности тестов могут быть:
· запоминаемость содержания задач и способов их решения;
· интересность и оригинальность задач; - небольшое количество задач;
· небольшое время между первым и вторым проведением теста;
· причины, связанные с испытуемыми: усталость, скука, невнимательность, жара или холод, самочувствие, различная мотивация и т.д.
Повышение надёжности возможно двумя путями – ужесточением инструкции и повышением качества подготовки экспериментаторов.
Валидность
Ещё одной важнейшей характеристикой теста является его валидность.
Валидность особенно значима для тестов, ориентированных на критерий, поскольку определение надёжности для них затруднено. По мнению Н. Гронлунда, «в связи с тем, что традиционные оценки надёжности теста основаны на разнообразии баллов, возникают особые проблемы при разработке надёжного теста, не требующего такого разнообразия баллов, как это бывает в случае с тестами, ориентированными на критерий. В этом случае появляется более сильная зависимость от соответствия тестовых вопросов конкретным учебным задачам, что достигается путём использования достаточного числа вопросов для каждой изучаемой задачи и разработкой письменных вопросов, которые вызывают ожидаемый ответ».
Валидность и надёжность – связанные понятия. В литературе мы находим различные примеры, иллюстрирующие их связь. Вот один из них. Допустим, имеются два стрелка: А и В. Стрелок А выбивает 90 очков из 100, а стрелок В - только 70. Соответственно, надёжность стрелка В – только 0,7. Однако стрелок А всегда стреляет по чужим мишеням, поэтому на соревнованиях его результаты не засчитываются. Стрелок В всегда правильно выбирает мишени. Поэтому валидность стрелка А нулевая, а стрелка В – 0,7, то есть равна надёжности. Если стрелок А станет правильно выбирать мишени, его валидность тоже будет равна его надёжности. Если же он будет иногда путать мишени, то часть результатов не будет зачтена и валидность стрелка А будет ниже надёжности.
В этом примере аналогом надёжности является меткость стрелка, а аналогом валидности – точность стрельбы по строго определённой «своей» мишени. В истории тестологии известны случаи, когда тест с низкой валидностью для измерения одних свойств (тех, для которых он создавался) оказывался валидным по отношению к другим. Ненадёжный тест не может быть валидным, и, наоборот, валидный тест всегда надёжен.
Понятие «валидность» очень часто вызывает путаницу не только среди педагогов, но и среди психологов. Причины этой путаницы носят исторический и лингвистический характер.
Валидность определяет, насколько тест отражает то, что он должен оценивать.
В современной тестологии выделяются следующие основные виды валидности:
1. Валидность по содержанию (содержательная).
2. Конструктная (концептуальная) валидность.
3. Валидность по критерию (критериальная или эмпирическая валидность).
1. Валидность по содержанию (содержательная)
Содержательная валидность устанавливается экспертами для деятельности, близкой или совпадающей с реальной.
Определение содержательной валидности – основное для тестов достижений и тестов профессиональной успешности, когда должен быть точно определён материал, применяемый для тестирования, и когда существует достаточная ясность смысла измеряемого параметра.
Очевидно, что содержательная валидность будет полезна только тогда, когда могут быть определены специальные навыки и особенности поведения. Это довольно легко можно сделать на элементарном уровне – при тестировании арифметических навыков (правил выполнения четырёх арифметических операций, правил вычислений с 0 и т.п.), знаний в области искусства (правил нотной записи, принципов архитектуры и др.), а также знаний базовых элементов для большинства научных дисциплин, в которых накоплен багаж фактических данных. Содержательная валидность определяется на основе экспертных методов.
П. Клайн предлагает следующую процедуру определения содержательной валидности для тестов достижений:
1. Укажите точно категорию лиц, для которой предназначен тест.
2. Определите навыки, подлежащие тестированию (возможно, вам потребуется их проанализировать). Составьте список.
3. Передайте этот список экспертам в данной области (учителям и т.п.) для проверки – нет ли упущений.
4. Преобразуйте этот список в перечень заданий, используя, когда это возможно, равное количество заданий на каждый навык.
5. Представьте эти задания экспертам для проверки.
6. Подвергните задания обычным процедурам конструирования тестов. В результате должен быть получен содержательно валидный тест.
2. Конструктивная (концептуальная) валидность
Этот вид валидности определяется в тех случаях, когда представление об измеряемом феномене (конструкте) существует только в сознании исследователя. Разработчик теста может лишь строить гипотезу о существовании данного конструкта, его формах и характере проявления. Устанавливается концептуальная валидность путём доказательства правильности теоритических концепций, положенных в основу теста. Это особенно необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа для выводов о том, в какой степени испытуемые обладают некоторой характеристикой.
Если эмпирические данные подтверждают гипотезу, то тем самым подтверждается концепция, положенная в основу теста, и способность теста служить инструментом измерения данного конструкта. Ошибки при проведении валидности могут возникнуть как следствие неправильной теоретической концепции, положенной в основу теста, или отсутствия соответствия между тестом и теоретической концепцией, или ошибочного выдвижения гипотез.
Непосредственно для тестов учебных достижений этот вид валидности не используется, однако овладение этим методом может быть чрезвычайно полезно для системы мониторинга, поскольку он даёт возможность обоснования истинности, реальности существования понятий и явлений.
3. Валидность по критерию (критериальная или эмпирическая валидность)
Суть её заключается в определении способности теста служить индикатором или предсказателем строго определённой психической особенности, формы поведения человека и др.
Валидизация теста по критерию состоит в сравнении баллов, полученных испытуемыми за решение теста, с данными по критерию и вычислении коэффициента корреляции тестового результата с внешним критерием. Например, школьный тест умственного развития (ШТУР) валидизировался на основе критерия школьной успеваемости - оценок детей по предметам. В качестве критерия может выступать любой показатель, независимо и бесспорно измеряющий ту же психологическую характеристику, что и валидизируемый тест.
Для тестов учебных достижений наибольшее распространение нашли такие способы определения внешнего критерия, как метод коллективной оценки, метод средневзвешенной оценки, метод ранжирования и метод парного сравнения.
В литературе можно встретить немало других видов валидности, которые получены классификацией по другим основаниям: очевидная (с точки зрения испытуемого), конкурентная (определяется по корреляции с результатами использования инструмента, определяющего тот же показатель, что и создаваемый инструмент), внешняя, внутренняя, прогностическая и т.д.
Для всех тестов учебных достижений должна быть определена содержательная валидность, а для тестов, используемых для аттестации учащихся, – содержательная и критериальная.
Нормирование
Одно из преимуществ тестов по сравнению с другими видами измерений заключается в том, что они имеют основания для сравнения. Для тестов, ориентированных на критерий, – это полученный на основе экспертных оценок критерий значимости, превышение которого учеником означает, что он успешно справился, готов, прошёл и т.д., в зависимости от целей тестирования.
Для нормативно-ориентированных тестов основанием для сравнения служат статистические нормы. Возможно сравнение показателя некоторого испытуемого с показателями в генеральной совокупности или других релевантных группах, что в конечном счёте даёт возможность адекватной интерпретации полученного показателя. Таким образом, нормализация тестов наиболее важна в тех случаях, когда осуществляется явное или неявное сравнение показателей испытуемых, как, например, при профориентации или отборе в целях обучения, построении систем мониторинга в образовании.
Тестовые нормы представляют собой установленные на базе репрезентативной выборки эмпирические усреднённые количественные данные о результатах выполнения теста, полученные в стандартных условиях.
По широте охвата можно выделить:
· универсальные нормы – устанавливаются для широкого контингента людей и лишь в малой степени зависят от действия каких-либо признаков;
· национальные нормы – применяются для представителей конкретной народности или страны в целом и учитывают особенности культуры, норм и традиций обследуемых;
· региональные нормы;
· локальные нормы.
В образовании в настоящее время мы можем вести речь о региональных и локальных нормах – нормах для Екатеринбурга, для Калуги, нормах для Тульской области, нормах для Санкт-Петербурга и т.д.
ЕГЭ как форма итоговой аттестации должен быть «нормированным инструментом» на национальном уровне.
При разработке тестовых норм необходимо учитывать следующее:
1. Нормы устанавливаются при разработке нового теста, адаптации или редактировании существующего, если он используется на выборке, отличающейся от стандартизированной по каким-либо критериям,
2. Введение нового типа нормировочного балла при разработке теста должно быть обосновано.
3. Стандартизированная выборка при разработке норм должна быть хорошо сбалансирована по составу и численности.
4. Все отклонения от процедуры нормирования тестовых результатов должны оговариваться в прилагаемых руководствах.
Методическое оснащение
Методическое оснащение должно решать одну из основных задач объективности получаемых при тестировании результатов – обеспечивать одинаковость условий для всех испытуемых.
Методическое оснащение включает в себя две части – сведения, которые необходимо знать пользователю теста об инструменте, и указания, содержащие правила предъявления теста испытуемым.
Сведения для пользователей оформляются в виде спецификации. Она обязательна для тестов, предназначенных для внешнего использования. В ней излагается:
· классификационная характеристика теста (назначение и психолого-педагогическое содержание);
· ограничения и показания для применения;
· состав теста;
· описание существующих форм и модификаций;
· ссылка на апробацию теста;
· ключи;
· правила обработки данных;
· устройство шкал;
· данные о надёжности и валидности;
· правила интерпретации результатов.
Требования к процедуре проведения должны быть зафиксированы в инструкциях для исследователя (ведущего).
Требования к формальной стороне процедуры проведения могут быть следующие:
· обеспечение инструментарием в необходимых количествах в случае, когда используются простые материалы: карандаши, ластики, ручки, фломастеры (необходимо иметь их полуторакратный запас);
· наличие столов и стульев в количестве, необходимом для проведения исследования, в соответствии с инструкцией по проведению;
· размещение столов и стульев таким образом, чтобы к каждому испытуемому было удобно подойти;
· обеспечение удобного места за столом для каждого испытуемого путём подбора оснащённого мебелью помещения необходимых размеров;
· оборудование места с максимальным обзором для экспериментатора и, если это необходимо, для наблюдателя.
Особое место среди факторов, влияющих на индивидуальную и групповую работоспособность испытуемых, занимает время проведения теста и характер деятельности учащихся до тестирования. Наиболее благоприятно время с 9 до 12 или с 16 до 18 часов. Поскольку речь идёт о тестах учебных достижений, то наиболее приемлемо время второго или третьего урока первой смены. Авторы тестов могут потребовать не проводить тестирование после занятий физической культурой и спортом.
При организации проведения тестов важно учитывать ситуативные отвлекающие факторы. К ним относятся: шумы (с улицы, из других частей здания, радио- и телетрансляции и т.п.), звонки, стук, звук шагов, гудение неисправных ламп дневного света, запах (пищи, краски и пр.), мигание света, неопрятность столов, помещения и т.д. Непосредственная подготовка к проведению теста заключается в проверке состояния помещения, его оснащения, пригодности для размещения испытуемых, а также устранении или уменьшении ситуативных отвлекающих факторов и проверке наличия, состояния и размещения тестовых установок и материалов.
Наиболее рациональным способом формализации процедуры проведения является написание сценария проведения.
Сценарий проведения исследования в общем виде должен включать в себя следующие необходимые сведения, которые могут сообщаться испытуемым (в зависимости от условий тестирования что-то может быть сокращено или добавлено):
1. Объяснить, зачем нужен тест, какие результаты ожидаются.
2. Объяснить, почему испытуемые должны приложить максимум усилий для его выполнения, акцентировать внимание испытуемых на возможности проверки своих сил или подчеркнуть соревновательный мотив. Отметить, что слишком сильная мотивировка, равно как и слишком слабая, в одинаковой степени негативно сказывается на результативности выполнения задания.
3. Медленно, громко, чётко, без запинок, естественным голосом прочесть инструкцию к тесту с примерами, если они имеются. В данном случае возможен вариант, когда испытуемые самостоятельно следят по своим вариантам текста за инструкцией. При таком порядке возможно воспроизведение инструкции по памяти.
4. Дать возможность испытуемым потренироваться, решив самостоятельно одну или более из задач-образцов, если таковые имеются; проверить, правильно ли понята инструкция.
5. Сообщить о временном ресурсе, о правилах исправления допущенных ошибок, о том, чего не рекомендуется делать при решении задач, к кому обращаться в случае возникновения вопросов.
6. Вместе с испытуемыми или самому записать, если требуется, паспортные и биографические данные в регистрационных бланках. Проследить за правильностью их заполнения.
7. Ответить на имеющиеся вопросы.
8. Дать команду начать решение задач теста. Время начала записать самому или попросить сделать это испытуемых на регистрационном бланке.
9. Во время решения задач или ответов на вопросы следить:
- за временем решения, если это необходимо;
- за наличием отточенных карандашей и других материалов;
- за правильностью заполнения паспортной части регистрационных бланков (если замечена ошибка, своевременно её устранить);
- за тем, чтобы испытуемые не писали на тестовых брошюрах, если иное не предусмотрено, не портили тестовых установок и приборов;
- за тем, чтобы соседи не общались между собой, не шептались, не мешали друг другу, не подглядывали друг у друга;
- за состоянием испытуемых;
- за тем, чтобы испытуемые своевременно получали ответы на вопросы, связанные с процедурой проведения (ответы не должны служить подсказкой для решения или нарушать указания инструкции, возможные варианты ответов должны быть предусмотрены).
10. После сигнала к окончанию решения задач теста при групповом проведении дать команду сложить брошюры и бланки для ответов в исходное положение или самому собрать их (если участвует не более 30 человек). Если участников тестирования больше 30, то рекомендуется попросить всех оставаться на своих местах, чтобы облегчить сбор материала. Затем попросить передать в начало или конец колонки (ряда) тестовые материалы в следующем порядке: бланки для ответов, брошюры, черновики. После этого пересчитать количество бланков и брошюр, проверить, чтобы их количество совпадало с числом испытуемых.
11. По окончании тестирования просмотреть все брошюры и стереть пометки на них. Если это невозможно – брошюры следует уничтожить.
Кроме этого, сценарий должен предусматривать процедуру приветствия и благодарности за выполненную работу, действия экспериментатора с опоздавшими учащимися, реакцию на просьбы учеников временно покинуть место проведения тестирования, ответы на наиболее часто встречающи|еся вопросы и некоторые другие процедурные вопросы (по усмотрению авторов). Для всех тестов учебных достижений, предназначенных для внешнего использования, обязательна фиксация требований к ведущему тестирование. Проводить тестирование может только специально подготовленный человек. Он должен удовлетворять определённым профессиональным и личностным требованиям:
· быть в зафиксированном статусе в отношении к ученикам: это должен быть педагог преподающий предмет, по которому проводится испытание, завуч, работающий или не работающий в данном классе, педагог иной школы и т.п.;
· должен уметь контролировать себя, быть эмоционально уравновешенным, общительным, тактичным;
· должен понимать задачи эксперимента, быть компетентным в проведении теста, а если ему предстоит обработка результатов – то и в оценивании результатов.
Значительные возможности по стандартизации процедуры проведения тестирования даёт институт наблюдателей.
Наблюдатель – лицо, фиксирующее процедуру проведения и соответствие действий ведущего (исследователя) сценарию тестирования. Наблюдателю запрещается вмешиваться в процесс тестирования. Присутствие наблюдателя, несомненно, удорожает проведение исследования, однако достигаемый при этом значительный выигрыш в качестве компенсирует все дополнительные затраты: ведь в случае некачественного проведения все усилия могут оказаться напрасными. Наблюдатели могут присутствовать не на всех процедурах тестирования, но сама возможность их присутствия в значительной степени дисциплинирует исследователей.
Присутствие наблюдателей позволяет сравнить качество проведения тестирования у разных ведущих, а также в тех группах, где присутствовал наблюдатель, и там, где он не присутствовал. Особенно важно присутствие наблюдателя на этапе апробации инструментария, поскольку он даёт возможность собрать материал для дальнейшей работы над инструментом.
Деятельность наблюдателя заключается в заполнении анкеты наблюдателя, в которой, кроме фиксации времени и оценки правильности выполнения ведущим пунктов сценария, должны присутствовать вопросы по оценке поведения учащихся, корректности поведения ведущего, неординарных случаях. Институт наблюдателей предполагает наличие инструкции по использованию анкеты наблюдателя. В ней должны содержаться сведения о том, при каких нарушениях процедуры, зафиксированных наблюдателем, результаты тестирования могут быть аннулированы.
Памятка для учителя
(о составлении тестовых заданий)
Оценка качества заданий
Для оценки качества заданий применяются такие характеристики, как трудность задачи, коррекция на угадывание и дискриминативность.
Трудность задачи определяется долями выбора, решивших и не решивших задачу. Например, если задачу решили только 20% участников тестирования, то ее можно оценить как трудную для данных испытуемых, если 80% - как легкую.
Трудность задачи позволяет определить место задачи в тесте. Так, если задачу решает большинство испытуемых, то ее помещают в начале, если с задачей справляется незначительный процент, то ее, как трудную, располагают в конце теста.
Основным показателем трудности является индекструдности, который для задания со свободно конструируемым ответом рассчитывается по следующей формуле:
V=100 x (1- ),
где V - индекс трудности в процентах;
n - число испытуемых, правильно решивших задачу, N - общее количество испытуемых.
Задания, которые имеют значения показателя трудности больше 80 или меньше 20, как правило, в тест не включаются.
Дискриминативность задачи определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл. Для ее определения применяется индекс дискриминации. Он вычисляется следующим образом:
Предположим, N-ое количество студентов выполнили тест.
1. Расположите выполненные работы в соответствии с количеством очков, полученных за выполнение теста (например, в порядке убывания).
2. Отберите примерно количества работ с наибольшим количеством очков и назовите это количество высокопродуктивной группой, выберите такое же число работ с наименьшим количеством очков и назовите это низкопродуктивной группой.
3. Определите в той и другой группе количество студентов, правильно выполнивших задание.
4. Определите индекс дискриминации D по следующей формуле:
D=(Np верх/N верх) - (Np ниж/N ниж),
где Np - количество справившихся с задачей испытуемых,
N - общее количество испытуемых в крайних группах.
Индекс дискриминации может принимать значение от -1 до +1.
Индекс, близкий к -1, свидетельствует о непригодности задачи для теста. Если значение D близко к 0, то задачи должны рассматриваться как некорректно сформулированные. Индекс, близкий к 1, является показателем того, что задача хорошо разделяет испытуемых с высокими и низкими результатами по тесту.
ПРИМЕРЫ ТЕСТОВЫХ ЗАДАНИЙ
1. Задания с выбором правильного ответа:
Задания с двумя ответами:
СЛОВА, ПРОТИВОПОЛОЖНЫЕ ПО ЗНАЧЕНИЮ, НАЗЫВАЮТСЯ
1. антонимы
2. синонимы
Задания с двумя ответами лучше всего применять для экспресс-диагностики, при которой точность измерения менее важна, чем быстрота.
Задания с пятью ответами:
Самый распространенный принцип формулирования задания - принцип классификации, при котором к каждому утверждению подбираются ответы, исключающие один другой с точки зрения правильности.
АВТОРОМ ПЬЕСЫ «ТРАМВАЙ ЖЕЛАНИЕ» ЯВЛЯЕТСЯ
1. Миллер
2. Уайльд
3. Уильямс
4. Моэм
5. Кокто
2. Задания открытой формы применяются там, где нужно полностью исключить вероятность получения правильного ответа посредством угадывания и тем самым повысить качество педагогического измерения.
В ПРЕДЛОЖЕНИИ КРАТКОЕ ПРИЧАСТИЕ ВЫПОЛНЯЕТ ФУНКЦИЮ _______________.
3. Задания на установление соответствия:
ПИСАТЕЛИ ПРОИЗВЕДЕНИЯ
1. Л.Н.Толстой А. Игрок
2. Достоевский Б. Обрыв
3. Гончаров В. Фрегат «Паллада»
4. Тургенев Г. Холстомер
Д. Пролог
Е. Дым
Ж. Дворянское гнездо
З. Братья Карамазовы
Рекомендуется, чтобы число элементов правого столбца было примерно в два раза больше числа элементов левого.
Основная сфера применения – текущий и тематический контроль.
4. Задания на установление правильной последовательности: Алгоритмизация деятельности важна на всех этапах обучения, но ее
роль особо проявляется на заключительной стадии профессиональной подготовки и в процессе самой профессиональной деятельности. Задания рассматриваемой формы важны и для проверки системы знаний там, где ведущим системообразующим признаком знаний является упорядоченность элементов.
ЖАНРЫ В ИСТОРИЧЕСКОЙ ПРЕЕМСТВЕННОСТИ
[ ] - новелла
[ ] - трагедия
[ ] - путешествие
[ ] - роман-эпопея
[ ] - былина
[ ] - проповедь
[ ] - ода
[ ] - поэма
[ ] - исповедь
[ ] - роман
Общую оценку можно дифференцировать в зависимости от места ошибки. Если первое событие будет определено неправильно, то неправильно будут определены и другие. И наоборот, ошибка, допущенная в последних элементах задания, не влияет на правильность ответов в первоначальных событиях. Отсюда: безошибочное решение - 3 балла, ошибка в конце задания - 2 балла, ошибка в середине - 1 балл, ошибка в начале - 0 баллов за работу.
Задания на установление правильной последовательности реализуют две функции тестов – контролирующую и обучающую.
Одной из особенностей современной тестовой технологии является создание на базе одного задания любой формы фасетного , или множественного задания. Это означает, что проверка знания признаков, свойств, состава, функций однотипных объектов может быть организована одним и тем же заданием, меняющим в своем тексте только название этих объектов. В заданиях закрытой формы это может выглядеть так:
ТИП ПИТАНИЯ У (РАСТЕНИЙ, ЖИВОТНЫХ, ГРИБОВ)
1. Автотрофный
2. Гетеротрофный
3. Затрудняюсь ответить
Объекты, помещенные в скобки, образуют многовариантность (три задания из одного). При построении каждого отдельного задания текст вне скобок повторяется. Если таких заданий в тесте много, это дает возможность создать бесконечное множество вариантов одного теста.
Дата добавления: 2019-01-14; просмотров: 1401; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!