Этапы разработки тестов учебных достижений



Общий полный перечень этапов создания тестового инструментария может быть представлен следующим списком:

1. Определение целей тестирования.

2. Определение ресурсных возможностей разработчиков.

3. Отбор содержания учебного материала.

4. Конструирование технологической матрицы.

5. Составление тестовых заданий.

6. Построение выборки для апробации заданий и тестов.

7. Компоновка заданий для апробации.

8. Апробация тестовых заданий.

9. Определение и расчёт показателей качества тестовых заданий.

10. Отбраковка заданий и составление теста.

11. Апробация теста.

12. Определение и расчёт показателей качества теста.

13. Составление окончательного варианта теста.

14. Стандартизация теста.

15. Нормирование теста.

16. Оснащение теста.

Этот список полный, поскольку в нём представлены все этапы созда­ния тестов и общий, поскольку подходит для создания большинства видов тестов.

Создание теста начинается с определения целей тестирования. Ко­нечно, для тестов, которые предполагается использовать для сравнения результатов между несколькими классами одного образовательного учреж­дения, и тестами, предназначенными для итоговой аттестации учащихся, существует значительная разница.

 

Требования к тестам

Выяснив цели составления тестов, уточнив подходы и выбрав уровень использования, разработчик определяет необходимые этапы создания тестового инструментария. После этого необходимо отобрать содержание образования, то есть составить модель объекта педагогического тестирования. Она может быть представлена в виде технологической матрицы. Технологическая матрица задаёт содержание, которое будет отобрано для проверки, и важность того или иного элемента содержания. Она может содержать уровни достижений, которые будут проверены, их соотношение, соответствие стандарту и некоторые другие компоненты.

Для тестов, ориентированных на критерии (критериально-ориентированных), отбор содержания теста является самым важным этапом создания, так как для принятия решения о достижении данной цели обучения, напри­мер стандарта, необходимо достаточно точно и полно описать содержание стандарта и выразить его представительной совокупностью заданий. Поэ­тому главной проблемой в разработке тестов, используемых для оценки достижения образовательных стандартов, является соотношение содержания стандарта и содержания теста.

 

В самом общем виде тестовые задания должны:

· быть составлены с учётом соответствующих правил;

· соответствовать содержанию учебного материала;

· быть проверены на практике (апробированы);

· иметь рассчитанные показатели качества - сложность и дискриминатив­ность;

· быть максимально разнообразными по форме.

Несмотря на многообразие видов заданий, все они могут быть сведе­ны к нескольким типам или их сочетанию. Например, задача с переструктурированием данных может быть представлена как совокупность задач последовательности и соответствия; задания на нахождение ошибок - как частный случай заданий на исключение лишнего и так далее.

С точки зрения разработчика, минимальные требования к тестовому заданию заключаются в наличии трёх частей:

1. Инструкции.

2. Текста задания (вопроса).

3. Правильного ответа.

Инструкция должна указывать на то, что должен сделать испытуемый, каким образом выполнять задание, где и как делать пометки и записи, описывать то, что ученик должен сделать руками. Например:

- «ответ запишите в рамку, которая находится ниже задания. Для проме­жуточных вычислений используйте место слева от вопроса...»;

- «в третьем столбце над строчками впишите цифры, соответствующие по­нятиям, обозначенным буквами в этой же строке...»;

- «используя калькулятор, проведите вычисления, ответ запишите в бланке в строке 4...» и т.д.

В тестах допускается делать одну инструкцию для группы однотипных заданий и помещать её в начале данной группы заданий. Для проверки то­го, как испытуемые поняли инструкцию, желательно снабдить её несколь­кими примерами, которые разбираются вместе с проводящим тестирование.

Текст задания или вопроса представляет собой содержательное наполнение задания.

Правильный ответ – обязательный атрибут любого тестового задания. Без него задание, за исключением, пожалуй, самых тривиальных, теряет смысл, поскольку не может быть точно проанализировано и оценено с учё­том авторского замысла.

Перечисленные части тестового задания являются минимально необхо­димыми для составления тестов.

Кроме того, составителям тестовых заданий целесообразно указы­вать:

· - возраст(класс), на который рассчитано задание;

· тему (предмет или предметную область, в соответствии с технологи­ческой матрицей);

· предполагаемое автором время выполнения задания;

· сроки предъявления (календарные сроки, поскольку одно и то же зада­ние, будучи предъявленным, например, в октябре и феврале, даст разные результаты и соответственно должно иметь разные характеристики);

· предполагаемую статистическую сложность;

· уровень, который соответствует данному заданию, или умения, которые оно выясняет;

· соответствие стандарту или программному материалу;

· данные составителя;

· возможные варианты невербальной поддержки;

· некоторые другие сведения, содержание которых определяется, как правило, специфическими целями создания данного инструмента.

Как правило, для составителей заданий готовятся специальные блан­ки, в которых формализуется требуемая информация.

Существует основное требование к тестовым заданиям:

Тестовое задание должно иметь однозначный правильный ответ.

Данное правило требует пояснения. Часто понятие однозначности от­вета трактуется как требование единственности или наличия предполагае­мого образца. В данном случае однозначность понимается как возможность любого пользователя на основе сравнения ответа учащегося и правильного ответа, предложенного разработчиком, сделать однозначный вывод о том, выполнил данный ученик это задание верно или нет. Поэтому правильный ответ разработчика может заключаться не только в эталонном ответе, но и в описании схемы анализа, содержать конструкции «и, ... и», «...или...», описывать вариант неправильного ответа, считая все ос­тальные правильным.

Все формулировки ожидаемых ответов должны быть предельно ясными и недвусмысленными, чтобы при оценивании у проверяющего не могло возник­нуть сомнения в правильности засчитываемого ответа.

Существует два типа заданий, которые объединяют пять видов. К этим видам может быть сведено всё многообразие существующих заданий без ущерба для их качества.

К заданиям закрытого типа относят задания трёх видов: альтернативных ответов, множественного выбора и восстановления соответствия.

Тестовые задания закрытого типа предусматривают различные вариан­ты ответа на поставленный вопрос: из ряда предлагаемых выбирается один (или несколько) правильный ответ, выбираются правильные (или непра­вильные) элементы списка и др. Это задания с предписанными ответами, что предполагает наличие предварительно разработанных вариантов ответа на заданный вопрос.

1. Задания альтернативных ответов (АО).

К каждой задаче этого вида даётся только два варианта ответов. Испытуемый должен выбрать один из них - «да» или «нет», «правильно» или «неправильно» и пр.

Форма задания:

утверждение 1 да нет

утверждение 2 да нет

утверждение 3 да нет

утверждение 4 да нет и т.д.

Инструкция для заданий альтернативных ответов: обведите кружком вариант ответа «да» или «нет», который вы считаете правильным.

Задания АО являются самыми простыми, но не самыми распространёнными при составлении тестов. Это связано в основном со специфичностью того материала, которому в большей степени соответствует форма зада­ний. Задания альтернативных ответов применяются для оценки одного эле­мента знаний. Их использование в виде отдельного вопроса приводит, как правило, к тривиальному тестированию и применяется достаточно редко. Эта форма целесообразна для использования в серии, когда для одного элемента знания задаётся несколько вопросов. В такой форме задания альтернативных ответов в большей степени подходят для выявления уровня овладения сложными определениями, знания достаточно сложных графиков, диаграмм, схем и т.д.

2. Задания множественного выбора. Это основной вид заданий, применяемый в тестах достижений.

Задачи с множественным выбором предполагают наличие вариативности в выборе. Они состоят из двух частей: формулировки задания и вари­антов ответов. Испытуемый должен выбрать один из предложенных вариан­тов, среди которых чаще всего только один правильный. Однако задачи формулируются так, чтобы в них было не менее 3 правдоподобных, похожих на правильные ответов. Именно этим обеспечивается независимость ре­зультатов от случайного выбора.

Форма представления заданий:

Вопрос (утверждение):

А. Вариант ответа 1.

В. Вариант ответа 2.

С. Вариант ответа 3.

D . Вариант ответа 4.

Е. Вариант ответа 5.

Инструкция для заданий множественного выбора: обведите кружком букву, соответствующую варианту правильного ответа.

3. Задания на восстановление соответствия.

В задачах соответствия (восстановления соответствия) необходимо найти или приравнять части, элементы, понятия конструкциям, фигурам, утверждениям; восстановить соответствие между элементами двух списков. К этому же типу следует отнести и задания, в которых требуется восста­новить порядок ряда, упорядочить. Предложенные элементы задания могут рассматриваться как частный случай заданий на восстановление соответс­твия, в которых только один ряд. Данный вид заданий имеет достаточно много модификаций, от которых зависят инструкции. Наиболее распростра­нённой формой ответа, которая реально применяется педагогами, особенно в начальной школе, является вариант с использованием стрелочек: нари­суйте стрелочки от элементов первого списка ко второму, соедините стрелками соответствующие понятия и т.д. Сам по себе способ с исполь­зованием стрелочек вполне правомерен, однако он имеет два существенных недостатка: первый – сложность проверки, особенно когда необходимо проверить большое количество работ; и второй – опасность того, что ученики, привыкнув к рассматриваемому способу и встретив в дальнейшем классическую форму задания, воспримут её как неизвестную, что может снизить их результаты. Форма представления:

Ряд 1

Ряд 2

Место для ответов 1. А _____ 2. В _____ 3. С _____ 4. О

Инструкция: «в графу для ответов впишите цифры ряда 1, соответству­ющие ряду 2».

Задания открытого типа.

К ним относятся задания двух видов: – свободного изложения (свободного конструирования) и дополнения. Первый вид предполагает свободные ответы испытуемых по сути задания. Ограничения на ответы не накладываются, однако форму­лировки заданий должны обеспечивать наличие только одного правильного ответа. В заданиях-дополнениях (задачах с ограничением на ответы) испытуемые также должны самостоятельно давать ответы на вопросы, однако их возможности ограничены. Ограничения обеспечивают объектив­ность оценивания результата выполнения задания, а формулировка ответа должна дать возможность однозначного оценивания.

Инструкция для заданий дополнения: вместо каждого многоточия впишите только одно слово (символ, знак и т.д.); вместо многоточия впиши­те нужное слово; выпишите на бланк слова, которые пропущены в тексте; вместо многоточия впишите нужный символ; запишите ответ в отведённое место, то есть один пропуск подразумевает одно слово (знак, символ, выражение).

Инструкция для заданий свободного изложения: закончите предложение (фразу), впишите вместо многоточия правильный ответ; до­полните определение, записывая ответ в бланке, и т.д., то есть вместо многоточия можно вписать словосочетание, фразу, предложение или даже несколько предложений.

Выполнение основного требования для заданий до­полнения не представляется сложным, правильным ответом будет то самое выражение, слово и т.д., которое необходимо вписать испытуемому. Для заданий свободного изложения выполнение основного требования к тесто­вым заданиям сложнее. Для этого необходимо формализовать сам ответ.

В том случае, когда результатом выполнения задания служат цифро­вые выражения, структура фразы подразумевает два-три однозначных слова. Для других случаев возможно: а) выделить в ответе ключевое слово или фразу и в зависимости от их наличия оценивать ответ как правильный или неправильный; б) выделить несколько смысловых, фик­сируемых элементов и ранжировать на их основе правильные ответы. Нап­ример, «ответ на данный вопрос оценивается двумя баллами, если он со­держит слова «геологической» и «организмами»; если он содержит одно из этих слов, то – одним баллом; во всех остальных случаях задание счита­ется невыполненным»; в) если предложенные варианты на подходят, ис­пользовать для задания иную форму.

Специфические требования к заданиям открытого типа:

· использовать не более трёх пропусков подряд, лучше один-два;

· дополнять наиболее важное понятие, определение, знание ко­торого нужно проверить;

· дополнения лучше ставить в конце предложе­ния.

Достаточно часто в тестах достижений можно найти попытки использования специфичных заданий, специально разработанных психологами для тестов интеллекта. Это в основном три вида заданий: аналогии, класси­фикации и исключения лишнего.

Их особенность заключается в том, что результат выполнения зави­сит не только от знания предметного содержания задания, но и от той интеллектуальной операции, выполнение которой предполагает данное за­дание. Как говорят психологи, эти задания нагружены разными факторами, один из которых - собственно результаты обучения, а другой отражает личностные особенности испытуемого. Поэтому использовать их в тестах нужно очень аккуратно, а лучше вообще отказаться в пользу нейтральных форм заданий. По форме это могут быть задания как открытого, так и закрытого типа.

Рассмотрим специфику каждого из этих трёх видов заданий.

Задания «аналогии».

Форма представления: А так относится к В, как С относится к ...?

Задания аналогии имеют сокращённую форму записи, которая применяется тогда, когда задания представлены серией и нет необходимости повторять инструкции для каждого задания: А:В=С:?

Задания исключения.

В таких заданиях испытуемому предъявляется список объектов, слов, фигур, чисел и т.д. – всего, что только может придумать разра­ботчик тестов. Испытуемый должен найти общие закономерности отношения между элементами списка и на их основании сделать заключение о подобии или различии предложенных объектов. Очевидно, что при этом необходимо выявление отношений и связей.

Задания «последовательности».

В них от учащегося требуется продолжить ряд, добавить элемент ряда в начало или середину. Наиболее известные задания этого типа – числовые последовательности.

Для правильного составления тестовых заданий важно соблюдать следующие требования:

· вопрос должен содержать одну законченную мысль;

· при составлении вопросов следует особенно внимательно использовать слова «иногда», «часто», «всегда», «все», «никогда», которые, с одной стороны, сами по себе содержат неопределённость и могут пониматься субъективно, что может приводить к ошибочным ответам, а с другой сто­роны, дают возможность учащимся догадываться о правильном ответе;

· вопрос должен формулироваться чётко, избегая слов «большой», «не­большой», «малый», «много», «мало», «меньше», «больше» и т.д.;

· чаще использовать количественные термины;

· избегать вводных фраз или предложений, имеющих мало связи с основ­ной мыслью; не следует прибегать к пространным утверждениям, так как они приводят к правильному ответу, даже если учащийся его не знает;

· число ответов «да» и «нет» в тесте должно быть приблизительно рав­ным, что исключает тенденцию отвечать одинаково на все вопросы;

· не следует задавать вопросы с подвохом (скорее всего, в заблуждение будут введены наиболее способные или осведомлённые учащиеся, которые знают достаточно много для того, чтобы попасться в ловушку. Кроме то­го, это противоречит цели - определению уровня знаний и понимания);

· лучше использовать один вариант правильного ответа, и если инструк­ция требует выбрать правильный ответ, то таковым должен быть только один. В противном случае в инструкции необходимо указать, что правиль­ных ответов несколько;

· все варианты ответов должны быть грамматически согласованы с основ­ной частью задания;

· неправильные ответы должны быть разумны, умело подобраны, не должно быть явных неточностей;

· как можно реже использовать отрицание в основной части, особенно - многократно в одном предложении. С одной стороны, это приводит к про­тиворечиям при чтении задания, с другой - отрицательные знания не так важны, как позитивные;

· ответ на поставленный вопрос не должен зависеть от предыдущих отве­тов;

· место правильного ответа должно быть определено таким образом, что­бы оно не повторялось от вопроса к вопросу, не было закономерным, а давалось в случайном порядке;

· правильные и неправильные ответы должны быть однозначны по содержа­нию, структуре и общему количеству слов;

· если ставится вопрос количественного характера, то ответы к нему должны располагаться упорядоченно от меньшего к большему или наоборот;

· лучше не использовать варианты ответов «ни на один из перечислен­ных» и «все перечисленные». Применение первого целесообразно, когда существует недвусмысленный правильный ответ. Второй приводит к допус­тимости подбора вариантов с низкой дискриминативностью, поскольку раз­работчик знает, что все ответы правильные;

· лучше использовать длинный вопрос и короткий ответ. В противополож­ной ситуации на прочтение ответов уходит больше времени и больше сил тратится на анализ высказываний. Это противоречит поставленной в дан­ном случае цели - выявлению усвоенных учащимся заданий.

После того как задания будут составлены, необходимо их упорядо­чить. Для этого существуют определенные правила (по П. Клайну):

1. Составьте базу данных для заданий, при этом представьте каждую за­дачу на отдельном листе, предусмотрев место для занесения экспертных оценок, времени, необходимого для её выполнения, уровня сложности и прочих характеризующих её данных.

2. Проверьте содержание и формулировку задач во взаимосвязи друг с другом.

3. Располагайте задания каждого типа вместе. Инструкцию и пояснения необходимо давать один раз для каждой группы заданий. Это даёт возмож­ность испытуемым приспособиться к данному типу заданий.

4. Располагайте задания в порядке возрастания предполагаемой труднос­ти. Это предотвратит случаи, когда слишком старательный испытуемый тратит всё своё время (или большую его часть) на задания, которые он не может решить, и таким образом лишает себя возможности выполнить другие, по которым он мог бы получить баллы, а в результате все формы анализа заданий будут неточными. При апробации теста бывает полезно включить в инструкцию пункт о том, что если испытуемому не удаётся справиться с заданием, его необходимо пропустить, а после окончания работы, если останется время, вернуться к вызвавшему трудность зада­нию.

5. Не комплектуйте вместе такое количество заданий, для выполнения которых среднему испытуемому потребуется более получаса – для детей начальной школы; для старшеклассников – более часа (примерно столько длится период сосредоточения у детей.) Если существует необходимость выполнения заданий большей продолжительности, технология проведения должна предусматривать перерыв. Необходимо отметить, что время появле­ния утомления во многом зависит от мотивации (при этом слишком высокая и слишком низкая мотивация быстрее вызывают утомление), разнообразия» материалов тестирования, способа проведения, эмоциональной подготов­ленности учеников.

6. При конструировании бланковых тестов лучше размещать задачи на листах брошюры так, чтобы они были пространственно разнесены и легко воспринимались. Задания и варианты ответов к ним должны располагаться на одной странице.

7. Важные части инструкции должны быть подчёркнуты или выделены особым шрифтом. Сделайте бланки ответов. Размножьте брошюры и бланки. Можно считать, что для проведения апробации всё готово, за исключением одного – необходимо выбрать контингент, на котором будет испытан тест. Правила построения выборки мы обсуждали в предыдущей главе. Для профессиональной работы необходимо обратиться к одному из изданий, приве­дённых в конце книги.

 

Проверка трудности задач

Важным шагом в конструировании теста является проверка трудности

предложенных задач. Для этого необходимо провести предварительное тес­тирование экспериментальной группы (выборки). После того, как опреде­лён состав выборки, испытуемым предлагается решить составленные зада­чи. Полученные ответы анализируются с целью установления трудности, обоснованности и дискриминативности каждого вопроса, пригодности каждого варианта ответов. Результатом анализа становится отбор и коррек­тировка задач, а также их перераспределение внутри теста.

Трудность задачи является важнейшей характеристикой, определяющей её место в тесте. Трудность может быть субъективной и статистической.

Субъективная трудность задачи связана с индивидуально-психологическим барьером учащихся. В психологии величина этого барьера опреде­ляется различными факторами, в том числе:

1. Условиями решения задачи (временем, отведённым на решение, понят­ностью инструкции т.п.).

2. Уровнем формирования необходимых для решения знаний, умений и на­выков.

3. Состояние испытуемого и т.д.

Для снижения влияния перечисленных факторов определяется стандартная форма процедуры тестирования.

В большинстве случаев для тестов достижений достаточно учитывать только правильность решения задач и меньше внимания уделять способу решения, характеру затруднений, энергетическим затратам испытуемого. В связи с этим определяется и используется статистическая трудность за­дач.

Статистическая трудность определяется долями решивших и не решивших задачу в выборке. Например, если задачу решили только 20% участ­ников тестирования, то её можно оценить как трудную для данной выбор­ки, если 80% – как лёгкую. При этом значимым является только факт вы­полнения или невыполнения задания, причины неудач не рассматриваются.

Статистическая трудность позволяет определить место задачи в тес­те. Так, если задачу решает большинство испытуемых, то её, как лёгкую, помещают в начале; в том случае, когда с задачей справляется незначи­тельный процент испытуемых, то её, как трудную, помещают в конце тес­та. Самые лёгкие задачи (одну-две) выносят перед основными задачами теста и используют в качестве примеров. Итогом распределения задач по степени их трудности должна стать «лестница» усложняющихся задач, каж­дая ступень которой представлена процентом испытуемых, решивших соот­ветствующую задачу.

В тестах достижений трудности задач лучше всего определять в условиях «мягкого» лимита времени или совсем без его ог­раничения, фиксируя правильность и время решения.

Если трудность задания нормативно-ориентированного теста состав­ляет меньше 20 или больше 80%, то его необходимо переработать или отб­раковать. Для тестов, ориентированных на критерий, значение трудности не так существенно.

Определение дискриминативности (дифференцирующей способности) за­даний

Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью. Дискриминативность обозначает различительную способность задачи.

Для ее определения могут применяться коэффициент и индекс дискриминации, формула Фергюссона.

Самый простой и наглядный способ вычисления дискриминативности – применение метода крайних групп, когда при расчете учитываются резуль­таты учащихся, наиболее и наименее успешно справившихся со всем тес­том. Как правило, берут по 27% лучших и худших по результатам выполне­ния всего теста. Индекс дискриминации вычисляется как разность долей испытуемых из высокопродуктивной и низкопродуктивной групп, правильно

Если ученики, лучше справившиеся со всем тестом, задание выполня­ют хуже или так же, как ученики, справившиеся со всем тестом плохо, дискриминативность признается неудовлетворительной. Это означает, что задание имеет существенные изъяны.

Типичными недостатками задач, оказывавшихся непригодными, являются:

1. Излишняя сложность, запутанность формулировки.

2. Неоднозначность условия.

3. Очевидность решения.

4. Зависимость результата от памяти или от других индивидуальных осо­бенностей испытуемого, а не от уровня развития тех умений и навыков, для оценки которых разрабатывается тест (кроме заданий, где необходима именно работа памяти).

5. Абсурдность, нереальность вариантов ответов.

6. Появление двух и более правильных ответов, не оговоренное в усло­вии.

Таким образом, дискриминативность ставит заслон некачественным заданиям.

Определение дискриминативности обязательно для тестов, использую­щихся для отбора учащихся, вступительных экзаменов, итоговой аттеста­ции.

 

Показатели качества тестов

Требования к тестам как измерительному инструменту содержат требования к расчету показателей качеств тестов и требования к их оснаще­нию.

Надежность

Надежность теста является одним из критериев его качества и показывает, насколько точно измеряет данный тест изучаемое явление, его «помехоустойчивость». Она, как правило, определяется после проведения анализа задач и составления окончательной формы теста.

Надёжность характеризует точность теста как измерительного инструмента, его устойчивость к действию помех (состояния испытуемых, их отношения к процедуре тестирования и т.п.). Качественный тест не может быть создан без тщательного изучения этого важного аспекта измерения. Использование ненадёжных тестов, допуск большого количества ошибок в таком ответственном деле, каким является тестирование людей, могут стать причинами педагогических и административных ошибок, последствия которых трудно исправить.

В психологии термин «надёжность» применяется в двух значениях. Во-первых, тест называется надёжным, если он является внутренне согласованным.- Во-вторых, тест называется надёжным, если он даёт одни и те же результаты для каждого испытуемого при повторном тестировании. Такая надёжность называется ретестовой.

Для тестов учебных достижений особую важность приобретает ретестовая надёжность, поскольку специфика заданий тестов учебных достиже­ний делает внутреннюю согласованность достаточно прозрачной.

Если балл, полученный учеником в результате теста по оценке результатов, будет соответствовать той оценке, которую они получили бы при повторном прохождении того же теста или идентичного с ним по фор­ме, то данная оценка считается высоко надёжной. Все тестовые результа­ты содержат некоторый процент ошибок (в связи с различием факторов, таких, как условия тестирования или студенческие ответы), но процент ошибок может быть уменьшен путём увеличения количества и усовершенс­твования качества вопросов, задаваемых в тесте. Чем длиннее тест, тем более надёжными и адекватными будут результаты.

Надёжность определяется как коэффициент корреляции.

Для его выявления необходимо получить два ряда оценок, в которых будут присутствовать результаты оцениваемого инструмента. Результаты должны быть получены в разных условиях.

Теоретически может быть всего три варианта получения таких рядов: либо разнесение результатов по времени, либо разделение теста на две части и проведение этих частей на одинаковой выборке учащихся, либо разделение группы учащихся на эквивалентные подгруппы и тестирование их одним инструментом.

На практике используются три основных метода оценки надёжности тестов:

1. Повторное тестирование (ретестирование).

2. Расщепление теста (тестирование параллельной формой теста).

3. Расщепление группы.

Метод повторного тестирования (ретестирование) является основным при определении надёжности психологических тестов, но его применение к тестам достижений ограничено.

Этот метод предусматривает повторное тестирование через некоторый промежуток времени. Однако за это время дети успевают подрасти, узнать что-то новое, иногда забыть известное. Таким образом, высокая динамика изменений объекта измерения ограничивает применение данного метода для тестов школьных достижений.

Поэтому при подготовке тестов школьных достижений для использова­ния остаются два способа – разделение теста на части и тестирование эквивалентных групп.

Источниками неудовлетворительной надёжности тестов могут быть:

· запоминаемость содержания задач и способов их решения;

· интересность и оригинальность задач; - небольшое количество задач;

· небольшое вре­мя между первым и вторым проведением теста;

· причины, связанные с ис­пытуемыми: усталость, скука, невнимательность, жара или холод, само­чувствие, различная мотивация и т.д.

Повышение надёжности возможно двумя путями – ужесточением инструкции и повышением качества подготов­ки экспериментаторов.

Валидность

Ещё одной важнейшей характеристикой теста является его валид­ность.

Валидность особенно значима для тестов, ориентированных на критерий, поскольку определение надёжности для них затруднено. По мнению Н. Гронлунда, «в связи с тем, что традиционные оценки надёжности теста основаны на разнообразии баллов, возникают особые проблемы при разра­ботке надёжного теста, не требующего такого разнообразия баллов, как это бывает в случае с тестами, ориентированными на критерий. В этом случае появляется более сильная зависимость от соответствия тестовых вопросов конкретным учебным задачам, что достигается путём использова­ния достаточного числа вопросов для каждой изучаемой задачи и разра­боткой письменных вопросов, которые вызывают ожидаемый ответ».

Валидность и надёжность – связанные понятия. В литературе мы находим различные примеры, иллюстрирующие их связь. Вот один из них. До­пустим, имеются два стрелка: А и В. Стрелок А выбивает 90 очков из 100, а стрелок В - только 70. Соответственно, надёжность стрелка В – только 0,7. Однако стрелок А всегда стреляет по чужим мишеням, поэтому на соревнованиях его результаты не засчитываются. Стрелок В всегда правильно выбирает мишени. Поэтому валидность стрелка А нулевая, а стрелка В – 0,7, то есть равна надёжности. Если стрелок А станет пра­вильно выбирать мишени, его валидность тоже будет равна его надёжнос­ти. Если же он будет иногда путать мишени, то часть результатов не бу­дет зачтена и валидность стрелка А будет ниже надёжности.

В этом при­мере аналогом надёжности является меткость стрелка, а аналогом валид­ности – точность стрельбы по строго определённой «своей» мишени. В ис­тории тестологии известны случаи, когда тест с низкой валидностью для измерения одних свойств (тех, для которых он создавался) оказывался валидным по отношению к другим. Ненадёжный тест не может быть валид­ным, и, наоборот, валидный тест всегда надёжен.

Понятие «валидность» очень часто вызывает путаницу не только сре­ди педагогов, но и среди психологов. Причины этой путаницы носят исторический и лингвистический характер.

Валидность определяет, насколько тест отражает то, что он должен оценивать.

В современной тестологии выделяются следующие основные виды валидности:

1. Валидность по содержанию (содержательная).

2. Конструктная (концептуальная) валидность.

3. Валидность по критерию (критериальная или эмпирическая валид­ность).

1. Валидность по содержанию (содержательная)

Содержательная валидность устанавливается экспертами для деятельности, близкой или совпадающей с реальной.

Определение содержательной валидности – основное для тестов достижений и тестов профессиональной успешности, когда должен быть точно определён материал, применяемый для тестирования, и когда существует достаточная ясность смысла измеряемого параметра.

Очевидно, что содержательная валидность будет полезна только тог­да, когда могут быть определены специальные навыки и особенности пове­дения. Это довольно легко можно сделать на элементарном уровне – при тестировании арифметических навыков (правил выполнения четырёх арифме­тических операций, правил вычислений с 0 и т.п.), знаний в области ис­кусства (правил нотной записи, принципов архитектуры и др.), а также знаний базовых элементов для большинства научных дисциплин, в которых накоплен багаж фактических данных. Содержательная валидность определяется на основе экспертных методов.

П. Клайн предлагает следующую процедуру определения содержатель­ной валидности для тестов достижений:

1. Укажите точно категорию лиц, для которой предназначен тест.

2. Определите навыки, подлежащие тестированию (возможно, вам потребуется их проанализировать). Составьте список.

3. Передайте этот список экспертам в данной области (учителям и т.п.) для проверки – нет ли упущений.

4. Преобразуйте этот список в перечень заданий, используя, когда это возможно, равное количество заданий на каждый навык.

5. Представьте эти задания экспертам для проверки.

6. Подвергните задания обычным процедурам конструирования тестов. В результате должен быть получен содержательно валидный тест.

2. Конструктивная (концептуальная) валидность

Этот вид валидности определяется в тех случаях, когда представле­ние об измеряемом феномене (конструкте) существует только в сознании исследователя. Разработчик теста может лишь строить гипотезу о существовании данного конструкта, его формах и характере проявления. Уста­навливается концептуальная валидность путём доказательства правильнос­ти теоритических концепций, положенных в основу теста. Это особенно необходимо в тех случаях, когда результаты тестовых измерений исполь­зуются не просто для предсказания поведения, а как основа для выводов о том, в какой степени испытуемые обладают некоторой характеристикой.

Если эмпирические данные подтверждают гипотезу, то тем самым подтверждается концепция, положенная в основу теста, и способность теста служить инструментом измерения данного конструкта. Ошибки при проведении валидности могут возникнуть как следствие неправильной теоретической концепции, положенной в основу теста, или отсутствия соот­ветствия между тестом и теоретической концепцией, или ошибочного выд­вижения гипотез.

Непосредственно для тестов учебных достижений этот вид валидности не используется, однако овладение этим методом может быть чрезвычайно полезно для системы мониторинга, поскольку он даёт возможность обоснования истинности, реальности существования понятий и явлений.

3. Валидность по критерию (критериальная или эмпирическая валидность)

Суть её заключается в определении способности теста служить индикатором или предсказателем строго определённой психической особеннос­ти, формы поведения человека и др.

Валидизация теста по критерию состоит в сравнении баллов, полученных испытуемыми за решение теста, с данными по критерию и вычисле­нии коэффициента корреляции тестового результата с внешним критерием. Например, школьный тест умственного развития (ШТУР) валидизировался на основе критерия школьной успеваемости - оценок детей по предметам. В качестве критерия может выступать любой показатель, независимо и бесс­порно измеряющий ту же психологическую характеристику, что и валидизи­руемый тест.

Для тестов учебных достижений наибольшее распространение нашли такие способы определения внешнего критерия, как метод коллективной оценки, метод средневзвешенной оценки, метод ранжирования и метод пар­ного сравнения.

В литературе можно встретить немало других видов валидности, которые получены классификацией по другим основаниям: очевидная (с точки зрения испытуемого), конкурентная (определяется по корреляции с результатами использования инструмента, определяющего тот же показатель, что и создаваемый инструмент), внешняя, внутренняя, прогностическая и т.д.

Для всех тестов учебных достижений должна быть определена содержательная валидность, а для тестов, используемых для аттестации учащихся, – содержательная и критериальная.

Нормирование

Одно из преимуществ тестов по сравнению с другими видами измерений заключается в том, что они имеют основания для сравнения. Для тестов, ориентированных на критерий, – это полученный на основе экспертных оценок критерий значимости, превышение которого учеником означает, что он успешно справился, готов, прошёл и т.д., в зависимости от целей тестирования.

Для нормативно-ориентированных тестов основанием для сравнения служат статистические нормы. Возможно сравнение показателя некоторого испытуемого с показателями в генеральной совокупности или других релевантных группах, что в конечном счёте даёт возможность адекватной интерпретации полученного показателя. Таким образом, нормализация тестов наиболее важна в тех случаях, когда осуществляется явное или неявное сравнение показателей испытуемых, как, например, при профориентации или отборе в целях обучения, построении систем мониторинга в образовании.

Тестовые нормы представляют собой установленные на базе репрезентативной выборки эмпирические усреднённые количественные данные о ре­зультатах выполнения теста, полученные в стандартных условиях.

По широте охвата можно выделить:

· универсальные нормы – устанавливаются для широкого контингента лю­дей и лишь в малой степени зависят от действия каких-либо признаков;

· национальные нормы – применяются для представителей конкретной на­родности или страны в целом и учитывают особенности культуры, норм и традиций обследуемых;

· региональные нормы;

· локальные нормы.

В образовании в настоящее время мы можем вести речь о региональ­ных и локальных нормах – нормах для Екатеринбурга, для Калуги, нормах для Тульской облас­ти, нормах для Санкт-Петербурга и т.д.

ЕГЭ как форма итоговой аттестации должен быть «нормированным инструментом» на национальном уровне.

При разработке тестовых норм необходимо учитывать следующее:

1. Нормы устанавливаются при разработке нового теста, адаптации или редактировании существующего, если он используется на выборке, отлича­ющейся от стандартизированной по каким-либо критериям,

2. Введение нового типа нормировочного балла при разработке теста должно быть обосновано.

3. Стандартизированная выборка при разработке норм должна быть хорошо сбалансирована по составу и численности.

4. Все отклонения от процедуры нормирования тестовых результатов должны оговариваться в прилагаемых руководствах.

Методическое оснащение

Методическое оснащение должно решать одну из основных задач объективности получаемых при тестировании результатов – обеспечивать оди­наковость условий для всех испытуемых.

Методическое оснащение включает в себя две части – сведения, ко­торые необходимо знать пользователю теста об инструменте, и указания, содержащие правила предъявления теста испытуемым.

Сведения для пользователей оформляются в виде спецификации. Она обязательна для тестов, предназначенных для внешнего использования. В ней излагается:

· классификационная характеристика теста (назначение и психолого-пе­дагогическое содержание);

· ограничения и показания для применения;

· состав теста;

· описание существующих форм и модификаций;

· ссылка на апробацию теста;

· ключи;

· правила обработки данных;

· устройство шкал;

· данные о надёжности и валидности;

· правила интерпретации результатов.

Требования к процедуре проведения должны быть зафиксированы в инструкциях для исследователя (ведущего).

Требования к формальной стороне процедуры проведения могут быть следующие:

· обеспечение инструментарием в необходимых количествах в случае, когда используются простые материалы: карандаши, ластики, ручки, фло­мастеры (необходимо иметь их полуторакратный запас);

· наличие столов и стульев в количестве, необходимом для проведения исследования, в соответствии с инструкцией по проведению;

· размещение столов и стульев таким образом, чтобы к каждому испытуе­мому было удобно подойти;

· обеспечение удобного места за столом для каждого испытуемого путём подбора оснащённого мебелью помещения необходимых размеров;

· оборудование места с максимальным обзором для экспериментатора и, если это необходимо, для наблюдателя.

Особое место среди факторов, влияющих на индивидуальную и групповую работоспособность испытуемых, занимает время проведения теста и характер деятельности учащихся до тестирования. Наиболее благоприятно время с 9 до 12 или с 16 до 18 часов. Поскольку речь идёт о тестах учебных достижений, то наиболее приемлемо время второго или третьего урока первой смены. Авторы тестов могут потребовать не проводить тес­тирование после занятий физической культурой и спортом.

При организации проведения тестов важно учитывать ситуативные отвлекающие факторы. К ним относятся: шумы (с улицы, из других частей здания, радио- и телетрансляции и т.п.), звонки, стук, звук шагов, гу­дение неисправных ламп дневного света, запах (пищи, краски и пр.), ми­гание света, неопрятность столов, помещения и т.д. Непосредственная подготовка к проведению теста заключается в проверке состояния помеще­ния, его оснащения, пригодности для размещения испытуемых, а также устранении или уменьшении ситуативных отвлекающих факторов и проверке наличия, состояния и размещения тестовых установок и материалов.

Наиболее рациональным способом формализации процедуры проведения является написание сценария проведения.

Сценарий проведения исследования в общем виде должен включать в себя следующие необходимые сведения, которые могут сообщаться испытуе­мым (в зависимости от условий тестирования что-то может быть сокращено или добавлено):

1. Объяснить, зачем нужен тест, какие результаты ожидаются.

2. Объяснить, почему испытуемые должны приложить максимум усилий для его выполнения, акцентировать внимание испытуемых на возможности про­верки своих сил или подчеркнуть соревновательный мотив. Отметить, что слишком сильная мотивировка, равно как и слишком слабая, в одинаковой степени негативно сказывается на результативности выполнения задания.

3. Медленно, громко, чётко, без запинок, естественным голосом про­честь инструкцию к тесту с примерами, если они имеются. В данном слу­чае возможен вариант, когда испытуемые самостоятельно следят по своим вариантам текста за инструкцией. При таком порядке возможно воспроиз­ведение инструкции по памяти.

4. Дать возможность испытуемым потренироваться, решив самостоятельно одну или более из задач-образцов, если таковые имеются; проверить, правильно ли понята инструкция.

5. Сообщить о временном ресурсе, о правилах исправления допущенных ошибок, о том, чего не рекомендуется делать при решении задач, к кому обращаться в случае возникновения вопросов.

6. Вместе с испытуемыми или самому записать, если требуется, паспорт­ные и биографические данные в регистрационных бланках. Проследить за правильностью их заполнения.

7. Ответить на имеющиеся вопросы.

8. Дать команду начать решение задач теста. Время начала записать са­мому или попросить сделать это испытуемых на регистрационном бланке.

9. Во время решения задач или ответов на вопросы следить:

- за временем решения, если это необходимо;

- за наличием отточенных карандашей и других материалов;

- за правильностью заполнения паспортной части регистрационных блан­ков (если замечена ошибка, своевременно её устранить);

- за тем, чтобы испытуемые не писали на тестовых брошюрах, если иное не предусмотрено, не портили тестовых установок и приборов;

- за тем, чтобы соседи не общались между собой, не шептались, не ме­шали друг другу, не подглядывали друг у друга;

- за состоянием испытуемых;

- за тем, чтобы испытуемые своевременно получали ответы на вопросы, связанные с процедурой проведения (ответы не должны служить подсказкой для решения или нарушать указания инструкции, возможные варианты отве­тов должны быть предусмотрены).

10. После сигнала к окончанию решения задач теста при групповом про­ведении дать команду сложить брошюры и бланки для ответов в исходное положение или самому собрать их (если участвует не более 30 человек). Если участников тестирования больше 30, то рекомендуется попросить всех оставаться на своих местах, чтобы облегчить сбор материала. Затем попросить передать в начало или конец колонки (ряда) тестовые материа­лы в следующем порядке: бланки для ответов, брошюры, черновики. После этого пересчитать количество бланков и брошюр, проверить, чтобы их ко­личество совпадало с числом испытуемых.

11. По окончании тестирования просмотреть все брошюры и стереть пометки на них. Если это невозможно – брошюры следует уничтожить.

Кроме этого, сценарий должен предусматривать процедуру приветс­твия и благодарности за выполненную работу, действия экспериментатора с опоздавшими учащимися, реакцию на просьбы учеников временно покинуть место проведения тестирования, ответы на наиболее часто встречающи|еся вопросы и некоторые другие процедурные вопросы (по усмотрению авто­ров). Для всех тестов учебных достижений, предназначенных для внешнего использования, обязательна фиксация требований к ведущему тестирова­ние. Проводить тестирование может только специально подготовленный че­ловек. Он должен удовлетворять определённым профессиональным и лич­ностным требованиям:

· быть в зафиксированном статусе в отношении к ученикам: это должен быть педагог преподающий предмет, по которому проводится испы­тание, завуч, работающий или не работающий в данном классе, педагог иной школы и т.п.;

· должен уметь контролировать себя, быть эмоционально уравновешен­ным, общительным, тактичным;

· должен понимать задачи эксперимента, быть компетентным в проведе­нии теста, а если ему предстоит обработка результатов – то и в оцени­вании результатов.

Значительные возможности по стандартизации процедуры проведения тестирования даёт институт наблюдателей.

Наблюдатель – лицо, фиксирующее процедуру проведения и соответс­твие действий ведущего (исследователя) сценарию тестирования. Наблюда­телю запрещается вмешиваться в процесс тестирования. Присутствие наб­людателя, несомненно, удорожает проведение исследования, однако дости­гаемый при этом значительный выигрыш в качестве компенсирует все до­полнительные затраты: ведь в случае некачественного проведения все усилия могут оказаться напрасными. Наблюдатели могут присутствовать не на всех процедурах тестирования, но сама возможность их присутствия в значительной степени дисциплинирует исследователей.

Присутствие наблюдателей позволяет сравнить качество проведения тестирования у разных ведущих, а также в тех группах, где присутство­вал наблюдатель, и там, где он не присутствовал. Осо­бенно важно присутствие наблюдателя на этапе апробации инструмента­рия, поскольку он даёт возможность собрать материал для дальнейшей ра­боты над инструментом.

Деятельность наблюдателя заключается в заполнении анкеты наблюдателя, в которой, кроме фиксации времени и оценки правильности выполне­ния ведущим пунктов сценария, должны присутствовать вопросы по оценке поведения учащихся, корректности поведения ведущего, неординарных слу­чаях. Институт наблюдателей предполагает наличие инструкции по исполь­зованию анкеты наблюдателя. В ней должны содержаться сведения о том, при каких нарушениях процедуры, зафиксированных наблюдателем, резуль­таты тестирования могут быть аннулированы.

Памятка для учителя

(о составлении тестовых заданий)

Оценка качества заданий

Для оценки качества заданий применяются такие характеристики, как трудность задачи, коррекция на угадывание и дискриминативность.

Трудность задачи определяется долями выбора, решивших и не решивших задачу. Например, если задачу решили только 20% участников тестирования, то ее можно оценить как трудную для данных испытуемых, если 80% - как легкую.

Трудность задачи позволяет определить место задачи в тесте. Так, если задачу решает большинство испытуемых, то ее помещают в начале, если с задачей справляется незначительный процент, то ее, как трудную, располагают в конце теста.

Основным показателем трудности является индекструдности, который для задания со свободно конструируемым ответом рассчитывается по следующей формуле:

V=100 x (1- ),

где V - индекс трудности в процентах;

n - число испытуемых, правильно решивших задачу, N - общее количество испытуемых.

Задания, которые имеют значения показателя трудности больше 80 или меньше 20, как правило, в тест не включаются.

 

Дискриминативность задачи определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл. Для ее определения применяется индекс дискриминации. Он вычисляется следующим образом:

Предположим, N-ое количество студентов выполнили тест.

1. Расположите выполненные работы в соответствии с количеством очков, полученных за выполнение теста (например, в порядке убывания).

2. Отберите примерно количества работ с наибольшим количеством очков и назовите это количество высокопродуктивной группой, выберите такое же число работ с наименьшим количеством очков и назовите это низкопродуктивной группой.

3. Определите в той и другой группе количество студентов, правильно выполнивших задание.

4. Определите индекс дискриминации D по следующей формуле:

 

D=(Np верх/N верх) - (Np ниж/N ниж),

 

где Np - количество справившихся с задачей испытуемых,

N - общее количество испытуемых в крайних группах.

 

Индекс дискриминации может принимать значение от -1 до +1.

Индекс, близкий к -1, свидетельствует о непригодности задачи для теста. Если значение D близко к 0, то задачи должны рассматриваться как некорректно сформулированные. Индекс, близкий к 1, является показателем того, что задача хорошо разделяет испытуемых с высокими и низкими результатами по тесту.

 

ПРИМЕРЫ ТЕСТОВЫХ ЗАДАНИЙ

 

1. Задания с выбором правильного ответа:

Задания с двумя ответами:

СЛОВА, ПРОТИВОПОЛОЖНЫЕ ПО ЗНАЧЕНИЮ, НАЗЫВАЮТСЯ

1. антонимы

2. синонимы

Задания с двумя ответами лучше всего применять для экспресс-диагностики, при которой точность измерения менее важна, чем быстрота.

Задания с пятью ответами:

Самый распространенный принцип формулирования задания - принцип классификации, при котором к каждому утверждению подбираются ответы, исключающие один другой с точки зрения правильности.

АВТОРОМ ПЬЕСЫ «ТРАМВАЙ ЖЕЛАНИЕ» ЯВЛЯЕТСЯ

1. Миллер

2. Уайльд

3. Уильямс

4. Моэм

5. Кокто

2. Задания открытой формы применяются там, где нужно полностью иск­лючить вероятность получения правильного ответа посредством угадывания и тем самым повысить качество педагогического измерения.

В ПРЕДЛОЖЕНИИ КРАТКОЕ ПРИЧАСТИЕ ВЫПОЛНЯЕТ ФУНКЦИЮ _______________.

3. Задания на установление соответствия:

ПИСАТЕЛИ              ПРОИЗВЕДЕНИЯ

1. Л.Н.Толстой         А. Игрок

2. Достоевский          Б. Обрыв

3. Гончаров                В. Фрегат «Паллада»

4. Тургенев                 Г. Холстомер

Д. Пролог

Е. Дым

Ж. Дворянское гнездо

  З. Братья Карамазовы

Рекомендуется, чтобы число элементов правого столбца было примерно в два раза больше числа элементов левого.

Основная сфера применения – текущий и тематический контроль.

4. Задания на установление правильной последовательности: Алгоритмизация деятельности важна на всех этапах обучения, но ее

роль особо проявляется на заключительной стадии профессиональной под­готовки и в процессе самой профессиональной деятельности. Задания рассматриваемой формы важны и для проверки системы знаний там, где ве­дущим системообразующим признаком знаний является упорядоченность эле­ментов.

ЖАНРЫ В ИСТОРИЧЕСКОЙ ПРЕЕМСТВЕННОСТИ

[ ] - новелла

[ ] - трагедия

[ ] - путешествие

[ ] - роман-эпопея

[ ] - былина

[ ] - проповедь

[ ] - ода

[ ] - поэма

[ ] - исповедь

[ ] - роман

    Общую оценку можно дифференцировать в зависимости от места ошибки. Если первое событие будет определено неправильно, то неправильно будут определены и другие. И наоборот, ошибка, допущенная в последних элементах задания, не влияет на правильность ответов в первоначальных событиях. Отсюда: безошибочное решение - 3 балла, ошибка в конце зада­ния - 2 балла, ошибка в середине - 1 балл, ошибка в начале - 0 баллов за работу.

Задания на установление правильной последовательности реализуют две функции тестов – контролирующую и обучающую.

 

Одной из особенностей современной тестовой технологии является создание на базе одного задания любой формы фасетного , или множественного задания. Это означает, что проверка знания признаков, свойств, состава, функций однотипных объектов может быть организована одним и тем же заданием, меняющим в своем тексте только название этих объек­тов. В заданиях закрытой формы это может выглядеть так:

ТИП ПИТАНИЯ У (РАСТЕНИЙ, ЖИВОТНЫХ, ГРИБОВ)

1. Автотрофный

2. Гетеротрофный

3. Затрудняюсь ответить

Объекты, помещенные в скобки, образуют многовариантность (три задания из одного). При построении каждого отдельного задания текст вне скобок повторяется. Если таких заданий в тесте много, это дает возможность создать бесконечное множество вариантов одного теста.


Дата добавления: 2019-01-14; просмотров: 1401; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!