/
Автор: Майоров А.Н.
Теги: общее школьное образование общеобразовательная школа методика преподавания учебных предметов в общеобразовательной школе педагогика тестирование образование тесты
ISBN: 5-89790-115-5
Год: 2002
Текст
ТЕОРИЯ и ПРАКТИКА
создания тестов
ДЛЯ СИСТЕМЫ
ОБРАЗОВАНИЯ
Майоров А.Н.
Теория и практика
создания тестов
для системы образования
Как выбирать, создавать и использовать
тесты для целей образования
«ИНТЕЛЛЕКТ-ЦЕНТР»
Москва
2002
УДК 373.167.1.0
ББК 74.26
М 14
Майоров Алексей Николаевич
М 14 Теория и практика создания тестов для системы образования.
(Как выбирать, создавать и использовать тесты для целей
образования). — М., «Интеллект-центр», 2001. — 296 с.
ISBN 5-89790-115-5
В книге излагаются основы теории разработки тестов. На
основании собственного опыта, анализа зарубежного и отечественного
опыта автор рассматривает полный комплекс работ по
проектированию, созданию и использованию тестов школьных достижений в
образовании.
Книга проиллюстрирована многочисленными примерами, из
разных предметных областей, образцами инструкций и
рекомендаций от разработчиков тестового инструмента.
Книга рассчитана в первую очередь на разработчиков и
профессиональных пользователей тестами — педагогов, заместителей
директоров школ, работников аттестационных служб, перед которыми
стоит задача составления тестов, выбора инструмента на рынке,
определения того, какими тестами и как стоит пользоваться в своей
работе, какие можно доработать, а какие стоит отвергнуть.
Книга будет полезна преподавателям вузов, учреждений
среднего и начального профессионального образования,
аспирантам и студентам.
ISBN 5-89790-115-5 © «Интеллект-центр», 2002
© Майоров А.Н., 2002
Огромная заслуга тестов состоит в том,
что они позволяют обычный ответ учителя
«так мне кажется» заменить словами «я это
знаю» или «я это не знаю».
П.П. Блонский
Только тогда психология сможет стать
действительной и точной наукой, когда она
будет иметь своей основой эксперимент и
измерения.
Дж. Кеттелл
Оглавление
Вступление. Цели и задачи настоящей работы 9
Краткий словарик 13
Глава 1. Тесты и их особенности 15
1.1. Исторический обзор применения тестов в мировой
практике 15
1.2. Тесты школьных достижений, их отличия от тестов
психологических и преимущества перед иными
формами аттестации учащихся 27
1.3. Тесты, ориентированные на нормы, и тесты,
ориентированные на критерий. Классификации тестов 35
Глава 2. Общие подходы к разработке тестов 46
2.1. Этапы разработки тестов школьных достижений,
особенности разработки в зависимости
от целей создания 46
2.2. Роль и функции фактора времени в тестировании 50
Глава 3. Отбор содержания образования.
Технологическая матрица 61
Глава 4. Тестовые задания 77
4.1. Состав тестовых заданий. Виды и типы тестовых
заданий. Особенности преимущества и недостатки .. 77
4.2. Задания закрытого типа 83
4.2.1. Задания альтернативных ответов 83
4.2.2. Задания множественного выбора 87
4.2.3. Задания на восстановление соответствия
(соответствие) 91
4.2.4. Задания на восстановления
последовательности 96
4.3. Задания открытого типа 99
4.4. Практические задания 101
4.5. Оценочные схемы тестовых заданий 104
4.6. Использование заданий психологических тестов
на выявление структуры интеллекта
для тестов достижений 106
4.6.1. Задания на нахождение аналогии 108
4.6.2. Задания исключения лишнего 110
4.6.3. Задания последовательности 112
4.7. Другие подходы к классификации
тестовых заданий 114
Глава 5. Проблемы составления тестовых заданий 117
5.1. Особенности формулировки заданий 117
5.2. Расположение заданий на листе и их шрифтовое
оформление 118
5.3. Правила составления тестовых заданий 119
5.4. Проблема угадывания правильного ответа 132
5.5. Различные формы представления заданий в тесте ... 135
Глава 6. Работа с заданиями после составления 145
6.1. Работа с заданиями после составления 145
6.2. Экспертиза тестовых заданий 145
6.3. Апробация тестовых заданий 150
Глава 7. Показатели качества тестовых заданий 154
7.1. Проверка трудности задач. Определение места
задачи в тесте 154
7.2. Педагогический смысл и значение трудности
тестовых заданий 157
7.3. Определение дискриминативности
(дифференцирующей способности) заданий 161
Глава 8. Показатели качества тестов 170
8.1. Надежность 170
8.2. Валидность 177
Глава 9. Нормирование 185
9.1. Проверка тестовых работ 185
9.2. Система оценивания 190
9.3. Тестовые нормы 192
Глава 10. Выборка 206
10.1. Варианты расчета объемов выборки 206
10.2. Репрезентативность выборки 214
10.3. Выборки на разных этапах создания тестов 217
Глава 11. Методическое оснащение 219
Глава 12. Артефакты и факторы, искажающие результаты
тестирования 213
Приложения
1. Инструкция по разработке тестовых заданий NEAB
Northen Examinationes and Assesment Board с комментариями
и пояснениями 245
2. Критерии компетентности в тестировании 253
3. Инструкция по апробации тестовых заданий 264
4. Инструкция для ведущего 265
5. Инструкция для учащегося 277
6. Анкета наблюдателя 282
7. Инструкция по использованию анкеты наблюдателя 285
8. Рекомендации по адаптации тестов для детей, имеющих
физические ограничения 286
9. Источники дополнительной информации. Литература 290
Перечень наиболее часто встречающихся вопросов,
на которые можно найти ответы в книге
1. Нужно ли формулировать тестовые задания в форме
утверждения?
2. Почему время, выделяемое на выполнение тестовой работы,
должно быть ограничено?
3. Каким образом и зачем можно менять продолжительность
тестирования?
4. Какие негативные последствия имеет нарушение
оптимальности времени тестирования?
5. Как можно найти оптимальное время для работы над тестом?
6. Почему время на заполнение тестов должно быть определено
точно?
7. Каким образом календарное время предъявления тестов
влияет на результаты тестирования?
8. Как определить продолжительность корректного
использования полученных результатов тестирования?
9. Каким образом лучше заполнять (делать отметки) при
выполнении заданий?
10. Какое количество вариантов ответов в заданиях закрытого
типа можно считать приемлемым?
11. Сколько правильных ответов может быть в тестовом задании
множественного выбора?
12. Каким образом наиболее рационально обозначать варианты
ответов?
13. Каковы преимущества и недостатки основных форм
тестовых заданий?
14. Нужно ли оценивать правильно выполненное задание
одним баллом или несколькими?
15. Насколько корректно использовать задания с ошибками в
тестах?
16. Кто может быть экспертом тестовых заданий?
17. Может ли тест содержать задания одного типа и вида?
18. С какими целями проводится апробация тестовых заданий и
когда она необходима?
19. Насколько корректно применение коэффициентов
корреляции для определения дискриминативности?
20. В чем состоит педагогический смысл неудовлетворительной
надежности?
21. Каким образом можно корректно сравнивать результаты
тестирования, полученные в результате проведения разных тестов по
разным предметам?
22. Каким образом на основе оценок тестирования можно
выставлять оценки в привычной для нас пятибалльной системе, таким
образом, чтобы эти оценки были обоснованы?
23. Какие факторы влияют на распределение оценок?
24. Зачем нужно предупреждение для учащихся?
И многие другие.
Вступление 9
Вступление
Цели и задачи настоящей работы
Прошло более четырех лет после выхода в свет первого издания
книги «Тесты школьных достижений. Конструирование.
Проведение. Использование.» Второе издание было стереотипным. Для
своего времени эта книга, несомненно, оказалась весьма своевременной
и полезной, однако она обладала и целым рядом недостатков,
которые теперь, с прошествием лет и появлением опыта, становятся
достаточно очевидными. Она содержала и ряд досадных недочетов,
опечаток, нечеткостей, от которых в настоящей работе удалось
избавиться. Однако общее направление книги, основные идеи оказались
верными и жизнеспособными, подтвержденными практикой.
За прошедшее время существенно изменилась ситуация с
тестированием — появилась литература, начали складываться
свои школы тестирования не только в Москве, но и в других
регионах России — Екатеринбурге, Вологде, Ростове, Нижнем и
Великом Новгороде, Йошкар-Оле, Краснодаре, Тюмени и ряде
других городов.
Изменились и цели данной книги.
Первой задачей данной книги является попытка ответить на
многочисленные вопросы почему? и как?, которые возникают у
пользователей тестами, на которые не все разработчики могут дать
исчерпывающий ответ:
Почему время проведения теста должно быть таким?
Почему это задание может быть оценено одним баллом, а
другое пятью?
Как корректно перевести балльную оценку в оценку
школьную?
Почему задания необходимо выстраивать по уровню
трудности?
Как влияет на выполнение теста мотивация и волнение?
Почему одни и те же тесты нельзя использовать для разных
целей?
Почему для составления тестов обязательна апробация? И
многие другие.
Вторая цель - помочь пользователям определиться на рынке
многочисленных тестов, которые в своем большинстве не
выдерживают критики по составу, оснащению, показателям качества. Забегая
вперед, скажем, что большинство из изданных книг под названием
«Тесты по...» являются неплохими сборниками тестовых заданий,
10 Цели и задачи настоящей работы
которые при соответствующих доработках, оказывается, вполне
возможно использовать для создания тестового инструмента. Кроме
того, появились и достаточно качественные продукты, однако
распознать их человеку, не обладающему достаточными познаниями,
довольно сложно.
Третья — познакомить педагогических работников с
обоснованными и надежными процедурами проведения тестирования при
решении стандартных и исследовательских педагогических задач,
когда за счет применения обоснованной процедуры значительно
вырастает качество результатов работы с существующими тестами, или
с использованием уже готовых тестовых заданий.
Четвертая — дать заинтересованным людям достаточный объем
справочного материала, который бы помог самим составить тесты
различной сложности, ориентированные на педагогическую
деятельность.
Исходя из сказанного, стало ясно, что необходимо изменить и
название книги.
Книга рассчитана в первую очередь на пользователей тестами -
педагогов, заместителей директоров школ, работников
аттестационных служб, перед которыми стоит задача составления тестов, выбора
того, какими тестами стоит пользоваться в своей работе, какие
можно доработать, а какие стоит отвергнуть.
Вероятно, она может оказаться чрезвычайно полезной и для тех
людей, кто пишет или собирается писать пособие, в названии
которого будет слово «Тесты».
Каждая из глав данной книги относительно самостоятельна и
может быть использована вне связи с другими. Полезной для
педагогов может оказаться глава третья, посвященная составлению
заданий; самостоятельно рассчитать выборку можно используя данные
главы 6, причем для любого вида исследований, а не только для
тестирования.
Еще одна особенность данной книги — минимизация
используемого математического аппарата. Формулы приведены
преимущественно в главе 5, в разделе, посвященном расчетам объемов
выборки. Во всех остальных случаях мы старались использовать таблицы
или описание вычислений, проиллюстрированное примерами и
графиками. Кроме этого для большинства понятий и явлений мы
старались дать педагогический смысл, сделать текст максимально
полезным для педагогов.
Рамки данной работы ограничены классической теорией
тестирования, в ней не рассматриваются различные
многопараметрические модели, модели Раша, которые могут представлять интерес для
Вступление 11
узкого круга специалистов, владеющих достаточно хорошей
математической подготовкой. Такой материал противоречил тем целям,
которые заявлены для данной книги. С другой стороны классическая
теория тестирования не дает строгого ответа только на один
серьезный вопрос — это строгое обоснование создания параллельных
вариантов тестов. Однако практическое решение этого вопроса в рамках
классической теории может считаться вполне удовлетворительным.
Несомненно и то, что современные теории тестирования дают
больший объем полезной информации, более строгие обоснования и
их использование в некоторых случаях просто необходимо. Однако
не освоив классической теории, не поняв содержательного, в нашем
случае педагогического смысла тестологической теории
использование современных моделей по моему глубокому убеждению
невозможно.
Книга содержит примеры и пояснения к ним, которые взяты из
работ В.К. Гайды и В.П. Захарова, П. Клайна, примеры тестов взяты
из книг Ю. Айзенка, Л.Ф. Бурлачука, разработанных ETS
(Educational testing service), в РАО по руководством Г.С. Ковалевой, в
Санкт-Петербургском университете педагогического мастерства иод
руководством Н.И. Элиасберг и И.Ю. Алексашиной, в Лаборатории
изучения образовательных систем под руководством автора и
некоторые другие.
Кроме этого, были использованы рабочие материалы
(инструкции, технологические материалы по составлению тестов,
нормативные документы, стандарты, информационные материалы),
предоставленные службами аттестации Великобритании,
Шотландии, Голландии, Израиля.
Полный перечень источников приведен в конце данной книги.
Текст содержит достаточно большое количество ссылок как
отечественных, так и зарубежных. Внимательный читатель,
вероятно, отметит, что автор имеет свои приоритеты в цитировании
различных источников. Таких приоритетов 7:
а Книга B.C. Аванесова («Композиция тестовых заданий». М.,
Адепт, 1998) - пожалуй, на сегодня это редкая качественная и
серьезная книга, посвященная вопросам разработки тестовых
заданий и дальнейшей работе с ними. Полемика с автором этой
работы по ряду принципиальных вопросов позволяет лучше
прояснить их.
а Работа Н. Гронлунда (Гронлунд Норман. «Тесты достижений в
конструировании». Лондон, Прентис-Холл, 1982) -
классическая книга по составлению тестов, это подтверждается тем, что с
1968 года вышло уже 9 ее изданий.
12 Цели и задачи настоящей работы
а Инструкции по созданию централизованных экзаменов CITO
(Роберт ван Крикен, Стивен Баккер. «Подготовка и проведение
экзаменов. Руководство для организации и разработки
централизованных экзаменов», CITO, Национальный институт по
оценке достижений в области образования. Амхем, Нидерланды,
1995). Этот институт один из признанных лидеров разработки
тестов для образования не только в Голландии, но и в Европе и
мире, их рекомендации весьма авторитетны.
а Работа П. Клайна (Клайн П. «Введение в психометрическое
программирование. Справочное руководство по
конструированию тестов». Киев, 1994) — можно сказать, что это единственная
книга по конструированию психодиагностических методик,
переведенная не так давно на русский язык.
а Брошюра В.К. Гайды и В.П. Захарова (Гайда В.К., Захаров В.П.
«Психологическое тестирование». Л., 1982) — первая
качественная книга по созданию тестов в нашей стране. К сожалению, она
вышла очень ограниченным тиражом и достаточно давно.
а Инструкции и материалы NEAB (Northen Examinationes and
Assesment Board) — одна из фирм Великобритании,
выполняющая полный комплекс работ по созданию и использованию
тестов для учащихся разных возрастов, включая итоговую
аттестацию учащихся и единый экзамен.
а Материалы международных сравнительных исследований
подготовленности школьников, проводимых под руководством Г.С.
Ковалевой — позволяют соотнести опыт тестирования с
международными требованиями к тестовому инструментарию.
Автор будет благодарен за любые критические замечания и
предложения, касающиеся данной работы, и просит сообщать их по адресу:
198005 Санкт-Петербург, 12-я Красноармейская, 1 — 27.
Краткий словарик
Краткий словарик с неоднозначными терминами
Валидизация
Валидность
Валидность внешняя
Выборочная
совокупность заданий
теста
Дискриминатив-
ность
Дистрактор
Значение
показателя
Индекс
Индикатор
Конструкт
Контаминация
критерия
Нормирование теста
Показатель
- отдельные операции или их совокупность, которые имеют
целью повышение валидности
- характеристика инструментария, критерий его качества.
Валидность указывает, что именно инструмент измеряет и
насколько хорошо он это делает; чем более валиден инструмент, тем
лучше отображается в нем то качество, свойство, ради
измерения которого он создавался. Отличается множеством видов и
разнообразием трактовок как среди различных авторов, так и в
рамках различных областей применения тестов
- обоснованность распространения результатов, полученных на
экспериментальной группе, в экспериментальных условиях на
генеральную совокупность
- совокупность заданий теста, являющаяся частью
гипотетической генеральной совокупности заданий
- один из критериев качества тестовых заданий, способность
задания разделять испытуемых в соответствии с успешностью их
деятельности по тому критерию, который является основным для
целей тестового испытания. Выражается через индекс
дискриминации и показатель дискриминативности
- от английского distract - отвлечение внимания - варианты
неверных ответов в заданиях закрытого типа
- числовое значение показателя или индикатора
- инструмент сравнения и измерения, получаемый из
комбинации индикаторов
- доступная наблюдению и измерению характеристика
изучаемого объекта. Индикаторы замещают, обнаруживают,
представляют другие характеристики изучаемого объекта. Необходимое
условие выбора индикатора, наличие связи прямой или
косвенной между индикатором и той характеристикой, которую он
должен обнаружить
- комплекс явлений, связанных с влиянием информации о
результатах тестирования испытуемого на отношение к нему
других лиц
- процесс получения количественных или качественных
характеристик инструментария, на основе сравнения с которыми можно
дать оценочное суждение о результатах, показанных
испытуемым
- характеристика свойств и состояний объектов и процессов, на
основе их количественного и качественного анализа можно
судить о проявляющихся через них явлениях
Краткий словарик
Спецификация
Стандартизация
теста
Таксономия
Тест
Тестовое задание
Технологическая
матрица (тестовая
решетка,
организационно-
деятельностная
матрица)
Трудность заданий
Утомление
- документ, содержащий основные сведения о тесте: граничные
условия применения, показатели качества, условия
использования и др.
- комплекс процедур, позволяющий создать для всех
испытуемых равные условия
- инструмент, состоящий из квалиметрически выверенной
системы тестовых заданий, стандартизированной процедуры
проведения и заранее спроектированной технологии обработки и
анализа результатов, предназначенный для измерения качеств и
свойств личности
- основная составляющая часть теста, которая состоит из
инструкции для учащихся, текста задания (вопроса), имеет
однозначный правильный ответ и может быть охарактеризован набором
показателей
- форма представления отбора содержания образования для
конструирования тестов
- характеристика тестового задания, выражается процентом от
количества испытуемых репрезентативной выборки, верно
выполняющих это задание
- временное снижение работоспособности под влиянием
длительного воздействия нагрузки
Глава 1 15
Глава 1
Тесты и их особенности
1.1. Исторический обзор применения тестов в мировой практике
Тест как метод изучения индивидуальных различий возник
сравнительно недавно. Временем его возникновения считается
конец 19 - начало 20 веков, когда для определения физических,
физиологических и психических особенностей человека психологи
попытались применить различные способы измерения.
Метод тестирования широко известен за рубежом. Однако в
нашей стране в силу различных причин тесты разного назначения и
качества появились не так давно. Прежде чем более подробно
поговорить об истории возникновения и современном состоянии тесто-
логии, коротко определим, что же такое тест.
Проникновению точных измерительных методов в такие
«неточные» сферы, как психология и педагогика, способствовало
быстрое развитие естествознания, возникновение и
распространение теорий, объяснявших процесс развития человека как
изменяющийся и усложняющийся во времени. Одним из первых ученых,
попытавшихся измерить различия между людьми в области
элементарных психических процессов, был англичанин Френсис Гальтон (F.
Galton; 1882-1911).
Исследуя индивидуальные различия, Ф. Гальтон использовал
набор методик: на определение зрительной, слуховой, тактильной
чувствительности, на мускульную силу, время реакции и др. Во
время проходившей в Лондоне в 1884 году Международной выставки
медицинского оборудования, средств и методов охраны здоровья
была устроена лаборатория, где посетители в возрасте от 5 до 80 лет
могли проверить свои физические способности, физиологические
возможности организма и психические свойства по 17 показателям:
рост, вес, жизненная емкость легких, сила кисти и сила удара,
различение цветов, острота зрения и др. Было обследовано более 9000
человек. Ф. Гальтон считал, что наиболее достоверные результаты
получаются при обследовании большого количества испытуемых. В
трудах Ф. Гальтона прозвучала мысль о необходимости внешнего
критерия, независимого от эксперимента, что позволило бы «узнать,
какой тест является наиболее информативным».
Важным вкладом Ф. Гальтона в развитие теории тестов было
определение трех основных принципов:
1 6 Тесты и их особенности
1. Применение серии одинаковых испытаний к большому
количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.
Эти принципы используются и по сей день — на основе
проведения серий испытаний получаются различного вида нормы для
оценки результатов тестирования, все современные тесты построены
на основе статистической теории измерений, а идея эталона оценки
лежит в основе определения тестов как стандартизированного
инструмента.
Ф. Гальтон называл испытания, проводившиеся в его
лаборатории умственными тестами.
Наибольшую популярность этот термин приобрел после выхода
статьи Джеймса Мак-Кина Кеттелла (Cattell J. Мс-К.; 1860-1944)
«Умственные тесты и измерения», опубликованной в 1890 г. с
послесловием Ф. Гальтона.
Дж. Кеттелл, американский психолог, некоторое время
работавший в лаборатории Ф. Гальтона, с энтузиазмом воспринял идею о
способах определения индивидуально-психологических качеств и
статистической обработки результатов.
Дж. Кеттелл поставил задачу описать образ цельной личности
посредством возможно меньшего числа экспериментов. С этой
целью он предложил в 1890 г. нескольким лабораториям произвести в
одинаковых условиях 10 основных экспериментов (измерение силы
рук посредством динамометра, скорость реакции на звук, скорость
ассоциации при назывании 10 цветов и т.д.). На этой основе
впоследствии им были разработаны наборы заданий, которые он
называл «умственными тестами» и использовал для определения
«интеллектуальной физиономии» индивида. Таких тестов Дж. Кет-
теллом было разработано 50.
Однако все они позволяли оценить элементарные психические
процессы, где индивидуальные различия сравнительно малы и не
затрагивали высших психических функций, лежащих в основе
интеллекта.
Но все же нельзя недооценивать вклад Дж. Кеттелла в развитие
идеи применения измерений и статистического анализа при
определении индивидуальных различий. Горячий сторонник и
пропагандист тестового метода, Дж. Кеттелл считал тест средством для
проведения научного эксперимента с соответствующими требованиями к
чистоте научного эксперимента. Такими требованиями он
определял:
— одинаковость условий для всех испытуемых;
Глава 1 17
— ограничение времени тестирования приблизительно одним
часом;
— в лаборатории, где проводится эксперимент, не должно быть
зрителей;
— оборудование должно быть хорошим и располагать людей к
тестированию;
— одинаковые инструкции и четкое понимание испытуемыми, что
нужно делать;
— результаты тестирования подвергаются статистическому
анализу, находят минимальный, максимальный и средний результат,
рассчитывают среднее арифметическое и среднее отклонение.
Все эти идеи, выдвинутые Дж. Кеттеллом, в настоящее время
составляют основу для современной тестологии. Одинаковость
условий для всех испытуемых, одинаковые инструкции и четкое их
понимание испытуемыми — фундаментальные принципы, положенные
в основу стандартизации процедуры проведения тестирования;
ограничение времени, в настоящее время, после дополнительных
исследований, реализуется в зависимости от возраста испытуемых и
особенностей применяемого инструментария; идеи статистической
обработки результатов реализованы в достаточно сложных методах
статистического анализа и моделирования.
По возвращении в США Дж. Кеттелл немедленно начал
применять тесты, активно их пропагандировать. Не прошло и нескольких
лет, как возникла необходимость организовать специальные
координационные центры. И в 1895-96 гг. в США были созданы два
национальных комитета, призванных объединить усилия тестологов и
придать общее направление появлявшимся тестологическим
работам.
Качественный скачек в развитии тестологии связан с
деятельностью видного французского психолога Альфреда Бине (Binet A.;
1857-1911). А. Бине может считаться родоначальником современных
тестов, предназначенных для диагностики уровня развития
интеллекта. Началом послужила публикация в 1896 г. А. Бине статьи по
вопросам индивидуальной психологии, где критически оценивались
исследования Ф. Гальтона и Дж. Кеттелла по «измерению ума».
Исследование элементарных психических процессов не давало
возможности адекватно оценить развитие высших психических
функций и интеллекта в целом. А. Бине подчеркивал необходимость
найти объективную оценку для определения уровня интеллекта и
предлагал принципы построения нового теста.
Вскоре возникла реальная возможность применить научные
разработки в педагогической практике. В 1904 г. А. Бине вошел в
18 Тесты и их особенности
состав комиссии по созданию в Париже специальных школ для
умственно неполноценных детей. Требовалось отделить детей,
способных к учению, но ленивых и не желающих учиться, от страдающих
прирожденными дефектами. А. Бине и Теодор Симон (Simon Т.;
1873-1961) разработали серию заданий для детей от 3 до 11 лет.
Первоначально серия состояла из 30 тестов-заданий, расположенных по
мере возрастания трудности таким образом, что вероятность
успешного выполнения повышалась с хронологическим возрастом.
Уровень трудности был определен в результате обследования 50
нормальных детей этих возрастов и незначительного числа слабоумных.
За пределами определенного уровня сложности слабоумные дети не
могли решить задачи. Фактически, применение этого теста было
первой попыткой определить индивидуальные различия между
детьми с помощью измерения их умственного развития.
А. Бине и Т. Симон несколько раз пересматривали
созданную ими шкалу. В 1908 г. осуществлена новая редакция, в ходе
которой было изменено количество тестов, убраны неудачные
задания, расширена выборка стандартизации. В этой редакции
была поставлена принципиально новая задача — не только
дифференциация слабоумных и нормальных детей, но и выделение
разных уровней интеллектуального развития нормальных детей.
Важным изменением было то, что впервые тесты группировались
но возрастным уровням, что позволило определить нормы для
детей разных возрастов, и вводилось понятие умственного уровня
(позднее замененного на умственный возраст, а еще позже на
показатель умственного развития IQ).
Вариант 1911 года содержал шкалу, продолженную до возраста
15 лет, некоторое изменение заданий. Здесь была сделана попытка
стандартизировать шкалу и определить ее валидность.
Новая редакция теста А. Бине была разработана Левисом Ма-
дисоном Терменом (Terman L.M.; 1873-1961), она получила
известность как Станфордская шкала интеллекта Бине. В редакции Л.
Термена было увеличено количество тестов с 54 до 90, впервые
выработаны инструкции для предъявления отдельных субтестов.
Достаточно длительное время развитие тестов проходило как
инструмента индивидуальных измерений. Массовый характер
тестирования вызвал необходимость перейти от индивидуальных тестов к
групповым. В 1917-18 гг. в США появились первые групповые тесты
для нужд армии. Наибольшее применение нашли тесты Артура Син-
тона Отиса (Otis A.S.; 1866-1963). Им были предложены два набора
тестов (Альфа- и Бета — тесты) для владеющих английским языком
и «немые» тесты для не владеющих или плохо владеющих языком.
Глава 1 19
Основные принципы, использованные при составлении этих тестов,
были систематизированы и впоследствии легли в основу всей
методологии групповых тестов:
1. Принцип ограничения во времени (чтобы только 5%
испытуемых могли окончить проработку всего теста), т.е. показатель
развития прямо зависит от скорости выполнения заданий испытуемым.
2. Принцип детализированной инструкции как в отношении
проведения, так и в отношении подсчета.
3. Введены тесты с выборочным методом формирования ответа
с указанием подчеркивать наугад в случае незнания или сомнения.
4. Подбор тестов после тщательной статистической обработки и
экспериментальной проверки.
В это же время широко развиваются методики обработки
результатов тестирования, создания тестовых систем. Ф. Гальтон
первый разработал метод статистического сравнения двух рядов
переменных и ввел индекс совместного отношения, названный
коэффициентом корреляции. Также Ф. Гальтону принадлежит заслуга
изучения взаимосвязи переменных и построения линий регрессии одной
переменной на другую. В 1896 г. Карл Пирсон (Pearson К.; 1857-
1936) заложил основы теории корреляции. В 1904 г. Чарльз Эдвард
Спирмен (Spearman Ch. E.; 1863-1945) сделал следующий
значительный шаг в использовании метода корреляции для тестирования. Он
показал, что корреляция между двумя переменными свидетельствует
о наличии общего фактора (причины, определяющей величины этих
переменных) и специфических факторов, присущих каждой
переменной. Ч. Спирмен явился основателем двухфакторной теории.
Впоследствии Луис Левон Терстоун (Thurstone L.L.; 1887-1955)
развил далее идею факторного анализа. Л. Терстоун исходил из
понимания интеллекта как целого, состоящего из нескольких
первичных способностей (вербальной, перцептивной, способности к
восприятию пространства, памяти, беглой речи). Все эти факторы
равноправны, не существует единого фактора интеллекта. С помощью
факторного анализа не просто устанавливается связь изменения
одной переменной с изменением другой, а определяется мера этой
связи и обнаруживаются основные причины, лежащие в основе
указанных изменений. Достижения корреляционного и факторного
анализа находят свое применение и в современных исследованиях.
С начала 20 века определилось и педагогическое направление в
развитии тестологии. Американец В.А. Макколл разделил тесты на
педагогические (Educatinal Test) и психологические — по
определению уровня умственного развития (Intelligence Test). Основной
задачей педагогических тестов являлось измерение успешности учащих-
20 Тесты и их особенности
ся по тем или иным школьным дисциплинам за определенный
период обучения, а также успешность применения определенных методов
и технологии преподавания.
В. Макколл определил цель использования педагогических
тестов - объединение в группы учащихся, усваивающих равный по
объему материал и усваивающих материал с одинаковой скоростью.
Разработка первого педагогического теста принадлежит
американскому психологу Эдуарду Ли Торндайку. Он считается
основоположником педагогических измерений. Результатом большой
исследовательской работы в области измерений и использования метода
тестов в педагогике явилась книга «Введение в теорию психологии и
социальных измерений» (1904). Работы Э. Торндайка отличались
теоретической и методической законченностью. Первый
стандартизованный педагогический тест, вышедший под руководством Э.
Торндайка был тест Стоуна на решение арифметических задач,
впервые снабженный «нормами».
В 1915 году Йеркс создал свою серию тестов, главное отличие
которой — изменение системы подсчета. Вместо возрастных долей,
предложенных А. Бине, испытуемый получает за каждый правильно
решенный тест известное количество баллов. Это повысило удобство
проведения и подсчета результата теста. Количество полученных
баллов переводилось по приложенным стандартам в коэффициент
одаренности или успешности.
В 1918 году А. Отис опубликовал серию групповых тестов для
школы.
Группа американских психологов работает над созданием
«интеллектуальных» тестов для школ всей страны. Эти тесты
назывались «национальные тесты». Национальные тесты впервые были
составлены в 2 сериях по 2 варианта в каждой серии. Совершенствуя
методику, американские тестологи в этих тестах впервые перед
каждым разделом теста дают примерные упражнения.
Разработкой и проверкой тестов занимаются специальные
государственные службы. Еще в 1900 году в США был создан
Совет по вступительным экзаменам. В 1926 году — Совет колледжей
принял тест SAT, разрабатывал тесты для квалификационной и
профессиональной оценки деятельности педагога. С 1947 года
существует Служба тестирования (Educatinal Testing Service),
которая считается наиболее представительным научно-
исследовательским центром.
К 1961 году только в США были созданы 2126
стандартизированных тестов. Здесь существует множество тестовых издательств,
общая продукция которых представляет несколько тысяч различных
Глава 1 21
тестов. Естественно, они различаются по качеству и по спросу на
них. Изданные тесты ежегодно аннотируются и наиболее
значительные комментируются в ежегоднике «Mental Measurement Yearbook».
Среди создаваемых методик численное превосходство имеют
опросники и исполнительные тесты. Для исследовательской работы и
психодиагностической практики характерно применение новейших
методов статистики. Американские авторы тестов
психодиагностических тестов применяют так называемую эмпирическую стратегию,
т.е. создают как можно больший набор тестовых задач без какой-
либо системы или внутренней логики, а после применения этой
экспериментальной формы на большом количестве испытуемых
результаты подвергаются корреляционному и факторному анализу.
Интеграционные процессы, характеризующие современную
цивилизацию, дали толчок развитию новых направлений
педагогического тестирования. Оценка качества образования приобретает все
большую значимость по мере увеличения количества стран,
осознающих преимущества сопоставления собственных достижений с
международным контекстом. В связи с этим наибольшую
актуальность приобретают международные сравнительные исследования в
области школьной успеваемости. Проведение международных
исследований предоставляет странам возможность всесторонней
оценки эффективности функционирования своих образовательных
систем. Международное исследование имеет не только политическую и
экономическую ценность, но и в первую очередь педагогическую. В
современных условиях стремительного нарастания информации
педагогам необходимо изучать опыт других стран. Поиску новых, более
эффективных систем преподавания и должны способствовать
международные сравнительные исследования.
С 1959 года основные крупномасштабные международные
исследования проводятся под руководством неправительственной ор-
ишизации Международная ассоциация по оценке школьной
успеваемости (ИЕА). Учреждения ИЕА созданы в более чем 45 странах
мира и подключают к своей деятельности министерства
образования, педагогические факультеты университетов, научно-
исследовательские институты.
Первое исследование проводилось в 1959-66 гг. и затрагивало
вопросы успеваемости по математике в начальной и средней школе.
В этом исследовании участвовало 13 стран. В 70-е годы проводилось
исследование успеваемости по естествознанию, литературе,
гражданскому воспитанию, усвоению английского и французского
языков как иностранных. В 1981 году осуществлено 2-е международное
исследование по обучению математике, в котором участвовало уже
22 Тесты и их особенности
20 стран. А также в 80-е годы проводилось изучение учебной среды в
рамках класса, письменных сочинений и 2-е исследование
успеваемости по естественным наукам.
В настоящее время осуществляется ряд проектов: по
дошкольному воспитанию (15 стран), компьютерному обучению (20 стран),
исследование навыков чтения (31 страна). С 1994 года началось 3-е
исследование в области математики и естествознания. Это
исследование представляет собой поперечный и продольный срезы
охваченного им контингента учащихся разных возрастов и из различных
классов с целью определения уровня обучаемости по предметам. В
конечном итоге результаты исследования должны послужить
основой для выработки нового понимания этих дисциплин.
Исследования ИЕА строятся в определенной
последовательности и базируются на объяснительных моделях, основанных на
учебных программах. В тестировании обычно принимают участие
следующие возрастные категории учеников: 9-10, 13-14 и 17-19 лет.
Предполагается обследование тысяч учащихся в каждой стране с
помощью академических тестов, составляемых на основе учебных
программ и других школьных и внешкольных занятий.
Используемые тесты успеваемости направлены на измерение достижений
учащихся, которые можно оценить в баллах, скорректировать и
сравнить с аналогичными данными по стране, а также соотнести с
другими факторами, влияющими на успеваемость (например, с
содержанием обучения, технической оснащенностью школы, полом
учащихся, местностью проживания и пр.). Цель такого исследования —
создание достаточно гибкой модели, позволяющей измерить
комплексное воздействие школы на процесс овладения знаниями.
Исследование, как правило, включает последовательное
осуществление 6 основных этапов:
— разработка вопросов политики исследования;
— определение методологии и составление плана исследования;
— разработка инструментария;
— проведение выборки участников исследования;
— сбор и обработка данных;
— анализ результатов и составление отчета.
Помимо ИЕА существуют другие организации, занимающиеся
проблемами международного тестирования. Например, Институт
образования ЮНЕСКО (Гамбург), Международный центр
педагогических исследований в Париже провели совместно с ИЕА
исследование навыков чтения в 35 странах (1990 г.). Тест предполагал
изучение 3 аспектов: чтение описательного текста, повествовательного и
восприятие графики (диаграмм, карт, докладов, требовавших от
Глава 1 23
учащихся умения восстанавливать важные фрагменты информации).
Подчеркнем, что определение лучшей или худшей страны в
изучаемой области не является целью этого тестирования. Задачей
исследования становится поиск наиболее эффективных условий
обучения.
Особым путем шло проникновение тестов в Россию. До 1917
года вопросам тестирования уделялось недостаточное внимание.
Практическое значение тесты получили после 1925 года, когда была
создана особая тестовая комиссия. Тестовая комиссия существовала
при педагогическом отделе Института методов школьной работы. В
ее задачи входила разработка стандартизированных тестов для
советской школы. И уже весной 1926 года вышли такие тесты, созданные
на основе американских. Были разработаны тесты по
природоведению, обществоведению, счету, решению задач, знанию
географической карты, на понимание чтения и правописание. К этим тестам
прилагались инструкции и личная карточка для учета прогресса
учащегося.
Проблемой разработки тестов вплотную занимались видные
российские психологи и педагоги: С.Г. Геллерштейн, П.П. Блон-
ский, А.П. Болтунов, М.С. Бернштейн, A.M. Шуберт, Г.И. Залкинд
и др. В 1927 году вышла книга СМ. Василейского «Введение в
теорию и технику психологического, педологического и
психотехнического исследования», где излагались теоретические и практические
подходы к созданию и использованию тестов. Можно сказать, что
это был первый учебник, где отражена методика составления анкет и
тестов, статистические методы обработки результатов (включая
корреляцию), методы изучения различных профессий, вопросы
проведения эксперимента. Мысли, изложенные СМ. Василейским, о
методе, методике и технике анкетного опроса, обработки анкетной
информации не потеряли ценности и в наши дни.
В 20-с годы Центральная педологическая лаборатория МОНО
под руководством педолога Е. Гурьянова разработала и выпустила в
свет несколько тестов:
1. Шкала для измерения умственного развития детей;
2. Тесты для учета навыков в чтении, счете и письме;
3. Тесты коллективного испытания умственной одаренности.
Под руководством П.П. Блонского в педагогическом кабинете
Академии коммунистического воспитания осуществлялась проверка
шкалы Бине-Симона, создание школьных тестов и построение
собственных стандартов. В Ленинградском научно-педагогическом
институте им. А.И. Герцена и Детском обследовательском институте
им. А.С Грибоедова разрабатывались тесты на одаренность и тесты
24 Тесты и их особенности
школьной успешности для массовых обследований детей
нормальных школ.
Однако вскоре положение кардинально изменилось. Вышедшее
в 1936 году постановление ЦК ВКП(б) «О педологических
извращениях в системе Наркомпросов» негативно сказалось на развитии
педологии в целом и тестологии в частности. Метод тестов был
признан буржуазным орудием для дискриминации учащихся и «изгнан»
из советской школы.
Данные факты достаточно хорошо известны, однако,
рассматривая уроки педологии нельзя не отметить нескольких моментов,
которые достаточно похожи и на нашу современную
действительность. Во первых, в связи с бурным развитием педологии остро встал
кадровый вопрос, и «когда открылись финансируемые
педологические лаборатории, туда ринулось много профессионально
некомпетентных людей. Неудавшиеся чиновники, учителя, физиологи,
врачи стали занимать места, которые, как им казалось, не требуют
специальной подготовки. Рекомендации педологов все чаще вызывали
протесты учителей».
Второй момент, который следует отметить, это увлечение
педологов собственно методиками обследования, желание
преимущественно заниматься изучением. «Увлечение разработкой
исследовательских приемов приводило к тому, что для части
педологов шлифовка и набор методов имели самодовлеющее
значение. Свое призвание и главную цель они видели в изучении
воспитанников с помощью разнообразных процедур. Многие из них,
оправдываясь, говорили, что педологи должны изучать ребенка, а
воспитывать его обязаны педагоги. Такое разделение функций
возмущало педагогов».
И третий момент, который стоит отметить, — это отсутствие
заинтересованности системы управления в объективных результатах
обследований педологов. «Сами вопросы и предлагаемые ответы
вызывали панику. В тестах для красноармейцев авторы ставили такие
вопросы и формулировали следующие альтернативные ответы. «Кто
такой Сталин? Анархист, коммунист, меньшевик, эсер. Кто такие
белогвардейцы? Коммунисты. Контрреволюционеры. Крестьяне.
Служащие... Что такое 1 Мая? Начало весны. Рабочий праздник.
Траурный день. Церковный праздник... С чем борется ГПУ? С
безграмотностью. С контрреволюцией. С кооперацией. С революцией».
Из материалов таких исследований было видно, что полуграмотные,
а иногда совсем неграмотные красноармейцы не знали своих
вождей, не разбирались в политических и идеологических вопросах. На
Глава 1 25
вопрос, кто является соглашателем, 20% ответили: Керенский, а 30%
назвали Ленина».
Как это ни странно, но ситуация с тестированием в нашей
стране сейчас очень похожа, мы имеем все шансы наступить на
грабли педологов.
Также остро стоит проблема подготовки кадров, которые могли
бы участвовать в создании тестов, также жив миф о том, что для
составления тестового инструмента нет необходимости иметь
специальные знания. Лучшим доказательством этому могут служить
размножившиеся в невероятном количестве книги с названием «Тесты
по...». Большинство из которых не выдерживают минимальной
критики.
Среди людей, профессионально занимающихся тестированием,
сильны настроения и желания поскорее сделать тесты, ввести
национальные или региональные системы тестирования, не
задумываясь о негативных последствиях таких шагов, считая своей задачей
качественную подготовку инструмента и обеспечение его
использования, оставляя ответственность за последствия на управленцах, а
ответственность за исправление результатов на педагогах.
Не так просто обстоит дело и с потребностью в объективной
информации, которую тестирование может дать. На первый взгляд в
такой информации испытывают необходимость и учитель — для
самооценки профессиональной деятельности и оценки достижений
ученика, с целью корректировки педагогических воздействий; и
руководитель образовательного учреждения — для определения
стратегии развития образовательного учреждения, для оценки качества
работы педагогов и корректировки многообразных управленческих
решений. Испытывают острую необходимость в такой информации
и руководители более высокого уровня.
Однако для достаточно большой группы педагогических
работников, родителей объективная управленческая информация
представляется как негативное явление. Дело здесь не только в их личных
качествах, ретроградстве или нежелании прогрессивных реформ.
Появление и использование в практике работы образования
объективной информации порождает целый ряд проблем, к решению
которых могут быть не готовы не только отдельные педагоги или
отдельные учреждения, но и вся система образования в целом.
Например, сейчас существуют большинство предпосылок для того, чтобы
проводить объективную аттестацию учащихся. Негативными
последствиями такой объективной оценки могут быть:
26 Тесты и их особенности
— проблема неаттестованных (прагматичное звучание
которой — а что делать с двоечниками — выпускать со справкой?
Оставлять на повторный курс обучения?);
— проблема массовых негативных психологических
последствий, поскольку не получение документа об образовании у нас
рассматривается как личная трагедия и учеником, и родителями, и
педагогом;
— проблема выпускников сельских образовательных
учреждений, которые при объективной аттестации будут иметь оценки
гораздо ниже, чем сейчас, и для которых практически закроются
возможности получения высшего образования.
Существует и целый ряд других не менее значимых проблем.
Вместе с тем, социальная группа потребителей объективной
информации растет, и подтверждением этому стало появление
практически при каждом органе управления образованием своей
информационной службы (при многообразии их названий),
преобразование многих традиционных районных методических
кабинетов в информационные службы, повышение
профессионализма их работы. Эти процессы оцениваются неоднозначно, так
А.И. Кузнецов пишет: «Под влиянием общих социально-
политических процессов в стране и система образования
вынуждена была объявить себя изменяющейся для демонстрации этого
«процесса», что проявилось: в массовом создании
«интеллектуализированных» служб (психологических,
социальных, методических), экспертных советов».
Таким образом, есть основания говорить о том, что мы стоим на
пороге кризиса тестирования в нашей стране, для которого созданы
все предпосылки. Конечно, таких последствий как разгром
педологии 1936 года ждать уже не приходится, однако в случае
неблагоприятного развития событий сам метод тестирования может быть
серьезно дискредитирован в глазах педагогической общественности, что
может привести к закрытию информационных, диагностических
служб, которые могут служить основой для создания качественной
системы тестирования в нашей стране.
В настоящее время в нашей стране появилось несколько
центров, в которых достаточно профессионально занимаются работой с
тестовыми методиками. Среди наиболее активных следует назвать:
Центр оценки качества образования Института общего среднего
образования РАО, Центр тестирования выпускников
общеобразовательных учреждений Российской Федерации, Центр
психологического и профессионального тестирования МГУ, Лаборатория
аттестационных технологий Московского института повышения квали-
Глава 1 27
фикации работников образования (МИПКРО), Лаборатория
изучения образовательных систем Центра развития образования (г.
Санкт-Петербург), Центр аттестации областного института
повышения квалификации и переподготовки педагогических кадров (г.
Вологда), Научно-информационный центр государственной
аккредитации Минобразования России (г. Йошкар-Ола),
Исследовательский центр проблем качества подготовки специалистов, Центр
аттестации Института развития регионального образования (г.
Екатеринбург) и целый ряд других.
И завершая обзор становления и развития метода теста, хочется
подчеркнуть важность и педагогическую ценность этого метода,
дающего возможность статистически точно анализировать процесс
получения образования, искоренять недочеты и видеть дальнейшие
перспективы его развития. Критическое отношение к тестированию,
понимание его возможностей позволит педагогу адекватно
использовать тесты для улучшения педагогического процесса.
1.2. Тесты школьных достижений, их отличия от тестов
психологических и преимущества перед иными формами аттестации учащихся
Предметом нашего рассмотрения будут тесты, но не все и не
всякие тесты, а в первую очередь тесты учебных достижений (другие
синонимичные названия: тесты школьных достижений,
педагогические, дидактические и т.д.).
Современное понимание тестов и тестирования можно
развести по трем уровням:
Первый — «бытовой» уровень. Здесь тест понимается как набор
вопросов с вариантами ответов, который стоит в одном ряду с
кроссвордами, головоломками и служит в большей степени для
развлечения и удовлетворения познавательных интересов. Педагоги с таким
пониманием тестирования считают тестирование очень
ненадежным, ограниченным, а создание тестов простейшим делом.
Второй уровень понимания тестирования можно назвать
«словарным». В этом понимании выделяются основные
составляющие понятия тестирования. При этом не учитываются особенности
процедуры создания, использовалия, анализа, специфичные для той
или иной сферы применения. Для этого понимания характерны
разночтения и противоречия в понятиях и определениях. Современное
состояние развития тестологии находится именно на этом уровне.
Многие понятия до конца не определены, многие авторы трактуют
по-разному одни и те же понятия и, в свою очередь, одно явление
может иметь несколько названий. Это вполне естественный этап
28 Тесты и их особенности
развития молодого научно-практического феномена, когда
понятийный аппарат находится в стадии становления, а часть терминов и
понятий иноязычны и в разных переводах приобретают
отличающиеся значения. (Например, само понятие тестирование в русском
языке имеет значение «испытания с использованием тестов», в
английском тестирование может использоваться как эквивалент
экзамена, любого испытания.) Субъективными причинами такого
положения являются попытки отечественных авторов вводить свои
определения взамен устоявшихся в смежных областях науки, особенно в
психодиагностике. (Например, достаточно устойчивое понятие
психодиагностики «дискриминативность» в отечественной
педагогической литературе часто заменяется на понятие «дифференцирующая
способность»). Исходя из сложившейся ситуации, мы попытаемся
дать максимально большой спектр различных синонимов, которые
могут встретиться в литературных источниках.
Третий уровень понимания может быть назван научным. Он
наиболее точен, учитывает особенности тестов и отражает
требования к тестам, которые появляются в процессе развития и научного
обоснования тестирования. К этому уровню, вероятно, и следует
стремиться.
Попробуем определить, что же все-таки представляют собой
тесты и тестирование. В одной из работ дается расширенное
понимание тестирования, которое, вероятно, является попыткой
перенесения прямого перевода с английского языка: «В узком смысле
тестирование в педагогике означает использование стандартизованных
педагогических тестов для измерения и оценки результатов
обучения. В широком же смысле тестирование — это любое испытание с
целью выявления и измерения школьных достижений. С этой точки
зрения любой школьный экзамен или контрольная по предмету есть
тестирование, а совокупность средств и методов, используемых в
этом случае, можно охарактеризовать как «системы тестирования»
или «тестовые системы». С такой трактовкой трудно согласиться,
поскольку, когда разговор идет об устном или письменном
традиционном способе аттестации учащихся, мы говорим: «Устный или
письменный экзамен», спрашиваем: «Как ты сдал экзамен?» и даже в
том случае, когда испытание проводилось с использованием тестов,
мы говорим об экзамене как синониме испытания.
Лексические особенности отмечает B.C. Аванесов: «Понятие
«педагогический тест» нужно рассматривать в двух существенных
смыслах:
— как метод педагогического измерения;
Глава 1 29
— как результат применения теста, как метода измерения,
состоящего из ограниченного множества заданий. Удивительно, что
тексты на русском языке тяготеют к первому смыслу, в то время как
в большинстве работ западных авторов понятие тест чаще
рассматривается во втором смысле».
Приведем несколько современных словарных определений
тестов для психолого-педагогической области:
Тест — это объективное и стандартизированное измерение, легко
поддающееся количественной оценке, статистической обработке и
сравнительному анализу.
Тест — стандартизированные задания, по результатам
выполнения которых судят о психофизиологических и личностных
характеристиках, а также знаниях, умениях и навыках испытуемого.
Тест — это система заданий, позволяющих измерить уровень
развития определенного психологического качества (свойства) личности.
Тест — это специфический инструмент, состоящий из
совокупности заданий или вопросов и проводимый в стандартных условиях,
позволяющий выявить типы поведения, уровень владения какими-либо
видами деятельности и т.п.
Тест — стандартизованное, часто ограниченное во времени
испытание, предназначенное для установления количественных и
качественных индивидуально-психологических особенностей.
При кажущемся разнообразии эти определения близки между
собой. Наиболее существенным для нас представляется то, что тест в
психолого-педагогическом понимании этого слова означает
проверку, испытание, но это не простое установление факта наличия или
отсутствия какого-либо качества или свойства. Из приведенных
определений следует, что в состав теста входят тестовые задания, что
тест должен быть стандартизирован и что назначение теста — это
выявление личностных особенностей или приращений.
По мнению B.C. Аванесова «Тест состоит из заданий, правил их
применения, оценок за выполнение каждого задания и
рекомендаций по интерпретации тестовых результатов».
Данное определение представляется вполне корректным,
однако, несколько мелким и не совсем точным. Поскольку
правила применения должны быть распространены не только на
задания, но и на весь тест целиком. Если мы включаем в
определение «рекомендации но интерпретации тестовых результатов», то
мы должны включить и рекомендации по обработке тестовых
результатов.
Мы будем придерживаться несколько иного определения,
авторство которого принадлежит достаточно большой группе специа-
30 Тесты и их особенности
листов из различных регионов России, которые в 1997-98 гг.
принимали участие в работах по согласованию понятийного аппарата тес-
гологии:
Тест — это инструмент, состоящий из квалиметрически
выверенной системы тестовых заданий, стандартизированной процедуры
проведения и заранее спроектированной технологии обработки и
анализа результатов, предназначенный для измерения качеств и
свойств личности, изменение которых возможно в процессе
систематического обучения.
Нам кажется, что данное определение достаточно кратко и
вместе с тем полно отражает состав теста и его целевое назначение.
Вероятно, в начале целесообразно отделить тесты от не тестов.
Тест не является аналогией отдельным заданиям, экзаменационным
вопросам, анкетам, головоломкам и пр. В его основе лежит
специально подготовленный и испытанный набор заданий, позволяющих
объективно и надежно оценить исследуемые качества и свойства на
основе использования статистических методов, но как это следует из
определения не только это.
Формально отделить тесты от не тестов достаточно просто,
используя приведенное определение: тест в качестве составляющих
должен иметь, по крайней мере, три элемента — систему заданий,
зафиксированную документально технологию предъявления и
отработанную систему проверки обработки и анализа результатов,
которые должны составлять единство.
Наше утверждение базируется на достаточно значительном
количестве доводов, основные из которых мы приведем.
Тесты как измерительный инструмент используются в
большинстве стран мира. Их разработка и использование основано на
мощной теории и подтверждено многочисленными эмпирическими
исследованиями. Тестология как теория и практика тестирования
существует более 120 лет, и за это время накоплен громадный опыт
использования тестов в различных сферах человеческой
деятельности, включая образование. Тесты не являются универсальным
средством, границы использования тестирования достаточно хорошо
известны, и это знание дает уверенность в том, что качественно
подготовленный и использованный тестовый инструмент даст
качественную и надежную информацию, соответствующую реальному
положению дел.
Критики недостатков традиционных способов аттестации
учащихся приведено достаточно много. Основной недостаток —низкая
объективность оценивания, о которой говориться уже много лет.
Приведем еще несколько доводов. По сведениям А.Н. Кимберга
Глава 1 31
(Создание систем оценки качества знаний учащихся. Краснодар,
1994) в 1994 году в Москве из 50 тысяч выпускников получили
золотые медали 110, а в Новосибирске из 8 тысяч — 55. Вполне резонно
принять обучение и процедуру проверки работ как одинаковые, а
разной только объективность оценивания. Коэффициент
объективности, рассчитанный в этой работе для этих городов, составляет
1:0,3.
Подтверждением низкой объективности служит и не
уменьшающееся количество обращений родителей в апелляционную
(медальную) комиссию. Основанием для этих обращений является
необъективность и неоднозначность средств аттестации.
По результатам перепроверки письменных экзаменационных
работ (Результаты итоговой аттестации учащихся образовательных
учреждений Санкт-Петербурга. 1994/95 учебный год) отмечается,
что в школе комиссия выставила 13 двоек, в то время как учитель не
выставил ни одной... Средний балл учащихся по части
образовательных учреждений был подтвержден, по части понижен максимально с
3,59 до 2,76. Эти факты дают основания говорить о крайней
необъективности итоговой аттестации выпускников.
По данным английской организации NEAB, занимающейся
итоговой аттестацией учащихся Великобритании, тестирование
позволяет снизить количество апелляций более чем в три раза, сделать
процедуру оценивания одинаковой для всех учащихся вне
зависимости от места проживания, типа и вида образовательного учреждения,
в котором занимаются учащиеся.
Во-первых, тесты оказываются значительно более качественным
и объективным способом оценивания, объективность тестирования
достигается путем стандартизации процедуры проведения (на всех
этапах проведения тестирования невозможно внести субъективную
составляющую в оценку) и путем стандартизации и проверки
показателей качества заданий и тестов целиком.
Во вторых, тесты - более емкий инструмент — показатели тестов
ориентированы на измерение степени, определение уровня усвоения
ключевых понятий, тем и разделов учебной программы, умений,
навыков и пр., а не на констатацию наличия у учащихся определенной
совокупности усвоенных знаний. Стандартизированная форма
оценки, используемая в тестах достижений, позволяет соотнести
уровень достижений учащегося по предмету в целом и по отдельным
его разделам со средним уровнем достижений учащихся в классе и
уровнями достижений каждого из них.
В-третьих, тесты — более объемный инструмент — выполняя
тестовую работу, каждый ученик выполняет задания, используя знания
32 Тесты и их особенности
по всем темам, изучение которых предусматривала программа. На
устный экзамен обычно выносится 2—4 темы, на письменный
несколько больше. В таблице представлен анализ охвата тем разными
средствами проведения аттестации по двум предметам. Анализ
проведен по базовым курсам. Темы по письменным экзаменам
рассчитаны по материалам городской независимой экзаменационной
комиссии Санкт-Петербурга за 1996 год.
Таблица 1
Физика
История
Всего тем
за курс
24
18
Количество тем за курс 9-го класса
Устный экзамен
3
2-3
Письменный
экзамен
11
1-2
Экзамен в
форме теста
24
18
Четвертым существенным отличием тестов от традиционных
методов аттестации работ является то, что это более мягкий
инструмент, они ставят всех учащихся в равные условия, используя единую
процедуру и единые критерии оценки, что приводит к снижению
предэкзаменационных нервных напряжений.
Тест (и может быть это наиболее важно) — широкий
инструмент— и с точки зрения интервала оценивания. Если провести
аналогию с прыжками в высоту, то традиционная контрольная работа
представит собой не линейку, а палочку, на которой нанесены три
риски: 5, 4 и 3. В случае выполнения учеником всех заданий он
получает отметку отлично. При этом совершенно не ясно, перепрыгнул
он нашу палочку с запасом в два раза или пролетел прямо над ней.
То же можно сказать и про нижнюю отметку. Сравнение
тестирования и традиционного оценивания можно проиллюстрировать
следующим рисунком.
Означает ли тот факт, что если ученик не выполнил ни одного
задания, то он ничего не знает? Скорее всего, нет. А означает ли, что
ученики, выполнившие верно все задания контрольной работы,
имеют одинаковый уровень подготовки — вероятно, что то же нет.
На рисунке схематично представлена шкала обычной школьной
оценки и шкала оценки теста.
Глава 1
33
Как можно видеть
тестирование предоставляет
возможность расширить шкалу
оценивания как вверх, так и в низ.
Давая широкие возможности для
проявления достижений, тест
представляет собой широкий
измерительный инструмент.
Здесь весьма уместно провести
аналогию с измерением
прыжков в высоту.
Традиционная система
оценивания представляет собой
палочку, на которую нанесены
четыре риски.
При этом первая риска
(оценка два) находится на некотором
(неизвестном) расстоянии от земли.
Тестирование можно сравнить с шестом примерно трехметровой
высоты (а вдруг надо зафиксировать рекорд мира), риски на котором
расположены практически от земли.
В этом отношении тестирование приходит в противоречие с
учительским стереотипом о том, что отличную оценку нужно
выставлять только в том случае, если все задания выполнены
правильно.
Можно отметить и гуманизм тестирования, который
заключается в том, что всем предоставляются равные возможности, а широта
теста дает возможность ученику показать свои достижения на
широком поле материала. Таким образом, ученик получает некоторое
право на ошибку, которого он при традиционном способе
оценивания не имеет.
Привлекательными оказываются тесты и с точки зрения задач
управления. Они дают широкую возможность для варьирования
сложности измерительного материала, широты охвата, целевой
направленности, включения в тест нескольких компонентов структуры
знаний, что позволяет создать инструмент, учитывающий самые
взыскательные требования управленца. Система показателей
качества теста дает возможность оценить то, насколько реально созданный
инструмент соответствует этим требованиям, и использовать его
строго в соответствии с этими требованиями.
Кроме этого, тесты эффективны с экономической точки зрения.
Традиционная
система
оценивания
Тестирование
34
Тесты и их особенности
При тестировании основные затраты приходятся на
составление качественного инструментария, то есть носят разовый характер.
При увеличении количества аттестуемых эти затраты
распределяются на них пропорционально, что приводит к снижению общих
затрат.
На следующих графиках представлен сравнительный анализ
затрат для независимой городской экзаменационной комиссии (ГЭК)
в Санкт-Петербурге и экзаменами с использованием тестов.
Сравнительный анализ общих затрат на различные способы
аттестации учащихся с увеличением количества учащихся
1 тыс.
руб.
2 тыс. Зтыс. 4 тыс. 5 тыс. 6 тыс. 7 тыс. 8 тыс.
руб. руб. руб. руб.
руб
руб. руб.
Рисунок 2
Сравнительный анализ затрат на 1 ученика при различных способах
аттестации учащихся с увеличением количества учащихся
ГЭК
- Тесты
12 3 4 5 6 7 8
тыс. тыс. тыс. тыс. тыс. тыс. тыс. тыс.
руб. руб. руб. руб. руб. руб. руб. руб.
Рисунок 3
Глава 1 35
В основе тестирования лежат достаточно простые, логичные, не
противоречащие здравому смыслу правила и законы, которые
позволяют найти полноценный непротиворечивый ответ на те «почему?»,
которые возникают у пользователей.
Однако тесты достижений не являются инструментом для
определения всего спектра школьных достижений. Определение
достижений, например, в социальной сфере необходимо проводить не
тестами достижений, а специальным инструментом, на решение такой
задачи рассчитанным и для этих целей разрабатываемым.
Одним из существенных ограничений применения
тестирования школьных достижений являются ограничения, которые
накладываются на ответы. В силу чего анализ способов решения задач,
мыслительных операций, которые использует ученик при решении
задач, в большинстве случаев оказываются затруднены, но не
невозможны.
Однако в рамках существующих ограничений на сегодняшний
день метод тестирования является как наиболее мощным, надежным
и объективным при решении широкого спектра педагогических
задач средством, так и наименее теоретически и практически
разработанным в нашей стране.
Представляется так же целесообразным отделить инструмент
педагогический от психологического. Сделать это можно с
достаточной степенью условности. Можно считать, что педагогические
тесты направлены на выявление тех личностных
новообразований и приращений, которые получены в результате
систематического обучения, в то время как близкие им психологические - на
выявление особенностей, полученных в результате всей
жизнедеятельности.
С другими подходами к разделению инструмента, заданий на
тестовые и нетестовые мы поговорим, когда будем обсуждать
типологию тестов и тестовых заданий.
Тесты многообразны, велики по номенклатуре и назначению.
Какие из них нам подходят в большей мере? Чтобы ответить на этот
вопрос, посмотрим, а какие тесты бывают вообще. Для этого
рассмотрим классификации тестов.
1.3. Тесты, ориентированные на нормы, и тесты, ориентированные
на критерий. Классификации тестов
Первое, на чем надо остановиться, рассматривая
классификацию тестов — это два подхода, которые в настоящее время сложились
в тестировании — тесты, ориентированные на критерий
36 Тесты и их особенности
(критериально-ориетированные) и тесты, ориентированные на
норму (нормативно-ориентированные). Появившись как разные
подходы к анализу результатов тестирования, отражающие разные
основания для сравнения, сейчас эти два подхода определяют, как мы
увидим позже, разницу на большинстве этапов создания теста.
Понимание критериальный и нормативной ориентированности
как разных подходов к интерпретации результатов мы находим у
B.C. Аванесова.
С точки зрения интерпретации результатов: «Для
критериально-ориентированной интерпретации вывод выстраивается вдоль
логической цепочки: задания ответы выводы о соответствии
испытуемого заданному критерию»,
«Для нормативно-ориентированной ориентации вывод
достраивается рейтингом: задания ответы выводы о знаниях
испытуемого рейтинг, понимаемый как вывод о месте или ранге
испытуемого».
Описание этих двух подходов в своей схематичной форме
вполне отражает смысл разницы в интерпретации.
Ранее автор вводит и третий подход. Предметно-
педагогический подход к интерпретации, где вывод выстраивается
вдоль логической цепочки: содержание учебной дисциплины
генеральная совокупность задания для измерения знаний тест как
выборка заданий из этой совокупности ответы испытуемого
вероятностный вывод о его знаниях учебной дисциплины.
Представляется, что этот третий подход лежит в иных
классификационных отношениях с первыми двумя. Сущностным
основанием для выделения этого вида служит факт возможности оценки
ученика по предъявлению части заданий генеральной совокупности
тестов, в то время как у первых двух подходов сущностным
основанием является способ интерпретации результатов. То есть
вероятностный вывод о знаниях учебной дисциплины на основе ответов
ученика на часть заданий теста из генеральной совокупности заданий
может быть сделан как на основе соответствия заданному критерию,
так и на основе ранга испытуемого.
Кроме этого непонятной является связь между языком
описания, личностью интерпретатора и ориентацией анализа. Почему
предметно-педагогический подход к интерпретации ведется
«педагогами на языке учебной дисциплины», критериально-
ориентированная интерпретация ведется «преимущественно
работниками органов управления образованием на языке учебной
дисциплины», а нормативно-ориентированная интерпретация «ведется на
языке тестологии»? Вероятно, есть смысл говорить о разных языках
Глава 1 37
описания для двух (критериально— и нормативно-
ориентированных) подходах, когда один подразумевает
использование статистики, а другой нет, или о преимущественных сферах
использования результатов в одном случае более ценных для педагога,
а в другом для управленца. Достаточно странно выглядит
предположение о том, что анализ качества усвоения учебного материала и
параметры достижения критериев в меньшей степени интересуют
управленцев, нежели результаты, полученные учениками
относительно места в группе.
Попытаемся разобраться в данном вопросе, основываясь на
работе Н. Гронлунда.
В самом общем виде основанием для сравнения в тестах,
ориентированных на норму, являются результаты, полученные при
предварительном тестировании группы учащихся, репрезентативной для
какой-то общности. Например, предположим, что тест по математике
для итогового тестирования учащихся 8-го класса, занимающихся по
программам углубленного изучения историко-краеведческих
дисциплин, состоит из 70 заданий. Среднее количество заданий, с которыми
справились учащиеся этой выборки, составило 33. Используя этот
инструмент, мы провели тестирование учеников класса сходного
профиля и выяснили, что ученик Петров справился с 33 заданиями.
Оценивая этого ученика на основе нормы, мы можем сказать, что половина
учеников справляется лучше, чем он, а другая половина — хуже.
Аналогичную по подходу оценку можно дать и для остальных учащихся,
которые выполнили другое количество заданий. Более подробно,
каким образом даются эти оценки и как возможно выставление
корректной оценки в школьных баллах, мы рассмотрим в разделе
«Нормирование». Сейчас для нас важно, что оценка в рамках этого
подхода дается на основе предварительно полученных статистически
обоснованных норм. Возможен и еще один способ, когда оценка дается
относительно места ученика в группе (пятый из 40 или 27 из 150 и т.д.), в
этом случае нет необходимости получения предварительных норм, но и
отсутствует возможность получения корректного сравнения для разных
групп, поскольку результаты будут зависеть от состава группы.
Характеризуя подход, ориентированный на критерий,
Н. Гронлунд пишет: «Результаты второго типа тестов
обрабатываются с точки зрения специальных знаний или навыков, которые
студент может продемонстрировать (например, «он может определить
все части микроскопа и продемонстрировать их правильное исполь-
38 Тесты и их особенности
зование»). Он дает возможность определить, что каждый ученик
может сделать с точки зрения конкретной задачи, не соотнося его
действия с действиями других членов группы». Критерий определяется
на основе экспертного оценивания как по номенклатуре, так и по
критическому уровню. Например, специалисты по русскому языку
создают тест для оценки уровня владения определениями по теме
«Части речи». Они выясняют, какие определения включить, как
оценивать ответы и тот уровень, превысив который можно считать,
что ученик владеет определениями в достаточной степени.
Например, они определили, что достаточным является включение в тест 18
определений, при этом они также определяют, что для получения
положительной оценки достаточно правильно дать ответ на 12 из
них. С точки зрения оценки, этот подход дает оценку только по
дихотомической шкале: справился — не справился, прошел — не
прошел, зачет-незачет и т.д. Этот подход имеет и еще один, может быть,
не менее важный аспект, чем оценка ученика. Это — широкие
возможности для описания тех задач, с которыми ученик справляется,
тех задач, с которыми справляется меньше всего учащихся. Наличие
и реализация такой возможности, с педагогической точки зрения,
наиболее существенное отличие критериально-ориентированного
тестирования.
Нельзя сказать, что возможность анализа того материала, с
которым лучше или хуже справляются ученики, невозможна в рамках
подхода, ориентированного на норму. Однако, реализуя задачу
максимального разнообразия оценок в рамках подхода,
ориентированного на норму, мы отбираем задания, которые дают максимальный
разброс в оценках испытуемых, отбраковываем задания, с которыми
справляются все учащиеся или с которыми не справляется ни один
из учеников, поскольку они, с точки зрения оценивания учеников
неинформативны. Однако, когда вопрос касается анализа усвоения
элементов учебного материала, то задания, с которыми справляются
все или не справляется никто становятся для нас чрезвычайно
важными. Мы можем утверждать, что данный учебный элемент не
освоен никем, а данный освоен всеми учащимися. Таким образом,
критериально-ориентированные тесты дают возможность реализовать
широкие диагностические возможности в отличие от тестов,
ориентированных на норму.
Завершая рассмотрение двух подходов к тестам, приведем
сравнительную таблицу.
Глава 1 39
Таблица 2
Суммарное сравнение двух основных подходов к тестированию
по достигнутым результатам (по Н. Гронлунду)
1. Основной вид
использования
2. Основное
значение
3. Обработка
результатов
4. Диапазон
охвата
5. Характер
тестового плана
6. Процедура
подбора
вопросов
7. Стандарты
выполнения
Тестирование на основе
нормы
Обзорное тестирование
Оценить индивидуальные
различия в уровне
достигнутых знаний
Сравнение индивидуальных
результатов с результатами
других членов группы
Обычно охватывает широкую
область достижений
Обычно используется
таблица спецификаций
Отбираются вопросы,
обеспечивающие максимальное
разнообразие в
индивидуальных оценках (для
достижения более высокого
разнообразия в оценках). Легкие
вопросы обычно не
включаются в тест.
Уровень выполнения теста
определяется относительно
позиции в группе (пятое
место в группе из двадцати)
Тестирование на основе
критерия
Тестирование на степень владения
материалом
Описать задачи, которые студент
может выполнить
Сравнение результатов с четко
определенной областью достижений
Обычно фокусируется на
ограниченном наборе учебных задач
Принимается во внимание детальная
область спецификаций
Включаются все вопросы,
необходимые для адекватной оценки. Не
делаются попытки изменить сложность
вопроса или исключить легкие
вопросы в целях достижения большего
разнообразия в оценках
Уровень выполнения теста
определяется исходя из абсолютных
стандартов (владение материалом
демонстрируется определением 90 процентов
технических терминов)
Таким образом, приступая к построению системы
тестирования, мы должны определить те цели, которые мы преследуем и
выбрать соответственно им подходы и область применения
планируемого тестового инструментария.
Вариант и способ создания тестов будут зависеть и от того, как
широко мы планируем использовать создаваемый тестовый
инструмент. Более подробно мы остановимся на этом аспекте в следующем
разделе.
К настоящему времени сложилась практика организации
различных видов тестирования, требующих соответственно разных
тестов, попытаемся представить наиболее полную классификацию
тестов, в которой кроме учебных достижений представлены и другие
40 Тесты и их особенности
виды тестов, в частности различные психодиагностические тесты.
Это сделано для того, что бы представить себе место тестов учебных
достижений в общей структуре имеющихся на сегодня видов тестов,
дать возможность для обогащения практики тестирования учеников
за счет использования иных возможностей, которые могут появиться
на стыке различных видов и типов тестового инструментария.
Таким образом, кроме приведенных подходов, тесты можно
классифицировать по целому ряду оснований.
/. По процедуре создания могут быть выделены
стандартизированные и не стандартизированные тесты.
Стандартизируются процедура и условия проведения
тестирования, способы обработки и интерпретации результатов, которые
должны привести к созданию равных условий для испытуемых и
минимизировать случайные ошибки и погрешности как на этапе
проведения, так и на этапе обработки результатов и интерпретации
данных.
В образовании можно выделить ряд задач, которые могут быть
решены не стандартизированными тестами. Однако для целей
итоговой аттестации учащихся можно использовать только
стандартизированный тестовый инструмент.
2. По средствам предъявления:
— бланковые (тесты «бумага и карандаш»), эти тесты в свою
очередь можно разделить на два вида:
а) с использованием тестовых тетрадей, в которых находятся
тестовые задания и в которых испытуемый фиксирует результаты;
б) с использованием бланков, в которых испытуемые отмечают
или вписывают правильные ответы (фиксируют ответы). Бланки
предъявляются отдельно от заданий;
— предметные - в которых необходимо манипулировать
материальными объектами, результативность выполнения этих тестов
зависит от скорости и правильности выполнения заданий;
— аппаратурные — тесты с использованием устройств для
изучения особенностей внимания, восприятия, памяти и мышления;
— практические — появившиеся относительно недавно эти
тесты сходны с известными у нас лабораторными работами (по химии,
физике, биологии и пр.), однако снабженные соответствующими
инструкциями и имеющие тестовое оснащение);
— компьютерные.
Кроме этого B.C. Аванесов предлагает в рамках компьютерного
тестирования выделить еще адаптивные тесты — задания, в которых
предъявляются по одному, в зависимости от ответа испытуемого на
предыдущий вопрос. Вероятно, в этом есть смысл, поскольку боль-
Глава 1 41
шинство тестов предполагает предъявление конечного набора
вопросов испытуемому и не предполагает зависимости от ответа на
предыдущие вопросы. Вероятно, можно предположить возможность
использования адаптивного тестирования и вне компьютерного
предъявления.
Каждый из способов предъявления имеет свои плюсы и
минусы. Компьютерные очень быстрые, однако они провоцируют
случайные ошибки и не оставляют исходных результатов на случай
апелляции, что ограничивает их применение для аттестации
учащихся. Бланковые позволяют экономить на бумаге, удобны для
пересылки, дают возможность сканирования для обработки результатов,
но при этом также не дают исходных результатов и провоцируют
случайные ошибки, поскольку требуют наличия навыка работы с
бланком. Кроме этого, необходимость проведения черновых записей
провоцирует испытуемых на использование незаконных способов
выполнения работы. Наиболее качественные результаты могут быть
получены с использованием тестовых тетрадей, но при этом
возникает проблема ввода результатов для обработки и необходимость
дополнительных расходов на печать самих тетрадей.
Для нужд образования подходит любой из этих способов, при
этом нужно помнить об одном — предъявляя один и тот же тест в
разных формах, мы получим разные результаты. Нельзя сравнивать
результаты тестирования, полученные в результате разных способов
предъявления.
3. По направленности, т. е. по тому, что именно предполагается
изучать с помощью данного теста:
— тесты интеллекта, выявляющие особенности последнего;
— личностные тесты, с помощью которых изучаются
особенности личности испытуемого, помимо его интеллекта включая тесты
мотивов (то же, что и тесты динамики), предназначенные для
диагностики мотивационно-потребностной сферы личности,
позволяющие определить, на что направлена активность индивидуума и
каким образом осуществляется им саморегуляция поведения, тесты
настроений и состояний, направленные на изучение временных
состояний, таких, например, как эмоции;
— тесты достижений.
4. По характеру действий:
— вербальные (связанные с необходимостью произведения
умственных действий — словесно-логические тесты, вопросники на
проверку знаний, установление закономерностей и пр.);
— невербальные (практические), связанные с практическим
манипулированием предметами — карточками, блоками, деталями.
42 Тесты и их особенности
5. По ведущей ориентации:
— тесты скорости, содержащие простые задачи, время решения
которых ограничено настолько, что ни один испытуемый не успевает
решить все задачи в заданное время;
-тесты мощности или результативности, включающие
трудные задачи, время решения которых либо вовсе не ограничено, либо
мягко лимитировано. Оценке подлежит успешность и способ
решения задачи. Близкими к тестовым заданиям такого рода, в качестве
примера можно привести задания для письменных итоговых
экзаменов за курс школы;
— смешанные тесты, которые объединяют в себе черты двух
вышеперечисленных. В таких тестах представлены задачи
различного уровня сложности, от самых простых до очень сложных. Время
испытания в данном случае ограничено, но достаточное для
решения большинства предлагаемых задач определенной группой
обследуемых. Оценкой в данном случае служат как скорость выполнения
заданий (количество выполненных заданий), так и правильность
решения.
Эти тесты наиболее часто применяются на практике, к ним
относится большинство тестов школьных достижений.
6. По степени однородности задан:
— гомогенные, имеющие, как правило, одну шкалу, которые
позволяют оценить одно свойство или качество личности и включают
задачи, сходные по характеру, но различающиеся конкретным
содержанием;
— гетерогенные (многоразмерные), имеющие несколько шкал,
которые позволяют оценить разнообразные характеристики
личности и включают задания, отличающиеся и по характеру, и по
содержанию.
B.C. Аванесов приводит иную классификацию по данному
основанию. Первая часть определения (гомогенные и гетерогенные
тесты) существенно не отличается от приведенной нами:
гетерогенный тест соответственно определяется как предназначенный для
измерения «уровня подготовленности учащихся по нескольким
учебным дисциплинам и (или) свойствам личности». Но он вводит
еще один вид тестов в данном классификационном основании —
«интегративный», направленный на оценку «общей
подготовленности выпускника образовательного учреждения». По мнению автора
он отличается от гетерогенного теста особым содержанием заданий,
а коль это так, то и классификация тестов по этому основанию
должна быть перенесена на классификацию тестовых заданий,
поскольку по своей сути он является обычным гетерогенным тестом.
Глава 1 43
7. Объективные тесты — тесты, объективность оценки
результатов которых обусловливается тем обстоятельством, что в процессе
обработки результатов тестирования не предусматривается
использование их субъективных толкований тестирующим, к этой группе
тестов относятся тесты школьных достижений.
С другой стороны выделяют проективные тесты — совокупность
методик, разработанных в рамках проективного подхода в
психологии, и характеризующихся неопределенностью, неоднозначностью
используемых в ходе тестирования стимулов (стимулы тестов
рассматриваются как экран, на который тестируемый проецирует
свойственные ему потребности, внутренние конфликты, способы
защиты своего «Я»), что допускает чрезвычайно большое разнообразие
ответов и проявление определенной субъективности при их
толковании тестирующим.
8. Широкоориентированные (для тестов в системе образования),
позволяющие оценить эффективность процесса обучения по
степени реализации одной из его основных целей, то есть степени
освоения учащимися системы знаний, умений и навыков в ходе учебного
процесса;
узкоориентированные, направленные на выявление достижений
учащихся в процессе освоения отдельных предметов, отдельных тем
и т. д.
9. По целям использования (только для тестов в системе
образования; эта классификация и пояснения к ней приведены по
соответствующему разделу книги Нормана Е. Гронлунда):
— знаний или поведения студента в начале обучения
(определяющий тест);
— прогресса, достигнутого в процессе обучения (формирующий
тест);
— трудности обучения и их источники во время процесса
обучения (диагностический тест) или
— основные достижения в конце обучения (суммирующий
тест).
Принципы и механизмы разработки одинаковы для этих видов
тестов, но содержание материала, включенного в тест, и степень
сложности вопросов должны соответствовать целям тестирования.
Предварительный определяющий тест предназначен для оценки
начальных способностей, обычно является несложным и охватывает
очень небольшой диапазон знаний. Он может затрагивать минимум
базовых знаний по теме обучения или другой ограниченный набор
требуемых знаний. Он практически не отличается от суммирующего
теста, даваемого в конце курса или раздела обучения.
44 Тесты и их особенности
Формирующий тест, используемый для контроля за прогрессом
обучения, затрагивает ограниченный сегмент обучения, например,
раздел или главу, и с его помощью делается попытка оценить все
важные результаты данного сегмента. Акцент делается на оценке
степени владения материалом изучаемых задач и обеспечения
обратной связи со студентом по корректировке отдельных ошибок в тех
областях, в которых они не достигли успехов. Таким образом,
формирующий тест состоит из серии отдельных тестовых вопросов,
всесторонне охватывающих ограниченную область обучения. Он
разрабатывается таким образом, что ученику даются конкретные
инструкции для исправления обнаруженных в результате теста ошибок. В
связи с тем, что данные тесты являются обучающими тестами, они
обычно менее сложны, чем суммирующие тесты, даваемые в конце
процесса обучения.
Диагностический тест содержит относительно большое число
вопросов, имеющих отношение к конкретной тестируемой области.
В связи с тем, что целью теста является определение трудностей
обучения, внимание фокусируется на ответах учащихся на конкретный
вопрос или группу вопросов, и общий балл имеет второстепенное
значение. Этот тест обычно больше фокусируется на
распространенных ошибках, которые делают студенты, чем на попытке
широкого отбора ожидаемых результатов обучения. В связи с тем, что
данного типа тесты разработаны для тех студентов, у которых есть
проблемы в обучении, они обычно имеют очень невысокий уровень
сложности.
Суммирующий тест разрабатывается для оценки широкого
диапазона результатов обучения, ожидаемого в конце учебного
процесса. Сложность и представительность выборки являются важными
аспектами данного теста в связи с тем, что результаты используются
для простановки баллов и определения степени достижения задач
курса обучения. Для того чтобы адекватно отобрать все ожидаемые
результаты обучения, суммирующий тест обычно содержит вопросы,
которые представляют более высокий уровень сложности, чем
другие виды тестов.
Для нужд образования можно использовать три из приведенных
видов тестов. Если нас интересует динамика подготовленности
учащихся на начальном этапе обучения, мы должны использовать
определяющие тесты, если нас интересуют трудности в обучении, то мы
должны использовать диагностические тесты; а если, и это наиболее
вероятно и часто используемо, наш интерес состоит в оценке
результатов обучения, мы применяем суммирующие тесты.
Глава 1 45
Мы должны подчеркнуть тот факт, что каждый из этих видов
тестов имеет свои особенности. Использование одних тестов вместо других
может привести к негативным и отрицательным последствиям.
10. По широте использования (только для тестов в системе
образования).
Приведенная ниже классификация является сугубо
эмпирической, однако практически достаточно значимой, поскольку в
зависимости от широты предполагаемого использования зависит и
уровень требований к качеству инструмента и этажность эго разработки
и время подготовки. Более подробно этот вопрос рассмотрим в
следующем разделе.
Для использования учителем.
Для использования группой учителей или администрацией
образовательного учреждения.
Для целей отбора и формирования групп.
Для аттестации учащихся.
46 Глава 2
Глава 2
Общие подходы к разработке тестов
2.1. Этапы разработки тестов школьных достижений, особенности
разработки в зависимости от целей создания
В этом разделе мы намерены обсудить зависимости разработки
тестов от тех целей, которые стоят перед разработчиками.
Приведем два подхода к описанию этапов создания тестовых
материалов. Первый из них — это рекомендации Голландского
института С1ТО:
1. Определение цели тестирования, программы и целевой группы,
а также утверждение бюджета.
2. Выбор таблицы детализации (содержание, формат вопроса,
длина).
3. Выбор методик (порядок утверждения экзаменационных
документов, способы сохранения конфиденциальности, варианты
определения нормы, разбор отдельных случаев).
4. Назначение исполнителей (лица или учреждения, которые будут
нести ответственность).
5. Назначение учителей в комитеты по написанию вопросов и
специалистов-предметников как экспертов.
6. Сбор идей, материалов и черновых вариантов, пересмотр и
переписывание отдельных вопросов.
7. Экспертиза чернового варианта вопросов и материалов
специалистами по предметам.
8. Изменение вопросов в соответствии с результатами экспертизы.
9. Предварительное тестирование переписанных вопросов для
определения уровня трудности и сбора материала для оценочной схемы.
10. Подбор предтестовых вопросов для включения их в
экзаменационный лист, предоставление оценочной схемы и нормы. Проверка
соответствия тестовой решетки.
11. Предоставление чернового варианта экзамена
управленческому аппарату.
12. Утверждение экзамена (с возможными указаниями на
изменения).
13. Печатание и конфиденциальное распределение в соответствии
с методиками.
14. Проведение, оценка и сбор результатов.
15. Утверждение норм и результатов.
Общие подходы к разработке тестов 47
16. Сообщение результатов экзаменуемым, аппарату управления,
школам и всем заинтересованным сторонам (инспекторату,
исследовательским институтам, широкой публике).
17. Оценивание и решения по изменению в тестовой решетке для
будущих экзаменов, принимаемых представителем управленческой
структуры.
Этапы разработки тестового инструментария, по мнению
экзаменационного синдиката Кембриджского университета, выглядят
следующим образом:
1. Составление теста и апробация
1.1. Подготовка спецификации.
1.2. Разработка тестовых заданий, процедур проведения,
критериев оценки, критериев теста.
1.3. Экспертиза и доработка тестов и вопросов.
1.4. Предварительное тестирование и анализ результатов.
1.5. Корректировка теста, подготовка окончательного варианта,
1.6. Печать, упаковка и рассылка экзаменационных материалов.
2. Проведение тестирования
2.1. Подготовка экзаменаторов и ассистентов.
2.2. Подготовка проверяющих.
2.3. Проведение тестирования.
2.4. Отслеживание процесса проведения.
3. Анализ и оценка
3.1. Анализ тестовых результатов, опроса мнений специалистов и
наблюдений.
3.2. Отчет и информирование школ о результатах.
3.3. Оценка содержания и процедур проведения экзамена.
Общий полный перечень этапов создания тестового
инструментария, апробированный и в течение нескольких лет
используемый автором, представлен следующим списком:
1. Определение целей тестирования.
2. Определение ресурсных возможностей разработчиков.
3. Отбор содержания учебного материала.
4. Конструирование технологической матрицы и ее
экспертиза.
48 Глава 2
5. Составление тестовых заданий и их экспертиза.
6. Построение выборки для апробации заданий и тестов.
7. Компоновка заданий для апробации.
8. Апробация тестовых заданий.
9. Определение и расчет показателей качества тестовых
заданий.
10. Отбраковка заданий и составление теста.
11. Апробация теста.
12. Определение и расчет показателей качества теста.
13. Составление окончательного варианта теста.
14. Стандартизация теста.
15. Нормирование теста.
16. Оснащение теста.
Как можно видеть, он не противоречит приведенным ранее
рекомендациям английских и голландских специалистов. Этот список
полный, поскольку в нем представлены все этапы создания тестов.
Создание теста начинается с определения целей тестирования.
Конечно, для тестов, которые предполагается использовать для
сравнения результатов между несколькими классами в одном
образовательном учреждении и тестами, предназначенными для итоговой
аттестации учащихся, существует значительная разница.
Сейчас, когда стали ясными основные этапы создания теста
попытаемся представить разницу между критериально— и
нормативно-ориентированным тестированием, через особенности
соответствующих этапов работ:
Таблица 3
1. Определение целей
тестирования
2. Определение ресурсных
возможностей
разработчиков (разница в
необходимости привлечения
разных специалистов).
Нормативно-
ориентированные
Оценка учащегося относительно
других учащихся
Ориентация на статистические
методы оценивания.
Специалисты необходимы для
статистической обработки результатов
Критериально-
ориентированные
Описание усвоенного или не
усвоенного учебного материала. Оценка
учащегося относительно набора
характеристик достаточного для
достижения результата
Ориентация на экспертное
оценивание, проведение работ по
определению перечня и объема учебных
задач, критерия достижения
необходимого уровня подготовки. Специа-
Общие подходы к разработке тестов 49
3. Отбор содержания
учебного материала
4. Конструирование
технологической матрицы и ее
экспертиза
5. Составление тестовых
заданий и их экспертиза
6. Построение выборки
для апробации заданий и
тестов
7. Компоновка заданий для
апробации
8. Апробация тестовых
заданий
9. Определение и расчет
показателей качества
тестовых заданий
10. Отбраковка заданий и
составление теста
11. Апробация теста
12. Определение и расчет
показателей качества
теста
13. Составление
окончательного варианта теста
15. Стандартизация теста
16. Нормирование теста
17. Оснащение теста
Нормативно-
ориентированные
Может быть отобран широкий
спектр материала
Могут быть использованы
сложные матрицы
Критериально-
ориентированные
листы для экспертизы учебного
материала
Отбирается материал, который
касается ограниченной тематики
Сложность матрицы ограничивается
выбранным для оценки критерием
Требования к составу и качеству заданий существенно не различается.
Определяются общими требования к тестовым заданиям
Более жесткие требования к
объему и балансу выборки,
определяемые требованиями
расчета статистических норм
Более мягкие требования к объему и
балансу выборки, определяемые
требованиями отработки качества
тестовых заданий
Требования к компоновке заданий для апробации существенно не
отличаются. Определяются способом предъявления
В том числе для определения
трудности и дискриминативности
Для отработки содержания заданий
Отбираются задания с
максимальной дискриминативностью.
Слишком простые и слишком
сложные задания
отбрасываются
Отбираются задания, максимально
покрывающие обследуемую область
критерия. Сложные и простые
задания включаются в тест
Для определения показателей качества теста. Существенно не
отличаются
Отличия определяются целями и особенностями разработанных
технологических матриц
Определяется уровнем использования теста
Статистические нормы,
рассчитываемые для нормативной
выборки, или определение
места ученика относительно
других учеников, принимавших
участие в тестировании
Описание критерия достижения
результата или описание тех учебных
задач, с которыми учащийся должен
справится
Определяется уровнем использования теста
Не секрет, что этапы разработки тестов для разных целей
использования должны быть различны. Тест, созданный учителем для
50 — Глава 2
проверки знаний учеников после изученной темы, и тест для
итоговой аттестации учащихся должны отличаться. Попытаемся привести
разные схемы составления тестов в зависимости от возможной
широты их использования:
Таблица 4
Схема этапов составления тестов учебных достижений
для тестов разного уровня применения
Уровень
применения
1. Определение целей
тестирования
2. Определение ресурсных
возможностей
разработчиков
3. Отбор содержания
учебного материала
4. Конструирование
технологической матрицы
5. Составление тестовых
заданий
6. Построение выборки
для апробации заданий и
тестов
7. Компоновка заданий для
апробации
8. Апробация тестовых
заданий
9. Определение и расчет
показателей качества
тестовых заданий
10. Отбраковка заданий и
составление теста
11. Апробация теста
12. Определение и расчет
показателей качества
теста
13. Составление
окончательного варианта теста
15. Стандартизация теста
16. Нормирование теста
17. Оснащение теста
Используется
педагогом для
профессиональных
нужд
да
да
желательно
да
да
да
желательно
да
желательно
да
Используется для
внутренних
нужд школы
да
желательно
да
да
да
да
да
да
желательно
да
желательно
да
да
желательно
Используется
для проведения
вступительных
экзаменов и с
административными целями
да
да
да
да
да
да
да
да
да
да
да
да
да
да
да
Используется
для итоговой
аттестации
учащихся,
самое широкое
административное
использование
да
да
да
да
да
да
да
да
да
да
да
да
да
да
да
да
2.2. Роль и функции фактора времени в тестировании
Общие подходы к разработке тестов 51
При создании тестов школьных достижений одним из
фундаментальных по значимости факторов является время.
Время является фактором, который определяет качество всего
инструментария и качество получаемых в процессе тестирования
результатов.
Время нередко называется B.C. Аванесовым в качестве
системообразующего фактора при разработке и использовании тестов.
Действительно, одно из соображений, положенных в основу создания
тестов, — иметь инструмент быстрого и относительно точного
оценивания больших контингентов испытуемых. Требование экономии
времени становится естественным в массовых процессах, каковым и
является образование.
Каждый тест имеет оптимальное время тестирования, уменьшение
или превышение которого снижает качественные показатели теста.
Время в тестировании многоаспектно, учет временного фактора
требуется на нескольких этапах создания и использования теста. Исходя из
важности феномена времени, появилась необходимость рассмотреть
вопрос времени в тестировании отдельным разделом.
Почему время, выделяемое на выполнение тестовой работы, должно
быть ограничено?
Создатели тестов стремятся включить в тест как можно больше
тестовых заданий. Такое положение диктуется двумя
обстоятельствами — чем больше количество заданий, тем:
— более надежным будет создаваемый тест;
— больший объем информации мы можем получить.
С другой стороны, чем больше количество заданий, тем более
продолжительной становится процедура тестирования.
Между результатами, который может показать испытуемый и
продолжительностью тестирования существует достаточно простая
связь. Время тестирования не может быть бесконечно большим.
Простое увеличение времени тестирования приводит к утомлению
испытуемых, что в свою очередь снижает результаты тестирования.
Таким образом, необходимо найти оптимальное время, которое
отражало бы баланс между временем выполнения теста
(количеством заданий) и утомлением испытуемых.
Утомление — временное снижение работоспособности под
влиянием длительного воздействия нагрузки. Утомление
характеризуется ухудшением продуктивности рабочих процессов, снижением
темпа деятельности и ее качества, появлением характерных ошибок.
52 Глава 2
Состояние утомления быстрее возникает при интенсивной или
монотонной работе.
Утомление может проявляться:
О на поведенческом уровне, и тогда приводит к уменьшению
скорости и точности работы;
О на физиологическом уровне, и приводит к повышению
инерции в динамике нервных процессов;
О на психологическом уровне, ведет к нарушению качеств
внимания, процессов памяти, степени адекватности
функционирования интеллектуальных процессов;
О проходят сдвиги в эмоционально-мотивационной сфере.
Время продуктивного (до момента утомления) выполнения
испытуемыми тестовых заданий является ключевым при составлении
теста.
Индикатором момента наступления утомления при
тестировании является появление большого числа случайных ошибок,
снижение скорости выполнения заданий, снижение мотивации.
Таким образом, время от начала процедуры тестирования до
момента наступления утомления и можно считать оптимальным
временем для выполнения данного теста.
Время наступления момента утомления зависит от целого ряда
причин. Основными из этих причин являются:
Возраст детей:
Чем меньше возраст детей, тем раньше наступает утомление.
Мотивация:
Взаимосвязь мотивации и времени наступления утомления
несколько сложнее. Слишком высокая мотивация, так же как и
слишком низкая, приводит к уменьшению времени
продуктивной работы испытуемого, то есть к более раннему наступлению
момента утомления.
Монотонность выполняемой работы:
Монотонность, однообразие работы в значительной мере
влияют на утомление. Чем однообразнее работа, тем раньше
наступает утомление.
Индивидуальные особенности испытуемых, связанные с высотой
порога усталости:
Разброс по характеристикам порога наступления утомления
довольно большой. По разным оценкам он может составлять от 20 до
100 минут рабочего времени для детей одной возрастной группы.
Общие подходы к разработке тестов 53
Каким образом мы можем повлиять
на продолжительность тестирования?
Из перечисленных нами причин наступления утомления одни
нам необходимо учитывать, на другие мы можем оказывать влияние,
третьи мы не можем ни учесть, ни повлиять на них.
Так, мы, безусловно, учитываем возраст испытуемых при
составлении теста. Мы можем в определенной степени влиять на эмоциональ-
но-мотивационную сферу как непосредственно (интересность,
разнообразие заданий), так и опосредованно (ситуация проведения
процедуры тестирования). При подборе форм тестовых заданий мы можем
снизить монотонность работы. И, наконец, мы совершенно не имеем
возможности учесть при создании тестов индивидуальные особенности
испытуемых, связанные с высотой их порога усталости.
Исходя из сказанного, проектируя и разрабатывая тесты, мы
должны стремиться к тому, что бы мотивация учащихся должна быть
устойчивой и положительной, а работа учеников максимально
разнообразной.
Оказать влияние на мотивацию учащихся можно изменив условия
проведения тестирования, отразив их в соответствующей инструкции.
Например, в том случае, если создается тест для проведения
эксперимента, в котором учащиеся принимают участие добровольно, если
проводится апробация тестового инструментария требуется усиление
мотивации. При апробации тестов можно порекомендовать выставить
учащимся по его результатам текущую школьную оценку, инструкция для
ведущего должна содержать обращение к испытуемым, в котором
подчеркивается важность выполняемых работ, объяснение причин, по
которым ученикам следует приложить максимум усилий, иногда бывает
полезной предварительная беседа с учащимися.
Однако здесь необходимо придерживаться правила, что для
апробации всех тестовых материалов должна быть единообразная
процедура. Если по какому-то предмету выставляются оценки, то они
должны выставляться и по другим предметам или в других группах
испытуемых.
В том случае, если существует опасность повышенной
мотивации, например, при проведении итоговой аттестации учащихся, то
инструкция для ведущего должна содержать слова, которые могут
успокоить учащихся, снизить предэкзаменационное волнение. В
некоторых случаях, для этих целей, бывает целесообразно
проведение предварительного пробного тестирования, чтобы убедить
учащихся в адекватности и посильности задач, которые они должны
решать, снять излишнюю мотивацию. Однако общее правило едино-
54 Глава 2
образности процедуры проведения и в этом случае должно
неукоснительно соблюдаться.
Мы можем оказать влияние на снижение порога утомления,
предусмотрев максимальное разнообразие выполняемой
деятельности. Общее правило — сделать работу максимально разнообразной. И
здесь есть две возможности, — во-первых, тест должен содержать
задания, максимально разнообразные по форме. Во-вторых, сами
задания должны быть максимально разнообразными по видам
деятельности и невербальной поддержке.
Какие негативные последствия имеет нарушение
оптимальности времени тестирования?
Время, которое выделяется учащимся для работы над
тестовыми заданиями, должно быть оптимальным. Слишком большое время
тестирования, как и слишком малое, имеет свои негативные и
позитивные стороны. Слишком большое время приводит к двум
негативным последствиям:
О к концу тестирования снижается дисциплина, ученики,
которые справились с тестом, имеют возможность «помочь» своим
товарищам;
О снижается дискриминативность теста, особенно для
коротких тестов, которые содержат задания примерно равные по
сложности, то есть возрастает вероятность появления учеников с
одинаковым баллом, что особенно плохо для нормативно-
ориентированных тестов.
Негативные последствия несет и малое время на проведение
тестирования, оно провоцирует учащихся на угадывание правильных
ответов. В том случае, когда количество заданий, к которым ученики
не приступили, велико, то те учащиеся, которые попытаются угадать
ответы в оставшихся заданиях, могут получить достаточно весомую
прибавку к собственному баллу.
Следовательно, время тестирования должно быть все-таки
достаточно коротким для того, чтобы не провоцировать учащихся на
списывание и подсказки. В подавляющем большинстве случае
учащиеся начинают подсказывать в том случае, когда они справились со
своей работой, по крайней мере, попытались выполнить все задания.
Таким образом, короткое время, в том случае, если проблема
угадывания для теста не столь актуальна, является хорошим
профилактическим средством против подсказок и нарушений дисциплины.
Кроме этого решение вопроса нахождения оптимального
времени позволяет экономить ресурсы разработчика и пользователей.
Общие подходы к разработке тестов 55
Классическим вариантом борьбы со списыванием является
создание двух или более вариантов тестов. Как мы покажем позже,
создание полноценных одинаковых вариантов тестов имеет серьезные
трудности в рамках классической теории тестирования, кроме того,
оно требует дополнительных затрат. Как показывает опыт, в случае
нахождения оптимального времени тестирования, проблема
списывания практически не возникает.
Для возможной борьбы с угадыванием возможно
использование в концовке теста достаточно трудных заданий открытого типа.
Опыт говорит о том, что гораздо проще найти способы борьбы с
угадыванием, нежели с нарушениями дисциплины.
Как можно найти оптимальное время для работы над тестом?
Ориентиры времени, которое можно выделить на тестирование,
необходимо выяснить при апробации теста, однако
ориентировочное время у разных авторов примерно одинаково. Например, Н.
Гронлунд советует: «В начальной школе тестирование не должно
занимать более 20—30 минут, поскольку это время удержания
внимания, которое поддерживается мотивацией. Для средних школ и
колледжей 40—50 минут, может продолжаться около часа.
Большинство тестов рассчитаны на время выполнения в 40—50 минут, потому
что это продолжительность типичного урока».
Таким образом, при составлении варианта теста для апробации,
можно ориентироваться на цифры: начальная школа — 30—40
минут, средняя и старшая — около часа. В процессе апробации
реальные сроки должны быть уточнены. Для апробации следует брать
некоторый запас тестовых заданий и соответственно времени. Запас
заданий должен обеспечить необходимое количество заданий взамен
тех, что будут отбракованы, а запас времени позволит оценить
верхнюю границу приемлемого времени выполнения.
B.C. Аванесов приводит следующий алгоритм определения
времени тестирования: «Оптимальное время тестирования
определяется эмпирически, по показателю дисперсии тестовых данных.
Если по оси абсцисс отложить время тестирования, а по оси ординат
— значение дисперсии тестовых результатов, получаемое после
каждого пробного контроля, то, соединив точки, получим представление
об изменении дисперсии; максимум значения последней укажет на
оптимум времени, необходимого для тестового контроля». Вероятно,
речь здесь идет не о максимуме дисперсии, а о точке начала ее
увеличения, которая вызвана началом периода утомления. Как мы
отмечали, наступление утомления вызывает повышение количества слу-
56 Глава 2
чайных ошибок, именно они и являются причиной увеличения
дисперсии. Такой способ должен быть достаточно точным, и в том
случае, когда есть соответствующие технические возможности, его
следует использовать.
В качестве практического совета, который автор использует для
создания тестов, можно привести вполне современную
рекомендацию С. Отиса: время теста должно быть таким, чтобы только 5
процентов испытуемых могли справиться со всеми заданиями.
Если существует необходимость выполнения заданий большей
продолжительности, то есть еще один выход — технология
проведения должна предусматривать перерыв. Перерыв несколько
усложняет процедуру проведения, делает работу ведущего более
ответственной, однако он дает вполне ощутимые преимущества. Отметим, что
часть международных сравнительных исследований по оценке
подготовленности школьников использует процедуру проведения
тестирования с перерывом.
Почему время на заполнение тестов
должно быть определено точно?
От времени, выделяемого на проведение тестирования,
напрямую зависит результат. Временной разрыв для работы над тестом для
учащихся даже в 1—2 минуты может существенно повысить или
понизить общий балл. Если на выполнение короткого тестового
задания закрытого типа требуется 10—15 секунд, то можно оценить
(правда, гипотетически), какое количество баллов можно получить
за дополнительную минуту.
Отсутствие ресурсных возможностей для проведения
полноценной апробации и непонимание важности точного определения
времени приводят авторов тестов к таким рекомендациям: «В книге
представлены тематические тесты по физике для текущего контроля
знаний и умений учащихся. Каждый тест содержит 10 вопросов, на
каждый вопрос предлагается 5-6 ответов, из которых учащемуся
нужно выбрать один правильный. Каждый тест этого типа рассчитан
на выполнение в течение 15—20 минут».
Все-таки, какое время тестирования рекомендует автор? Для
какого времени он дает шкалу оценок? Вопросы остаются без ответа.
Возможно, встретить и курьезные рекомендации: «Предлагаемые
тесты рассчитаны на 15-35 минут. Авторы сознательно не указывают
точное время проведения конкретного теста, оставляя тем самым
максимальные возможности для дифференцированного подхода к
ученикам. Скажем, при работе с классом можно выделить группу
Общие подходы к разработке тестов 57
наиболее медлительных (флегматичных) учащихся и увеличить для
них время проведения теста на 5—10 минут. Разумеется, если от
тестируемого требуют минимального письменного оформления
заданий, то время должно быть также увеличено (приблизительно на 10
минут для всего теста)».
Понять даже ориентировочно, на какое время рассчитано
тестирование, невозможно, предлагаемый автором разброс более чем в
два раза. Как учитель может выделить флегматичных учащихся — это
задача скорее для психолога, да и то флегматики в чистом виде
встречаются крайне редко. Почему флегматичные учащиеся должны
иметь преимущества перед остальными учениками? Что может быть
названо «минимальным письменным оформлением», и как вообще
возможно выполнять задания без него? Почему именно на 10 минут
необходимо увеличить время выполнения? Каким образом связано
время на выполнение теста и дифференцированный подход? Ответов
на эти вопросы найти невозможно. Можно предположить, что,
понимая невозможность решения вопроса о времени на тестирование,
автор, составив инструкцию в стиле «сделай сам», решил переложить
всю ответственность на пользователя, поставив его таким образом в
весьма неловкое положение.
Календарное время предъявления тестов
Для тестов школьных достижений в отличие от других видов
тестов чрезвычайно важным является зависимость результатов
тестирования от календарного времени предъявления. Достаточно
очевидно, что сравнение результатов тестирования, полученных с
использованием одного и того же инструмента в январе и мае месяце,
будет некорректно. А какой временной интервал может обеспечить
нас сравнимыми результатами?
Для определения календарного времени предъявления, вернее
определением точного возраста, когда корректно использование
теста, в психологии производится оценка валидности по возрастной
дифференциации. Она определяет возможность использования теста
для разных возрастов испытуемых. Используется в том случае, когда
изучаемый феномен имеет большую динамику развития. Анализ
практики психологического тестирования говорит о том, что
минимальный разрыв составляет три месяца, то есть результаты
испытуемого в возрасте от 10 ровно и до 10 лет и 3 месяцев составляют одну
группу, в рамках которой происходит сравнение, для следующей
возрастной группы существуют свои нормы и сравнение происходит
уже в других рамках.
58 Глава 2
Для тестов школьных достижений следует вести речь не о
возрасте испытуемых, а о ступени (классе) и периоде обучения.
Возрастной подход, несмотря на то, что при международных
сравнительных исследованиях используется именно он, неудобен в силу
достаточно ясных причин — дети одного возраста могут обучаться в
разных классах.
Определение этого вида валидности для тестов школьных
достижений должно дать ответ на вопрос о том, в каком временном
интервале возможно корректное использование тестов школьных
достижений. Например: разработанный инструмент должен быть
использован не позже чем через неделю после прохождения темы, или
использование тестов целесообразно в первые две недели третьей
четверти и т.д.
К сожалению, найти работы, которые давали обоснование
календарных периодов применения тестов школьных достижений, то
есть определения валидности по возрастной дифференциации, в
отечественной практике тестирования не удалось.
Можно привести только ориентиры, основанные на
эмпирическом опыте автора. Можно с уверенностью говорить, что для тестов
школьных достижений связь времени предъявления будет зависеть
от характера деятельности учащихся в это время.
Срок в неделю после изучения темы (учебный период) не дает
заметных смещений в результатах выполнения теста. Однако срок в
неделю после окончания четверти (каникулярный период) уже дает
такие смещения.
Эта проблема, по крайней мере, частично, может быть решена в
том случае, когда разработчик тестов даст информацию о времени
апробации тестового инструмента или рекомендуемых сроках его
использования. В этом случае пользователи смогут иметь ориентир,
и у них не будет соблазна использовать тесты в то время, когда им
это заблагорассудится.
Время суток, удобное для предъявления тестов
Особое место среди факторов, влияющих на индивидуальную и
групповую работоспособность испытуемых, занимает время
проведения теста и характер деятельности учащихся до тестирования.
Специальные исследования психофизиологов говорят о том, что
наиболее благоприятно время с 9 до 12 или с 16 до 18 часов.
Поскольку речь идет о тестах школьных достижений, то наиболее при-
Общие подходы к разработке тестов 59
емлемое время проведения тестирования - второй или третий урок
первой смены.
Продолжительность корректного использования
полученных результатов тестирования
Еще одним фактором тестирования, связанным со временем,
является проблема сохранения во времени выводов, полученных в
результате тестирования. Показателем этого фактора в психологии
является прогностическая валидность — информация о том, с какой
степенью точности мы можем судить о выявленном в результате
тестирования качестве спустя определенное время после измерения, то
есть определяется временной интервал, в течение которого
результаты и выводы могут иметь силу.
Опыт говорит о том, что в силу исторически сложившегося
отношения к результатам любой аттестации учащихся, педагоги в
массовой практике достаточно адекватно оценивают результаты
тестирования. Результаты теста фиксируют, как правило, состояние
ученика на данный момент времени, через некоторое время результаты
ученика могут измениться.
Важный аспект проблемы состоит в том, что оценка по
результатам изучения темы как бы присваивается ученику и в дальнейшем,
даже если знания ученика по этой теме изменились, а аттестации по
ней не предусмотрено, старая оценка остается мерой
подготовленности ученика по данной теме. При этом большинство педагогов
понимают, что изучение другой темы может дать иные результаты.
Со временем, по результатам аттестации, общения, наблюдений у
педагога складывается стереотип оценки ученика. Поэтому другие
результаты все равно должны укладываться в тот стереотип оценки
учителя, который у него выработался.
В силу высокой динамики выявляемых тестами школьных
достижений личных особенностей прогностическая валидность тестов
очень невелика.
Для тех тестов, которые используются с целями отбора для
продолжения образования, вопрос о прогностической валидности
особенно актуален. Использование этих тестов должно обеспечивать
достаточно длительный период корректности выводов по ним,
соответствующий конкретным срокам обучения. К сожалению, автору
неизвестны случаи определения прогностической валидности для
тестов школьных достижений, выполненные в нашей стране. Задача
эта не столь сложная, сколь трудоемкая и требует больших времен-
60 Глава 2
ных затрат. К способам возможного решения этой проблемы мы
вернемся в разделе, посвященном валидности.
С практической точки зрения, можно порекомендовать
использование тестов школьных достижений, для которых не доказана
прогностическая валидность, с целью проведения отбора, в
комплексе с другими (психодиагностическими и педагогическими)
методиками.
Последнее, про что необходимо сказать в связи с
рассматриваемым вопросом, это вопрос о феномене контаминации критерия,
который представляет собой комплекс явлений, связанных с влиянием
информации о результатах тестирования испытуемого на отношение
к нему других лиц. Например, если ученик неудачно справился с
тестом по отдельному предмету (что говорит о недостаточной
подготовке по определенным темам), это в дальнейшем может сказаться на
всей учебной деятельности ученика. Возникновение эффекта
контаминации после одного тестирования — явление скорее экзотическое.
Оно может возникнуть только у человека, свято верящего в
тестирование как универсальный и безошибочный способ изучения
человека, а таких людей среди педагогов все меньше и меньше. Однако этот
эффект, возникающий по результатам нескольких испытаний, более
чем реален. К сожалению, вопросы контаминации критерия в
образовании изучены достаточно слабо и еще ждут своих исследователей.
Глава 3 61
Глава 3
Отбор содержания образования.
Технологическая матрица
Определив цели составления тестов, уточнив подходы и выбрав
уровень использования, разработчик определяет необходимые этапы
создания тестового инструментария. После этого составляется модель
педагогического тестирования. Такая модель может быть представлена в
виде технологической матрицы. Такая матрица может носить разные
названия: содержательная решетка, сетка, организационно-
деятеяьностиая матрица, тестовая решетка, таблица содержания и
другие. Однако смысл у нее остается один. Технологическая матрица
задает содержание, которое будет отобрано для проверки, и важность
того или иного элемента содержания. Она может содержать уровни
достижений, которые будут проверены, их соотношение, соответствие
стандарту и некоторые другие компоненты.
В инструкции по составлению тестов NEAB (Northen
Examinations and Assesment Board) записано: «При имеющемся
предмете тестирования разработчик обязан убедиться, что весь
предмет охвачен предлагаемыми вопросами. Содержание предмета
должно полностью покрываться матрицей по всем темам. Если же
имеет место тестирование по отдельным подтемам, то и в этом
случае необходимо, чтобы вся подтема была охвачена вопросами теста.
В случае, если вопрос или часть вопроса не соответствует теме, или
не полностью ясен в рамках данной темы, от вопроса следует
воздержаться».
Таким образом, фиксируется требование широты теста,
полного учета всех разделов предмета, который находит выражение в
матрице.
Для тестов, ориентированных на критерии (критериально-
ориентированных), отбор содержания теста является самым
важным этапом его создания, так как для принятия решения о
достижении данной цели обучения, например, стандарта,
необходимо достаточно точно и полно описать содержание стандарта и
выразить его совокупностью заданий, которая была бы
представительной для этой цели. Поэтому главной проблемой в
разработке тестов, используемых для оценки достижения
образовательных стандартов, является достижение соответствия
содержания стандарта и содержания теста.
В самом простом случае технологическая матрица может
описывать только предметы, предметные области или отдельные темы
62 Отбор содержания образования. Технологическая матрица
разного уровня обобщения, которые должны войти в тест, и
определяет соотношение заданий в тесте.
Например:
1. Для промежуточного контроля: химия, 8-й класс
Таблица 5
Общая
характеристика
3
Получение
5
Химия. Тема: кислород
Свойства
10
Применение
4
Тепловой
эффект
3
Топливо
2
Цифры, написанные внизу, представляют собой
соотношение заданий в тесте. В данном примере это соотношение
выражено в количестве заданий, это соотношение можно выразить и в
процентах.
В руководстве для организации и разработки централизованных
экзаменов Голландского института оценки образования (CITO)
дается рекомендация: «Проследите, чтобы общее количество вопросов
или баллов было распределено по темам таким образом, чтобы оно
отражало их важность, объем и количество учебного времени».
Что же может служить основанием для получения
распределения вопросов в технологической матрице? В приведенной выдержке
их три — важность, объем и количество учебного времени. Если
объем учебного материала по теме может быть увязан со временем его
изучения, скорее всего, чем больше объем темы, тем больше времени
на ее изучение выделяется. Таким образом, первое, на основании
чего можно сделать распределение количества заданий по темам —
это достаточно формальный показатель — время, выделяемое на
изучение той или иной темы. Вторую рекомендацию — важность темы,
как показывает опыт совместить со временем (объемом) не всегда
представляется возможным. Во-первых, темы могут быть не очень
большими по объему, но чрезвычайно важными,
фундаментальными. Во-вторых, само понятие важность темы достаточно
относительно. Например, для тестов, предназначенных для вступительных
экзаменов в вузы и выпускных экзаменов в образовательном
учреждении, важность темы будет носить разный характер. В первом случае
материал будет отбираться, исходя из важности для продолжения
образования в конкретном вузе или просто для продолжения
образования, во втором случае важность будет определяться в рамках всех
тем, которые изучались в школе. Соответственно между
технологическими решетками этих тестов может быть существенная разница.
В ряде стран этой разницы не существует, поскольку итоговая атте-
Глава 3 — 63
стация выпускников проводится независимыми службами,
организованными на базе отдельных вузов или их ассоциаций, но на
построение такой системы им потребовались десятилетия
согласований и уточнений. В наших современных условиях использовать
результаты тестирования, полученные при вступительных экзаменах в
качестве выпускной оценки, по крайней мере, некорректно. Тем не
менее создание системы совмещенных экзаменов школы и вуза
представляется только делом времени, ни теоретических, ни
практических трудностей для реализации такого экзамена нет.
Для практической работы распределение заданий между темами
следует увязать с целями предстоящего тестирования и в том случае,
если речь идет о промежуточной аттестации, следует
преимущественно ориентироваться на время (объем) темы. В том случае, если
тесты готовятся для итоговой аттестации, логичнее ориентироваться
на важность темы для дальнейшего образования.
В руководстве для организации и разработки централизованных
экзаменов Голландского института оценки образования (CITO)
дается следующие рекомендации для подготовки технологической
матрицы и пример ее подготовки:
«Для того чтобы все аспекты предмета соответствовали бы
официальной программе и практике обучения, необходимо пользоваться
тестовой решеткой. Например: если по математике Вам бы хотелось
быть уверенным, что экзамен систематично и последовательно
представляет все 3 аспекта: содержание предмета, действия в уме и
ситуацию, в которую вписан вопрос, Вам следует сделать следующее.
Прежде всего, необходимо описать содержание предмета и уточнить
количество вопросов или количество баллов каждой из основных тем, как это
сделано в первом разделе таблицы 8.
В этом случае, содержание предмета излагается по 5 темам,
каждая из которых должна иметь по 4 подтемы. Так как экзаменационная
программа, возможно, будет содержать много тем и заданий на
выявление умений, то решетку будет легче применить, если будут указаны
только заголовки сгруппированных тем (как это сделано в таблице),
например: главы основного учебника. Очень важно подобрать названия
тем, которые будут ясны для всех учителей, а возможно, даже для
широкой публики. При условии, что существует одна детально
разработанная программа или почти все пользуются одним и тем же учебником,
лучше всего, конечно, взять темы из них. Однако, если нет центральной
программы и учителя пользуются разными учебниками, то следует
разработать общую для всех систему, описывающую содержание этих
учебников».
64 Отбор содержания образования. Технологическая матрица
Таблица 6
Таблица детализации (тестовая решетка).
Экзамен по математике
Число
вопросов
Кол-во
баллов
Раздел 1. Содержание предмета
Числа и меры
Информация: собрать, организовать, представить, интерпретировать.
Примеры и следствия
Функции и уравнения
Форма, положение и движение
Итого:
5
2
1
3
3
15
15
20
10
30
15
100
Раздел 2. Действия в уме
Идентификация
Воспроизводство
Производство
Итого:
7
5
3
15
50
25
25
100
Раздел 3. Ситуация
Знание и понимание
Бытовые ситуации
Общение
Отношение
Итого:
6
6
2
1
15
±40
±40
±10
±10
±100
Действия в уме занимают второе положение в решетке. Самая
элементарная система подразделяет репродукцию, идентификацию
и производство. Идентификация означает все то, что должен сделать
экзаменуемый — это узнать то, что было ранее выучено, назвать это
или применить. Репродукция — это повторение действия, которое
уже было совершено при тех же самых обстоятельствах, например:
решение стандартного уравнения или завершение письма последней
фразой на английском языке. Производство — это применение
действий и понятий при обстоятельствах, отличающихся от тех, которые
уже случались, по ситуативности, представлению, подходу или
стратегии решения проблемы. Примерами являются решение р2 — 2pq +
q2 = 25 или обобщение какой-то новой информации.
Третье положение решетки — это ситуация. Многие люди
полагают, что существует большое различие между вопросами, которые
представлены в теоретическом контексте, или теми, которые
представляют собой взятую из обыденной жизни ситуацию, решить
которую можно, имея знание и навыки по данному предмету. Другая
ситуация — это дать понять другим, о чем идет речь, и применить это
в аргументации.
Глава 3 65
Следующая ситуация — это использование темы для
объяснения отношения тестируемого к решаемой проблеме.
Преемственность ежегодных экзаменов достигается
предварительным распределением вопросов и баллов по ряду аспектов, как
показано в таблице. Во время построения, а особенно при
составлении экзаменационных вопросов Вам следует проверять отобранные
вопросы на соответствие тем или иным позициям в таблице
детализации.
Вы также должны убедиться, что представители
управленческого аппарата образования и учителя согласны с данным
распределением вопросов.
Отличительной особенностью подхода ОТО является
планирование не только заданий, но и количества баллов, которыми могут
быть оценены эти задания. Вопрос о целесообразности присвоения
баллов заданиям требует отдельного обсуждения, поскольку
существует взгляд на проблему оценивания, который дает достаточно
веские аргументы в пользу присвоения каждому верно выполненному
заданию только одного балла. Такое обсуждение будет проведено
позже.
Несмотря на то, что матрица, приведенная в качестве
предыдущего примера, была достаточно нетрадиционной для нас, тем не
менее она не отражает ни уровней достижения учащихся, ни уровней
овладения материалом.
Более сложные технологические матрицы содержат две шкалы
и оформляются в виде таблицы.
Например, в международном исследовании IАЕР-II для
сравнительной оценки естественнонаучной подготовки школьников
использовалась двумерная система заданий, представленная в таблице.
Таблица 7
Содержательно-деятельностная матрица по естествознанию
(IAEP-II)
Воспроизведение знаний
Применение знаний
Интеграция знаний
Процентное соотношение
в тесте
Биология
35
Физика
и химия
35
Науки о Земле
и астрономия
15
Методология
науки
15
Процентное
соотношение
в тесте
40
35
25
100
В соответствии с данной системой каждое задание теста было
предназначено для проверки овладения учащимися определенными
66 Отбор содержания образования. Технологическая матрица
умениями, характеризующими отдельные компоненты познавательной
деятельности (воспроизведение, применение и интефацию знаний) на
материале различных разделов естествознания (биологии, физики и
химии, наук о Земле и астрономии, методологии науки).
Таблица 8
Спецификация тестов TIMSS no естествознанию
для учащихся основной школы
Процент
заданий
в тестах
Всего
заданий
в тестах
Число
заданий с
выбором ответа
Число заданий
со
свободными ответами
Общее число
баллов за выполнение
всех заданий
Содержание
Науки о Земле
Биология
Физика
Химия
Проблемы
окружающей среды и
методология науки
16%
30%
30%
14%
10%
22
40
40
19
14
Понимание простой
информации
Понимание
сложной информации
Использование
теории,анализ и
решение проблем
Использование
приборов и
материалов,
стандартных процедур
Проведение
исследования
40%
29%
21%
6%
4%
55
39
28
8
5
17
31
28
15
11
5
9
12
4
3
24
44
42
21
15
Деятельность
53
29
9
8
3
2
10
19
0
2
55
41
36
8
6
Примечание: задания со свободными ответами включали в себя
задания с краткими ответами и задания с полными ответами. При определении
баллов за выполнение теста большинству заданий приписывали один балл
за правильное выполнение каждого задания. Но для некоторых заданий со
свободными ответами оценивалось также частичное выполнение задания.
Кроме того, некоторые задания состояли из нескольких частей, и для этих
заданий оценивалось отдельно выполнение каждой части. Таким образом,
балл за полное правильное выполнение задания мог изменяться от 1 до 3. И
поэтому максимально возможное число баллов, которое можно было
получить за выполнение теста, превышает общее число заданий в тесте.
В данном случае технологическая матрица представляет собой
содержательно-деятельностную модель теста. Содержание горизон-
Глава 3 67
тальнои строки матрицы, как уже указано, не должно представлять
трудностей для педагогов. Здесь, как правило, определяются
предметы, разделы, учебные темы, разделы учебных тем. Выбор того или
иного материала напрямую зависит от целей тестирования.
Сложнее дело обстоит с вертикальной составляющей. В
западных или международных тестах она стоит, как правило, на основе
той или иной таксономии учебных целей. Для пояснения надо
отметить, что таксономия представляет собой некоторую реализацию
идеи В.П. Беспалько о том, что цели должны быть сформулированы
технологично.
Для реализации идеи второй шкалы необходимо выполнение
простого правила: для отнесения задания к той или иной шкале
необходимо взаимно однозначное соответствие конкретного тестового
задания и уровня (или свойства, умения и пр.) той графы матрицы, к
которой отнесено это задание.
К сожалению, в данной области необходимо зафиксировать
значительные трудности. На сегодня у нас нет отечественных
разработок уровней обученности (подготовленности), которые бы
обладали качествами, необходимыми для использования в практике
разработки тестового инструмента:
О достаточно однозначно могли бы восприниматься
педагогическим сообществом;
О давали взаимно однозначное соответствие конкретного
тестового задания и уровня;
О перекрывали все возможное поле умений или навыков, или
знаний, или способов деятельности.
Использование западных разработок невозможно в силу
различных подходов к оцениванию заданий и терминологической
неопределенностью.
Попытаемся разобраться в этом вопросе более подробно.
На уровне выделения групп педагогических целей ситуация
достаточно однозначна, и наши авторы, и зарубежные, в своих
подходах достаточно близки.
Таблица 9
Группы целей, выделенные разными авторами
1
2
3
Б. Блум, Д. Кратволь
Когнитивная, познавательная
область
Психомоторная область
Аффективная эмоционально-
ценностная область
И. Я. Лернер
Знания о природе, обществе,
технике и человеке
Опыт осуществления способов
деятельности (в том числе
творческий)
Эмоционально-чувственный опыт
О. Е. Лебедев
Развитие знаний
Развитие умений и
навыков
Развитие систем
отношений
Несмотря на терминологическую разницу, содержательно
области, выделяемые разными исследователями, близки между собой.
68 Отбор содержания образования. Технологическая матрица
К первой относят знания, различные уровни его усвоения. Ко
второй — умения со своей иерархией подцелей. И к третьей —
отношения, интересы, склонности, ориентации.
Проводя дальнейшую конкретизацию целей-результатов,
многие исследователи выделяют уровни усвоения. Проведем анализ на
примере первой области. Сравнительная таблица уровней усвоения,
описанных разными авторами, представлена ниже.
Таблица 10
Уровни усвоения учебного материала,
выделенные разными авторами
Б. Блум
1
1. Знание
2.
Понимание
3.
Применение
4. Анализ
5. Синтез
6. Оценка
В.П. Симонов
2
I - Различение
II -
Запоминание
III - Понимание
IV -
Простейшие умения и
навыки
V - Перенос
В.Г. Королева
3
1. Репродуктивно
е
самостоятельное
воспроизведение
2.
Репродуктивное
алгоритмическое действие
3. Продуктивное
эвристическое
действие (или
прикладной
уровень)
4. Продуктивное
творческое
действие
(креативный
уровень)
В.П. Беспалько В.Н. Максимова
4
1. Ученический
(деятельность по
узнаванию)
2.
Алгоритмический (решение
типовых задач)
3. Эвристический
(выбор действия)
4. Творческий
(поиск действия)
5
1. Узнавание
2. Запоминание
3. Понимание
4. Применение
4.1.
Тематическое обобщение
4.2. Предметное
обобщение
4.3.
Межпредметное
обобщение
М.Н. Скаткин
6
1.
Воспроизведение понятия
2. Распознание
понятия
3. Применение
понятия
4.
Воспроизведение системы
понятий
5. Применение
системы понятий
Если достаточно детально проанализировать эту таблицу, то
становится ясно, что во всех работах речь идет об одних уровнях,
которые, вероятно, существуют реально, а не в виде конструктов
(особенно ясно это видно на примере трех первых уровней).
В.П. Симонов, М.Н. Скаткин, Б. Блум проводят дальнейшее
уточнение и конкретизацию представленных в таблице уровней,
правда различную по качеству и объему. В принципе можно было бы
использовать любую из отечественных разработок, однако состояние
Глава 3 69
педагогического сообщества таково, что согласовать использование
того или иного уровня на сегодня не представляется возможным.
Авторы международных сравнительных исследований при
создании тестов достижений используют содержательно-деятельностные
матрицы, основанные на таксономии Блума, использование
таксономии в целостном виде для целей тестирования как правило не
проводится. Таксономия служит основой для разработки своих, более локальных
целей или дополняется другими в зависимости от целей
предполагаемого тестирования.
Например, в международном исследовании IAEP-II,
проводимом американским центром педагогического тестирования для
сравнительной оценки естественнонаучной подготовки
школьников, использовалась двухмерная система распределения
заданий в матрице. В соответствии с данной системой каждое задание
теста было предназначено для проверки овладения учащимися
определенными умениями, характеризующими отдельные
компоненты познавательной деятельности на материале различных
разделов естествознания. При выделении целей были
использованы три позиции:
знание (воспроизведение),
применение,
интеграция, в которую входили элементы понимания и анализа.
В исследовании TIMSS 1995 г., кроме предметной
(содержательной) области, выделены когнитивная и аффективная
области тестирования.
К первой относятся следующие виды деятельности:
знания,
использование стандартных процедур,
исследование и решение проблем,
математические рассуждения,
пропорциональность,
коммуникативные умения.
Ко второй:
ожидаемые отношения,
выбор профессии,
участие в учебном процессе,
интересы,
свойства ума.
Как можно видеть из этих примеров таксономия Б. Блума и ее
развитие служит основой для разработки современных тестов
школьных достижений, однако часть ее реально используемая,
определяется целями тестирования.
70 Отбор содержания образования. Технологическая матрица
В настоящее время разработаны и используются около 9
различных таксономии учебных целей.
Использование таксономии в практике российских педагогов
ограничено и еще одним — разным подходам к анализу заданий. Для
иллюстрации приведем пример, взятый из международного
исследования IAEP-II:
Какая из
изображенных на рисунке птиц
может ходить по воде
мелкого водоема и есть рыбу?
Попытка
отнесения этого задания к
одному из уровней таксо-
Рисунок4 номии Блума в группе
педагогов, приводит вначале к возникновению нескольких
мнений, но в процессе обсуждения вырабатывается согласованная
позиция о том, что это задание необходимо отнести к уровню
«анализ», мотивируя это тем, что учащемуся для выполнения
этого задания необходимо проанализировать строение тела птиц
и сравнить их с требованиями условия. Анализ наших педагогов
проходит в любом случае через ту деятельность, которую
необходимо выполнить ученику в процессе решения той или иной
задачи. Это в корне отличается от оценок западных специалистов,
которые, разнося задания по уровням, ориентируются только на
содержание самого задания. Представляется, что именно по
причине такого несовпадения использование таксономии в нашей
стране не нашло широкого распространения.
Для большинства тестов вполне достаточно одной
качественно отработанной шкалы. По большинству предметов
составление самой простой технологической матрицы не должно
вызвать особых затруднений, за исключением литературы.
Исторически сложилось так, что темы там сформулированы предельно
обще: Пушкин А.С, Лермонтов М.Ю., Грибоедов А.С. и т.д.
Такая тематическая разбивка не может быть основой для
составления тестов. В практической работе с ведущими учителями и
методистами по литературе Санкт-Петербурга удалось создать
другой тематический ряд. Его отличия от традиционного
представляются достаточно очевидными:
Глава 3 71
Таблица 11
Технологическая матрица для вступительного экзамена в 10-е классы.
Литература
Тема
Биографические факты и литературная деятельность авторов
Изобразительно-выразительные средства языка
Литературная критика
Литературоведческие термины
Петербург в русской литературе
Родо-жанровые особенности
Роль эпизодов (сцен) в развитии темы, идеи, характера
Сквозные темы в группе произведений
Содержание произведений
Структура художественного произведения
Художественные средства изображения
Итого
Количество заданий
4
5
2
4
6
3
4
7
6
5
5
51
Есть другие возможности использовать вторую шкалу
технологической матрицы. Для более сложных тестов в качестве второй
составляющей могут быть использованы:
— уровни овладения учебным материалом;
— специальные или общешкольные умения и навыки;
— уровень развития психических познавательных процессов и
т.д. в зависимости от целей тестирования.
В практике тестирования в нашей стране такие тесты начали
появляться. Простейший вариант заключается в тематическом
укрупнении, что делает анализ результатов выполнения гораздо более
богатым. Например:
Таблица 12
Технологическая матрица для вступительного экзамена в 10-е классы.
Математика
Раздел 1. Вычисления и преобразования
Алгебраические преобразования
Арифметическая прогрессия
Вычисления с процентами двойные
Вычисления с процентами простые
Действия с алгебраическими дробями
Действия с десятичными дробями
Действия с иррациональными выражениями
Действия с иррациональными выражениями
72 Отбор содержания образования. Технологическая матрица
Раздел 1. Вычисления и преобразования
Действия с корнями
Действия с обыкновенными дробями
Действия со степенями, вычисление значений алгебраических выражений
Определение квадратного корня
Приближенные вычисления
Тождественные преобразования
Уравнение с модулем
Уравнение с параметром
Раздел 2. Функции и графики
Графики квадратичной зависимости
Графики квадратичной функции
Линейная функция
Простейшие функциональные зависимости
Функции и графики
Функции и графики (интерпретация графика)
Раздел 3. Уравнения и неравенства. Решение задач
Квадратичное неравенство
Линейное уравнение(составление и решение)
Множество решений уравнения
Неравенства на координатной плоскости
Решение иррационального уравнения
Решение рационального неравенства
Системы линейных уравнений
Составление алгебраического выражения по условию задачи
Раздел 4. Геометрия и тригонометрия
Вписанные четырехугольники
Действия с векторами
Значения основных тригонометрических функций
Параллелограмм
Площади подобных фигур
Площади простейших фигур
Подобие треугольников
Преобразования тригонометрических выражений
Простейшие теории планиметрии
Прямые на плоскости
Расстояние между точками на координатной плоскости
Свойства параллельных прямых
Связь между тригонометрическими функциями одного аргумента
Формулы приведения
Появились и более сложные варианты, где наряду с
укрупнением, делаются попытки оценить общешкольные и
специальные умения учащихся. Такой пример можно найти в книге
Александрова М.Ф. и Волошиной О.И. Математика. Тесты: начальная
школа .-М., Дрофа, 1998.
Глава 3 73
Структура тестов
1. Тесты распределены по крупным темам, имеют разделы и
подразделы.
2. Все задания разбиты на 2 уровня:
1-й уровень — проверка умения воспроизводить нужную
информацию по памяти, узнавать конкретный объект в ряду других;
2-й уровень — проверка умения применять знания 1-го уровня
на практике, поэтому задания 2-го уровня более сложные.
Вычислительные навыки
1-й уровень:
а) знание формулировок правил взаимосвязи между
компонентами и результатами действий умножения и деления (№ 16);
б) умение среди предложенных выражений выделять
нетабличные случаи умножения и деления (№ 19);
в) умение расставлять порядок действий в выражениях без
скобок (№ 22, а) и со скобками (№ 22, б);
г) знание таблицы умножения и деления однозначных чисел
(№15,18,24,25).
2-й уровень:
а) умение составлять выражения, пользуясь знанием
взаимосвязей между компонентами и результатами действий умножения и
деления (№ 17);
б) умение решать выражения, пользуясь знанием таблицы
умножения и взаимосвязей между компонентами и результатами
действий умножения и деления (№ 18);
в) умение решать примеры, в которых выполняются действия с
О и 1, а также умножение на 10, деление числа на само себя (№ 24);
г) умение решать выражения, содержащие скобки
Единственный недочет этой работы заключается в неудобстве
восприятия информации, табличная форма все-таки более
наглядная и простая.
В заключение приведем еще один пример использования
различных уровней для различных целей. Этот способ активно
используется при тестировании учеников в Великобритании.
Описание уровней и целей
Достигаемая цель 1. Использование и приложение математики.
(Прикладная математика)
Уровень I
Учащиеся используют математику как интегральную часть
учебной (классной) активности (деятельности). Они
представляют свою работу в виде объектов (предметов) или рисунков и спо-
74 Отбор содержания образования. Технологическая матрица
собны к их обсуждению. Они узнают и используют простые
схемы или описание взаимоотношений, обычно основываясь на
собственном опыте.
Уровень 2
Учащиеся выбирают именно математику как предмет для
занятий в классе. Они способны обсуждать свою работу, используя
известный им математический язык, и начинают представлять свою
работу, используя символы и простые диаграммы. Они задают
вопросы и соответственно отвечают на вопросы, включая вопросы
типа «что получится, если...»
Уровень 3
Учащиеся используют различные подходы и находят пути
преодоления трудностей, возникающих при решении проблемы. Они
начинают самостоятельно организовывать свою работу и проверять
результаты. Учащиеся обсуждают математические работы и
проверяют результаты. Учащиеся обсуждают математические работы и
начинают объяснять ход рассуждений. Используют и
интерпретируют математические символы и диаграммы. Учащиеся
демонстрируют понимание специальных утверждений (определений), находя
конкретные примеры, соответствующие им.
Уровень 4
Учащиеся разрабатывают свою собственную стратегию
решения проблемы и используют ее как при работе над математическим
заданием, так и при приложении математики к практическому
контексту. Они представляют информацию и результаты в ясном и
организованном виде, объясняя причины их представления именно в
таком виде. Они выбирают схему представления исходя из
собственных соображений.
Уровень 5
Для того, чтобы справиться с заданием и решить какую-либо
математическую проблему, учащиеся самостоятельно подбирают
необходимую информацию; проверяют результаты, рассматривая
возможность таковых. Учащиеся демонстрируют понимание
ситуации, описывая ее математически, используя символы, слова и
диаграммы. Дают собственные общие определения, основываясь на
собственных доказательствах, и объясняют выбор этих
доказательств.
Достигаемая цель 2. Числа и алгебра
Уровень 1
Учащиеся считают, располагают числа в их
последовательности, осуществляют сложение и вычитание чисел при решении задач
Глава 3 75
в пределах десяти предметов. Могут прочесть и записать
необходимые для этого числа. Учащиеся узнают и могут повторить порядок
действий, считают число всех предметов при каждом повторении.
Уровень 2
Учащиеся уверенно считают количество предметов в наборе,
Вспоминают, какие действия сложения и вычитания были ими
выполнены в пределах 10. У них начинает возникать понимание
значения места каждой цифры в числе и они могут использовать это при
расположении чисел по порядку в пределах 100. Они выбирают
соответствующие операции, решая задачи на сложение и вычитание.
Используют половины и четверти, такие как половина из четырех и
четверть из восьми предметов. Узнают последовательности чисел,
используя четные и нечетные числа.
Уровень 3
Учащиеся демонстрируют понимание значения места чисел в
пределах 1000 и используют это для определения приблизительных
расчетов. Начинают пользоваться десятичными исчислениями и
узнавать отрицательные числа при рассуждениях о деньгах,
температуре, показаниях калькулятора. Учащиеся вспоминают и используют
умственные операции при сложении и вычитании в пределах 20 при
решении задач с более крупными числами. Помнят и воспроизводят
таблицу умножения на 2, 5 и 10 и остальные до пяти, при решении
задач с целыми числами, подразумевающих умножение или деление,
включая задачи на результат с остатком. Учащиеся используют
калькулятор при производстве действий с числами из нескольких цифр.
Начинают вырабатывать стратегию умственных операций и
использовать ее при сложении и вычитании в пределах чисел, состоящих
как минимум из двух цифр.
Уровень 4
Учащиеся используют понимание значения места целых чисел
при умножении и делении от 10 до 100. При решении числовых
заданий учащиеся используют набор умственных и письменных
операций с четырьмя действиями, используя память таблицы
умножения до 10. Совершают операции сложения и вычитания двузначных
чисел. При работе с калькулятором, или без него, учащиеся
проверяют правильность вычисления, используя знание контекста, или
величины сопоставляемых чисел. Они узнают примерные
пропорции целого и используют простые дроби и проценты для
представления этих пропорций. Учащиеся выбирают и описывают схему
образования чисел, включая взаимоотношения чисел, как то: умножение,
факторы и площади. Они начинают использовать простые формулы,
76 Отбор содержания образования. Технологическая матрица
выраженные словами. Учащиеся используют и интерпретируют
координаты первого квадранта (90 градусов).
Уровень 5
Учащиеся понимают значение места цифры в числе при
умножении и делении целых и десятичных чисел на 10, 100, 1000.
Располагают числа по порядку, осуществляют сложение и вычитание
отрицательных чисел в контексте. Пользуются четырьмя
арифметическими действиями в пределах четырех знаков. Рассчитывают дроби
или процентные соотношения количества и измерения используя,
где необходимо, калькулятор. Учащиеся понимают, и где это
необходимо, используют методы решения задач на умножение и деление
трехзначных чисел на двузначные без использования калькулятора.
Проверяют правильность результата, применяя обратные действия
или приблизительный расчет. Конструируют и выражают созданное
в форме символов, используют простые формулы с применением
одной или двух операций.
Таким образом, технологическая матрица представляет собой
достаточно универсальный инструмент отбора содержания и
различных областей достижений учащихся для построения тестов
учебных достижений.
Глава 4 77
Глава 4
Тестовые задания
4.1. Состав тестовых заданий
В самом общем виде тестовые задания должны:
- соответствовать содержанию учебного материала;
- быть составлены с учетом соответствующих правил;
- быть проверены на практике (апробированы);
- быть ясными испытуемому.
Кроме этого необходимо отметить, что тестовые задания могут
быть охарактеризованы показателями — трудностью и дискримина-
тивностью.
В данном разделе представлены требования к основным видам
тестовых заданий, которые применяются в тестах учебных
достижений. Эти виды заданий носят «базовый» характер. Все многообразие
существующих заданий может быть сведено к нескольким типам или
их сочетанию. Например, задача с переструктурированием данных
может быть представлена как совокупность задач на восстановление
последовательности и соответствия; задания на нахождение ошибок
— частный случай заданий на исключение лишнего и так далее.
С точки зрения разработчика минимальные требования к
составу тестового заданию состоят в наличии всех трех частей:
1. Инструкции
2. Текста задания (вопроса)
3. Правильного ответа
1. Инструкция должна содержать указания на то, что
испытуемый должен сделать, каким образом выполнять задание, где и как
делать пометки и записи, описывать то, что ученик должен «сделать
руками», каким образом ему следует выполнять задание, где
отмечать, как дописывать и т.д.
Собственно говоря, инструкция должна сделать так, чтобы
задание и способ его выполнения были абсолютно ясны любому из
испытуемых и не приводили к ошибкам.
Например:
ответ запишите в рамку, которая находится ниже задания, для
промежуточных вычислений используйте место слева от вопроса;
в третьем столбце, над строчками впишите цифры,
соответствующие понятиям, обозначенным буквами в этой же строке;
ответ запишите в бланке, в строке, соответствующей номеру
вопроса, для вычислений следует использовать калькулятор...
78 Тестовые задания
Во многих работах по тестированию инструкция для учащихся в
той форме, в какой предлагаем ее мы, только подразумевается или
приводится не для всех заданий. Например, в книге B.C. Аванесова
инструкция для заданий с выбором звучит как: «Обведите кружком
номер правильного ответа», то есть описывает то, что ученик должен
выполнить «руками», а для заданий на установление правильной
последовательности: «Установить правильную последовательность»,
то есть интеллектуальную операцию.
Такая инструкция может привести к противоречию с
требованием понятности инструкции и ясности задания.
Ученику важно понять, что от него требуется, как он должен
выполнять задание. Мало понять то, что необходимо установить
правильную последовательность, то есть выполнить
интеллектуальную операцию, но и то, как собственно ее устанавливать, что, каким
образом и где надо вписать, отметить и т.д. Кроме этого, для многих
заданий важно и то, в каком порядке эту правильную
последовательность восстанавливать от раннего (большего) к более позднему
(меньшему) или наоборот.
Исходя из необходимости сделать само задание и процедуру его
выполнения понятными испытуемому, представляется вполне
обоснованным требовать в инструкции для испытуемого наличия именно
тех операций, что он должен выполнить практически.
Как показывает опыт, подготовка инструкций для учащихся с
требованием четко описать то, каким образом ученик должен
выполнять задание, дисциплинирует разработчиков, позволяет им
взглянуть на задание с точки зрения его выполнимости.
В тестах допускается делать одну инструкцию для группы
однотипных заданий, которая помещается в начале теста или данной группы
заданий в тесте. Для проверки того, как испытуемые поняли
инструкцию, желательно снабдить ее несколькими примерами, которые
разбираются вместе с ведущим тестирование. Общей практикой,
сложившейся в последнее время, является создание инструкции для испытуемых,
которая помещается в начале тестовой тетради. В ней подробно
разбираются инструкции по заполнению всех форм тестовых заданий,
которые могут встретиться в тесте. Они снабжаются примерами, которые
разбираются и выполняются вместе с ведущим, правила исправления
ошибочно выполненных заданий, другие сведения, необходимые
ученику для выполнения задания.
Для разработчиков тестовых заданий подготовка инструкции
для испытуемых в каждом задании является необходимой, поскольку
это позволяет взглянуть на задание с точки зрения ученика, рассмот-
Глава 4 79
реть варианты упрощения заданий, а иногда подталкивают к поиску
наиболее адекватной формы тестовых заданий.
Правила составления инструкций, требований к их составу мы
разберем в главе, посвященной оснащению тестов. В примерах,
данных в дальнейшем, инструкции могут повторяться в краткой форме
или не повторяться вовсе, однако это совершенно не означает, что
при составлении тестовых заданий или оснащении теста ими следует
пренебрегать.
Каким образом лучше делать отметки при выполнении заданий?
Это достаточно важный вопрос. Возможно несколько вариантов:
отметить крестиком, поставить галочку, обвести кружком, нарисовать
стрелочку, соединить линией, отметить любым знаком и т.д.
Некоторые варианты других способов могут нести в себе
неоднозначность, например:
В случае апелляции
по результатам теста,
можно очень долго и
безрезультатно
выяснять, к какому варианту
ответа был ближе
использованный
испытуемым знак.
Иногда, особенно в
Рисунок 5
J начальной школе,
задания на восстановление соответствия содержат инструкцию
«соединить стрелочками соответствующие элементы». Этот вариант,
кроме возможной неоднозначности, достаточно трудоемок при
проверке, особенно когда количество испытуемых становится большим.
Не совсем четким представляется вариант «обведи кружком
вариант ответа...», поскольку следую ему формально необходимо весь
вариант ответа обвести в кружок, что не всегда уместно и возможно.
Как показывает опыт наиболее универсальным, четким,
понятным и однозначным является вариант обведения кружком цифры
(буквы), соответствующей правильному ответу для заданий
закрытого типа, и требование вписать ответ в отведенное место для
заданий открытого вида и заданий на восстановление соответствия
(выделив в тестовой тетради и обозначив «место для ответа»).
2. Текст задания или вопроса представляет собой
содержательное наполнение задания.
80 Тестовые задания
У некоторых авторов можно встретить выделенные части текста
задания. Например, С1ТО выделяет следующие части вопроса:
Стимулирующий (стимульный) материал: материал, о котором
говорится в вопросе, представлен обычно в виде текста, рисунка,
таблицы или другого представления данных. Во многих случаях
написание вопросов начинается со сбора подходящих текстов или с
обдумывания ситуаций или тем, по которым можно сгруппировать
ряд вопросов.
Введение: информация, предшествующая вопросу.
Вопрос: существенная часть вопроса, например: «До каких
пределов падает значение X?» или «Какие достоинства имеют открытые
вопросы?».
Ограничения ответа: вопрос должен быть высокого качества,
чтобы предотвратить нежелаемые интерпретации учеников,
используя ограничения, такие как: «По мнению автора...» или «Вычислите
до 2-х десятичных знаков».
По нашему мнению, структура и состав вопроса определяется в
большей степени содержанием учебного материала.
Стимулирующий материал или, его еще могут называть — невербальная
поддержка, может быть представлен не для всех заданий, хотя тенденция ее
подготовки для максимально большого количества заданий явно
существует. Ее роль и значение мы обсудим отдельно. Ограничения
ответа очень важны, но только для незначительного количества
тестовых заданий, на них мы остановимся чуть позже.
3. Правильный ответ или оценочная схема — обязательный
атрибут любого тестового задания — без него задание, за исключением,
пожалуй, самых тривиальных, теряет смысл, поскольку не может
быть точно проанализировано и оценено.
Перечисленные три составных части тестового задания
являются минимально необходимыми для составления тестов.
Кроме этого, составителям тестовых заданий целесообразно
указывать еще ряд необходимых сведений. Сведения разработчиков
о заданиях и их целевое назначение представлены в таблице:
Таблица 13
Сведения о тестовом задании
- возраст (класс), на который рассчитано это
задание
- тему (предмет или предметную область в
соответствии с технологической матрицей),
- предполагаемое составителем время
выполнения задания
Дальнейшее использование
для экспертизы с целью определения валидности
для проверки соответствия заданий
технологической матрице
для компоновки теста, предназначенного для
апробации
Глава 4
81
Сведения о тестовом задании
Дальнейшее использование
-сроки предъявления (календарные сроки,
поскольку одно и то же задание, будучи
предъявленным, например, в октябре и
феврале даст разные результаты и соответствен-
но должно иметь разные характеристики)
для включения в инструкцию по проведению теста
предполагаемую статистическую сложность
для правильного расположения заданий в тесте,
предназначенном для апробации
-уровень, который соответствует данному
заданию, или умения, которые оно выясняет
для проверки соответствия задании технологиче-
ской матрице
- соответствие стандарту или программному
материалу
для экспертизы с целью определения валидности
данные авторе
для получения справок и уточнений
- возможные варианты невербальной
поддержки
для художника и технического редактора, для
подготовки невербальных материалов
- некоторые другие сведения, содержание которых
определяется, как правило, целями, с которыми создается данный инструмент.
Для составителей заданий готовятся специальные бланки, в
которых требуемая информация формализуется.
Пример бланка для составления тестовых заданий
Бланк тестового задания Класс
Предмет и предметная область
Автор задания:
(фамилия, имя, отчество полностью)
(место работы, нужное отметить) УПМ ЦРО школа №
(должность)
характер контролируемых умений
Первый ряд:
I. Вопрос
2. Варианты ответов А
В
С
D
Е
3. Правильный ответ:
4. Возможная невербальная поддержка (рисунок, схема, диаграмма и пр. возможный вид
представления: оригинал, набросок, описание):
Примерное время Условная статистическая сложность
' ' (% учащихся, которые могут справиться (20-80%):
выполнения
Подпись автора:
82 Тестовые задания
Основное требование к тестовым заданиям
Тестовое задание должно иметь
однозначный правильный ответ
Данное требование требует пояснения. Часто понятие
однозначности ответа трактуется как требование единственности ответа
или наличия предполагаемого образца. В данном случае речь идет об
однозначной, с точки зрения пользователя возможности оценки
результата выполнения тестового задания, как возможность любого
пользователя на основе сравнения ответа учащегося и правильного
ответа (схемы анализа), предложенного разработчиком, сделать
однозначный вывод о том, выполнил данный ученик это задание верно
или нет. Поэтому правильный ответ разработчика может
заключаться не только в эталонном ответе, но и в описании схемы анализа,
содержать конструкции «и ... и», «...или...», описывать вариант
неправильного ответа, считая все остальные правильным.
В инструкции NAEB записано: «Ясная схема оценки должна
обеспечить пользователя тестом аппаратом оценивания именно в
рамках заложенной в тест оценки разработчика. Многие вопросы
толкования могут быть сняты при разработке ясной и
недвусмысленной схемы оценивания, которая содержит наиболее возможные
варианты ответов, которые можно принять к рассмотрению и
оценить, как зачетные. Схема оценивания должна полностью
соответствовать конкретному вопросу. Все формулировки ожидаемых ответов
должны быть предельно ясными и недвусмысленными, чтобы при
оценивании у проверяющего не могло возникнуть сомнения в
правильности засчитываемого ответа. Единство требований к
тестируемым не может быть осуществлено, если сама схема оценки может
толковаться специалистами по-разному».
Виды и типы тестовых заданий.
Их особенности, преимущества и недостатки
Рассмотрим, типологию тестовых заданий, и выделим
требования к ним. Существует два типа заданий, которые объединяют шесть
видов. К этим шести видам может быть сведено все многообразие
существующих заданий без ущерба для их качества. Типы и виды
тестовых заданий представлены на схеме:
Глава 4
83
Схема 1
Тестовые задания
Открытого типа
т
дополнения
альтернативных
ответов
множественного
выбора
свободного
изложения
восстановления
соответствия
восстановление
последовательности
К заданиям открытого типа относятся два вида — задания
дополнения и задания свободного изложения. Их отличительной
особенностью является то, что для их выполнения ученику необходимо
самому записать одно или несколько слов (цифр, букв; возможно
словосочетаний или даже предложений). Этот тип заданий не имеет
дистракторов и вариантов правильных ответов.
Задания закрытого типа, к ним относятся задания четырех
видов: альтернативных ответов (АО), множественного выбора,
восстановления соответствия и восстановления последовательности.
Тестовые задания закрытого типа — предусматривают
различные варианты ответа на поставленный вопрос: из ряда предлагаемых
выбираются один или несколько правильных ответов, выбираются
правильные (или неправильные) элементы списка и др. Это задания
с предписанными ответами, что предполагает наличие ряда
предварительно разработанных вариантов ответа на заданный вопрос.
Иногда варианты неверных ответов называют дистракторами.
4.2. Задания закрытого типа
4.2.1. Задания альтернативных ответов
1. Задания альтернативных ответов АО (верно — неверно,
правильно — неправильно).
К каждой задаче альтернативных ответов дается только два
варианта ответов. Испытуемый должен выбрать один из них - «да —
нет», «правильно — неправильно» и пр.
Закрытого типа
84 Тестовые задания
Форма задания:
утверждение 1 да нет
утверждение 2 да нет
утверждение 3 да нет
утверждение 4 да нет
и т.д.
Инструкция для заданий альтернативных ответов: обведите
кружком вариант ответа «да» или «нет», который вы считаете
правильным; или обведи ответ «да» или «нет». (Если ты согласен с
утверждением — обведи кружком «да» в клеточке таблицы ответов, а если не
согласен — обведи «нет»).
Задания альтернативных ответов (АО) являются самыми
простыми, но не самыми распространенными при составлении тестов.
Это связано, в основном, со специфичностью того материала,
которому в большей степени соответствует эта форма заданий. Задания
альтернативных ответов применяются для оценки одного элемента
знаний. Использование заданий альтернативных ответов в виде
отдельного вопроса, одиночно, приводит, как правило, к
тривиальному тестированию и используются достаточно редко. О том же
говорят и рекомендации CITO: «Вопросы альтернативных ответов
предлагают только одну альтернативу, которую тестируемый либо
принимает как правильную, либо отвергает». Таким образом, у
экзаменуемых есть возможность на 50% отгадать правильный ответ на один
вопрос. Поэтому эти задания целесообразно применять сериями к
одному элементу знаний, надо иметь в виду, что шанс отгадать 10
таких вопросов равен 0,00098.
В инструкции CITO записано: «В индивидуальном порядке
вопросы альтернативных ответов не очень эффективны, а вот длинные
серии таких вопросов имеют определенные преимущества. Ответы
на них обычно не занимают много времени, и есть возможность
охватить весь материал по предмету, задавая как можно больше
вопросов по нему».
Таким образом, эта форма целесообразна для использования
заданий этого вида в серии, когда для одного элемента знания
задастся несколько вопросов. В такой форме задания альтернативных
ответов в большей степени подходят для выявления уровня овладения
сложными определениями, знания достаточно сложных графиков,
диаграмм, схем и т.д.
Особенностью заданий альтернативных ответов является то,
что вопрос должен быть сформулирован в форме утверждения,
поскольку он предполагает согласие или несогласие, которое можно
отнести к утверждению.
Глава 4
85
Приведем несколько примеров:
Пример 7.
Инструкция: Обведи ответ «да» или «нет». (Если ты согласен с
утверждением — обведи кружком «да» в клеточке таблицы ответов, а
если не согласен — обведи «нет»).
Вопрос: Сумма квадратов катетов равна квадрату гипотенузы
прямоугольного треугольника
Варианты ответа:
да
нет
Совершенно непригодное задание ввиду его тривиальности,
которая вытекает из точного соответствия формулировке учебника.
Приведенный пример показывает неудачный случай
применения заданий с альтернативными ответами и возможность их замены
на другие. Однако существует целый ряд заданий, когда
альтернативные ответы применять наиболее целесообразно. Это относится к
крупным определениям, сложным процессам, к графикам,
диаграммам, таблицам, тем элементам знания, которые могут быть
структурированы или разбиты на более мелкие части.
Приведем примеры, когда элементы знания адекватны этой
форме задания. Особенно это важно для тестов школьных
достижений, как в части усвоения знаний, так и умения анализировать
данные, работать с разной формой представления результатов (графики,
диаграммы, таблицы и т.д.).
Пример 2.
Инструкция: Обведи ответ «да» или «нет». (Если ты согласен с
утверждением — обведи кружком «да» в клеточке таблицы ответов, а
если не согласен — обведи «нет»).
Вопрос: В определение Биосфера — это часть....
Варианты ответа:
..геологической оболочки Земли
..биологической оболочки Земли
..гидрологической оболочки Земли
.. оболочки Земли, где присутствует воздух
.. оболочки Земли, населенная организмами
.. оболочки Земли, где возможна жизнь
да
да
да
да
да
да
нет
нет
нет
нет
нет
нет
Ответ: да—нет—нет—нет—да—нет.
Пример 3.
В этом вопросе нас интересует процесс гидролиза.
Сформулируем вопрос: «В процессе гидролиза соль взаимодействует с водой.
86
Тестовые задания
Так ли это?» Формулировка вопроса «Процессом гидролиза
называется взаимодействие соли и воды. Да/нет — не подходит в силу своей
тривиальности. Однако вопрос может быть значительно улучшен,
оставаясь в рамках задач альтернативных ответов:
Инструкция: Обведи ответ «да» или «нет». (Если ты согласен с
утверждением — обведи кружком «да» в клеточке таблицы ответов, а
если не согласен — обведи «нет»).
Вопрос: Гидролизом называется процесс, при котором:
Варианты ответа:
соль разлагается с помощью электрического тока
соль окисляется
изменяется окраска индикатора
соль кристаллизуется
соль взаимодействует с водой
да
да
да
да
да
нет
нет
нет
нет
нет
Попытка переформулировать эту задачу в вариант с выбором
вариантов ответов не приведет к улучшению, поскольку придется
указывать по два варианта правильных ответов или формулировать
несколько заданий.
Пример 4.
Распределение уровня интеллекта в большой выборке
мужчин и женщин
мужчины
IQ
45 60 80 100 120 140 170
Рисунок 4
Инструкция: Обведи ответ «да» или «нет». (Если ты согласен с
утверждением — обведи кружком «да» в клеточке таблицы ответов, а
если не согласен — обведи «нет»).
Вопрос: Исходя из информации, представленной на этом
графике, являются ли следующие утверждения истинными или
ложными:
Глава 4
87
Варианты ответа:
да
да
да
да
да
да
да
нет
нет
нет
нет
нет
нет
нет
— а) Больше мужчин, чем женщин, имеют очень
низкий IQ<45
— б) Больше мужчин, чем женщин, имеют очень
высокий IQ> 140
— в) Распределение уровня интеллекта среди
мужчин приближается к бимодальному
— г) Распределение уровня интеллекта среди
женщин приближается к нормальному
— д) Среднее значение IQ для мужчин и женщин
примерно одинаково
— е) Больше женщин, чем мужчин, имеют IQ от
120 до 140
— ж) Больше мужчин, чем женщин, имеют IQ от 50
до 60
Эти альтернативные задания в наибольшей степени
соответствуют задаче выявления того, в какой степени испытуемый понимает
данные. Кроме того, это задание содержит проверку форм
нормального и бимодального распределений, умений работать с графиками,
навыки приближенного вычисления. Любая другая форма
представления заданий будет гораздо более громоздкой и менее удобной.
4.2.2. Задания множественного выбора
Это основной вид заданий, применяемый в тестах достижений.
Надо помнить, что он не единственный.
Задачи с множественным выбором предполагают наличие
вариативности в выборе. Испытуемый должен выбрать один из
предложенных вариантов, среди которых чаще всего только один
правильный.
Форма представления заданий альтернативных ответов:
Вопрос (утверждение):
A. вариант ответа 1
B. вариант ответа 2
C. вариант ответа 3
D. вариант ответа 4
E. вариант ответа 5
Инструкции для заданий с множественным выбором: обведите
кружком букву, соответствующую варианту правильного ответа.
88 Тестовые задания
Какое количество вариантов ответов в заданиях множественного
выбора можно считать приемлемым?
Инструкция CITO так определяет количество необходимых
альтернатив: «Обычный вопрос состоит из введения, самого вопроса
и ряда альтернатив, каждая из которых представляет собой ответ на
вопрос. Оптимальное количество альтернатив — это 3 или 4. Имея
две альтернативы, экзаменуемый начнет догадываться о правильном
ответе особенно, если альтернативы похожи друг на друга (менее
способные экзаменуемые встретят больше трудности, чем более
способные при выявлении различия между этими альтернативами).
Обычно трудно найти более 4 интересных и оригинальных
альтернатив, и, к тому же, на их чтение уйдет больше времени
экзаменуемого». Вероятно, минимальное количество возможных альтернатив —
это действительно 3, что касается максимального количества
альтернатив, то, скорее всего, их количество будет зависеть от объема теста
предлагаемых альтернатив. В том случае, если это цифровые
выражения, то 5-6 вариантов не могут оказаться слишком длинными для
чтения. Оптимальной можно считать 5 альтернативных ответов, при
этом необходимо учитывать, что не всегда это возможно.
Сколько правильных ответов может быть
в тестовом задании множественного выбора?
В заданиях множественного выбора количество правильных
ответов объективными причинами не ограничивается. В том случае,
если вариантов правильных ответов несколько следует видоизменить
инструкцию, указав на то, что необходимо отметить буквы,
соответствующие правильным ответам. Или иным образом указать на то,
что правильных вариантов несколько.
Однако из практических соображений минимизации
возможных форм заданий мы настоятельно рекомендуем придерживаться
правила, согласно которому задание множественного выбора
содержит только один правильный ответ, а в том случае, если правильных
ответов несколько, то такое задание переделывается в форму заданий
с альтернативными ответами. Таким образом, удается сократить на
одну количество форм заданий и соответствующих им стандартных
инструкций, что упрощает процедуру подготовки заданий.
Поиск правдоподобных однородных ответов составляет
основную трудность для разработчиков заданий множественного выбора.
Решить эту проблему возможно только на основе анализа
результатов решения задачи.
Глава 4 89
Приведем несколько примеров связанных с формулировкой
заданий с выбором варианта ответов:
Пример 5.
Инструкция: Обведи кружком букву, соответствующую
правильному ответу.
Вопрос: К какой группе веществ относится серная кислота?
Варианты ответа:
A. Не электролит
B. Сильный электролит
C. Слабый электролит
D. Электролит средней силы
E. Восстановитель
В данном примере можно говорить о двух неудачах в подборе
вариантов ответов. Во-первых, первые четыре варианта
представляют собой разновидности одной группы веществ — электролитов, а
последний определяет вещества по другому основанию, что по сути
является подсказкой. Во вторых, расположение в задании
характеристик силы электролита хаотично, что приводит к потере времени на
чтение задания. Более удачным был бы вариант ответов:
Пример 6.
Инструкция: Обведи кружком букву, соответствующую
правильному ответу.
Вопрос: К какой группе веществ относится серная кислота?
Варианты ответа:
A. Не электролит
B. Слабый электролит
C. Электролит средней силы
D. Сильный электролит
Пример 7.
Инструкция: Обведи кружком букву, соответствующую
правильному ответу.
Вопрос: Катер плывет по реке, скорость течения равна «а»,
скорость катера в стоячей воде равна «Ь». Какая из следующих формул
выражает время, которое затрачивает катер на то, чтобы спуститься
вниз по течению на 30 км, а потом вернуться обратно? (Время
стоянки не учитывать)
Варианты ответа:
А.
60
90 Тестовые задания
30 30
B. +
а+b b—а
30 30
C. —+ —
а b
30 30
D.
а-b b + а
Это хорошее задание, в котором необходимо знание формул и
умение совершать действия с алгебраическими выражениями в уме.
Однако именно в этой сложности состоит смысл данной задачи.
Сделать выбор, не совершив определенных действий, практически
невозможно.
Пример 8. Задание.
Инструкция: Обведи кружком букву, соответствующую
правильному ответу.
Вопрос: Форма и цвет тела у богомола, палочника, окраска
красного клопа обыкновенного, уплощенное тело ската — это
примеры:
Варианты ответа:
A. Ароморфоза
B. Идиоадаптации
C. Дегенерации
D. Атавизма
В этом задании полностью используется форма. В нем
представлены четыре понятия, не зная которые невозможно найти
правильный ответ.
Как уже отмечалось, достаточную сложность представляет
подбор хороших дистракторов. К сожалению, как показывает опыт
применения тестирования, ошибки связанные с этим достаточно
широко распространены. Приведем несколько примеров:
Пример 9. Задание.
Инструкция: Обведи кружком букву, соответствующую
правильному ответу.
Вопрос: Империя — это
Варианты ответа:
A. Большое государство
B. Государство, управляемое императором
C. Государство, состоящее из метрополий и колоний
D. Сильное государство
E. Недемократическое государство
Правильный ответ С.
Глава 4 91
С точки зрения материала, изучаемого в курсе истории, вариант
ответа С представляется правильным, однако среди вариантов
неправильных ответов существует ответ В, который, строго говоря
(согласно словарным определениям), тоже является верным.
Засчитывая только ответ С, составитель получает искаженные данные о
знаниях детей по вопросу.
4.2.3. Задания на восстановление соответствия
(соответствие)
Задания соответствия (восстановления соответствия), в
которых необходимо найти или приравнять части, элементы, понятия —
конструкциям, фигурам, утверждениям; восстановить соответствие
между элементами двух списков.
К этому же типу следует отнести и задания, в которых требуется
восстановить порядок ряда, упорядочить. Эти задания могут
рассматриваться как частный случай задания на восстановления
соответствия, в которых только один ряд, а другим, предполагаемым,
является время.
Мы уже отмечали, что распространенной формой инструкции
для учащихся при ответе на данный вопрос данного вида является
вариант с использованием стрелочек: нарисуйте стрелочки от
элементов первого списка ко второму..., соедините стрелками
соответствующие понятия и т.д. Сам по себе способ использования стрелочек
вполне правомерен, однако он имеет два существенных недостатка
(кроме проблем неопределенности, которые мы обсуждали ранее):
первый — сложность проверки, особенно когда необходимо
проверить большое количество работ; и второй — есть опасность того, что
ученики, привыкнув к способу выполнения этих заданий
стрелочками, встретив в дальнейшем классическую форму задания, будут к
ней не готовы, воспримут ее как неизвестную, что может снизить их
результаты.
Каким образом наиболее рационально обозначать
варианты ответов?
Система нумерации и обозначений не имеет, какого то особого
стандарта исполнения. Как правило, система обозначений должна
быть единой в рамках разрабатываемого тестового инструмента.
Обычно, римскими цифрами нумеруются разделы, арабскими
цифрами номера заданий, иногда вместе с нумерацией заданий
используются буквенные индексы, в которых'зашифровываются пред-
92
Тестовые задания
мет, класс, на который рассчитано данное задание, или иную
важную для разработчика или пользователя информацию. Варианты
ответов обозначают русскими или латинскими заглавными буквами
сточкой.
Вопросы нумерации особенно важны для заданий на
восстановление соответствия, где существуют два ряда; крайне желательно,
что бы один из них был обозначен буквами, а другой цифрами, что
помогает избежать путаницы при выполнении этих заданий.
Форма представления заданий на восстановление соответствия
Инструкция: Соотнеси написанное в столбцах 1 и 2. (Запиши в
таблицу ответов цифры из столбца 2, которые соответствуют
утверждениям из первого списка).
Вопрос:
Варианты ответа:
А
В
С
D
Е
F
G
Ответ
Столбец 1
А.
В.
С.
D.
Е.
F.
G.
Столбец 2
1.
2.
3.
4.
5.
6.
7.
Эта форма заданий достаточно разнообразна и может быть с
успехом использована по всем учебным предметам и предметным
областям. Практически в каждом предмете существует широкая
возможность их использования. В области биологии, например, может
быть использован список растений и список соответствующих
соцветий, в русском языке слова и соответствующие им части речи или
орфограммы, в истории даты и события и т.д.
Задачи соответствия, требуют подбора подходящего ответа.
Обычно задание соответствия состоит из трех столбцов: в первом,
иод заглавными буквами (или цифрами) вопросы, утверждения,
факты, понятия и т.д., во втором идет пронумерованный (или в
случае если первый список был пронумерован, то под буквами) список
утверждений или слов, которые надо поставить в соответствие, и
наконец третья графа — вариант ответа. Для каждого
пронумерованного слова или утверждения следует отобрать один признак под
заглавной буквой, наиболее тесно связанный с ним.
Глава 4
93
Пример 10.
Инструкция: Соотнеси написанное в столбцах 1 и 2. (Запиши в
таблицу ответов цифры из столбца 2, которые соответствуют
утверждениям из первого списка).
Вопрос: Кто написал?
Варианты ответа:
А
В
С
D
Е
Ответ
Произведение
A. Обломов
B. Капитанская дочка
C. Севастопольские
рассказы
D-Лес
Е. Крыжовник
Автор
1. Толстой
2. Островский
3. Пушкин
4. Чехов
5. Гончаров
Как ясно из этого примера, задания на восстановления
соответствия лучшим образом подходят для выявления фактической
информации. Можно было бы и просто спросить «Кто написал
«Севастопольские рассказы»?» Данное задание на восстановление
соответствия — это простой метод задавать вопросы, который
позволяет легко подсчитывать оценки.
Это не очень удачный пример по двум обстоятельствам. Во-
первых, неудачна формулировка вопроса, она слишком кратка,
вызывает вопросы и требует пояснений. Во-вторых, каждому
произведению поставлено в соответствие только один автор, что увеличивает
вероятность угадывания. Приведем другой пример, построенный на
аналогичном материале.
Пример 11.
Укажите буквой, какому автору принадлежат книги, указанные
в следующем списке (оставьте незаполненной графу напротив
книги, автор которой не указан в левом списке):
Авторы
А.Диккенс
В. Скотт
В. С мол лет
Г. Теккерей
Книги Буква
1. «Ярмарка тщеславия»
2. «Уэверли»
3. «История двух городоз»
4. «Утерянный рай»
5. «Гамфри Клинкер»
6. «Памела»
7. «Лунный камень»
8. «Черный карлик»
Это задание лучше предыдущего: список, из которого
выбираются ответы, длиннее, чем первый список, в противном случае, к ж
94 Тестовые задания
мы уже говорили, случайное угадывание станет все более и более
легким. Так, если в первом примере испытуемый знает четыре из
пяти ответов в одинаковых по длине списках, то пятый будет
неизбежно правильным. Кроме предъявления списков неравной длины,
можно указывать, что некоторым элементам нет никаких
соответствий (или и то, и другое), как в данном примере. Эти меры с
очевидностью уменьшают вероятность случайного угадывания правильного
ответа.
Можно было бы сконструировать и задание с несколькими
вариантами выбора: «Диккенс написал: а) «Ярмарку тщеславия», б)
«Уэверли», и т.д.» Однако в нашем примере потребовалось бы
отдельное задание на каждую книгу, не говоря уже о бланках, чтобы
протестировать тот же самый объем знаний. Таким образом, для
выявления подробной информации такого рода задания на
восстановление соответствий являются более предпочтительными, чем
задания с вариантами выбора: они гораздо более компактны.
Для данного примера также могут быть использованы
альтернативные задания: «Диккенс написал: а) «Ярмарку тщеславия», да—нет; б)
«Уэверли», да—нет, и т.д.» Из этого видно, что для данного частного
материала альтернативное задание не является настолько эффективным,
как задание на восстановление соответствия. Во-первых, потребуется
четыре задания, по одному на каждого писателя. Во-вторых, нельзя
использовать одни и те же примеры произведений в каждом задании,
потому что, в противном случае, ответы на первое задание будут влиять на
другие. Следовательно, для фактической информации лучшей формой
заданий является задание на восстановление соответствия, за ним
следует альтернативное задание, а задание с несколькими вариантами выбора
является наименее эффективным.
Следующие два примера показывают более сложное и более
емкое задание.
Пример 12.
Перед вами фамилии людей, известных в различных областях
человеческих знаний. Вам необходимо поставить нужные буквы в
ваших бланках, соответствующие основной сфере деятельности того
или иного лица.
Э — экономика
П — политика
Н — наука
Л — литература
И — живопись, музыка
Имена
1. Лев
2. Борис
З.Луи
4. Томас
5. Василий
6. Петр
и т.д.
Фамилии
Толстой
Ельцин
Армстронг
Эдисон
Леонтьев
Столыпин
Глава 4 95
Буква
Это задание не очень удачное, поскольку приходится все время
справляться о правильной букве в списке, однако оно может быть
улучшено путем выведения подсказки на бланк. Задание будет
сформулировано следующим образом:
Перед вами фамилии людей, известных в различных областях
человеческих знаний. Вам необходимо обвести кружком нужные
буквы на бланке, соответствующие основной сфере деятельности того
или иного лица.
Э — экономика
П — политика
Н — наука
Л — литература
И — живопись, музыка
Имена Фамилий Буква
1.Лев Толстой ЭПНЛИ
2. Борис Ельцин ЭПНЛИ
3. Луи Армстронг ЭПНЛИ
4. Томас Эдисон ЭПНЛИ
5. Александр Бородин ЭПНЛИ
6. Василий Леонтьев ЭПНЛИ
В данном примере неудачным кажется включение в список
фамилии Бородина, который известен и как ученый-химик и как
композитор, что может вызвать вопросы или ошибки у наиболее
подготовленных учеников.
Необходимо подчеркнуть еще один момент, касающийся
альтернативных заданий и заданий на восстановление соответствий как
тестов достижений — опасность тривиального тестирования.
Хотя и важно знать, что овес имеет соцветие метелку, а
воробьиные — это отряд птиц, однако ответы на эти вопросы не
предполагают понимания. Знание того, что Пушкин написал «Капитанскую
дочку», представляется не столь важным по сравнению со способно-
96 Тестовые задания
стью выполнить анализ этого произведения или выразить
отношение к проблемам, в нем поднимаемым.
Главными преимуществами заданий этого вида являются:
возможность быстрой оценки знаний, умений и навыков в конкретной
области знаний, и экономичность размещения задач в тесте.
Для того чтобы задачи соответствия позволяли получить
результат, не зависящий от внешних причин, при конструировании их
необходимо учитывать требования, вытекающие из особенностей
восприятия:
— число входных данных одного списка не должно превышать
10; если их больше, лучше составить еще одну или несколько задач;
— если длина списков не совпадает, то об этом необходимо
сделать указание в инструкциях и ключе.
4.2.4. Задания на восстановление последовательности
Как мы уже отмечали, задания на восстановление
последовательности можно рассматривать как вариант задания на
восстановление соответствия, когда одним из рядов является время,
расстояние или иной континуальный конструкт, который подразумевается в
виде ряда. Поскольку эта форма заданий требует особой инструкции,
мы выделили ее в отдельный подраздел.
Задания на восстановление последовательности незаслуженно
редко используются в тестах. На самом деле это очень качественная
форма тестовых заданий, обладающая значительными
преимуществами: краткостью, простотой проверки. Оно подходит для любого
предмета, там, где присутствует алгоритмическая деятельность или
временные события. Для технологий это могут быть порядок
технологических операций, для истории — восстановление временных
последовательностей событий, для русского языка — этапы
словообразования, для точных наук — алгоритмы решения задач и этот список
практически бесконечен.
Если говорить о форме этого задания, то с одной стороны (если
подходить строго) нельзя его отнести к закрытым заданиям, поскольку
при его выполнении ученик сам записывает ответ. По форме это задание
близко к заданиям на восстановление соответствия, но с другой стороны
нельзя не отметить и его близость к заданиям на продолжение
последовательности, которые мы рассмотрим в следующем разделе. Отдельно
необходимо отметить и характерную для этой формы заданий низкую
вероятность угадывания правильного ответа.
Глава 4
97
1
2
3
4
5
6
7
Ответ
Задание.
Инструкция: Расположи в правильной последовательности. (В
столбце ответов проставь соответствующие буквы).
Вопрос.
Варианты ответа:
А.
В.
С.
D.
Е.
F.
, G.
Пример 12.
Инструкция. Расположи в правильной последовательности. (В
столбце ответов проставь соответствующие буквы).
Вопрос. Этапы зародышевого развития позвоночных животных
происходят в следующем порядке:
Варианты ответа:
А. Дробление
В.Зигота
C. Бластула
D. Закладка органов
E. Гаструла
Правильный ответ: В, А, С, Е, D
Пример 13.
Инструкция. Расположи в правильной последовательности. (В
столбце ответов проставь соответствующие буквы).
Вопрос. Расположите события в последовательности от более
ранних к более поздним:
Варианты ответа:
A. Мятеж в Вандее
B. Переворот 9 термидора
C. Падение Директории
D. Экспедиция в Египет
E. Принятие конституции якобинским Конвентом
1
2
3
4
5
Ответ
1
2
3
4
5
Ответ
98 Тестовые задания
Как мы уже отмечали, этот тип заданий достаточно
многообразен. Ниже приведен материал для двух заданий на восстановление
последовательности. Задания разработаны в Великобритании для
тестирования учащихся начальной школы.
Рисунок 6
Преимущества заданий закрытого типа:
— задания могут быть надежны, поскольку отсутствуют
факторы, связанные с субъективными оценками, которые снижают
надежность;
— оценивание заданий полностью объективно: между оценками
различных проверяющих не может быть различий;
— неважно, умеют ли испытуемые хорошо формулировать
ответы;
— задания этого типа легко обрабатываются, тестирование
быстро проводится;
— простой алгоритм заполнения снижает количество случайных
ошибок и описок;
— эти задания позволяют охватить большие области знания, что
для тестов достижений особенно важно;
— возможна машинная обработка ответов;
— низкая вероятность угадывания правильных ответов;
— возможно получение точной оценки содержательности теста,
что особенно важно для определения соответствия теста целям
исследования.
Глава 4 99
4.3. Задания открытого типа
К ним относятся задания двух видов:
— дополнения (другое название: задачи с ограничением на
ответы). В этих заданиях испытуемые должны также самостоятельно
давать ответы на вопросы, однако их возможности ограничены.
Ограничения обеспечивают объективность оценивания результата
выполнения задания, а формулировка ответа должна дать возможность
однозначного оценивания;
— свободного изложения или свободного конструирования. Они
предполагают свободные ответы испытуемых по сути задания. На
ответы не накладываются ограничения. Однако формулировки заданий
должны обеспечивать наличие только одного правильного ответа.
Инструкция для заданий дополнения: вместо каждого
многоточия впишите только одно слово (символ, знак и т.д.).
Инструкция для заданий свободного изложения: закончите
предложение (фразу), впишите вместо многоточия правильный ответ;
дополните определение, записывая ответ в бланке и т.д., то есть
вместо многоточия можно вписать словосочетание, фразу, предложение
или даже несколько предложений.
Выполнение основного требования для заданий дополнения не
представляется сложным, правильным ответом будет то самое
выражение, слово и т.д., которое необходимо вписать испытуемому.
Для заданий свободного изложения выполнение основного
требования к тестовым заданиям сложнее. Для выполнения этого требования
необходимо формализовать сам ответ. В том случае, когда результатом
выполнения задания служат цифровые выражения, структура фразы
подразумевает два-три однозначных слова — это не сложно.
Пример 15. В данном примере материалом для тестирования
являются знания о геометрической зависимости в прямоугольном
треугольнике: квадрат гипотенузы равен сумме квадратов катетов.
Задание свободного изложения
Инструкция: Закончи предложение.
Вопрос: «Сумма квадратов катетов прямоугольного
треугольника равна ....»
В силу однозначного определения существует только один
ответ, что обеспечит высокую надежность по тесту.
Задание дополнения
Инструкция: Впиши пропущенное слово (впиши ответ в
отведенное место). Одному пропуску соответствует только одно слово.
100 Тестовые задания
Вопрос: «Сумма квадратов катетов равна прямоугольного
треугольника».
Или
Вопрос: «Если дана сумма квадратов катетов, то гипотенузу
прямоугольного треугольника можно найти как »
Необходимые здесь слова не столь очевидны, но во втором
случае их количество может привести к путанице для испытуемых с
нетвердыми знаниями.
Трудность в применении этого вида задач заключается в
сложности с формализацией ответов, необходимость подготовки
оценочных схем затрудняет стандартизацию, громоздкость процедуры и
большие затраты времени на проведение.
Задания данного типа рассматриваются психологами как
дополнительные методы представления заданий в тестовой форме.
Однако, какая из форм заданий лучше, определяется специфичностью
тестируемой информации. Если она очень специфична, а в
педагогической практике это не редкость, то эффективными будут задания
свободного изложения, если она определена не столь четко, то лучше
использовать задания дополнения.
Основными трудностями при составлении заданий открытого
типа является соблюдение основного требования к тестовым
заданиям — наличия однозначного правильного ответа. Существует
несколько приемов, которые позволяют формализовать ответ, сделать
его однозначным.
Пример 16,
Вопрос. Биосфера — это ....
Ответ. Часть геологической оболочки Земли, населенная
живыми организмами.
Это пример неудачно сформулированного ответа. Задание с
таким вариантом ответа фактически не имеет однозначного
правильного ответа, ведь вероятность точного, дословного совпадения
варианта ответа с представленным вариантом чрезвычайно мала. Ответ —
часть «геологической оболочки Земли» или «часть оболочки Земли,
населенная живыми организмами» — могут считаться частично
правильными, что нарушает основное требование к тестовым заданиям
и приводит к субъективным оценкам. В данном случае возможно
четыре варианта выхода из создавшегося положения:
— первое — попытаться переформулировать вопрос таким
образом, чтобы ответ стал однозначным, например:
Вопрос: Часть геологической оболочки земли, населенная
живыми организмами называется...
Глава 4 101
Ответ: Биосфера.
Это неплохая форма задания, однако, по сравнению с
исходным значительно проще, кроме этого оно не проверяет собственно
знания определения;
— второе — выделением ключевых, наиболее существенных,
важных слов или словосочетаний, если выбран такой выход, то
задание будет выглядеть так:
Вопрос: Биосфера — это ....
Ответ: ответ считается правильным, если содержит в себе два
слова — геологической и организмами;
— третье — возможен и более сложный способ формализации
ответов с использованием более сложной шкалы:
Вопрос: Биосфера — это ....
Ответ: Ответ на данный вопрос оценивается двумя баллами,
если ответ содержит слова геологической и организмами,; если ответ
содержит одно из этих слов, то одним баллом, во всех остальных
случаях задание считается невыполненным;
— четвертое — данное задание может быть преобразовано в
другую форму — например, в задание альтернативных ответов, которая в
большей степени подходит для данного элемента знания.
Положительными сторонами хорошо составленных заданий
дополнения и свободного изложения являются:
1) краткость и однозначность ответов;
2) необходимость воспроизведения ответа по памяти;
3) отсутствие необходимости искать несколько вариантов ответа;
4) простота формулировки вопросов;
5) простота проверки;
6) невозможность угадать ответ.
Основное преимущество этих заданий — невозможность угадать
ответ, а основной недостаток — сложность формализации правильного
ответа. Тем не менее, для задач на вычисление, задач с формулами в
качестве ответа эта форма представляется оптимальной.
4.4. Практические задания
Практические задания или аппаратурные стоят несколько
отдельно в ряду заданий для тестов школьных достижений. Их
психологические аналоги достаточно успешно применяются в практике
психодиагностики.
В практике тестов достижений практические задания пока не
нашли значительного применения. Причин тому достаточно много:
102 Тестовые задания
сложность группового проведения, слабая стандартизованность,
значительные материальные затраты, наличие длительного
подготовительного этапа к каждому тестированию. Однако есть у таких
тестов неоспоримые преимущества, которые заключаются в большом
объеме информации, который можно получить, возможность
наблюдения и фиксации процесса работы и, наконец, что может быть
наиболее для педагогов ценное — возможность использования такого
тестирования для обучения, что для большинства остальных
тестовых заданий весьма проблематично.
В инструкциях CITO про этот вид заданий говорится
следующее: «Если задание включает в себя навыки ручного труда или
поведенческого характера, то бумага и карандаш являются явно
неподходящими инструментами для данного теста. Завершение письменного
диалога или описание действий при проведении специального
эксперимента явно отличается от реплик по телефону или проведения
эксперимента. Данные тесты — это прямой путь, чтобы оценить
задания.
Первым недостатком таких тестов является невозможность
наблюдать и оценивать более одного тестируемого в одно и то же
время. Так же как невозможно общаться с экзаменуемым и
одновременно оценивать его. Следовательно, выполнение этого типа тестов
требует много времени при высокой интенсивности труда. Второй
недостаток — это то, что подготовка инструкций для оценивания
таких тестов занимает много времени. Однако без этих инструкций,
экзамены не будут иметь взаимосвязи друг с другом, и может
возникнуть проблема последовательности внутри самого экзамена».
Как бы то ни было, но практические задания представляют
собой трудоемкий, но весьма эффективный способ аттестации
учащихся.
Приведем несколько примеров таких заданий (задания
рассчитаны на 9 или 13 лет) из опыта ETS с трудностями и комментариями
авторов.
Пример 17.
Название задания: БИЛЕТ
Описание задачи. Определить, какое наибольшее число билетов
(прямоугольников) может быть вырезано из листа бумаги.
Приборы и материалы. Один билет (5x7 см) и чистый лист бумаги
(24x21 см). (Линии на рисунке показывают правильное решение).
Указания. Пол сумел вырезать 12 билетов из такого листа. Жю-
ли удалось вырезать 13 билетов. Найдите наибольшее количество
билетов, которое можно получить из листа бумаги. Свое решение
изобразите линиями на листе.
Глава 4 103
Правильный ответ. Правильный ответ засчитывается, если
названо 14 и линии проведены так, как показано на рисунке 5.
Пример 18.
Название задания: ЛИСТЬЯ
Описание задачи: Найти площадь двух
негеометрических фигур с помощью
измерительной решетки (миллиметровки).
Приборы и материалы: Два изображения
листа, площадью 21 см2 и 48 см2, калька и
решетка, размеченная в квадратных
сантиметрах.
Указания. Найдите площадь
листьев, используя решетку. Вы можете
пользоваться калькой, положив ее
поверх решетки и отмечая на ней
клеточки, которые попадают в
площадь листа полностью или частично.
Правильный ответ: правильный
ответ засчитывается в случае указания
истинной площади листьев с точностью плюс-минус 4 см2.
Проблемы: при фотокопировании изображений листьев их
размер немного изменялся. Поэтому, правильными необходимо считать
ответы при больших отклонениях, чем вначале предполагалось.
Пример 19.
Название задания: МАГНИТ
Описание задачи. С помощью магнита определить, какие
предметы подвергаются намагничиванию, а какие нет и указать различия
между ними.
Приборы и материалы. Магнит и следующие семь предметов:
пластмассовая пуговица, железная или стальная шайба, стальная
скрепка, железный гвоздь, стеклянный шарик, пластмассовая
палочка и медная монета.
104 Тестовые задания
Указания. Проверьте, реагируют ли эти предметы на магнит, и
разделите их на две группы. Составьте списки предметов, входящих в
эти группы, и объясните, что отличает эти предметы друг от друга.
Правильный ответ: правильный ответ засчитывался при
правильном разделении предметов на группы.
4.5. Оценочные схемы тестовых заданий
Нужно ли оценивать правильно выполненное
задание одним баллом или несколькими?
Существуют два подхода к оценке результатов тестирования.
Первый подход говорит о том, что каждое задание должно быть
оценено одним баллом в случае правильного выполнения и нулем
баллов в случае его неправильного выполнения. Этот подход крайне
рациональный, поскольку обработка полученных результатов
становится достаточно простой и, что самое важное, этот подход
единственно объективный. В случае любой попытки присвоения какого-то
количества баллов за одно задание становится невозможным
получение корректного ответа на вопрос: «Почему за это задание дается
такое количество баллов, а за другое задание другое и чем может
быть объяснен баланс оценок за задания в тесте?»
Рассмотрим аргументы сторонников присвоения заданиям
разного количества баллов: «С помощью подсчета баллов Вы
сможете выразить различие между коротким вопросом, ответ на
который не займет много времени (единичным числом или
словом), или вопросом, на ответ которого уйдет много времени, а
также может потребоваться ответ, состоящий из многих частей,
каждая из которых должна быть оценена отдельно. Другим
преимуществом подсчета баллов является то, что они отражают
более точно значимость вопросов в общем экзамене. Идеальным
является вариант, когда максимальное количество баллов за один
вопрос равняется количеству важных элементов или отдельных
действий в ответе. Например, когда в вопросе требуется назвать
трех современных английских писателей или 3 подпункта
вопроса требуют подсчета на компьютере, то максимальное количество
баллов будет 3. На практике, количество баллов также зависит от
других факторов, таких как: важность вопроса или общий балл за
весь экзамен. Для того чтобы облегчить процесс оценивания,
лучше всего придерживаться определенного количества
элементов/подпунктов или их совокупности».
Глава 4 105
Таким образом, сторонники присвоения разного количества
баллов признают то, что, усиливая дифференциацию по вопросам,
они жертвуют объективностью оценки. Предложение сторонников
присвоения разного количества баллов разным вопросам строится
на двух предложениях. Во-первых, разные по трудности задания
оцениваются разным количеством баллов, но ведь располагая
задания в тесте по мере увеличения трудности, однако мы уже учитываем
трудность задания, резонно полагая, что каждый следующий балл
получается с большими усилиями. Второе, что предлагают учитывать
— это количество операций или элементов внутри задания. И здесь
возможны два случая. Первый- когда эти операции или элементы
носят одинаковую трудность, как в приведенном выше примере —
назвать трех писателей или выполнить три действия на сложение.
Такая ситуация представляется относительно редкой. Гораздо чаще
можно встретить вариант, когда действия внутри задания являются
неоднородными по сложности. Например, для большинства
расчетных задач по химии, физике в 2—3 действия оказывается, что одно из
действий является более трудным и в нем сосредоточен
содержательный смысл задания. Остальные действия носят
преимущественно расчетный характер или в любом случае они оказываются легче
первого.
Приведем два примера из одного теста.
Задание: Упростить выражение 2(Зх-7)-(3-4х).
Таблица 14
Схема анализа ответа
Решения и указания
1. За раскрытие первых скобок
2. За раскрытие вторых скобок
3. За приведение подобных слагаемых в выражение
6х-14+4х-3=10х-17
Количество баллов
1 балл
2 балла
1 балл
За выполнение задания 4 балла.
В данном задании вызывает вопрос оценивание действий.
Почему за выполнение второго действия по раскрытию скобок баллов
дается в два раза больше, нежели за первое действие?
Задание. При решении уравнения 4(х-5)=12 Незнайка допустил
ошибку. Найдите строчку, в которой Незнайка сделал ошибку:
А.4х+20=12
В.4х=12+20
C. 4х=32
D. х=32:4
Е.х=8
106 Тестовые задания
За выполнение задания 2 балла.
Сравнение системы оценивания двух приведенных заданий
вызывает еще большие вопросы. За выполнение второго задания, где
ученик должен полностью провести решение уравнения и найти
ошибку, дается столько же баллов, сколько за выполнение только
второго действия в первом задании. Найти рациональные ответы на
вопрос «Почему это так?» не представляется возможным.
В этом случае ученики оказываются в неравном положении: те,
кто выполнил первое действие, получают, как правило, все
возможные баллы, те, кто с ним не справился, не получают баллов вовсе,
хотя возможно предположить, что в том случае, если бы они
справились с первым действием, то они могли бы справиться и с
остальными. То есть фактически мы оцениваем несколькими баллами не
правильность выполнения всего задания, а правильность выполнения
первого действия такого задания. Таким образом, субъективный
фактор оценивания усиливается.
Если проанализировать данный вопрос с точки зрения опыта
тестирования, то разные подходы реализуются примерно в
одинаковом количестве случаев. Так, при проведении международных
сравнительных исследований, промежуточной аттестации учащихся в
Англии и Шотландии применяется преимущественно первый
подход. Для итоговой аттестации используется ограниченное
присвоение баллов в небольших интервалах (большинство заданий по 1
баллу, некоторые оцениваются в 2, максимум в 3 балла). Тесты,
разрабатываемые в Голландии, ориентированы на очень широкое
варьирование баллов, до 10 за одно задание.
Оба подхода сходятся в одном — когда используются задания,
требующие очень развернутого ответа, большого объяснения,
сочинения, то есть когда становится невозможным формализовать ответ,
необходимо создавать более общие оценочные схемы и использовать
балльные оценки.
При этом задания (например, сочинение) нельзя признать
тестовыми, в том понимании тестирования, которое сложилось в нашей
стране, поскольку они не соответствуют основному требованию к
тестовым заданиям и приводят к субъективным оценкам.
4.6. Использование заданий психологических тестов на выявление
структуры интеллекта для тестов достижений
Достаточно часто в тестах достижений можно найти попытки
использования специфичных заданий, специально разработанных
психологами для тестов интеллекта. Это в основном три вида зада-
Глава 4 107
ний: аналогии, классификации и исключения лишнего. Особенность
этих заданий в том, что результат их выполнения зависит не только
от знания предметного содержания задания, но и от сложности той
интеллектуальной операции, выполнение которой предполагают эти
задания. Как говорят психологи, они нагружены разными
факторами — один из которых собственно — результаты обучения, а другой
отражает личностные особенности испытуемого и может носить
природный характер. Поэтому использовать эти задания в тестах
нужно очень осторожно, по возможности использовать другие,
нейтральные формы заданий.
Согласно анализу психологов П. Клайна, Дж. Кеттелла,
выявляются два фактора интеллекта: (здесь и далее использована
терминология способностей, упрощенная П. Клайном) gf — текучие
способности — и gc — кристаллизованные способности. Текучие
способности (gf) весьма сходны с показателем интеллекта в том, что это
способность отыскивать связи и выявлять отношения, зависимости,
но на материале, который, как предполагается, минимизирует
индивидуальные различия в образовании и культурном уровне.
Кристаллизованные способности (gc) — это результат обучения,
конденсат опыта, и они измеряются в зависимости от культуры, к
которой принадлежит человек, уровня образования, активности,
интересов личности.
Имея предметом нашей работы, тесты школьных достижений
нас будут интересовать вторые в силу того, что они определяют
результат обучения.
Чтобы прояснить особенность этих заданий попытайтесь
выполнить следующее задание на исключение лишнего:
Пример 20.
Вопрос: Среди приведенных слов выберите одно, которое
является лишним в списке:
Сокол, орел, стриж, петух, индюк
Существует по крайней мере 5-6 достаточно корректных
оснований для того, что бы выделить лишнее слово, большинство из них
носит лексический характер. Однако автор заложил довольно
сложную систему причин выделения лишнего слова. Здесь лишним
является слово «стриж», поскольку все другие элементы списка — это
названия птиц, которые имеют еще одно значение и используются для
характеристики людей. Логика действия автора будет представлена
ниже в разделе, посвященном заданиям на исключение лишнего.
Для нас сейчас важно понять причину, по которой это задание
оказалось для нас непосильным (по крайней мере для большинства).
108 Тестовые задания
Вероятно, что причина затруднений с выполнением этого задания
лежит вне области наших знаний о птицах, их повадках или образе
жизни. Причина наших затруднений в другом. В том самом факторе
gf, которым преимущественно нагружено данное задание.
Основной опасностью использования этих заданий для тестов
школьных достижений является то, что их выполнение зависит от
двух причин — от знания учебного материала, которым задание
можно заполнить содержательно, и от того, насколько ученик может
классифицировать, находить аналогии и пр. Мы не может сделать
однозначный вывод о том, по какой причине ученик не справился с
заданием.
Тем не менее задания этих форм являются весьма
привлекательными для использования их в тестах школьных достижений.
Говоря об этих заданиях, необходимо отметить еще один
момент — то, что по своей форме они могут быть как заданиями
закрытого, так и открытого типа.
4.6.1. Задания на нахождение аналогии
Общий вид задания аналогии может быть представлен
следующим образом:
А так относится к В, как С относится к ..? По форме это может
быть задание как открытого типа — задания дополнения, так и
закрытого. В случае применения открытой формы испытуемому
предлагается самостоятельно вписать в предназначенное для этого места
слово — ответ. В случае, если применяется закрытая форма вопроса,
то для испытуемого предлагается на выбор несколько вариантов
ответов, так же как и в заданиях множественного выбора.
Задания аналогии имеет сокращенную форму записи, которая
применяется, когда заданий несколько, они представлены серией и
нет необходимости повторять инструкции для каждого задания:
А:В=С?
Инструкции для этих заданий зависят от того, какие ответы
(закрытые или открытые) предусматриваются.
Аналогия — тип заданий, обычно присутствующий во всех
тестах интеллекта. Он особенно может быть полезен потому, что,
во-первых, легко изменять уровень сложности таких заданий (это
касается самих отношений аналогии, а не сложности
соотносимых объектов), что делает задания подходящими для всех
возрастных групп и уровней развития. Во-вторых, практически нет
ограничений, относящихся к материалу заданий, использующих
Глава 4
109
принцип аналогии. Это означает, что аналогия подходит для
тестов, измеряющих как gc, так и gf.
Одно из преимуществ аналогий как формы заданий — это то,
что в них могут быть заложены разнообразнейшие виды отношений.
Для психологов аналогии привлекательны тем, что они могут
быть оформлены в невербальном виде, что идеально при
тестировании текучих способностей. В педагогике существует ряд задач, когда
необходимо выявление текучих способностей, например при отборе
детей в классы разного профиля, внутри классной дифференциации.
Однако этот класс педагогических задач не является предметом
настоящей работы. Психологи потратили довольно много усилий на
решение задачи определения текучих способностей.
Как утверждает Дж. Кеттелл, текучие способности лучше всего
тестируется либо заданиями, для выполнения которых все
представители некоторой культуры были обучены, либо заданиями, с
которыми все испытуемые, независимо от образования и воспитания, в
равной степени не знакомы.
П. Клайн предполагает, что задание на аналогии, приведенное
ниже, — это именно то задание, которое связано почти полностью с
фактором gf. Наилучшими заданиями являются те, в которых
используются буквы алфавита и цифры (при условии, что для
логических рассуждений, в случае использования цифр не будут
требоваться математические способности). В последнем случае существует
большое разнообразие абстрактных фигур и образов.
Пример 21.
так относится к
как
относится к ?
А
В
Это типичное геометрическое, невербальное задание для
измерения фактора gf. Для выполнения этого простого задания не
требуется почти никаких специальных знаний, при условии, что
испытуемый знаком с двумерными изображениями на бумаге.
110 Тестовые задания
Для нас более важно другое — содержание заданий. Покажем,
как в форму задания на аналогии можно включать разнообразные
знания, для выявления которых может требоваться дополнительная
информированность испытуемого. Практически нет никаких
ограничений на то, насколько сложными могут быть эти задания, как по
сложности используемых отношений, так и по информации.
Пример 22.
Быстрый так относится к быстроте, как медленный — к...
а) медлительности, б) скорости, в) торопливости, г)
неспешности, д) вялости.
Здесь отношение является весьма абстрактным — связь
существительного с прилагательным. Очевидно, что выполнение задания
зависит от наличия соответствующего активного словарного запаса.
Пример 23.
Глагол так относится к слову спрягать, как существительное к
слову...
а) изменять, б) образовывать, в) употреблять, г) склонять,
д) писать.
Это простое задание, нагруженное столь необходимым нам
фактором gc. Для выполнения этого задания достаточно знаний по
русскому языку.
Пример 24.
Эпителий: ткань = аорта: ?
а) сердце, б) внутренний орган, в) артерия, г) вена, д) кровь.
В данном примере приведена сокращенная форма представления
заданий на аналогию, которая подходит для батареи заданий на
аналогии и должна сопровождаться соответствующей инструкцией. Это
задание конечно гораздо более сложное, нежели предыдущее, и лишь
биологической информации недостаточно, чтобы выполнить это задание,
поскольку все варианты ответов принадлежат к этому виду.
4.6.2. Задания исключения лишнего
(отношения и связей: «встретил лишнее — убери»)
Широко используемыми и результативными формами заданий
являются задания типа исключения лишнего. В таких заданиях
испытуемому предъявляется список объектов, слов, фигур, чисел или
чего-нибудь еще: всего, что только может придумать разработчик
тестов, — а испытуемый должен найти общие закономерности
отношения между элементами списка, на основании которых и делать
заключения об их подобии или различии. Очевидно, что при этом
Глава4 111
необходимо выявление отношений и связей. Подобно аналогиям,
трудность выполнения заданий может быть легко регулируема как по
уровню сложности закономерностей между элементами списка, так
и по наличию специальных знаний необходимых для выявления
этих отношений.
Инструкция для этих заданий предполагает выделение лишнего
элемента в списке, либо запись или отметку в бланке индекса
соответствующего лишнему элементу.
Пример 25.
ABC D Е
Это простое задание, нагруженное фактором gf. Четыре
элемента имеют, по крайней мере, одну прямую линию. Будучи простым,
оно требует от испытуемых нахождения общей закономерности для
большинства элементов. Знания здесь не нужны.
Пример 26.
Сокол, орел, стриж, петух, индюк
Это гораздо более коварное задание. Мы его приводили в
начале раздела. Пример этого задания приведен здесь, чтобы
проиллюстрировать логику рассуждения разработчика. Здесь лишним является
слово «стриж», поскольку все другие элементы списка — это
названия птиц, которые имеют еще одно значение и используются для
характеристики людей. Обратите внимание, что если бы вместо
слова «индюк» было использовано слово «гусь», то оно стало бы
альтернативным ответом, поскольку это была бы единственная
водоплавающая птица. Слова «сова» и «курица» также не годятся, так как
первое было бы названием единственной ночной птицы, а второе -
единственным существительным женского рода. А заменив слово
«индюк» на «жаворонок», получаем альтернативный ответ «петух»,
так как это будет единственная домашняя птица. При
использовании этих слов задание будет простым — более зависимым от знаний.
Хотя для выполнения задания со словом «индюк» и необходим
хороший словарный запас, это задание становится более серьезным
тестом фактора gc.
112 Тестовые задания
Пример 27.
а) скорость, б) колебание, в) сила, г) вес, д) плотность.
Это задание по физике довольно простое и для его выполнение
необходимо знание основных терминов.
Пример 28.
а) аорта, б) вена, в) сердце, г) артерия, д) капилляр.
Это пример задания, составленного на исключение лишнего на
материале, аналогичном заданию, данному в примере аналогий.
4.6.3, Задания последовательности
Эти задания предполагают преодоление испытуемым какого-то
ряда, нахождение предыдущего, среднего, последующего элемента
или их сочетание. Инструкции для этих заданий сходны с
инструкциями для заданий исключения лишнего.
Пример 29.
Инструция: на месте многоточия нарисуй фигуру, которая
должна стоять в представленном ряду следующей:
Невербальный материал, как эти треугольники, полезен при
конструировании последовательностей для тестирования фактора gf.
Это простое задание. Однако такие задания могут быть
сконструированы трудными.
Пример 30.
12, 15, 17,20,22,...
Это относительно простое задание, в котором члены
последовательности увеличиваются на 3 и на 2 поочередно. Числа особенно
удобно использовать при тестировании отношений, так как ими
легко манипулировать, а для выявлений отношений в данном примере
необходимы ограниченные математические познания. Трудность
такого задания может быть увеличена за счет усложнения
математического материала и тогда такого рода задания, вполне можно ис-
Глава 4
113
пользовать как тестирующие не только последовательности, но и
знания по математике.
Пример 31.
Микроскопический, мельчайший, крошечный, ... , большой,
крупный.
Это пример вербальной последовательности, представляющей
собой простой тест для измерения gc. Понятно, он также затрагивает
вербальные способности. Здесь необходим больший выбор
вариантов ответов: огромный, маленький, тяжелый, гигантский,
чудовищный.
Пример 32.
..., пропан, пропанол, бутан, бутанол,....
Пример более сложной последовательности, с достаточно
простым наполнением знаниями по химии. Не обладая этими
знаниями, справиться с заданиями становится невозможно.
Форма записи этих заданий, приведенная в примерах, вполне
удовлетворительна, во избежание монотонности (с точки зрения
испытуемого) могут быть использованы разные ее варианты.
Задания последовательностей имеют несколько модификаций.
Приведем их:
1) От испытуемых может требоваться нахождение некоторого
среднего элемента, а не крайнего по расположению.
2) Можно попросить испытуемых дополнить не следующий
элемент, а через один или еще более дальний.
3) Можно попросить испытуемых переупорядочить элементы в
соответствии с выявленной последовательностью.
Представленные нами примеры демонстрируют, что задания на
исключение лишнего, аналогии и классификация — это форма заданий,
для выполнения которых требуются логические рассуждения; они
необходимы в тестах интеллекта, могут применяться в тестах достижений и
могут быть адаптированы к самому разнообразному материалу, однако
при их составлении необходимо быть крайне осторожными, чтобы
нагрузить их преимущественно фактором gc.
Насколько корректно использовать задания с ошибками в тестах?
Из опыта практической работы с учителями и методистами по
русскому языку выявились их опасения относительно
использования в тестовых заданиях слов с неверным написанием. Их возраже-
114 Тестовые задания
ния касались заданий, в которых ученикам предлагалось найти
слова, в которых были допущены ошибки. Данное опасение
основывалось на мнении, что учащиеся могут запомнить неверное написание
слов и в дальнейшем допускать ошибки. Как оказалось, эти
опасения не более чем стереотип, корни которого выяснить, к сожалению,
не удалось. В тестовых заданиях можно, а иногда необходимо,
использовать задания с неверным написанием слов.
4.7. Другие подходы к классификации тестовых заданий
Рассмотрим два других подхода к классификации тестовых
заданий. Первый из них предложен B.C. Аванесовым, второй
разработан Голландским институтом CITO.
Первая классификация представлена на следующих трех схемах.
Схема 2
Формы тестовых заданий
Тестовые задания
С выбором
правильного ответа
Открытой формы
На установление
соответствия
На установление
правильной
последовательности
Виды заданий с выбором правильного ответа
Задания с выбором правильного ответа
Одного правильного ответа
Нескольких правильных
ответов
Одного наиболее
правильного ответа
Варианты заданий с выбором правильного ответа
i
С двумя ответами
Задания с выбором правильного ответа
l i ir
С тремя ответами
С четырьмя ответами
С пятью и более ответами
Ее отличительными особенностями являются:
1. Задания открытой формы не классифицируются.
2. Введена классификация заданий по количеству правильных
ответов и по количеству вариантов ответов.
Принципиальной разницы между рассмотренной нами ранее
классификацией и предложенной здесь нет, может быть за
исключением двух моментов.
Глава 4 115
Первое. Задания дополнения и задания свободного изложения
имеют существенные различия как по процедуре их создания, так и
схемы анализа и особенностей использования. Исходя их этих
соображений, представляется верным разделить эти задания на
отдельные виды.
Второе. Классификация по количеству предложенных
вариантов ответов не представляется принципиальной. Кроме формального
признака, нет существенных, системообразующих оснований для
разделения заданий с тремя, четырьмя, пятью и более ответами.
Задания с двумя ответами, выделенными нами в форму
альтернативных ответов, такие существенные отличия имеют (инструкция,
условия применения, особенности создания и пр.).
Классификация тестовых заданий, предложенная CITO,
отражена в следующих трех схемах.
Схема 3
Тестовые задания
Задания открытого типа
Вопросы
множественного выбора
Устный экзамен
Задания на технику
исполнения
Задания открытого типа
На завершение
С коротким ответом
С расширенным
ответом
С ответом-
сочинением
Все вопросы, которые предлагают выбор из нескольких ответов,
называются вопросами множественного выбора.
Схема 4
Вопросы множественного выбора
Стандартный
множественный
выбор
Множественное
завершение
Альтернативных ответов
Восстановление
последовательности
Классификация или
восстановление
соответствия
В отличие от рассмотренных нами ранее схем классификации
здесь имеются некоторые отличия, которые можно признать
существенными.
1. Все тестовые задания делятся на две группы открытого типа и
множественного выбора. Можно предположить, что здесь, скорее
всего, терминологическая разница, связанная с переводом, судя по
дальнейшей структуре классификации, задания множественного
выбора и задания закрытого типа в нашем предложении совпадают.
116 Тестовые задания
2. В свою очередь, задания открытого вида разделены на 4
группы, в зависимости от длины предполагаемого ответа. Надо отметить,
что CITO расширительно толкует понятие тестирования именно
этим можно объяснить присутствие в классификации заданий с
ответом-сочинением. Мы договорились такие задания не считать
тестовыми, по причинам, обсуждавшимся ранее. Принципиальной
разницы между заданиями с коротким ответом и заданиями с
расширенным ответом нет, поскольку технологически эти задания
идентичны, и способы формализации ответов, которые при этом могут
быть использованы, также схожи.
Классификация вопросов множественного выбора весьма похожа
на предложенную нами, за исключением заданий на множественное
завершение, которым является, по мнению авторов, «объединение
разных вопросов в один, которое приводит к увеличению количества
альтернатив». Такой тип вопросов, по-нашему убеждению не обладает
существенными отличиями, которые давали бы основания для включения
его как отдельного вида. Как мы уже отмечали, возможно объединение
заданий, различных по форме, их усечение, что не дает основания для
выделения новых заданий, отличающихся формой.
Кроме этого CITO, используя широкое понимание
тестирования приводит еще две формы заданий — устные и задания на технику
исполнения. К сожалению, в нашей стране опыт использования
устных тестовых заданий отсутствует. Опыта в этом вопросе нет.
Задания на технику исполнения, несомненно, представляют
значительный интерес: «В технических тестовых работах экзамен предполагает
просмотр и оценивание навыка, такого как говорение или
технологический процесс, например: выполнение небольшого эксперимента
или изготовление продукта (изделия). К примеру: приготовление
пищи или какой-либо творческой работы. Инструкции по
оцениванию очень существенны для необходимого сравнения и
последовательности экзамена». Несколько примеров такого рода тестовых
заданий мы уже приводили.
Мы достаточно много времени уделили классификационным
проблемам тестовых заданий. Представляется, что это не зря.
Поскольку, рассмотрев альтернативные классификации заданий мы
убеждаемся, что количество форм тестовых заданий конечно, все
многообразие заданий может быть приведено к шести формам, что
дает нам широкие возможности для стандартизации заданий. Кроме
того, рассмотрев все многообразие форм заданий, мы убеждаемы в
том, насколько богаты и широки возможности тестирования, что
практически любые элементы знаний могут быть размещены в
тестах, при умелом выборе формы тестового задания.
Глава 5 117
Глава 5
Проблемы составления тестовых заданий
5.1. Особенности формулировки заданий.
Нужно ли формулировать тестовые задания в форме утверждения
B.C. Аванесов, а в след за ним и еще целый ряд авторов
настаивают на том, что тестовые задания должны создаваться в форме
утверждений, введя в требования к тестовым заданиям логическую
форму высказывания: «Учебные вопросы многословны и порождают
ответы — полные и неполные, правильные и неправильные, разные
по форме, содержанию и по структуре, вследствие чего оценка таких
ответов требует обязательного участия преподавателя и
сопровождается некоторой долей субъективизма. Вопросы и ответы на них
иногда бывают столь неопределенными и многословными, что для
выявления их истинности требуются большие затраты
интеллектуальной энергии, в то время как технологичная методика
тестирования предполагает четкую и быструю дифференцируемость ответов. В
этом смысле традиционные вопросы и ответы не технологичны; их
не рекомендуется включать в тест». И далее «Семантическое
преимущество заданий заключается в лучшем понимании их смысла и
значения. Это связано, во-первых, со словесным составом задания в
тестовой форме: смысл тестового утверждения улавливается всегда
лучше, чем смысл вопроса. В тестовых утверждениях нет ни одного
лишнего слова и даже знака, в то время как вопрос требует ряда
дополнительных слов и знаков для выражения требуемого смысла,
значения и интонации».
С доводами, приведенными B.C. Аванесовым, трудно
согласиться. Поскольку сравнение тестовых заданий в утвердительной
форме с плохо сформулированными заданиями в вопросительной
форме не совсем корректно. Хорошо сформулированное задание в
вопросительной форме ничем не уступает хорошо
сформулированному вопросу в форме утверждения. Если попытаться в
утвердительной форме вопроса поставить два отрицания, то такое задание
становится совершенно непонятным. Мало того, в рекомендациях по
составлению тестовых заданий Голландского института CITO дается
такая рекомендация: «Используйте прямые вопросы.
Предпочтительнее применять прямые вопросы, представляющие собой полное
предложение с вопросительным знаком в конце». Кроме того,
анализ заданий, используемых при аттестации учащихся в разных
странах, показывает, что преимущественной формой заданий (более 90
113 Проблемы составления тестовых заданий
процентов) является прямой вопрос. По нашему мнению, выбор
способа формулировки тестового задания, в форме утверждения или
в форме вопроса должен определяться двумя обстоятельствами: во-
первых, необходимо выбирать ту форму, которая будет максимально
понятна для испытуемых, и, во-вторых, одна из форм заданий
требует непременного формулирования вопроса в форме утверждения —
это задания альтернативных ответов, поскольку они требуют ответа
да или нет, которые лучше подходят к утверждениям.
5.2. Расположение заданий на листе и их шрифтовое оформление
С точки зрения исключения случайных ошибок достаточно важен
вопрос пространственного расположения заданий на страницах
тестовой тетради. Рекомендации по этому вопросу достаточно просты:
1. Все задание должно располагаться на одной странице.
2. Необходимо следить за тем, чтобы у ученика было достаточно
места для записей, черновых заметок, вычислений.
3. Для зданий открытого типа необходимо выделить достаточно
места для фиксации ответов, с учетом различного объема почерка
испытуемых.
4. Место для ответа должно быть выделено определенным
образом, лучше, если место для ответа будет выделено единообразно для
заданий разного типа (многоточие, линия, квадратик или иным
способом).
5. Размер шрифта теста, шрифтовое и полиграфическое
оформление должны соответствовать возрасту детей, для которых
проводится тестирование, и быть не ниже, чем рекомендации
соответствующих санитарных служб.
6. Варианты ответа лучше располагать в один столбик,
максимум в два.
7. Особые места инструкций и заданий должны выделяться
шрифтом (информация о необычном количестве ответов, отрицания
в тексте и т.д.)
8. Невербальный материал должен быть высокого качества, его
шрифтовое и полиграфическое оформление соответствовать
оформлению всей тестовой тетради.
9. В том случае, если тестирование предполагает несколько
частей теста (субтестов), то каждую следующую часть следует начинать с
новой нечетной страницы, поместив на четной стороне
предупреждение о необходимости перевернуть страницу после сигнала ведущего.
Глава 5 119
5.3. Правила составления тестовых заданий
Мы уже отмечали, что тестовые задания должны быть
составлены с учетом определенных правил. Рассмотрим эти правила и
прокомментируем их на примере возможных типичных ошибок.
Для понимания наших замечаний важно различать два аспекта,
которые в дальнейшем тексте, с целью экономии места и времени,
не всегда четко разделены. Первое, что будет в примерах, это
ошибки. Те ошибки, из-за которых задание невозможно использовать,
поскольку полученный результат не будет соответствовать
поставленным целям. Например, отсутствие в предложенных
альтернативах правильного ответа, подсказки в содержании заданий и т.д.
Второе — это улучшения тестовых заданий, те приемы, которые
позволяют делать задания более простыми, понятными, удобными.
Например повторяющиеся части в вариантах ответа лучше разместить в
вопросе, если это не сделать, то заданием все равно можно пользоваться,
однако с большими затратами и меньшим удобством.
В большинстве случаев мы рассмотрим варианты исправления
заданий.
Все примеры, приведенные в данном разделе, взяты из
литературных источников, в названии которых было написано «Тесты
по..», или из тестов, использовавшихся для тестирования детей в
системе образования нашей страны. В большинстве случаев
оставлена орфография оригинала. Для большей ясности в некоторых
примерах была изменена формулировка инструкций.
1. Начинайте формулировать вопрос с правильного ответа.
Начиная с подбора верного ответа, Вы сведете к минимуму
возможность столкнуться с одной или двумя часто встречающимися
проблемами.
1.1. Наличие более одного правильного ответа
Пример 33.
Инструкция. Вместо многоточий впишите пропущенные слова:
Вопрос. Имя ... - самостоятельная часть речи, которая
обозначает ... и отвечает на вопросы ...? ...?
Ответ: Существительное, предмет, кто, что.
В данном вопросе в качестве ответа подходит определения
большинства частей речи. Для исправления ошибки достаточно одно из
четырех слов, представленных в ответе, перенести в сам вопрос.
Вопрос. Сырьем для производства тканей служат....
Ответ. Волокна
120
Проблемы составления тестовых заданий
В этом вопросе неудачен сам вариант верного ответа.
Несомненно, что он соответствует изучаемому материалу и большинство
детей, ориентируясь на контекст изучаемого материала дадут
предполагаемый автором задания ответ. Однако при этом существует
целый ряд других альтернатив, которые могут оказаться верными. В
любом случае, особенно для заданий открытого типа необходимо
определять варианты ответов после предварительной апробации.
Для этих целей вполне подходит очень небольшая выборка в 40—60
человек.
1.2. Наличие только неправильных ответов
Пример, когда правильные ответ просто пропущен автором
задания, приводить не имеет смысла, хотя думать о том, что в практике
тестирования такие задания редкость представляется слишком
опрометчивым. Мы рассмотрим иной пример.
Инструкция. Расположи в правильной последовательности. (В
столбце ответов проставь соответствующие буквы).
Вопрос. Удаленность от Солнца
Варианты ответа:
A. Сатурн
B. Меркурий
C. Земля
D. Уран
E. Венера
F. Марс
Правильный ответ: В, Е, С, F, A, D.
В данном случае, правильный ответ вроде бы присутствует. Однако
неопределенность вопроса дает неоднозначный ответ. Она заключается
в том, что не ясно, в какой последовательности от Солнца он должен
быть представлен. Можно предложить две альтернативы исправления
этого задания. Первое — это внести уточнение в сам вопрос, а второе
можно предложить не менее правильный ответ в обратном порядке от
записанных сейчас букв в правильном ответе.
2. Содержание задания должно отвечать программным
требованиям и отражать содержание обучения.
Встречаются случаи, когда в тестирование пытаются включить
задания или варианты ответа, не имеющие правильного решения, не
потому, что его забыли включить, а потому, что его просто не
существует. Как правило, это вопросы, которые выясняют оценки,
мотивацию, мнения и т.д.
1
2
3
4
5
6
Ответ
Глава 5 121
Для выяснения готовности детей к изучению латинского языка
было предложено такое задание:
Вопрос. Мы будем изучать латинский язык потому, что...
A. На нем говорят во многих странах мира
B. Хотим лучше понимать родной язык, так как в нем много
слов, заимствованных из латыни
C. Хотим лучше понимать историю и культуру древнего мира
Первый вариант ответа вполне соответствует целям
тестирования, а два других делают попытку выяснить мотивацию учащихся.
Вполне естественно, что данное задание не содержит правильных
ответов.
Еще один пример «тестирования», которое было использовано
при отборе детей в педагогический класс, за очевидностью оставим
без комментариев.
Инструкция. Допиши предложение
Вопрос. Мне нравится профессия ...
Правильный ответ. Учитель.
3. Вопрос должен содержать одну законченную мысль.
Тестовое задание должно проверять один элемент знания. В том
случае, если это не так, то для нас становится неясным, с каким
элементом знаний ученик не справляется, в чем заключена причина
невыполнения задания. B.C. Аванесов для таких заданий вводит
понятие псевдотестовые, выделяя их в целый вид.
По моему мнению, в том случае, если для автора неважны
вопросы разнесения причин невыполнения заданий, и он готов
оценивать два или несколько элементов знания одной оценкой, то ничего
плохого в этом нет. Однако возможные недостатки рассмотрим на
примерах:
Вопрос. Конфуций ...
Варианты ответа:
— жил в Африке
— жил в Китае
— был врачом
— был правителем
— был философом
В данном случае вопрос выясняет кем был и где жил Конфуций.
Если автор считает возможным эти два элемента объединить в один
вопрос и дать им одну оценку, то такое задание возможно. Однако
да
да
да
да
да
нет
нет
нет
нет
нет
122 Проблемы составления тестовых заданий
все-таки лучше переделать это задание в два. Одно, из которых
выясняло бы, где жил, а другое — кем был Конфуций.
Вопрос: В каком году основаны города Санкт-Петербург и
Рязань?
Варианты ответа:
А. 1095 и 1703
В.1078 и 1713
C. 1705 и 1805
D. 1090 и 1701
Правильный ответ А.
В этом вопросе, так же как в предыдущем, объединены два
вопроса, однако в отличие от первого он содержит подсказку. На него верно
ответят ученики, знающие о времени образования Москвы, ученики
знающие о годе основания Рязани, так и те ученики, которые знают и то
и другое. Если этот факт не смущает автора и будет учтен им при анализе
результатов, то такое задание вполне корректно. Однако это задание
обладает еще одной очень важной особенностью, которую можно
назвать региональной ориентацией. Вполне естественно предположить,
что дети, проживающие в Рязани и в Москве, лучше справятся с эти
заданием, однако из этого нельзя сделать вывод о том, что дети в Рязани
знают год основания Москвы, а дети Москвы год основания Рязани
лучше, чем их сверстники из других регионов. Такое задание лучше
разделить на два разных.
И еще один недостаток данного задания — в том случае, если дист-
ракторы предусматривают цифровую информацию ответы лучше
упорядочить, при этом не очень существенно, в каком порядке.
4. При составлении вопросов следует особенно внимательно
использовать слова «иногда», «часто», «всегда», «все», «никогда».
Они с одной стороны сами по себе содержат неопределенность
и могут пониматься субъективно, что может приводить к
ошибочным ответам, а с другой стороны дают возможность учащимся
догадаться о правильном ответе. Использование таких выражений в
вариантах ответа делает его очень легким, чего следует избегать.
5. Вопрос должен быть четко сформулирован, избегая слова
большой, небольшой, малый, много, мало, меньше, больше и т.д.
6. Избегайте вводных фраз или предложений, имеющих мало
связи с основной мыслью, не следует прибегать к пространным
утверждениям, так как они приводят к правильному ответу, даже если
учащийся его не знает.
Глава 5 123
Предоставляйте только очень важную информацию, стараясь
избегать материала, требующего дальнейших уточнений, а также
детализированных или излишних описаний ситуаций или случаев;
Вопрос. В.А. Соллогуб вспоминал: « Часто приходит мне на ум
Нева, дремлющая в огненных отливах солнечного заката. Еще чаще
вижу ее сизо-серую как сталь... И с ужасом вспоминаю я, как
однажды река перестала быть рекою и обратилась в море бушующее,
разъяренное, смывающее Петербург с лица земли». Когда это
произошло, в каком году?
Варианты ответа:
A. 1715 г.
B. 7 ноября 1824 г.
C. 1703 г.
В данном примере существует несколько недостатков.
Задание содержит лишние детали, представлено в слишком длинном
виде, при этом из него совершенно очевидно, что речь идет о
наводнении. Второе — неудачна формулировка вопроса к заданию,
которая содержит в себе по сути два вопроса. Задание содержит в
себе две подсказки: первая заключается в наличии среди
вариантов ответа 1703 года — года основания Санкт-Петербурга. Вторая
подсказка, и это более существенно, заключена в подобранных
вариантах ответа, когда один из них приводится с датой, а
остальные нет. Недостатками данного варианта ответов является и
значительный разброс в датах. Попытки переформулировать
данное задание не могут иметь успеха, поскольку не понятен
замысел автора. Можно рассматривать данное задание как
выясняющее знание времени самого страшного наводнения, однако само
по себе такое знание не представляется существенным. Это
задание может проиллюстрировать и следующее правило.
7. Неправильные ответы должны быть разумны, умело подобраны,
не должно быть явных неточностей, подсказок.
Следующие два примера отражают не случайные ошибки, а,
скорее, заблуждения. Недостаток таких заданий заключается в том, что в
ответе на них во многих случаях может быть получена подсказка.
Вопрос: Служебными частями речи являются ...
Варианты ответа:
А. Предлоги, союзы, частицы
B. Частицы, союзы, местоимения
С. Местоимения, частицы, предлоги
Все три варианта ответа содержат слово союзы, смысл его
включения в варианты совершенно не понятен. Преимущества заданий альтер-
124
Проблемы составления тестовых заданий
нативных ответов, созданное на том же материале, значительно
предпочтительнее — оно более понятно, легче для выполнения:
Задание.
Инструкция. Обведи ответ «да» или «нет». (Если ты согласен с
утверждением — обведи кружком «да» в клеточке таблицы ответов, а
если не согласен — обведи «нет»).
Вопрос: Служебными частями речи являются ...
Варианты ответа:
— предлоги
— союзы
— частицы
— местоимения
Да
да
да
Да
нет
нет
нет
нет
Следующий пример также не очень удачен по форме. Зная одну
из стран экспортеров, задание оказывается выполненным. Кроме
этого, ученик может действовать и методом исключения, зная, что
какая-то из стран не является экспортером. Для этого задания, так
же как и для предыдущего, наиболее подходящей будет форма
заданий альтернативных ответов.
Вопрос: Укажите тройку стран — лидеров по добыче железной
РУДЫ.
Варианты ответа:
A. Австралия, Гвинея, Суринам
Б. США, Франция, Германия
B. Китай, Австралия, Бразилия
Г. Бразилия, Украина Индия
Правильный ответ В.
8. Не следует задавать вопросы с подвохом (скорее всего, в
заблуждение будут введены наиболее способные или осведомленные
учащиеся, которые знают достаточно для того, чтобы попасться в ловушку,
а также это противоречит цели — определение уровня знаний и
понимания).
Вопрос. Имя числительное — самостоятельная часть речи,
которая обозначает...
Варианты ответа:
— число
— количество предметов
— порядок предметов при счете
— отвечает на вопросы сколько? Который?
Правильный ответ: да — да — да — да.
Да
Да
Да
да
нет
нет
нет
нет
Глава 5
125
Задание предусматривает только положительные ответы, что в
данном случае является подвохом.
Кроме этого, четвертый вариант ответа не согласован с самим
заданием, что может проиллюстрировать следующее правило.
9. Все варианты ответов должны быть грамматически согласованы с
основной частью задания; в любом случае следует использовать короткие,
простые предложения, без зависимых или независимых оборотов.
10. Как можно реже использовать отрицание в основной части; с
одной стороны, использование отрицания приводит к противоречиям
при чтении задания, с другой, отрицательные знания не так видны, как
позитивные.
Избегайте двойных отрицаний, таких как: «Почему нельзя не
делать.. ?», «Почему будет неправильно не отвечать на этот вопрос?» и
так далее. Подчеркните отрицание в самом вопросе, чтобы иметь
полную уверенность в том, что оно будет заметно.
Отрицания имеют тенденцию усложнять сообщение, особенно
двойные отрицания, которые аннулируют друг друга. Но простые
отрицания также могут усложнить вопрос. Прежде всего
экзаменуемые могут просто не заметить их. Для решения этой проблемы
необходимо выделять их, используя курсив, жирный шрифт или
подчеркивание. Отрицание часто вводится тогда, когда утвердительный
вопрос вызывает слишком много правильных ответов.
Вопрос. Жили ли или нет эти люди в реальности в Древней
Греции?
Варианты ответа:
— Гомер
— Ахилл
— Зевс
— Перикл
— Фидий
— Аристотель
— Сократ
В этом примере просто не понятно, к чему относится да или
нет. Гораздо лучший вариант вопроса: перечисленные люди реально
жили в Древней Греции ...
11. Ответ на поставленный вопрос не должен зависеть от
предыдущих ответов.
да
да
да
да
да
да
да
нет
нет
нет
нет
нет
нет
нет
1
2
3
4
5
Ответ
126 Проблемы составления тестовых заданий
Зависимость от предыдущего вопроса может быть рассмотрена в
двух аспектах: когда предыдущее задание содержит подсказку для
следующего. Такой пример представляет собой следующая пара заданий.
Инструкция. Расположи в правильной последовательности. (В
столбце ответов проставь соответствующие буквы).
Вопрос. Расставьте в хронологическом порядке следующие
события:
Варианты ответа:
A. Правление аристократии
B. Восстание демоса против знати
C. Выборы Солона архонтом
D. Законы Драконта
E. Реформы Солона
Инструкция. Обведи кружком букву, соответствующую
правильному ответу.
Вопрос. Солон был избран
Варианты ответа:
A. Стратегом
B. Архонтом
C. Судьей
Поправить такие задания совсем не сложно — это возможность
перефразировки варианта ответа, который содержит подсказку, удаление
варианта этого ответа, или удаление второго задания. При этом следует
обратить внимание и на то, что подсказка все равно останется, даже если
два эти задания не будут следовать друг за другом.
Второй пример иллюстрирует другой вариант зависимости,
когда, не зная ответа на первый вопрос, невозможно дать ответ на
следующий вопрос.
Инструкция. Впиши пропущенное слово (впиши ответ в
отведенное место). Одному пропуску соответствует только одно слово.
Вопрос. Самый крупный по количеству видов тип животных
называется ....
Правильный ответ. Членистоногими.
Инструкция. Обведи кружком букву, соответствующую
правильному ответу.
Вопрос. Наружный покров типа животных, предыдущего
вопроса образован...
Варианты ответа:
А. Рогоподобным веществом
Глава 5 127
B. Минеральными солями
C. Известью и красящими веществами
D. Органическим веществом— хитином
Основным недостатком таких заданий является невозможность
сделать корректный вывод для второго задания — знает ответ на него
учащийся или нет. Он не справился с ним, потому что не мог
ответить на первый вопрос или потому что не знаком с веществом,
образующим наружный покров членистоногих.
Кроме этого второй вопрос по отношению к первому является
явной подсказкой.
В данном случае исправить задание достаточно просто, заметив
местоимение на название. Однако во многих случаях, аналогичных
приведенному примеру, требуется серьезная переработка заданий.
12. Правильные и неправильные ответы должны быть однозначны
по содержанию, структуре и общему количеству слов; Применяйте
правдоподобные ошибочные варианты, взятые из опыта.
Очевидно, что правильный ответ должен быть совершенным. С
другой стороны, он не должен сильно отличаться от других
отвлекающих вариантов по длине или стилю. Часто допускается ошибка при
написании вопросов — это то, что правильный ответ обычно очень
тщательно сформулирован и длиннее, чем другие варианты, так чтобы было
легко вычленить его даже тому, кто не владеет предметом.
Вы сможете указать правильный ответ в следующем примере
без понимания предмета.
Задание.
Вопрос. «Рекомендуемая розничная цена» это ...
Варианты ответа:
A. Самая высокая цена, на которую должен ориентироваться
продавец в розничной продаже
B. Цена, указанная в рекламе
C. Цена, установленная законом
13. Если ставится вопрос количественного характера, то ответы к
нему должны располагаться упорядочение от меньшего к большему или
наоборот; в том случае, если дистракторы представлены в виде слов,
текста, располагайте их в алфавитном порядке.
Экзаменуемые часто думают, что существует определенная система
в расположении правильного ответа по вопросам, так чтобы количество
правильных ответов «А» приравнивалось к «В» и тогда «А» не будет
правильным ответом в двух последующих подпунктах. Но это будет
способствовать догадке. Поэтому располагайте варианты ответа в соответствии
128 Проблемы составления тестовых заданий
с системой, которая независима от расположения правильных ответов,
т.е. в алфавитном или цифровом порядке.
14. Лучше не использовать варианты ответов «ни один из
перечисленных» и «все перечисленные».
Применение первого целесообразно, когда существует
недвусмысленный правильный ответ. Второй приводит к допустимости
подбора вариантов ответов с низкой дискриминативностью,
поскольку разработчик знает, что все ответы правильные. B.C. Аване-
сов обосновывает ограничения на такого типа варианты ответов
через закон исключения третьего: «Закон исключенного третьего,
впервые сформулированный Аристотелем. Выбор правильного
ответа дает истинное суждение, а выбор неправильного — ложное
суждение. Третьего не дано. Из этого закона следует методическое
правило: в каждом задании с выбором одного правильного ответа
последний должен быть, что придает однозначность замыслу самого
задания и не допускает противоречивых толкований у испытуемых.
Следование закону исключенного третьего налагает логический запрет
на применение таких ответов, как «правильного ответа нет», «все
ответы правильные» или «все ответы неправильные», которые в
практике все еще встречаются. В настоящей работе этот запрет
соблюдается».
15. Убедитесь, что различия между вариантами ответов точны.
Чем больше варианты ответа походят друг на друга, тем труднее
распознать правильный ответ и тем лучше тестируется умение
понимать, например, прочитанный текст. Но когда различия не очень четки,
то может случиться так, что тестируемый, зная правильный ответ,
выберет дистрактор, как это показано в следующем примере.
Вопрос. В ФРГ проживают:
Варианты ответа:
A. Почти 80 миллионов человек
B. Почти 81 миллион человек
C. Около 80 миллионов человек
В данном случае фактически два правильных ответа. Первый и
третий варианты представляют собой одно и то же, второй вариант
практически невозможен.
16. Избегайте повторения.
В некоторых случаях, как в следующем примере, все варианты
ответа начинаются с тех же самых слов. Это может озадачить тестируемого,
и его внимание будет отвлечено от определения различия между вариан-
Глава 5 129
тами. Кроме этого, лишние повторения — это еще и дополнительные
затраты для разработчиков и пользователей тестами.
Вопрос. Какое суждение верно?
Варианты ответа:
A. Неполные предложения — это предложения, в которых
пропущен один из главных членов.
B. Неполные предложения — это предложения, в которых
пропущен один из второстепенных членов.
C. Неполные предложения — это предложения, в которых
пропущен какой-либо член предложения — главный или
второстепенный.
Чтобы этого избежать, общее начало всех 3-х альтернатив
обычно переносят к вопросу, как в данном ниже примере:
Задание.
Инструкция. Обведи кружком букву, соответствующую
правильному ответу.
Вопрос. Неполное предложение — это предложение, в котором
пропущен ...
Варианты ответа:
A. Один из главных членов
B. Один из второстепенных членов
C. Какой-либо член предложения — главный или
второстепенный.
17. Используйте ограничения в самом вопросе.
Мы уже отмечали то, что для ряда вопросов необходимо
использовать ограничения для того, чтобы снять неопределенность,
которая в них содержится.
Пример 34.
Вопрос. Значение числа я составляет....
Ответ. 3,14...
В данном случае не определено то, с какой точностью должен
быть указан ответ. Вопрос можно переформулировать. Значение
числа я составляет (ответ укажите с точностью до двух знаков после
запятой)...
18. Не упрощайте вопросы.
Еще один возможный источник ошибок связан с желанием
автора упростить понятия, перевести их на более понятный «детский»
язык. Связано это с желанием разнообразить задания, сделать их
менее утомительными. Приведем пример.
130 Проблемы составления тестовых заданий
Пример 35.
Вопрос. Если твой сосед по парте пытается занять своими
вещами не только свою половину парты, но и залезть на твою, то это
называется...
Правильный ответ. Экспансия.
Сами по себе такие задания достаточно привлекательны.
Однако их создание требует довольно значительных дополнительных
затрат. Такие задания могут применяться только после жесткой
проверки на валидность. Она должна заключаться в составлении
заданий, сформулированных нормальным и сформулированных таким
«детским» языком, и только в том случае, если результаты апробации
этих заданий будут коррелировать друг с другом, такие задания могут
быть использованы.
19. Место правильного ответа должно быть определено таким
образом, чтобы оно не повторялось от вопроса к вопросу, не было
закономерностей, а давалось в случайном порядке.
20. Лучше использовать длинный вопрос и короткий ответ. В
противоположной ситуации на прочтение ответов уходит больше
времени и больше сил тратится на анализ высказываний.
21. Проанализируйте задания с точки зрения возможности
неверного ответа наиболее подготовленных учеников.
Составляя задания для тестов школьных достижений, необходимо
помнить об одной особенности их содержания, которая
непосредственно связана с правильными ответами. Дело в том, что предметное
преподавание, которое в настоящее время является основным для нашей
системы образования, основано на адаптации основ наук для детей того или
иного возраста. То есть на определенном этапе сведения, которые
содержат учебники и которые преподаются, не являются истинными, или,
что бывает чаще, не совсем истинными. То есть, с целью облегчения
восприятия, придания логики изложения и с целью решения иных
дидактических задач научные данные огрубляются. Например, начиная
изучения химии, мы сообщаем учащимся, что какие-то вещества друг с
другом не реагируют, и только потом, выясняется, что при
определенных условиях эти вещества все-таки реагируют друг с другом. На уроках
русского языка дети учат, что не с глаголами пишется раздельно, и
только в последствии сообщается о случаях, когда не с глаголами может
писаться слитно. Таким образом, мы всегда можем попасть в ситуацию,
когда правильный ответ с точки зрения учебного материала, может
оказаться неправильным с научных позиций.
Глава 5 131
С педагогической точки зрения в этом нет ничего страшного,
пройдет некоторое время, дети вернутся к изучению этой темы, и им
будут открыты новые сведения или они получат дополнение своих
знаний новыми теориями, которые и объяснят те явления, которые
были изучены неполно. Однако для составителей тестовых заданий
здесь кроется немалая опасность, особенно в том случае, если эти
задания предназначены для итоговой аттестации учащихся.
Возможно, что ученик обладает этими дополнительными сведениями, он
знает необходимые факты и теории. В этом случае правильный ответ
разработчика тестов, который соответствует изучаемому материалу,
может быть этим учеником истолкован как неверный. То есть более
глубокое знание может оказаться в роли незнания. Для
предотвращения таких случаев необходимо быть крайне внимательным,
причем чем меньше возраст учеников, тем возникновение подобных
случаем вероятнее.
22. Национальные системы ряда стран ставят специфические
требования к тестовым заданиям, на которые у нас пока обращается
недостаточно внимания. В качестве примера приведем требование инструкции
по составлению тестов, предоставленной NEAB (Northen Examinationes
and Assesment Board): «Необходимо избегать вопросов, которые в каком-
либо виде дают превосходство тестируемому определенного пола.
Половой ориентации вопроса необходимо избегать в любом случае. Нельзя
считать, что формулировка вопроса в мужском роде подразумевает
легкость ответа в женском роде. Использование формулы «он/она» также
нежелательно, при формулировании вопросов. Лучше пользоваться
неродовыми формулировками, типа «учащиеся», «школьники», а не
«школьница», «учащийся». Лучше обращаться к группе, а не к
отдельному учащемуся. Необходимо избегать и половых стереотипов, типа:
«Доктор — очень уважаемая профессия, он ...». Следует предлагать
нейтральную формулировку: «Врачи — люди уважаемой профессии, они ...»
...Необходимо избегать в вопросе любой возможности его культурного
толкования. Вопрос должен легко восприниматься человеком любого
культурного слоя».
Правила, специфичные для заданий дополнения
23. Использовать не более трех пропусков подряд, лучше 1—2.
Правило достаточно естественное, поскольку слишком большое
количество пропусков увеличивает вероятность неоднозначности
ответа. Можно посмотреть первый пример в этом разделе.
132 Проблемы составления тестовых заданий
24. Дополнять нужно наиболее важное, то, знание чего нужно
проверить.
Достаточно распространенная ошибка в книгах «Тесты по...».
Вероятность ее появления повышается в том случае, когда создаются
задания для нескольких вариантов в тестах. Из одного предложения
для одного варианта в качестве дополняемого выбирают одно слово,
для другого другое. При этом дидактическая значимость слов редко
оказывается равноценной.
25. Дополнения лучше ставить в конце предложения.
Это требование заимствовано у психологов. Действительно
дополнять слово в конце предложения легче, однако это скорее не
правило, а пожелание.
5.4. Проблема угадывания правильного ответа
Один из доводов критиков тестирования заключается в том, что
для большинства заданий существует вероятность случайного
угадывания правильных ответов. В общем случае это проблема только заданий
закрытого типа, и чем меньше возможных альтернатив предлагается
испытуемому в рамках одного задания, тем больше вероятность
угадывания. Эта проблема остро стоит для заданий альтернативных ответов,
используемых одиночно (в разделе, посвященным этим заданиям, мы
уже обращали на это внимание), где вероятность угадывания
максимальна и составляет 50%. Однако мы настоятельно не рекомендуем
использовать такие задания для тестов школьных достижений. Серия из
пяти заданий альтернативных ответов дает вероятность угадывания
0,0313, а из десяти заданий всего лишь 0,00098.
Проблема угадывания связана еще и с вопросом времени,
выделяемого на тестирование и, в меньшей степени, с вопросом мотивации.
Чем выше мотивация, тем больше вероятность того, что испытуемый
попытается дать ответ случайно на те вопросы, на которые он не
успевает ответить, то есть попытается угадать. В свою очередь количество
вопросов, по которым возможно будет проведено угадывание, зависит от
времени, выделяемого на тестирование. Чем оно короче, тем больше
будет вопросов, на которые распространится случайное угадывание.
Таким образом, для времени, выделяемого на тестирование, должен быть
найден баланс: при малом времени возрастает вероятность угадывания,
при большом времени возрастает вероятность подсказок и других
нарушений дисциплины.
Каким образом можно бороться с проблемой угадывания?
Первый и, вероятно, самый эффективный метод, который
лежит в рамках фундаментального требования к тестам — поставить
Глава 5 133
всех испытуемых в равные условия — заключается в борьбе с
угадыванием методом угадывания. В разделе, посвященном истории
тестирования, мы упоминали этот изящный способ, предложенный
А.С. Отисом.
Предположим, что два ученика не справились с какой-то
частью теста. Первый из них заполнил оставшиеся задания и получил
за них какое-то (реально очень небольшое) количество баллов.
Второй не стал этого делать и дополнительных баллов не получил. В том
случае, если бы он, так же как и первый ученик заполнил
оставшиеся варианты ответов случайным образом, он также получил бы
дополнительное количество баллов. В этом случае оба ученика
получают дополнительное количество баллов, которое не может повлиять
на относительную оценку каждого из этих учеников.
В таком случае следует, как советует П. Клайн:
«1. Ввести требование угадывать ответы. Одним из возможных
решений является потребовать от испытуемых в инструкциях
угадывать ответы. Это легко сделать, снабдив инструкцию подобным
пояснением: «Не пропускайте ответы на вопросы. Если вы не знаете
ответа или не уверены в его правильности, попытайтесь угадать
правильное решение.
2. В том случае, если учеником заполнены не все ответы в тесте,
перед подсчетом показателей по тесту ответьте на все пропущенные
испытуемыми вопросы произвольным образом. Это будет
эквивалентно случайному угадыванию».
Этот прием в большей степени подходит для нормативно-
ориентированных тестов, для тестов, ориентированных на критерий,
он может иметь негативные последствия.
Во-первых, в том случае, если нам необходим анализ
материала, который усвоен или не усвоен учащимися, то основы для такого
анализа будут искажены случайным угадыванием. В таком случае
надо очень осторожно относиться к анализу тех вопросов, которые
расположены в конце теста.
Но даже и для нормативно-ориентированных тестов существует
негативное последствие, которое заключается в том, что ученик
плохо успевающий, который не приступил к выполнению значительной
части заданий, за счет случайного угадывания получит большее
приращение своего общего балла, нежели хорошо успевающий ученик,
который приступил к выполнению большей части заданий. Да, это
так и это может показаться несправедливым, однако при этом
хорошо успевающий ученик получит все-таки значительно больший балл
за счет правильных ответов, которые в любом случае будут выше,
нежели случайно угаданные.
134 Проблемы составления тестовых заданий
Существует формула коррекции угадывания.
Общая формула коррекции на угадывание:
где Хсогг. - показатель, скорректированный на угадывание;
X — количество правильных ответов, W — количество неправильных
ответов; п — количество вариантов выбора в заданиях.
Предположим, что у нас есть тест, в котором 50 заданий.
Первый ученик справился с 30, а второй с 40 заданиями. Все задания
имели по 3 варианта выбора. В этом случае для первого ученика:
Для второго:
Таким образом, результат первого ученика уменьшился на 10
баллов, а второго, который выполнил большее количество заданий, только
на 5 баллов. Если до корректировки разйица между учениками была в 10
баллов, то после корректировки она возросла до 15. Таким образом, эта
формула позволяет увеличить дискриминативность теста.
Просчитаем результаты первого ученика, в том случае, если
количество альтернатив в заданиях не три, а пять. В этом случае:
То есть с увеличением количества вариантов ответов в заданиях
скорректированный балл стремится к не скорректированному,
отражая тем самым понижение вероятности угадывания с увеличением
числа альтернатив.
Следует отметить четыре момента, касающиеся этой формулы.
1. В том случае, если ученики выполнили равное количество
заданий, количество правильных ответов у первого ученика больше,
чем у второго, то использование формулы коррекции на угадывание
все равно даст первому больший балл, вне зависимости от того,
какое количество баллов он набрал в результате угадывания. Таким
образом, формула дает результат только в случае, когда ученики
выполняли разное количество заданий.
2. Для использования этой формулы необходимо иметь
однородный тест с равным количеством альтернатив во всех заданиях,
что на практике у тестов школьных достижений бывает крайне ред-
Глава 5 135
ко. Поскольку мы стремимся использовать разнообразные формы
заданий, в том числе и задания открытого типа, в которых
угадывание невозможно.
3. Считается, что неправильные ответы получены только в
результате угадывания. Это не так. Поскольку наряду с угаданными
ответами достаточно много тех вариантов ответов, где учащиеся
отразили неверные знания, сделали случайные ошибки.
4. Предполагается, что при угадывании каждый вариант ответа
может быть выбран с одинаковой вероятностью. Испытуемый может
правильно отбросить все варианты, кроме двух. Проявив, таким
образом, частично свое знание предмета, а затем случайным образом
выбрать уже из двух альтернатив.
Из сказанного ясно, что формула коррекции на угадывание, в
случае оптимального времени на выполнение теста и требований к
угадыванию ответа не может повлиять на результаты ученика
относительно его места в группе.
Заканчивая разговор о тестовых заданиях, хотелось бы обратить
внимание читателей на помещенную в приложении инструкция по
разработке тестовых заданий NEAB Northen Examinationes and
Assesment Board — влиятельной фирмы Великобритании,
занимающейся уже более века вопросами теории и практики создания тестов
для аттестации учащихся с комментариями и пояснениями.
5.5. Роль и значение невербальных материалов в тестировании
Кроме рассмотренной нами классификации тестовых задач по
типам и видам, можно выделить еще и различные формы задач.
Рассматриваемые нами до сих пор задания носили в основном
вербальный характер. Однако существует множество способов
представления заданий в невербальной форме или же в вербально-
невербальной. Причем в таких формах могут быть представлены не
только сами задания, но и варианты ответов. Вариативность форм
представления заданий является в первую очередь мощным
средством сделать задания разнообразными, значительно менее
утомительными и даже интересными для испытуемых, особенно младшего
возраста.
Вторая цель разнообразного представления заданий
заключается в возможности тестирования некоторых специальных умений,
например, умения работать с картой, понимать и читать схемы и
графики и пр.
Вопрос или задание могут быть сформулированы в виде фразы,
текста, рисунка, схемы, цифры, символа, графика и пр.
136
Проблемы составления тестовых заданий
Как и в предыдущих разделах приведем несколько примеров, на
которых поясним применение разных вариантов представления
заданий и вариантов ответов.
Пример 36. Приведем пример, когда задание сформулировано в
виде отрывка текста, в данном случае стихотворного:
Вопрос: В какой пьесе поют этот романс?
Не искушай меня без нужды
Возвратом нежности твоей
Разочарованному чужды
Все обольщенья прежних дней...
Варианты ответа:
а) «Гроза»
б) «Вишневый сад»
в) «Бесприданница»
г) «Волки и овцы»
Пример 37. Задание представлено в виде схемы.
Инструкция. Соотнеси написанное в столбцах 1 и 2. (Запиши в
таблицу ответов цифры из столбца 2, которые соответствуют
утверждениям из первого списка).
Вопрос. Соотнеси отделы головного мозга рыбы с указаниями
рисунка:
Варианты ответа:
Столбец 1
A. Продолговатый мозг
B. Промежуточный мозг
C. Передний мозг
D. средний мозг
E. Мозжечок
А
В
С
D
Е
Ответ
Столбец 2
1.
2.
3.
4.
5.
Варианты ответа:
Глава 5
137
A. 1
B. 2
C. 3
Пример 38. Задание представлено в виде графика.
Инструкция. Впиши ответ в отведенное место.
Вопрос. Укажи числа, которые являются корнями функции:
Пример 39. Задание представлено в виде рисунка.
Самолет, выполняя фигуры высшего пилотажа описывает
«мертвую петлю». Каково направление вектора скорости в точке А
траектории?
1
а)1
6)2
в)3
г) 4
д)5
Пример 40. Задание представлено в виде таблицы:
Ученик проводил опыты с магнитом и разными предметами. В
результате он составил такую таблицу:
Название вещества
железный гвоздь
деревянная зубочистка
Притягивает
X
Не притягивает
X
138 Проблемы составления тестовых заданий
Название вещества
стеклянный шарик
стальная ложка
монета из серебра
медная проволока
Притягивает
X
Не притягивает
X
X
X
Выбери наиболее правильное объяснение, которое ученик мог
сделать из полученных в таблице данных:
а) магнит одни металлы притягивает, а другие не притягивает;
б) магнит притягивает все металлические предметы и не
притягивает неметаллические;
в) магнит притягивает некоторые стеклянные предметы;
г) магнит притягивает дерево.
Кроме заданий, в различном виде могут быть представлены и
варианты ответов. Большой трудности их использование не
представляет, поскольку правила их отбора и составления совпадают с
общими правилами составления заданий.
Пример 41. Задание представлено в виде карикатуры (рисунка).
Выберите ответ, раскрывающий основную идею карикатуры.
В чем основная идея этой карикатуры ?
A. В демократической стране различие мнений должно быть
уничтожено.
B. В демократической стране различие мнений иногда
затрудняет управление.
C. В демократической стране голосование по всем важнейшим
вопросам должно проводиться секретно.
Д. В демократической стране люди из групп меньшинства
чувствуют себя притесненными большинством.
Е. В демократической стране въезд большого числа
иммигрантов может вызвать экономический упадок.
Глава 5
139
Пример 42.
Какой буквой обозначена часть топографической карты,
отображающей местность на рисунке?
Варианты ответов представлены в виде схемы.
Инструкция. Обведи кружком букву, соответствующую
правильному ответу.
Вопрос. Как нужно соединить три одинаковых сопротивления,
чтобы общее сопротивление было наименьшим?
Представленные примеры, за исключением первых двух,
состоят из заданий, в которые включены различные невербальные
материалы. В данных примерах эти материалы несут основную
смысловую нагрузку задания.
Для целого ряда предметов использование невербальных
материалов чрезвычайно высоко. Это связано с тем, что часть
содержания образования представляет собой невербальные материалы. Для
истории и географии это карты, для биологии - таблицы и схемы,
для физики - графики и таблицы. Использование этих материалов в
140 Проблемы составления тестовых заданий
соответствующих тестах должно быть обязательным. В том случае,
если эти материалы не используются, есть значительная опасность
деформации содержания образования. Представим себе, что в
качестве итоговой аттестации учащихся по географии не используются
карты. Это приведет к тому, что педагоги начнут сокращать объем
материала по изучению карт, время, выделяемое на выработку
умения учеников работать с картой. Необходимо отметить, что наличие
такой обратной связи в ряде стран является ограничением на
использование тестов в практике образовательной деятельности —
составители тестов могут оказывать существенное влияние на
содержание образования.
Анализ тестов, которые создаются и используются в нашей
стране, говорит о том, что использование невербальных материалов
очень ограничено. Причина такого положения достаточно ясна.
Использование в тестах невербальных материалов значительно
удорожает процедуру создания тестов, поскольку требует привлечения к
работе ряда дополнительных специалистов (художник,
компьютерный график и т.д.).
Создателям тестов необходимо усвоить, что в том случае, если
мы не будем использовать такие материалы, мы провоцируем в
конечном итоге негативное отношение к качеству тестов и к
тестированию как способу аттестации учащихся.
Однако достаточно часто в тестах школьных достижений
используют рисунки, таблицы и т.д., которые не нагружены
содержанием задания. Значение их тем не менее достаточно велико.
Во-первых, применение этих материалов делает тестирование
менее утомительным, более разнообразным, снижает количество
случайных ошибок. Во-вторых, рисунки служат дополнительным
мотивом при выполнении тестирования вызывая интерес к заданию,
особенно для детей младшего школьного возраста. В третьих, эти
рисунки дают возможность рандомизировать различный уровень
развития абстрактного мышления у школьников начальных классов.
Наличие вербальной и невербальной форм задания одновременно
снимает эту разницу в развитии, которая у детей этого возраста
довольно велика.
Приведем два примера из международного тестирования, когда
наличие рисунков не объясняется содержанием задачи.
Пример 43.
Имеется три коробки с пуговицами: в первой 25, во второй 200,
а в третьей 700 пуговиц. В каждой коробке с пуговицами имеется по
одной синей пуговице. Надо, не заглядывая в коробку, вынуть одну
Глава 5
141
пуговицу. Из какой коробки надо вынимать пуговицу, чтобы
возможность вынуть синюю пуговицу была наибольшей.
25 пуговиц
200 пуговиц
700 пуговиц
а) из коробки с 25 пуговицами
б) из коробки с 200 пуговицами
в) из коробки с 700 пуговицами
г) из любой из этих коробок
Пример 44.
Собака привязана к середине стены гаража длиной 10 метров.
Длина веревки 5 метров. Чему равна площадь участка, который она
может контролировать.
а) 25 кв. метров
б) 15 кв. метров
в) 25 кв. метров
г) 12 кв. метров
В данном случае, все содержание заданий сосредоточено в
тексте, однако составители тем не менее использовали здесь рисунки,
несмотря на удорожание разработки. Как оказывается, цель такого
использования невербальных материалов - сделать тестирование
более разнообразным, менее утомительным и, таким образом,
сделать возможность для работы над тестом более продолжительной и
как следствие включить в тест большее количество заданий.
142
Проблемы составления тестовых заданий
Достаточно подробно вопрос о целесообразности включения
невербальных материалов и их влияние на тестирование мы обсудим
в разделе, посвященном фактору времени в тестировании.
Приведем еще два примера заданий, уже из собственной практики,
когда невербальная поддержка не вызвана содержанием задания:
Пример 45.
Инструкция. Обведи кружком
букву, соответствующую правильному
ответу.
Вопрос. Кто автор памятника
Пушкину на площади Искусств?
Варианты ответа:
A. Аникушин
B. Орловский
C. Козловский
D. Трубецкой
E. Опекушин
Пример 46.
Инструкция. Соотнеси написанное в столбцах 1 и 2. (Запиши в
таблицу ответов цифры из столбца 2, которые соответствуют
утверждениям из первого списка).
Вопрос. Признаками групп моллюсков являются то, что:
Варианты ответа:
А
В
С
Ответ
Столбец 1
A. Брюхоногие
B. Двустворчатые
C. Головоногие
Столбец 2
1. Они раздельнополые
2. Их личинки паразитируют на теле рыб
3. У них дыхание легочное
4. Их раковина замыкается мускулами
5. У них есть язык-терка (радула)
6. Их глаза располагаются на концах или у
основания щупалец
7. Они обладают реактивным способом
движения
8. Они в основном хищники
Если проанализировать использование невербальной
поддержки в зарубежных тестах, то можно сделать один вывод: использова-
Глава 5
143
ние невербальных материалов максимально, особенно в начальной
школе. Анализируя зарубежные тестовые материалы, явно
выявляется тенденция последних лет — снабжать такими материалами все
тестовые задания, и не только тестовые задания, но и описания тестов,
предназначенные для учащихся и педагогов. Приведем два примера
из каталога тестов (Шотландия).
Язык. Чтение. Информация
Возможный контекст
Описание
Оснащение
Каменный замок
Замок, война, дома, здания
В отрывке текста содержится 290 слов о
средневековых замках. 4 варианта заданий:
1 .Найти информацию в отрывке; 2.
Организовать информацию в этом отрывке; 3.
Привести смысл трудных слов; 4.
Воспроизвести информацию в форме рисунка
Карандаш, ручка, резинка, линейка
Математика, Раздел без использования калькулятора
Возможный
контекст
Наша Солнечная система и путешествие на
Луну
Земля - одна из 9 планет, вращающаяся
вокруг Солнца. Многое о Солнечной системе
можно узнать в обсерватории у астрономов
и выяснить из специальных исследований.
Обе страны - Россия и Америка - имеют
программы изучения Луны. Первое
посещение Луны состоялось 20 июля 1969 года.
Обсуждаются различные варианты вида
Луны.
144 Проблемы составления тестовых заданий
Описание
Умения
учащихся
Оснащение
Рабочие слова: причина, следствие
Показать график прямой линии, показать
построение части диаграммы,
интерпретировать таблицу, интерпретировать дату.
Сложить, вычесть, делить без калькулятора.
Округлить число до 1 знака.
Найти последовательности.
Поработать со средними значениями.
Совершить преобразования.
Решить уравнение.
Рассчитать, используя логарифмическую
линейку.
Используя данные, построить диаграмму.
Начертить треугольник, когда даны две
стороны и угол.
Построить четырехугольник. Рассчитать
расстояние между сторонами.
Построить симметрию
Карандаш, ручка, резинка, логарифмическая
линейка, транспортир
Глава 6 145
Глава 6
Работа с заданиями после составления
6.1. Работа с заданиями после составления
После того как задачи будут подготовлены, следует проверить
их объективность и корректность формулировки. Задачу или вопрос
можно считать объективными или корректно сформулированными,
если мнения ряда экспертов о назначении задачи, вопроса, о
правильности формулировки и пригодности вариантов ответов
совпадают между собой. Вопрос о количестве экспертов, которых
необходимо привлекать для работы над тестами, колеблется у разных
авторов от 3 до 8. Однако количество необходимых экспертов зависит от
двух обстоятельств: целей создаваемого теста и качества экспертов.
6.2. Экспертиза тестовых заданий
Экспертиза тестовых заданий является обязательным условием
для создания тестов вне зависимости от уровня их применения. Даже
оценка заданий одним экспертом дает гарантии отсутствия целого
ряда недостатков.
Для тестов достижений локального применения достаточно и од-
ного-двух экспертов; для тестов, применение которых планируется в
широких масштабах, количество экспертов должно быть не менее 3—5.
Кто может и должен быть экспертом тестовых заданий?
В качестве экспертов тестовых заданий могут быть рассмотрены
три категории педагогических работников: управленцы, учителя и
методисты.
Управленцы не подходят в качестве кандидатуры для эксперта. Это
достаточно редкий случай, когда человек, ответственный за экзамен,
способен сформулировать экзаменационный вопрос правильно или
дать квалифицированное экспертное заключение. Практика
подтверждает, что изменения в экзаменационных заданиях, сделанные
представителями управленческих структур в последние минуты, приводят
только к ошибкам и недоразумениям. Во избежание этого лучше всего
провести четкую грань между управленцами и теми, кто их исполняет, т.е.
кто действительно готовит задания, проводит экспертизу и использует
тесты. Задачей руководителей является четкое постановка задачи,
определение того, какого типа экзамен необходим. С этой целью они могут
утвердить программу, для которой предполагается создавать тест, а так-
j 45 Работа с заданиями после составления
же категорию детей и ресурсное обеспечение, и сроки разработки. Затем
администраторы назначают основных исполнителей, которые в свою
очередь обязаны назначать специалистов — предметников и экспертов.
Из двух оставшихся категорий экспертизу в разной степени
качества могут проводить как педагоги, так и методисты.
При этом учителей лучше привлекать для разработки тестовых
заданий, поскольку они могут лучше определить уровень трудности,
они знают из опыта возможные варианты ответов экзаменуемых.
Лучше всего в качестве экспертов тестовых заданий
использовать методистов. Методисты могут лучше проанализировать
соответствие заданий программам обучения. Кроме возникающих время от
времени личностных недоразумений проблем работы с методистами
не возникает.
При любом варианте — методист или учитель, в силу отсутствия
исторической практики создания тестовых заданий необходимы
достаточно подробные инструкции, а если позволяют ресурсы, то и
специальное обучение экспертов.
Самым простым вариантом экспертизы может быть такой,
когда экспертам предлагается по трех- или пятибалльной шкале
оценить задачи с точки зрения:
S соответствия целям тестирования (отвечает — частично отвечает
— не отвечает),
S однозначности формулировки (однозначна — не совсем
однозначна — неоднозначна),
S пригодности вариантов ответов (подходят — частично подходят — не
подходят).
Если хотя бы один из каждых трех экспертов оценивает
задачу как частично соответствующую тесту, ее исключают. Если
процент такой оценки ниже, то задача пересматривается и
корректируется.
Более качественным вариантом содержательной экспертизы
тестовых заданий является вариант, проводимый по следующей инструкции.
Для ее проведения экспертам предоставляются тестовые задания,
составленные на бланке, образец которого мы приводим.
При экспертизе тестовых заданий методистом по предмету
оцениваются следующие составляющие задания:
Таблица 15
Составляющие тестового
задания
1. Соответствие возрасту
(программам) обучения
2. Соответствие задания
заявленной теме
Способ отметки на
бланке позитивной оценки
Ставится знак + слева от
названия предмета
Ставится знак + слева от
названия темы
Способ отметки на бланке
негативной оценки
Задание перечеркивается
(задание изымается)
Задание перечеркивается
(задание изымается)
Глава 6
147
Составляющие тестового
задания
3. Время на выполнение задания
4. Сложность задания
(предполагаемое количество
детей в %, которые могут
справиться с заданием)
5. Правильность решения
(правильность ответа)
6. Оценка приемлемости
вариантов ответов
7. Оценка предлагаемого
варианта невербальной поддержки
Способ отметки на
бланке позитивной оценки
Ставится знак + слева от
времени на бланке
Ставится знак + слева от
сложности
Ставится знак + слева от
правильного ответа
Ставится знак + слева от
вариантов ответа
Ставится знак + слева от
варианта невербальной
поддержки
Способ отметки на бланке
негативной оценки
Слева приписывается время,
необходимое для выполнения
заданий, по мнению эксперта
Слева приписывается сложность,
по мнению эксперта
По усмотрению эксперта задание
изымается или надписывается
правильный ответ
Эксперт дописывает предложения
по исправлению варианта
Замечания экспертов делаются на
обратной стороне бланка
После этого эксперт должен в левом нижнем углу поставить
свою подпись. Место для замечаний эксперта — обратная сторона
бланка, внизу.
Кроме содержательной экспертизы тестовых заданий,
необходима и тестологическая экспертиза, в которой должны проверяться
соответствие содержания задания и формы, правильность
пространственного и логического расположения элементов заданий и другие
элементы задания, которые не относятся к содержанию предмета. К
сожалению, найти эксперта для выполнения этой работы
представляется чрезвычайно сложным. Учитывая это обстоятельство, для
практических целей можно использовать этап занесения заданий на
магнитный носитель (набора) как форму их стандартизации и
экспертизы. Для этого необходимо подготовить шаблоны заданий на
каждую форму и сформулировать требования к каждой форме
заданий, в которых будут представлены стандартные требования к их
оформлению. После этого, действуя в рамках шаблонов и
ориентируясь на требования задания, подготовленные педагогами, можно
перевести задания в стандартные, приемлемые формы. В данном
случае речь можно вести в меньшей степени о экспертизе, а в
большей о методике стандартизации, но тем не менее это способ дает
неплохие практические результаты, позволяя получить достаточно
однородные и качественные, с тестологической точки, зрения
тестовые задания.
Западные тестологи предлагают использовать для экспертизы
тестовых заданий скрининг, понимая под скринингом (в русском
языке это слово имеет несколько иное значение) систематическую
проверку всех аспектов вопроса. Но поскольку эти аспекты могут
143 Работа с заданиями после составления
касаться как содержательной, так и технической стороны вопроса,
образовательной, а также требовать хорошего знания предмета, то
рекомендуется привлекать различных людей к отбору вопросов. При
этом они отмечают, что создатели вопросов, при определенных
условиях, могут вообще отказаться от процедуры скрининга. Но в этом
есть огромный риск, что недостатки и просчеты окажутся
очевидными только во время самого экзамена и не будет возможности его
переработки.
Оценка заданий в рамках скрининга проводится по 6 разделам.
Экспертам выдается специальный оценочный лист, основное
содержание которого приведено ниже (названия терминов приведены
в соответствии с имеющимся переводом):
1. Уместность
1.1. Ясно ли из вопроса, какой предмет, навык или умение
тестируется?
1.2. Можно ли ответить на вопрос, применяя другой навык, в
отличие от того, который требуется?
1.3. Есть ли в вопросе какая-либо ловушка или головоломка,
т.е. представляет ли он собой несущественную проблему? То есть
смогут ли просто «очень опытные в тестах» экзаменуемые ответить
правильно на вопрос?
1.4. Имеет ли вопрос достаточную степень трудности для
предназначенного типа школы?
1.5. Не увеличивается ли степень трудности вопроса лишней
информацией (т.е. балластом)? Соответствует ли тип вопроса цели
теста?
1.6. Приемлема ли степень трудности теста в целом для данного
типа школы?
1.7. Отвечает ли тест в целом целям, установленным для
тестовой программы?
2. Применение языка
2.1. Сформулирован ли вопрос в соответствии с
грамматическими правилами?
2.2. Содержит ли вопрос усложненный синтаксис?
2.3. Содержит ли вопрос двойное отрицание? Содержит ли
вопрос ненужные трудные слова?
2.4. Содержит ли вопрос ненужные предложения в скобках?
Есть ли необходимость формулировать вопрос негативно? Не может
ли изложение вопроса привести к затруднению понимания?
2.5. Есть ли опасность в значительном искажении смысла из-за
сдвига ударения?
Глава 6 149
3. Информация
3.1. Содержит ли вопрос достаточно информации для
правильного ответа?
3.2. Достаточно ли информации в вопросе для получения ответа
требуемой длины и формы?
3.3. Отчетливо ли изложены вопросы и их подпункты? Ясно ли
и последовательно ли представлен цифровой порядок вопросов?
3.4. Соблюдаются ли действующие условности при
использовании символов, пунктуации и т.д.?
3.5. Проверены ли таблицы и т.д. на наличие ошибок?
Правильны ли сноски в вопросах к текстам, чертежам, таблицам и т.д.?
4. Вопрос и ответ
4.1. Прочтите и ответьте на вопрос без прочитывания
альтернативных вариантов.
4.2. Соответствует ли Ваш ответ ключу, данному к вопросу?
4.3. Есть ли ваш правильный ответ среди вариантов ответа?
4.4. Нет ли более одного правильного ответа среди вариантов?
4.5. Есть ли другие правильные ответы, помимо тех, которые
даны среди альтернатив?
5. Варианты ответа (для закрытых заданий)
5.1. Вероятна ли каждая из альтернатив?
5.2. Свободен ли ключ от повторения, взятого из вопроса?
5.3. Нет ли наличия таких определяющих, как «всегда» или
«никогда»?
5.4. Свободно ли сочетание вопроса и альтернативных ответов
от двойного отрицания?
5.5. Нет ли взаимно исключающих себя вариантов?
5.6. Являются ли варианты ответа приблизительно одной длины?
5.7. Являются ли варианты ответа грамматически и
схематически приемлемыми продолжениями вопроса?
5.8. Может ли быть понят вариант ответа без чтения других
вариантов?
5.9. Размещены ли варианты ответа в алфавитной или
логической последовательности?
5.10. Достаточно ли различны имеющиеся варианты ответа ?
6. Применение контекста
6.1. Является ли функциональным использование рисунков,
диаграмм и т.д.?
6.2. Ясны ли рисунки, диаграммы, чертежи и т.д.?
6.3. Аккуратны ли чертежи?
150 Работа с заданиями после составления
6.4. Все ли надписи (пояснения) к рисункам и т.д. являются
четкими, соответствующими и ясными?
6.5. Не содержит ли добавленный текст лишнюю информацию?
6.3. Апробация тестовых заданий
После проведения экспертизы тестовых заданий, их доработки, с
учетом результатов экспертизы можно перейти к следующему этапу
разработки теста - апробации тестовых заданий (другие названия: пробное
тестирование, предварительное тестирование, претестирование,
испытание, эмпирическая проверка, специальная апробация). Однако
прежде чем это сделать, необходимо упорядочить задания. Это довольно
несложная операция, выполнение которой, в случае наличия достаточного
количества сведений, не представляет особой трудности. Часть
требований, касающаяся взаимного расположения заданий, была переведена
нами в разделе, где описывались требования к тестовым заданиям. Тем
не менее при предварительном объединении заданий следует сделать
следующее:
1. Проверьте содержание и формулировку задач во взаимосвязи
друг с другом.
2. Располагайте задания в порядке возрастания предполагаемой
трудности. Это предотвратит случаи, когда слишком старательный
испытуемый тратит все свое время (или слишком много времени) на
задания, которые он не может решить и, таким образом, лишает себя
возможности попытаться выполнить другие, по которым он мог бы
получить баллы, а в результате все формы анализа заданий будут
неточными. При апробации теста бывает полезно включить в
инструкцию пункт о том, что если испытуемому не удается справиться с
заданием, его необходимо пропустить, а после окончания работы над
всем тестом вернуться к вызвавшему трудность заданию, если у
испытуемого останется время.
3. Не комплектуйте вместе такое количество заданий, что
среднему испытуемому для их выполнения потребуется более получаса —
для детей начальной школы; для старшеклассников — более часа.
Примерно столько длится период сосредоточения у детей. Более
подробно этот вопрос мы обсуждали в разделе, посвященном
проблемам времени при тестировании.
4. В.К. Гайда и А.П. Захаров рекомендуют: для того чтобы
убедиться, сколько времени требуется на выполнение заданий теста,
дайте указание испытуемым отмечать, какое задание теста они
выполняют в различные моменты времени в процессе тестирования.
Наш собственный опыт апробации тестов говорит о нерационально-
Глава 6 151
сти этого пути: испытуемые отвлекаются или забывают отметить
задание. Возможно, этот способ хорош при работе со взрослыми. При
работе с детьми наиболее рационально, оказалось, поручить эту
работу испытателю, который может одновременно фиксировать время
выполнения заданий у 5—6 испытуемых, отмечая его на специальном
бланке.
5. Проверьте выполнение требований к пространственному и
шрифтовому оформлению тестовых заданий.
6. Важные части инструкции должны быть подчеркнуты или
выделены особым шрифтом. В случае необходимости сделайте
бланки ответов.
7. Подготовьте инструкции для учащихся, инструкции для
ведущих, инструкции по апробации тестовых заданий. Размножьте
тестовые тетради и необходимое оснащение.
Может ли тест содержать задания одного типа и вида?
В пользу того, что задания в тесте должны быть максимально
разнообразными, можно привести три существенных довода.
1. Задания разного типа делают тестирование более
разнообразным, с точки зрения испытуемых. Более разнообразная
деятельность позволяет отодвинуть порог наступления утомления и, как
следствие, позволяет больше времени выделить на тестирование, а
имея больший запас времени мы имеем возможность поместить в
тест большее количество заданий и, как следствие, получить более
надежный инструмент.
2. Имея тест, состоящий из заданий одного вида, мы всегда
имеем реальную опасность получить в качестве составляющей
итогового балла умение учеников работать с этой формой заданий. Те,
кто быстрее приспособятся к ней, те, для кого эта форма окажется
наиболее удобной, получат преимущества. Этого можно избежать,
используя задания различного вида.
3. Как мы уже видели, для разных элементов содержания
образования подходят разные по форме задания. Для сложных определений,
проверки понимания фактического материала задания альтернативных
ответов, для знаний временных или пространственных явлений -
задания на восстановление последовательности и т.д. Поэтому пытаясь
свести все многообразие учебного материала к одной форме, мы заведомо
делаем тест, в котором содержание не соответствует форме. И, как
следствие, он будет менее качественным.
j 52 Работа с заданиями после составления
Исходя из этих соображений, в тесты следует включать задания
разного типа и вида. Конечно, нет необходимости включать в тест
равное количество заданий разного вида.
При этом необходимо учитывать и еще обстоятельство — цели
тестирования, для локальных целей существование тестов в которых
будут задания только одного вида, представляется вполне реальным.
Еще одно очень важное замечание. По результатам апробации
часть заданий будет отбракована. Исходя из этого, для апробации,
следует взять некоторый запас заданий. Рекомендации по этому
вопросу достаточно разноречивы — от 20 да 100 процентов от
планируемого количества заданий. Из опыта создания тестов школьных
достижений можно сказать, что важно не только общее количество
заданий, а сохранение их баланса согласно технологической
матрице. Возможен случай, когда приходится отбраковать 3—4 задания,
однако эти задания относятся к одной группе технологической
матрицы. В результате возникают серьезные трудности в создании теста.
Представляется целесообразным взять для апробации по 1—2
дополнительных заданий, от планируемого для каждой группы заданий в
соответствии с технологической матрицей.
Можно считать, что для проведения апробации все готово, за
исключением одного — необходимо выбрать контингент, на котором
будет испытан тест. Правила построения выборки мы подробно
обсудим в следующей главе.
С какими целями проводится апробация тестовых заданий
и насколько она необходима?
Целей апробации тестовых заданий (напомним, что в данном
случае речь идет об апробации тестовых заданий, а не теста целиком)
может быть несколько:
1. Определение трудности заданий с целью оценки его годности
для учащихся.
2. Определение тех заданий, в которых есть существенные
недостатки.
3. Выявление случайных ошибок (опечаток, недостатков
орфографии и пунктуации и т.д.).
4. Определение времени, необходимого на решения задания
или всего теста целиком.
5. Анализа ответов на открытые вопросы с целью возможного
угочнения формулировки правильных ответов или оценочной схемы.
6. Выявление недостатков в инструкциях.
Глава 6 153
В литературе по вопросу о целях апробации можно найти
существенные различия. В инструкции CITO можно прочитать, что:
«Предварительное тестирование является необходимым шагом для
обнаружения недостатков в вопросах и чтобы определить, подходит
ли уровень трудности вопросов экзаменуемым». B.C. Аванесов
говорит о том, что «ключевым моментом является эмпирическая
проверка тестовых свойств и применение статистических методов
обработки данных. Определение статистических характеристик является
главным (после экспертной проверки содержания) средством
диагностики тестовых свойств заданий».
Хочется обратить внимание на приведенный перечень,
поскольку именно перечисленные в нем задачи решаются при
апробации тестовых заданий. Статистические расчеты проводятся с целью
выявления заданий, в которых есть недостатки, а не являются
самоцелью процедуры апробации.
154 Глава 7
Глава 7
Показатели качества тестовых заданий
7.1. Проверка трудности задач. Определение места задачи в тесте
Важным шагом в конструировании теста является проверка
трудности предложенных задач.
После того как определен состав выборки (определению
состава выборки посвящен отдельный раздел), испытуемым предлагается
решить составленные задачи.
Трудность задачи является важнейшей характеристикой,
определяющей место задачи в тесте. В общем виде трудность может быть
субъективной и статистической.
Субъективная трудность задачи связана с индивидуально-
психологическим барьером. В психологии величина этого барьера
определяется различными факторами, основными из них являются:
1. Условия решения задачи (временем, отведенным на решение,
понятностью инструкции и т.п.).
2. Уровень формирования необходимых для решения знаний,
умений и навыков.
3. Состоянием испытуемого и т.д.
Для снижения влияния перечисленных факторов при
тестировании определяется стандартная форма процедуры проведения.
В большинстве случаев для тестов достижений достаточно
учитывать только правильность решения задач и меньше внимания
уделять способу решения, характеру затруднений, энергетическим
затратам испытуемого. В связи с этим определяется и используется
статистическая трудность задач.
Статистическая трудность определяется долями выборки
решивших и не решивших задачу испытуемых.
Некоторые авторы разделяют понятия трудности и сложности
задания, понимая под сложностью количество действий или
интеллектуальных операций, которые необходимо выполнить для решения
задания. Для составления тестовых заданий использовать такое понятие
сложности практически невозможно, что объясняется низкой
информативностью этого понятия — задание может требовать нескольких
действий, но каждое из них настолько элементарно, что учащиеся без труда
справятся с ним, а может быть задание в одно действие, но очень
трудное, только малый процент учащихся с ним справляется. Сама по себе
информация о количестве действий в задании может быть и интересна,
однако ни на одном этапе составления теста она не существенна.
Показатели качества тестовых заданий 155
Самым простым вариантом, представляющим трудность
задания в цифровой форме, является количество учащихся,
справившихся с заданием. Например, при апробации теста на выборке в 200
человек с первым заданием справились 50, а со вторым 150 человек, то
вполне естественно говорить о том, что первое задание более
трудное, чем второе. Однако такая форма представления имеет два
существенных недостатка. Нам. всегда придется указывать количество
испытуемых, участвовавших в апробации. Данная форма
представления неудобна для сравнения заданий, которые апробировались на
разных по объему выборках. Лучшей формой является доля
учащихся справившихся с заданием. Для нашего примера:
я, 50
для первого задания: Р ,= — - = =0,25 или 25%,
N 200
п7 150
для второго задания: Р = —- = = 0,75 или 75%,
N 200
где Р, и Р2 — трудность первого и второго заданий, п, и п2 —
число испытуемых правильно справившихся с первым и вторым
заданиями, N — общее число испытуемых, принимавших участие в
апробации.
Этим вариантом представления трудности задания можно
пользоваться в реальной практике, однако и у него есть один недостаток.
Увеличение значения этого показателя указывает не на увеличение
трудности, а наоборот не ее уменьшение, то есть для нашего
примера: задание с трудностью 75% мерее трудное, чем задание в 25%.
Поэтому было предложено использовать для обозначения трудности
обратную величину, то есть долю тех, кто с заданием не справился.
Этот показатель получил название индекса трудности, который
может быть найден как величина, обратная трудности:
Для нашего примера:
£/ = 100-Р =100-25=75%
U = 100- Р2= 100-75=25%
или с использованием формулы:
(7 = 100(1-—),
N
где U — индекс трудности в процентах.
Для нашего примера:
цх =100(1-— ) = 100(1-0,25) = 75%,
U. =100(1-— ) = 100(1-0,75) = 25%
156 Глава 7
Для определения индекса трудности в случае заданий
множественного выбора, некоторые авторы рекомендуют использовать
формулу, в которой введена поправка на угадывание:
£/ = 100(1 ^=i),
/V
где Nп— число испытуемых, не решивших задачу, m — число
вариантов ответа.
Применение этой формулы для второго задания,
рассматриваемого нами примера, дает в случае заданий с тремя выборами
значение индекса трудности в 38%, а в случае задания с шестью выборами
дает значение в 30%. Для первого примера 112% и 90%
соответственно. Содержательный смысл трудности заданий более 100 процентов,
конечно затруднен.
Эту формулу целесообразно использовать только тогда, когда
мри апробации теста в полученных результатах оказалось много
заданий, к которым значительная часть детей не приступила.
Общие проблемы формул на коррекцию угадывания мы
обсуждали ранее, их достоинства и недостатки присущи и рассмотренной
нами формуле.
Вычисления трудности заданий в любом случае достаточно
просты, поскольку они отражают ту долю испытуемых, которые
справились (или не справились) с тестовым заданием.
Например, если задачу решили только 20% участников
тестирования, то ее можно оценить как трудную для данной выборки, если
80% — как легкую. При этом значимым является только факт
выполнения или не выполнения задания.
Статистическая трудность позволяет определить место задачи в
тесте. Так, если задачу решает большинство испытуемых, то ее, как
легкую, помещают в начале; в том случае, когда с задачей
справляется незначительный процент испытуемых, то ее, как трудную,
помещают в конце теста. Итогом распределения задач по степени их
трудности должна стать «лестница» усложняющихся задач, каждая
ступень которой представлена процентом испытуемых, решивших
соответствующую задачу.
Подчеркнем, что в тестах достижений трудность задач лучше
всего определять в условиях «мягкого» лимита времени или совсем
без его ограничения. Фиксируется успешность и время решения.
Аванесов предлагает задания с трудностью более 80 и менее 20
вообще не считать тестовыми. Однако согласится с таким подходом
невозможно.
Показатели качества тестовых заданий 157
Во-первых, потому что значения 80 и 20 являются достаточно
условными. Вполне подходящими могут оказаться и задания с
трудностью в 18 и в 85.
Во-вторых, что самое главное, логика отбраковки этих заданий
заключается в простом утверждении: задания, с которыми
справляются все или не справляется никто, не информативны, поскольку за
первые из них все испытуемые получают по 1 баллу, а за вторые
никто не получает баллов, поэтому эти задания играют роль балласта.
Однако это верно только для случая, когда основной целью
тестирования является оценивание учеников, то есть преимущественно для
нормативно-ориентированных тестов.
Для нормативно-ориентированных тестов, в том случае, если
трудность задания меньше 20 и больше 80, такое задание необходимо
переработать или отбраковать.
Однако в том случае, если ставится задача анализа материала,
выяснение вопроса о том, насколько ученики овладели материалом,
то задания, с которыми справляются все или не справляется никто
становятся очень информативными. Для нас важно знать, что этот
материал освоили все ученики, а этот не освоен никем, и эти задания
уже не представляются балластом. Таким образом, для
критериально-ориентированных тестов, как мы отмечали, статистическая
трудность заданий не столь существенна. Н. Гронлунд отмечает: «В
случае, когда целью тестирования является определение того, какие из
учебных задач студент может решить, а не распределение студентов
по результатам обучения, диапазон тестовых баллов не является
значительным. В этом случае степень сложности вопроса определяется,
исходя из сложности учебной задачи, степень освоения которой
тестируется, и не делается попытка манипулирования степенью
сложности вопроса с целью получения широкого разброса оценочных
баллов».
7.2. Педагогический смысл и значение трудности тестовых заданий
1. Трудность задачи является относительной характеристикой,
поскольку зависит от особенностей выборки и может меняться от выборки
к выборке. Так, для выборки первоклассников задача «Сколько будет
7x8» является трудной, для старшеклассников - легкой. Поэтому
указание уровня трудности задачи без указания контингента лиц, для
которого эта трудность установлена, не имеет смысла.
2. Основным назначением трудности заданий, является
определение заданий, которые не подходят для использования по
причинам излишней простоты или сложности, и определение места зада-
158 Глава 7
ния в тесте. Вопрос о включении или не включении заданий в тест
по причинам неподобающей трудности должен решаться не
автоматически, а с учетом и других обстоятельств, таких как цели
тестирования, содержательная важность задания, возможность переработки
задания в более простое или более сложное.
3. Инструкция CITO содержит следующую рекомендацию: «В
общем, когда экзамен сдает очень большая группа кандидатов из
различных школ, то их способности очень различаются. В таком
случае, Вы должны быть уверены, что вопросы достаточно сложны
для экзаменуемых с разными способностями». В нашей практике
речь может идти не о способностях, а скорее об уровне подготовки.
Он может отличаться очень сильно.
При создании автором эти строк тестов для вступительных
экзаменов в 10 классы, тесты были апробированы для учеников
общеобразовательных школ и гимназий. Учитывая то, что требования к
выпускникам 9-го класса должны быть едины, была предпринята
попытка использовать эти тесты для вступительных экзаменов в
учреждения начального профессионального образования. Оказалось,
что для части этих учреждений тесты оказались слишком сложными:
ученики справлялись только с 4—6 заданиями и их оценки, таким
образом, становились практически одинаковыми то есть цель
тестирования — отбор учащихся не была достигнута. Из этого примера
можно извлечь два вывода — 1) апробация должна захватывать все
категории лиц, которые могут принять участие в тестировании,
уровень, количество простых и сложных задач в тесте должны
соответствовать возможному разбросу в подготовленности того контингента
испытуемых, для которого тест предназначен; 2) тесты должны
использоваться только для той категории лиц, для которой они
создавались.
4. Трудность задания может зависеть не только от
содержания учебного материала, которым наполнено задание, но и от
выбранной формы задания, его формулировки — такие примеры
мы приводили в разделе, посвященном составлению тестовых
заданий. Кроме этого трудность задания может зависеть и от
формы представления самого материала, варианта выбранной
невербальной поддержки.
Например:
Дано число учащихся в шести сельских школах:
в первой — 50, во второй — 70, в третьей — 60, в четвертой — 30, в
пятой — 50,в шестой — 110.
Показатели качества тестовых заданий
159
На сколько меньше учеников в школе с наименьшим числом
учащихся, чем в школе с наибольшим числом учащихся?
а) 10
6)50
в) 400
г) 550
Количество учащихся в сельских школах может быть
представлено в виде таблицы:
Школы
1
2
3
4
5
6
Количество учеников
50
70
60
30
50
ПО
В виде графика:
Кол-во
учащихся
Диаграммы:
Кол-во
учащихся
150
1001
50
S?7f*$K*fi
*
/
^вяс^^п
j^^H^BT'l
160 Глава 7
Карты:
Диаграммы с масштабом, то же можно проделать и с таблицей и
графиком.
Кол-во
учащ ихся
МО
12 3 4 5 6
Очевидно, что разные формы представления данных в этой
задаче повлияют на трудность ее выполнения.
Таким образом, представляя информацию для задания в разных
видах, при этом не изменяя форму задания — в нашем случае это
задание закрытого типа, ни содержание задания — в данном случае это
сравнение больших и меньших чисел и нахождение разности между
большим и меньшим. Изменяя лишь форму представления данных,
мы можем существенно изменить задание, усложнить или упростить
его. В данном случае представлением данных мы имеем возможность
тестирования иных качеств подготовки учеников, которые не были
заложены ни в форме самого задания, ни в его содержании.
5. Трудность является фундаментальным свойством не только
задания, но и теста целиком. Он может состоять из простых заданий или
из сложных. Поэтому нет никакого педагогического смысла в словах о
том, что ученик справился с 80 процентами заданий в тесте или он
выполнил только 5 заданий из 40, до tpy пор, пока не становится ясным
12г
10
8
6
4
2
0
:Г**ОД&^Н
~—.
>
Si
Показатели качества тестовых заданий 161
сложность тех заданий, из которых составлен данный тест. Можно
составлять тесты все проще и проще, при этом говорить о повышении
успеваемости учащихся, поскольку растет количество заданий, с
которыми они справляются, и соответствующие оценки. Более подробно
проблемы учета трудности заданий и вопросы перевода тестовых баллов в
школьные и стандартные оценки мы рассмотрим в главе, посвященной
нормированию тестов.
К сожалению, некоторые авторы тестов недооценивают
важность учета трудности тестовых заданий и ее роль при составлении
тестов. Поэтому появляются такие рекомендации: «Учитель должен
учитывать то обстоятельство, что задания расположены не по
степени возрастания сложности (т. е., например, задание 3 может быть
сложнее, чем задание 5), сделано это умышленно, чтобы учащиеся
решали не только легкие задачи, но и пытались решать более
сложные. Но учитель, просмотрев задания отдельного теста, может сам
варьировать число и сложность заданий».
Совершенно непонятно, какой логикой руководствуется автор
этих слов, почему, для того, чтобы ученик работал со сложными
заданиями их нужно поставить перед простыми? Автор явно пытается
переложить ответственность за определение трудности заданий на
пользователя, то есть на учителя. С таким неблаговидным приемом
составителей «тестов» мы еще столкнемся.
7.3. Определение дискриминативности (дифференцирующей
способности)заданий
Попытаемся пояснить понятие дискриминативности на
примере. Представим себе, что мы провели тестирование группы
учащихся. В составе этой группы были отличники, хорошисты и двоечники.
Логично предположить, что отличники должны справиться с тестом
лучше, чем двоечники. Но выясняется, что с одним из заданий и
двоечники, и отличники справились одинаково успешно или
неуспешно. В чем может быть причина такого нелогичного явления?
Оказывается, что это бывает только в том случае, когда задание
обладает существенными недостатками. Типичными недостатками
низкодискриминативных задач являются:
1. Излишняя сложность, запутанность формулировки.
2. Неоднозначность условия.
3. Очевидность решения.
4. Зависимость результата от памяти или от других
индивидуальных особенностей испытуемого, а не от уровня развития тех уме-
162 Глава 7
ний и навыков, для оценки которых разрабатывается тест (кроме
заданий, где необходима именно работа памяти).
5. Абсурдность, нереальность вариантов ответов.
6. Появление двух и более правильных ответов, не оговоренное
в условии.
Действительно, в том случае, если задания обладают
перечисленными недостатками, вероятность того, что с ними одинаково справятся
(или не справятся) как отличники, так и двоечники довольно высока.
Таким образом, определение дискриминативности необходимо для того,
чтобы поставить заслон некачественным заданиям.
Дискриминативность задач определяется, как способность
отделять испытуемых с высоким общим баллом по тесту от тех, кто
получил низкий балл, или испытуемых с высокой продуктивностью
учебной деятельности от испытуемых с низкой продуктивностью.
Иногда, когда говорят о дискриминативности, говорят о
внешнем критерии, по отношению к которому она определяется. Для
тестов школьных достижений набор этих критериев достаточно
ограничен. Во-первых, это школьные оценки. Мы можем ранжировать
учащихся по их школьным оценкам. И таким образом выделить
группы наиболее и наименее успешных. Однако этот способ может
использоваться только в том случае, когда оценки берутся и
усредняются по достаточно большому количеству предметов. Школьная
оценка имеет несколько составляющих, кроме собственно знаний
учащихся она несет в себе мотивационную составляющую, на нее
влияют отношения, сложившиеся между учеником и учителем,
способности ребенка к предмету, личностные особенности и уровень
требовательности педагога, и другие составляющие. Взяв оценки
учеников только по одному предмету, обучающихся у разных
преподавателей, мы, возможно, получим не совсем корректные оценки
для вычисления дискриминативности, то есть в группу
предполагаемо наиболее успешных детей могут попасть дети более послушные и
дисциплинированные, у которых лучше отношения с учителем и т.д.
Однако с учетом сделанных нами замечаний, школьная оценка
может являться критерием для определения дискриминативности.
Второй, возможный критерий носит субъективный характер —
это экспертные оценки педагогов.
Чаще всего используется метод средневзвешенной оценки. В
соответствии с этим методом каждый испытуемый оценивается
по заранее установленной шкале несколькими экспертами. При
этом оценки, данные одним экспертам, не известны другим.
Затем оценки разных экспертов одного объекта усредняются. Такая
Показатели качества тестовых заданий 163
усредненная оценка является более надежной, чем полученная
другими способами.
Если выборка испытуемых меньше 30 человек, можно
использовать метод ранжирования. Группе экспертов предлагается
распределить (упорядочить) всех членов выборки в соответствии с
заданным признаком. Усредненное ранговое место, может служить
критерием для определения валидности теста.
Если же в тестировании участвует более 30 человек, то для
применения метода ранжирования можно распределить обследуемых на
подгруппы из 10-15 человек по случайному признаку и упорядочить
каждую группу. Дальнейшая обработка производится так же, как и в
предыдущем случае.
Для повышения качества экспертного оценивания и при
низкой квалификации экспертов используется метод парного
сравнения. Работа экспертов состоит в попарной расстановке объектов по
признакам сильнее/слабее, лучше/хуже и т.п. При этом каждый
объект сравнивается с каждым по выбранному признаку. Этот способ
более пригоден для малых групп оцениваемых объектов, так как уже
для 30 объектов число сравниваемых одним экспертом пар
составляет 435, что предъявляет особые требования к работоспособности
экспертов и является недостаточно экономичным.
Автор для выделения критерия для тестов школьных
достижений для учеников 10-го класса использовал метод парных
сравнений, когда в качестве экспертов выступали педагоги, работающие с
детьми данного класса. Им предлагалось оценить детей по четырем
показателям: 1 — знания по предмету, 2 — школьные специальные
навыки, 3 — психические познавательные процессы, 4 — уровень
социализации.
При этом применялась шкала:
0 — качество выражено слабее,
1 — качество выражено в равной степени,
2 — качество выражено сильнее.
Был сконструирован бланк для оценок. Каждый эксперт
заполнял по 4 бланка.
1. Кострова
2.Уварова
З.Кочкарева
4. Егорова
• • •
1
0
1
1
2
2
2
0
3
1
0
0
4
1
2
2
• • *
Сумма
4
2
5
1
164 Глава 7
После заполнения просчитывалась сумма баллов и испытуемые
ранжировались. После проведения тестирования просчитывался
коэффициент ранговой корреляции, по которому и определялась ва-
лидность теста.
Попутно необходимо заметить, что учителя оказались слабо-
дискриминативными экспертами. Корреляция их оценок по первым
трем качествам оказалась чрезвычайно высокой — от 0,79 до 0,92, что
в свою очередь позволило при дальнейшей работе использовать
только одну оценку учителей.
Однако чаще всего при определении дискриминативности в
качестве критерия используются результаты выполнения всего теста.
Вычисление дискриминативности
Самый простой и наглядный способ вычисления
дискриминативности — вычисление с применением метода крайних групп, т.е.
при расчете учитываются результаты учащихся наиболее и наименее
успешно справившихся со всем тестом.
Как правило, берут от 10 до 30% (чаще 27%, исходя из
статистических соображений) лучших и худших по результатам выполнения
всего теста.
Индекс дискриминации задания вычисляется как разность
долей испытуемых из высокопродуктивной и низкопродуктивной
групп, правильно решивших ее.
N N
верх низ
N — количество учащихся в группе лучших, верно
выполнивших данное задание,
N, , — количество учащихся в группе худших, верно
выполнивших данное задание,
N — общее количество испытуемых в группе лучших,
NmM— общее количество испытуемых в группе худших.
Пример. Пусть апробация тестовых заданий проводилась на
группе в 200 учащихся. Для определения дискриминативности мы
должны ранжировать их по оценке выполнения всего теста. После
этого отобрать (27%) группу лучших учеников в количестве 54
человек и группу худших в том же количестве.
После этого нам необходимо найти, как справились с заданием
ученики, отобранные в лучшую группу и ученики, отобранные в
худшую группу. Предположим, что с первым заданием у нас
справились 50 учеников из первой группы и 25 учеников из второй. А со
вторым заданием 30 учеников первой группы и 25 учеников второй.
Тогда для первого задания:
Показатели качества тестовых заданий 165
D| =^-^5=0,93-0,46=0,47
Для второго задания:
D=30_25=0 60 0
54 54
Индекс дискриминации может изменяться в пределах от +1
(когда с заданием справились все учащиеся лучшей группы и ни
один ученик из худшей группы) до -1 (когда складывается обратная
ситуация — в лучшей группе никто не справился, а в худшей
справились все).
Задания с отрицательным значением индекса дискриминации
или со значением, близким к нулю, не могут быть признаны
удовлетворительными, и в них следует искать существенные ошибки.
Такие задания или переделываются или отбраковываются из теста.
Показатель индекса дискриминации больший 0,3, следует признать
удовлетворительным.
В.К. Гайда и В.П. Захаров предлагают вычислять коэффициент
дискриминации следующим образом. Любой ответ испытуемого,
решающего задачу, можно представить в двухбалльной шкале —
«правильно» (1 балл), «неправильно» (0 баллов). Сумма баллов по
всем задачам теста у испытуемого представляет собой первичную
оценку его успешности в тесте.
Мера соответствия между успешностью решения одной задачи и
всего теста по выборке испытуемых является показателем пригодности
задачи для теста. Этот показатель и является коэффициентом
дискриминации задачи и вычисляется по следующей формуле:
где х — среднее арифметическое значение всех индивидуальных
оценок по тесту, х п — среднее арифметическое значение оценок по
тесту у тех испытуемых, которые правильно решили задачу, дх —
среднеквадратическое отклонение индивидуальных оценок по тесту
для выборки, п — число испытуемых, правильно решивших задачу,
Nd - общее число испытуемых.
Эта формула рекомендуется для расчета коэффициента
дискриминации лишь в тех случаях, когда все испытуемые дали хоть
какие-то ответы на все задачи теста.
Коэффициент дискриминации задачи может принимать
значение от — 1 до + 1. Высокий и значимый положительный коэффици-
166 Глава 7
ент является показателем того, что задача хорошо разделяет
испытуемых с высокими и низкими оценками по тесту. Высокий,
значимый отрицательный коэффициент свидетельствует о непригодности
задачи для теста. Если значение коэффициента близко к 0, то задачи
должны рассматриваться как некорректно сформулированные.
Существуют и другие способы определения дискриминативно-
сти заданий. Все они основаны на нахождении различных
коэффициентов корреляции.
Для определения коэффициента корреляции необходимо
наличие двух рядов цифр. Один из них представляет собой результаты
выполнения испытуемыми данного задания, а другой результаты
выполнения всего теста, или показатели успеваемости, полученные
на основе школьного балла или экспертных оценок.
Любой коэффициент корреляции показывает нам, есть ли связь
между этими рядами, есть ли между ними зависимость, насколько
вероятно то, что лучшие в первом списке будет лучшими и во втором
и т.д. Они могут отличаться величиной и значением критического
уровня. Общее правило, когда коэффициент корреляции изменяется
от —1 до +1, положительные значения говорят о позитивной связи,
чем больше в первом ряду, тем больше и во втором, отрицательные
значения говорят о наличии обратной связи, а значения, близкие к
О, об отсутствии связи.
Наиболее часто используются коэффициенты корреляции —
точечно-бисериальный (в двух модификациях — когда корреляция
находится между результатами выполнения задания и результатами
выполнения всего теста, и в случае, когда определяется корреляция
между заданием и всеми остальными заданиями (за исключением
данного). Естественно, что первый показатель будет выше,
поскольку он содержит корреляцию задания самого с собой. Могут быть
использованы коэффициент корреляции Пирсона или его
модификации, четырехпольный коэффициент корреляции, вычисление дис-
криминативности по формуле Фергюсона. Вероятно, нет смысла
подробно рассматривать здесь все эти способы. В случае
необходимости можно обратиться к специальной литературе, список которой
приведен в конце книги.
На самом деле большинство из этих показателей дает примерно
одинаковый результат. Мало того, даже произведя вычисления
наиболее простого показателя — индекса дискриминации, возможно
получение на его основе трудности заданий и точечно-
бисериального коэффициента корреляции, пользуясь специально
созданными для этого таблицами Фэна.
Показатели качества тестовых заданий 167
Для заданий закрытого типа, особенно заданий
множественного выбора, кроме анализа собственно правильных ответов,
представляется чрезвычайно полезным нахождение коэффициентов
корреляции по всем дистракторам. Коэффициенты корреляции по ним
должны быть или отрицательны или близки к нулю, что даст
возможность проведения более полного анализа заданий.
Насколько применение коэффициентов корреляции для определения дис-
криминативности корректно?
Коэффициенты корреляции зависят от выборки. Зависимость
от выборки означает, что эти вопросы дадут более низкие индексы в
предварительном тесте группы, содержащей, как и очень способных,
так и очень слабых по подготовке учащихся, и более высокие в том
случае, когда группа будет однородной. Отсюда вытекает
необходимость подбора для апробации выборочной совокупности с
максимальной репрезентативностью. Вопросам построения выборки
посвящен отдельный раздел.
Значения коэффициентов корреляции зависят и от других
вопросов в предварительном тесте. Это означает, что хороший вопрос с
тем же самым содержанием, как и другие вопросы в
предварительном тесте, дает хорошие значения. А его сочетание с вопросами
другого контекста может дать совсем другие индексы. Надлежащая
реакция на это явление — не придавать большого значения
небольшим различиям в индексах.
Иногда в рамках одного теста возникает необходимость
разработки частей, которые несколько отличаются по содержанию и
требуемым от учащихся действиям. Например, в математике это
решение задач и геометрия, в языке это лексика и грамматика. В таком
случае возникает желание провести анализ заданий, относящихся к
этим подтемам отдельно. В этом случае показатели коэффициентов
корреляции действительно будут более приемлемыми, однако
причина этого будет заключаться только в том, что общее количество
вопросов для анализа стало меньше. Кроме того, анализ отношений
между группами вопросов, направленных на различные части
содержания предмета, таких как решение уравнений и геометрия,
показали, что учащиеся дают достаточно схожие результаты, так что
можно проанализировать их как одну группу.
Еще одно ограничение в использовании коэффициентов
корреляции — это небольшое количество вопросов в тесте. Когда в
предварительном тестировании в целом более 40 вопросов, можно
спокойно сравнить коэффициенты корреляции одного вопроса с
коэффициентами корреляции других вопросов. Даже в том случае, если
используется коэффициент корреляции, независящий от данного во-
168
Глава 7
проса, группа заданий с которыми происходит сравнение, будет
слегка различной. В качестве крайнего случая, рассмотрим пример
из трех вопросов. Корреляция результатов выполнения вопроса 1
происходит с суммой вопросов 2 и 3, для вопроса 2 использует сумму
баллов вопросов 1 и 3, а для вопроса 3 — использует сумму баллов
вопросов 1 и 2. Сравнивать коэффициенты корреляции этих
вопросов нет никакого смысла, поскольку значения второго ряда каждый
раз новые. И, как следствие, невозможно выбрать лучший вопрос.
Как говорит опыт, для проведения корреляционного анализа
минимальное количество вопросов должно быть не менее 20.
Вне зависимости от того, каким корректным способом
производились вычисления дискриминативности, в результате мы
разделим задания на приемлемые и те задания, которые нуждаются в
изменениях.
Как мы уже отмечали, расчеты статистических показателей не
являются самоцелью. Необходимо не столько учитывать индексы и
показатели, сколько искать явные ошибки. Низкие показатели
коэффициентов корреляции могут в некоторых случаях быть вызваны тем, что
вопрос касался темы, полностью отличной от тех, которые встречались в
других вопросах. А также, если вопрос был представлен совсем иначе, в
отличие от других, это тоже даст подозрительную величину.
Задание должно быть отбраковано не потому, что у него низкий
статистический показатель, а потому, что низкий статистический
показатель указывает на наличие в нем недостатков, которые
невозможно или нецелесообразно исправлять.
До недавнего времени автор принадлежал к той группе
специалистов, которые считают, что определение значений
дискриминативности является обязательным для всех тестовых заданий. Однако
сейчас я вижу целый класс тестов, для которых при их разработке
можно ограничиться только экспертным оцениванием и
определением трудности заданий. Определение дискриминативности
обязательно для тестов, которые будут использованы для отбора учащихся,
вступительных экзаменов, итоговой аттестации.
В заключение приведу мнение специалистов CITO:
«Показатели дискриминации должны всегда использоваться с
точным пониманием того, что тестирует вопрос и должен ли он
отличаться от других вопросов. Показатели мало различающихся
вопросов по ответам не должны автоматически вести к исключению этих
вопросов».
B.C. Аванесов, кроме рассмотренных нами двух, вводит
понятие еще двух требований к тестовым заданиям — технологичности и
вариативности баллов: «Под технологичностью можно понимать
такую компоновку заданий, которая позволяет весь процесс
тестирования или его большую часть, вести с помощью технических
средств точно, быстро, экономично и объективно. ...Задания стано-
Показатели качества тестовых заданий 169
вятся технологичными, если их содержание точно и быстро
понимается испытуемыми, а также если форма заданий способствует
компьютеризации тестирования».
Навряд ли можно считать это требование ко всем тестовым
заданиям. Во-первых, речь идет о компоновке заданий, поэтому более
правильно было бы говорить о технологичности теста, а не тестовых
заданий. Во-вторых, это требование касается использования
технических средств и компьютеризации тестирования. Однако далеко не
всегда целесообразно использовать компьютерное тестирование,
например, в большинстве стран при итоговой аттестации учащихся
используются тесты в виде тестовых тетрадей, поскольку у
пользователей должен остаться материальный носитель результатов
выполнения заданий, хотя бы для решения вопросов апелляции.
Второе требование, выделяемое B.C. Аванесовым — это
«вариация баллов. Если на какое-то задание правильно отвечают все
тестируемые, то такое задание становится не тестовым. Испытуемые
отвечали на него одинаково. Не тестовым надо считать и то задание,
на которое нет ни одного правильного ответа; в матрице по нему
ставят, соответственно, одни нули. Вариация по нему также равна
нулю. Нулевая вариация означает практическую необходимость
удаления задания из проектируемого теста».
Кроме нулевой вариации у этих заданий будет еще и
максимальная и минимальная трудность. Случай, когда на задания не
отвечает никто или на задания отвечают все, мы уже обсуждали в
части, посвященной трудности тестовых заданий, при этом мы дали
ясно понять, что есть случаи, когда такие задания полезны. Что
касается остальных случаев, то разброс показателей является скорее
характеристикой выборки испытуемых, ее однородности, нежели
характеристикой тестового задания. Представим себе, что из
выборки для апробации тестовых заданий мы удалили всех двоечников и
всех отличников. В этом случае разброс показателей будет
стремиться к нулю, поскольку учащиеся примерно одинаково отвечают на все
задания. Исходя из этих соображений, представляется невозможным
считать вариацию баллов требованием к тестовым заданиям.
Глава 8
Показатели качества тестов
Требования к тестам как измерительному инструменту
содержат требования к показателям качества тестов и требования к их
оснащению. Такими показателями качества являются надежность и
валидность тестового инструментария.
8.1. Надежность
Надежность теста является одним из критериев качества теста и
показывает, насколько точно измеряет данный тест изучаемое
явление, его «помехоустойчивость».
Надежность теста, как правило, определяется после окончания
анализа задач и составления окончательной формы теста, для ее
определения проводится, как правило, специальная апробация теста.
Надежность характеризует точность теста как измерительного
инструмента, устойчивость его к действию помех (состояния
испытуемых, их отношения к процедуре тестирования, случайным
ошибкам и т.п.). Качественный тест не может быть создан без
тщательного изучения этого важного аспекта измерения. Использование
ненадежных тестов, допуск большого количества ошибок в таком
ответственном деле, каким является тестирование людей, может
стать причиной педагогических и административных ошибок,
последствия которых трудно исправить.
Ошибки при тестировании
Как и любая человеческая деятельность, тестирование содержит
ошибки. При проведении тестирования возникают следующие виды
ошибок: промахи, систематические и случайные ошибки.
Промахи возникают при грубых нарушениях процедуры
тестирования. При наличии качественной инструкции по проведению
тестирования и ее четком исполнении промахи встречаются
довольно редко. Они могут быть легко выявлены и устранены путем
анализа резко отклоняющихся значений, для этого анализа необходим
критичный подход к анализу полученных результатов, особенно на
этапах подготовки тестов и их первого использования. Здравый
смысл и некоторая осторожность позволяют выявить и устранить
причины промахов.
Систематические ошибки измерения возникают постоянно или
закономерно меняются от измерения к измерению. В силу этих сво-
Показатели качества тестов 171
их особенностей они могут быть предсказаны заранее, а в некоторых
случаях и устранены.
Случайные ошибки имеют место, когда при последовательных
измерениях постоянной характеристики получаются различные
числовые оценки, т.е. при определении случайных ошибок
предполагается, что измеряемая характеристика не изменяется во времени, а
все отклонения обусловлены неточностью измерения (точнее было
бы говорить о погрешностях при измерении).
Граница между случайными и систематическими ошибками
достаточно условна. Суммарная ошибка любого теста состоит из
ошибок двух этих типов, но в разном соотношении. Относительный
вес каждого типа ошибок зависит от качества теста и условий
проведения обследования. Результаты тестирования всегда содержат
ошибки, как бы тщательно они не проводились. Однако, используя
методы математической статистики, можно оценить величину
суммарной ошибки тестирования и использовать ее для оценки
надежности теста. Без статистической оценки надежности теста
результаты измерения нельзя считать достоверными.
Надежность теста является характеристикой того, в какой
степени полученные в результате тестирования различия между
испытуемыми являются отражением различий в свойствах испытуемых и
в какой мере являются отражением случайных ошибок.
В психодиагностике термин «надежность» применяется в двух
значениях.
Тест называется надежным, если он является
помехоустойчивым. То есть при проведении теста в других условиях он дает
сходные результаты. Говоря о других условиях, мы должны помнить о
том, что инструкция по проведению тестирования достаточно четко
должна задавать условия для проведения тестирования, поэтому эти
другие условия должны находиться в рамках, определяемых
инструкцией.
Тест называется надежным, если он является внутренне
согласованным (гомогенным, консистентным).
Н. Гронлунд отмечает: «Тесты по оценке результатов должны
быть надежными и в связи с этим их обработка должна
осуществляться очень тщательно. Если балл, полученный учеником в
результате теста будет соответствовать той оценке, которую он получил бы
при повторном прохождении того же теста или идентичного с ним
по форме, то данная оценка считается высоко надежной. Все
тестовые результаты содержат некоторый процент ошибок (в связи с
различием факторов таких, как условия тестирования или студенческие
ответы), но процент ошибок может быть уменьшен путем увеличе-
172
Глава 8
ния количества и усовершенствованием качества вопросов,
задаваемых в тесте. Чем длиннее тест, тем более надежными и адекватными
будут результаты».
Определение надежности теста
как инструмента устойчивого к помехам
На практике используются три основных метода оценки
надежности тестов:
1) повторное тестирование (ретестирование) — определение
помехоустойчивости;
2) расщепление группы — определение помехоустойчивости;
3) расщепление теста — определение внутренней согласованности.
В большинстве случаев надежность определяется как коэффициент
корреляции. Для этого нам необходимо получить два ряда оценок, в
которых будут присутствовать результаты оцениваемого инструмента.
Результаты должны быть получены в разных условиях.
Как мы уже говорили, коэффициент корреляции показывает,
насколько тесно связаны между собой два ряда оценок. Идея
определения надежности через коэффициент корреляции заключается в
следующем:
Тестовый балл, полученный испытуемым, содержит в себе две
компоненты - истинную и ошибочную (в данном случае ошибочная
— это не значит, что она вызвана ошибками или промахами
испытуемого, а в том смысле, что она содержит неизбежные погрешности
измерения). Проведя второе тестирование, мы так же получим ряд
оценок, который будут содержать эти две компоненты. Истинные
оценки этих двух измерений будут одинаковы, а ошибочные (в силу
того, что изменились условия проведения, сюда же следует отнести и
причины связанные с испытуемым: самочувствие, настроение и т.д.)
окажутся различными. При этом чем больше первая компонента,
тем выше будет корреляция между этими двумя рядами оценок, а
чем больше вторая, тем корреляция меньше.
Таким образом, выбор варианта определения надежности
заключается в выборе того, каким будет второе тестирование.
Практически может быть всего три варианта получения рядов оценок
второго тестирования: либо разнесение результатов по времени, либо
разделение теста на две части и проведение на одинаковой выборке
учащихся, либо разделение группы учащихся на эквивалентные и
тестирование их одним инструментом.
В психодиагностике широкое применение имеет ретестовая
надежность — тест дает одни и те же результаты для каждого
испытуемого при повторном тестировании. Он является основным при оп-
Показатели качества тестов 173
ределении надежности психологических тестов. Иногда термином
ретестовая надежность называют все методы определения
надежности, за исключением определения надежности по внутренней
согласованности. Однако применение его к тестам достижений
ограничено. Этот метод предусматривает повторное тестирование через
некоторый промежуток времени. Однако за это время дети успевают
подрасти, узнать что-то новое, иногда забыть известное. То есть высокая
динамика изменений объекта измерения ограничивает применение
метода повторного тестирования для тестов школьных достижений.
Поэтому для использования при подготовке тестов школьных
достижений остается два способа: разделение теста на части и
тестирование эквивалентных групп.
В практике не обязательно проводить физическое разделение и
предъявление заданий разных частей теста. Проще произвести
перерасчет результатов выполнения различных частей теста. Например,
из общих результатов тестирования взять результаты выполнения
четных и нечетных номеров заданий (надежность для четных-
нечетных заданий), получив, таким образом, два ряда оценок.
Возможен перерасчет первой части теста и второй его части (надежность
первой половины по сравнению со второй).
Как мы уже отмечали, формулы для корреляционного анализа
можно найти в специальной литературе, список качественных и
доступных изданий приведен в конце книги.
Определение надежности теста по внутренней согласованности
Для расчетов надежности по внутренней согласованности
используются, как правило, статистические формулы. Попытаемся
дать их качественное описание. Лучшим показателем для расчета
надежности тестов, по мнению большинства специалистов, является
коэффициент а «альфа»
а:
1-
v
82
У
к-\
где к — количество заданий, ]Г 8? — сумма квадратов
стандартных отклонений для заданий, <5 — квадрат стандартного отклоне-
ния для всего теста
В эту формулу входят: квадрат стандартного отклонения для
всего теста, и чем он выше, тем больше коэффициент надежности,
то есть чем больше дисперсия всего теста, тем он надежнее, и сумма
квадратов стандартных отклонений для каждого из заданий, чем она
меньше, тем больше значение коэффициента.
174 Глава 8
Еще одним способом расчета коэффициента надежности
является формула Кьюдера-Ричардсона (сокращенное название KR-20),
которая представляет собой частный случай коэффициента а для
заданий дихотомического типа, и, следовательно, использование
которой для тестов школьных достижений вполне приемлемо:
/ Гпл\
к
г
kr k-\
S2
V у J
где Р — доля учащихся верно выполнивших задание, Q= 1—Р.
Сравнивая две приведенные формулы, можно видеть, что
£ 8? — сумма квадратов стандартных отклонений для заданий
заменена на сумму произведений доли учеников, верно справившихся
с заданием, и доли неверно выполнивших задание. Доли учеников,
верно и неверно выполнивших задание, нами рассматривались как
различные показатели трудности тестовых заданий. Последняя
формула для вычислений проще предыдущей.
Педагогический смысл неудовлетворительной надежности
Посмотрим, какие факторы оказывают влияние на надежность
тестового инструментария. Это особенно важно, поскольку знание этих
факторов позволит обратить на них внимание при разработке тестового
инструмента и, следовательно, предотвратить низкую надежность и, с
другой стороны, в случае получения неудовлетворительных показателей
надежности может подсказать пути их повышения.
Источники неудовлетворительной надежности тестов могут
быть разбиты на три группы - связанные с качеством теста,
связанные с процедурой его проведения и оценивания и связанные с
испытуемыми.
1. Величина теста. Чем длиннее тест, тем он надежнее.
Поскольку, как мы уже отмечали, общая оценка теста состоит из
истинной составляющей и ошибочной. Истинная составляющая
несомненно больше ошибочной, и чем больше заданий в тесте, тем сумма
истинной составляющей будет возрастать, а ошибочной
соответственно уменьшаться. С формальной точки зрения, вне зависимости
от того, каким способом будет проведен расчет надежности, в него
входит количество заданий, то есть чем больше заданий, тем выше
показатель надежности. С увеличением количества заданий
дисперсия всего теста будет уменьшаться, а сумма дисперсий отдельных
заданий возрастать. Если мы обратим внимание на приведенные
нами формулы, то станет ясно, что это приводит к увеличению
коэффициентов надежности. Это увеличение будет происходить несмотря
Показатели качества тестов 175
на то, что первый множитель в формуле при увеличении коли-
к-\
чества заданий будет уменьшаться и стремиться к 1.
Достаточно очевидно, что по результатам выполнения одного
задания сложно судить о знаниях учащегося, поскольку велика
вероятность случайности — с этим согласятся, пожалуй, все педагоги. А
какое количество заданий достаточно для достоверного оценивания?
Традиционные для нашей страны способы аттестации учащихся не
дают обоснованного ответа на этот вопрос, и только в тестировании
через определение надежности теста мы получаем обоснованный
ответ.
2. Непонятность и двусмысленность заданий. Непонятные и
двусмысленные задания приводят к тому, что ответы на них даются
случайным образом. То есть в двух тестированиях будут получены разные
результаты, таким образом, корреляция между результатами тестирований
снизится, и, следовательно, надежность будет низкой.
3. Случайное угадывание правильных ответов, так же является
причиной снижения надежности по причинам, описанным в
предыдущем пункте. Еще раз подчеркнем нежелательность использования
заданий альтернативных ответов в виде единичного утверждения.
Для остальных видов заданий, при правильно выбранном времени
тестирования, вклад случайного угадывания в общий показатель
снижения надежности не должен быть значительным.
4. Субъективное оценивание. Результаты выполнения заданий
должны оцениваться одинаково разными проверяющими. Мы
достаточно подробно обсуждали требования к тестовым заданиям о
необходимости однозначности правильного ответа. В том случае, если
это требование будет нарушено, то будут допускаться различия
между оценками разных проверяющих и между оценками одного
проверяющего в разных случаях. Как следствие различных оценок
корреляция между результатами выполнения тестирования будет
уменьшена, и надежность теста будет невысокой.
5. Ошибки в подсчетах. В том случае, если задания имеют
однозначную схему оценивания, причиной неудовлетворительной
надежности могут стать случайные ошибки при подсчете баллов, их
суммировании.
6. Инструкции для учащихся. Мы будем подробно обсуждать эти
инструкции. В том случае, если задания имеют неясные,
двусмысленные инструкции, то результаты двух тестирований будут
существенно различаться, а надежность окажется невысокой.
7. Инструкции к тесту могут быть причиной низкой надежности.
На требованиях к инструкциям и правилам их составления мы оста-
176 Глава 8
иовимся подробнее в главе, посвященной оснащению тестов. Сейчас
отметим, что инструкции должны обеспечивать одинаковость
процедуры проведения тестирования, быть понятными и
недвусмысленными. В том случае, если условия проведения тестирования в
одном случае отличаются от другого, то и корреляция результатов
тестирования в этих случаях будет невысокой.
8. Источники, связанные с испытуемыми: усталость, скука,
невнимательность, жара или холод, самочувствие, различная
мотивация, случайные ошибки и просчеты и т.д. Все эти факторы снижают
надежность тестирования. Однако, в том случае, когда выборка для
апробации теста достаточно велика, а инструкция для проведения
четко определяет условия проведения (в том числе и влияние
ситуативных отвлекающих факторов, таких как температура, освещение,
запахи, шумность и прочие), то многие из перечисленных
источников, связанных с испытуемыми, удается рандомизировать и они не
могут оказать существенного влияния на надежность теста.
Исходя из перечисленных причин, можно наметить пути
повышения надежности тестов — увеличение длины теста, проверка
объективности оценочной схемы, снижение вероятности
угадывания правильных ответов, ужесточение инструкций для
учащихся, для ведущего, инструкций по проверке результатов
тестирования, других инструкций, повышением качества инструктажа и
подготовки ведущих.
Особое место при определении надежности занимают тесты,
ориентированные на критерий. Как мы уже отмечали, в
определенных случаях эти тесты могут содержать задания, с которыми
справляются все учащиеся или не справляется никто из них. В этом случае
рассчитанные показатели надежности будут иметь
неудовлетворительные значения. По мнению Н. Гронлунда: «В связи с тем, что
традиционные оценки надежности теста основаны на разнообразии
баллов, возникают особые проблемы при разработке надежного
теста, не требующего такого разнообразия баллов, как это бывает в
случае с тестами, ориентированными на критерий. В этом случае
появляется более сильная зависимость от соответствия тестовых
вопросов конкретным учебным задачам, что достигается путем
использования достаточного числа вопросов для каждой изучаемой задачи и
разработкой письменных вопросов, которые вызывают ожидаемый
ответ». То есть в этом случае следует ориентироваться на показатели
надежности как помехоустойчивости, а в большей мере на
качественные характеристики тестового инструментария и в первую
очередь на валидность.
Показатели качества тестов • 177
8.2. Валидность
Одной надежности для обоснования качества теста
недостаточно. Еще одной важнейшей характеристикой теста является его
валидность. Валидность особенно важна для тестов, ориентированных
на критерий, поскольку определение надежности для этих тестов
затруднено.
Валидность и надежность — связанные понятия. В литературе
мы находим различные примеры, иллюстрирующие эту связь. Вот
один из них. Допустим, имеются два стрелка: А и В. Участвуя в
соревнованиях, как правило, стрелок А выбивает 90 очков из 100, а
стрелок В — только 70. Вне зависимости от условий стрельбы,
настроения и самочувствия. Мы можем говорить, что, надежность
(помехоустойчивость) стрелка А - 0,90, а В - только 0,70. Однако
стрелок А всегда стреляет по чужим мишеням, поэтому на
соревнованиях его результаты не засчитываются. Второй стрелок всегда
правильно выбивает мишени. Поэтому валидность стрелка А нулевая, а
стрелка В — 0,70, т.е. численно равна надежности. Если стрелок А
станет правильно выбирать мишени, его валидность тоже будет
равна его надежности. Если же он будет продолжать иногда путать
мишени, то часть результатов не будет зачтена и валидность стрелка А
будет ниже надежности. В этом примере аналогом надежности
является меткость стрелка, а аналогом валидности — точность стрельбы
по строго определенной «своей» мишени.
Поэтому надежный стрелок может стать валидным, не только
сменив мишень, но и сменив команду. В истории тестологии
известны случаи, когда тест, признанный инвалидным для измерения
одних свойств, признавался валидным по отношению к другим.
Понятие «валидность» в силу многозначности очень часто
вызывает путаницу не только среди педагогов, но и среди психологов.
Причины этой путаницы, которая возникла в силу исторических,
лингвистических и прочих причин, кроются в особенностях того,
что этим термином именуется. Валидность определят, насколько
тест отражает то, что он должен оценивать, но не только.
Попытаемся разобраться в этом вопросе.
В США значение валидности в профессиональном тестировании
обычно определяется набором стандартов, подготовленных совместным
комитетом, выбранным из трех основных организаций,
профессионально занимающихся тестированием (Американская ассоциация
образовательных исследований, Американская психологическая ассоциация
и Национальный совет по измерениям в образовании) и зафиксированы
в документе, который называется: «Стандарты для образовательного и
психологического тестирования».
178
Глава 8
Согласно этому документу существует три подхода к валидиза-
ции, они представлены в таблице.
Таблица 16
Основные подходы к валидизации теста (по АРА)
Типы оценок
Оценки, относящиеся к
содержанию
Критерии
Конструктные
Вопросы, на которые необходимо ответить
Насколько адекватно вопросы теста отражают смысл
измеряемого явления?
Насколько точно результаты тестирования согласуются
с известными объективными критериями?
Насколько хорошо тестирование может быть
объяснено в терминах психологических характеристик?
Этот документ поясняет еще несколько особенностей
определения валидности:
1. Валидность получается из экспертных оценок (не измеряется
статистическими методами).
2. Валидность выражается степенью (высокая, средняя, низкая).
3. Валидность специфична для каждого конкретного
использования.
4. Существует много способов определения валидности.
Отметим, в соответствии с другими подходами, часть показателей
валидности может быть определена статистическими методами —
корреляционным и факторным анализом. Однако судить только по ним о
валидности теста некорректно. Для оценки валидности должен быть
рассмотрен комплекс возможных показателей.
На современном этапе развития тестологии и
психодиагностики классификация валидности весьма условна. Этот факт
определяется сложностью феномена валидности. Для различных видов
валидности могут быть использованы одни и те же методы
определения и, наоборот, одни и те же данные могут быть интерпретированы
с точки зрения разных типов валидности.
Выделяют три основные вида валидности, которые имеют
существенный отличающийся смысл:
Схема 5
Критериальная
Т
т
Текущая
Валидность
т
Коиструктная
Прогностическая
Содержательная
Показатели качества тестов 179
1. Валидность по содержанию (содержательная) — основной вид
валидности для тестов школьных достижений.
Содержательная валидность устанавливается экспертами для
деятельности, близкой или совпадающей с реальной.
Определение содержательной валидности используется для
тестов достижений и тестов профессиональной успешности, когда
должен быть точно определен материал, применяемый для
тестирования, и когда существует достаточная ясность смысла измеряемого
параметра.
Очевидно, что содержательная валидность будет полезна только
тогда, когда могут быть определены специальные навыки и
особенности поведения. Это можно сделать довольно легко на
элементарном уровне, при тестировании арифметических навыков (правил
выполнения четырех арифметических операций, правил вычислений
с 0 и т.п.), знаний в области искусства (знает ли испытуемый
правила нотной записи, принципы архитектуры и др.), а также знаний
базовых элементов для большинства научных дисциплин, в которых
накоплен багаж фактических данных.
Содержательная валидность определяется на основе
экспертных методов.
П. Клайн предлагает следующую процедуру для определения
содержательной валидности для тестов школьных достижений, ее
вполне можно использовать с практическими целями:
1) Укажите точно категорию лиц, для которой предназначен тест.
2) Определите навыки, подлежащие тестированию; возможно,
вам потребуется их проанализировать. Составьте список.
3) Передайте этот список экспертам в данной области
(учителям и т.п.) для проверки - нет ли упущений.
4) Преобразуйте этот список в перечень заданий, используя,
когда это возможно, равное количество заданий на каждый навык.
5) Представьте эти задания экспертам для проверки.
6) Подвергните задания обычным процедурам конструирования
тестов. В результате должен быть получен содержательно валидный
тест.
Как можно видеть, сама процедура создания тестов школьных
достижений в том случае, если она не нарушается, дает хороший
валидный инструмент, поскольку все этапы определения
содержательной валидности «зашиты» в процедуру.
2. Конструктная (концептуальная) валидность. Этот вид
валидности определяется в тех случаях, когда представление об измеряемом
феномене (конструкте) существует только в сознании исследователя.
Разработчик теста может лишь строить гипотезу о существовании
180 Глава 8
данного конструкта, о его формах и характере проявления.
Устанавливается конструктная валидность путем доказательства
правильности теоретических концепций, положенных в основу теста, это
особенно необходимо в тех случаях, когда результаты тестовых
измерений используются не просто для предсказания поведения, а как
основа для выводов о том, в какой степени испытуемые обладают
некоторой характеристикой.
В.М. Мельников и Л.Т. Ямпольский предлагают проводить
проверку концептуальной валидности через три основных этапа:
1. Определение некоторой теоретической концепции, которая
предположительно объясняет выполнение валидизируемого теста;
2. Из теоретической концепции выводятся одна или несколько
гипотез, связанных с тестом;
3. Выдвинутые гипотезы подвергаются эмпирической проверке.
Если эмпирические данные подтверждают гипотезу, то тем
самым подтверждается концепция, положенная в основу теста, и
способность теста служить инструментом измерения данного
конструкта. Ошибки при определении валидности могут возникнуть как
следствие неправильной теоретической концепции, положенной в
основу теста, или отсутствия соответствия между тестом и теоретической
концепцией, или ошибочного выдвижения гипотез.
В рамках конструктной валидности выделяют:
Дифференциальная валидность — рассматривает не отдельные
конструкты, а взаимодействие между психологическими факторами
внутри одной тестовой методики.
Валидность по возрастной дифференциации — определяет
возможность использования теста для разных возрастов испытуемых.
Используется в том случае, когда изучаемый феномен имеет большую динамику
развития. Определение этого вида валидности для тестов школьных
достижений должно дать ответ на вопрос о том, в каком временном
интервале возможно корректное использование тестов школьных
достижений, ответ на тот вопрос, который мы ставили ранее. Например:
разработанный инструмент должен быть использован не позже чем через
неделю после прохождения темы, или использование тестов
целесообразно в первые две недели третьей четверти и т.д. К сожалению, найти
факты обоснования календарных периодов применения тестов школьных
достижений, то есть определения валидности по возрастной
дифференциации, в отечественной практике тестирования не удалось.
Непосредственно для тестов учебных достижений другие виды
конструктной валидности не используются, однако овладение этим
методом может быть чрезвычайно полезно для некоторых элементов,
используемых при создании тестов, поскольку он дает возможность
обоснования истинности, реальности существования понятий и явлений.
Например, было бы чрезвычайно полезно провести определение конст-
Показатели качества тестов 181
руктной валидности для тех уровней овладения учебным материалом
(обученности) у различных авторов, которые мы рассматривали в
разделе, посвященном отбору содержания образования.
3. Валидность по критерию (критериальная или эмпирическая ва-
лидность).
Валидность по критерию или эмпирическая валидность является
третьим основным видом. Суть ее заключается в определении
способности теста служить индикатором или предсказателем строго
определенной психической особенности, формы поведения человека и др.
В рамках валидности по критерию выделяют два основных вида:
Текущая (диагностическая, конкурентная) валидность —
характеристика теста отражать его способность различать испытуемых на
основании того признака, который является объектом выявления в данной
методике. Именно этот вид валидности в большей степени подходит под
общее определение валидности тестового инструментария.
Прогностическая валидность — информация о том, с какой
степенью точности мы можем судить об выявленном в результате
тестирования качестве спустя определенное время после измерения, то
есть определяет временной интервал, в течение которого результаты
и выводы могут иметь силу.
Валидизация теста по критерию состоит в сравнении
результатов, полученных испытуемыми за решение теста с данными по
критерию, и вычислении коэффициента корреляции тестового
результата с внешним критерием. В качестве критерия может выступать
любой показатель, независимо и бесспорно измеряющий ту же
психологическую характеристику, что и валидизируемый тест.
Синтетическая валидность — еще один вид текущей или
прогностической валидности по сложному критерию. Например, тест
может содержать вопросы на анализ грамотности, способностей
считать, навыков делового общения, умения пользоваться оргтехникой
и т.д.. Все эти способности могут быть объединены понятием
успешности трудовой деятельности работника офиса, именно для
определения корректности такого объединения и служит
синтетическая валидность.
Валидность можно разделить по способам определения:
Схема 6
Валидность
?
Не
определяется
Определяется
качественно
Определяется
количественно
182 Глава 8
Виды валидности, которые не определяются количественно или
качественно.
Собственно говоря, с этими видами валидности произошло
скорее всего терминологическое недоразумение, поскольку они не
соответствуют общему определению валидности, но тем не менее
они имеют название валидность и с этим следует считаться.
Очевидная (внешняя, доверительная) валидность - это
валидность с точки зрения испытуемого. Объективно не устанавливается.
Она означает то, насколько адекватно впечатление о предмете
измерения, которое формируется у испытуемого при знакомстве с
инструкцией и материалом теста тому, что данный инструмент в
действительности выявляет. Очевидная валидность играет важную роль в
процессе тестирования, поскольку именно она определяет
отношение испытуемого к обследованию. Так, тест может не вызывать
доверия, если в нем отсутствуют знакомые, традиционно
используемые испытуемым термины, понятия, слова, определения. Известны
случаи, когда отказ от выполнения теста обосновывался именно не
соответствием используемой в тесте терминологии реально
существующей.
Очевидная валидность может быть присуща тесту, а может нет.
Это зависит от целей исследования. Для большинства тестов
достижений очевидная валидность — позитивное либо нейтральное
качество, поскольку нет достаточных оснований скрывать от
испытуемых реальные цели тестирования.
Завышенная очевидная валидность провоцирует проявление
эффекта контаминации критерия, т.е. его искажения.
Валидность иллюзорная (ложная, эффект Барнума) — иллюзия
соответствия заключения по результатам тестирования личностным
характеристикам обследуемого. Например, почти всеми людьми
будут восприняты такие общие характеристики, как «разумный в
выборе цели», «стремящийся к лучшему», что создает эффект
соответствия заключения качествам испытуемого. Для тестов школьных
достижений неактуален.
Виды валидности по количественным способам определения
Валидность, как мы уже отмечали, преимущественно
определяется путем качественного оценивания, как правило, с привлечением
экспертов. При этом существуют и количественные способы
определения валидности, построенные на основе корреляционного анализа
и факторного анализа. Различные виды валидности в зависимости от
способа количественного определения представлены на следующей
схеме:
Показатели качества тестов
183
Схема 7
Валидность
1
Количественное оценивание
Корреляционный анализ Факторный анализ
\ \ \
Консенсусная ] Эмпирическая Факторная
J I
Конвергентная Дискрнминантная
В том случае, если для определения валидности используется
факторный анализ с целью определения факторных нагрузок и
факторного состав результатов теста, говорят о факторной валидности.
Напомним, что для получения коэффициента корреляции нам
необходимо иметь два ряда оценок. Один ряд оценок — это
результаты тестирования, а в зависимости от способа получения второго ряда
оценок выделяют два вида валидности.
Консенсусная валидность — данные второго ряда получают от
внешних экспертов. Например, для тестов школьных достижений
методом экспертного оценивания могут быть получены оценки
общей успеваемости учеников.
Эмпирическая валидность — данные второго ряда получают в
результате применения методики известной ранее или из других
источников. Например, школьный тест умственного развития (ШТУР)
по одной из шкал валидизировался на основе результатов
выполнения теста Амтхауера, а по второй шкале с применением критерия
школьной успеваемости — оценок детей по предметам в
образовательном учреждении.
В рамках эмпирической валидности в зависимости от
направления поисков связи выделяют конвергентную валидность — проверку
прямой или обратной связи и дискриминантную валидность —
проверку отсутствия связи.
Для тестов учебных достижений наибольшее распространение
нашли такие способы определения внешнего критерия как метод
коллективной оценки, метод средневзвешенной оценки, метод
ранжирования и метод парного сравнения.
Рассмотрев основные формы валидности становится ясно, что
говорить о валидности теста, не указывая то, какая это валидность,
просто не имеет смысла.
184 Глава 8
Для определения содержательной валидности теста школьных
достижений минимально необходимо:
а) в соответствии с целевыми установками разработать
технологическую матрицу;
б) провести ее тщательную экспертизу;
с) в соответствии с технологической матрицей составить
тестовые задания;
д) дать экспертные заключения на соответствие тестовых
заданий технологической матрице;
е) сообщить о проделанных работах в спецификации теста или
инструкции для ведущего.
Для всех тестов учебных достижений должна быть оценена
содержательная валидность. Для тестов, используемых для аттеста-
ции учащихся, содержательная и (очень желательно) критериальная
валидность.
Глава 9 185
Глава 9
Нормирование
9.1. Проверка тестовых работ
Проверка тестовых работ, при условии качественного теста и
ключей не должна вызывать заметных трудностей. Желательно,
чтобы была составлена инструкция по проверке тестовых работ, в
которой должны быть ясно и недвусмысленно описаны алгоритм
действия проверяющих, особенности оценивания разных видов заданий,
способы перепроверки, действия проверяющих в «нештатных»
ситуациях. Технологию проверки лучше оформить в виде инструкции,
поскольку это способствует единообразию проверки и
перепроверки, позволяет осуществлять действенный контроль за действиями
проверяющих, обладает еще целым рядом преимуществ.
Ниже приведен образец инструкции для проверяющих по
проверке тестовых работ на вступительных экзаменах в 10-е классы
образовательных учреждений Санкт-Петербурга. Для проведения этих
экзаменов в школах создавались экзаменационные комиссии,
поэтому в тексте проверяющие могут быть названы членами
экзаменационных комиссий. Представляется, что других пояснений для
данной инструкции не требуется. Особенности составления такого рода
документов должны быть ясны из текста самой инструкции.
Инструкция по проверке тестовых работ
для членов экзаменационной комиссии
Результаты выполнения тестов проверяются тремя членами
экзаменационной комиссии.
Предлагается следующий алгоритм проверки работ.
ПЕРВИЧНАЯ ПРОВЕРКА
Первый проверяющий отмечает только правильно отмеченные
ответы, засчитываемые, как выполнение заданий теста (условные
баллы), проставляя знак «+» у заданий, выполненных верно.
Возможно несколько вариантов форм заданий:
Вариант первый. Задания альтернативных ответов. В данной
форме заданий, как правило, после формулировки задания, следует
несколько утверждений. Задание считается выполненным
правильно, если даны верные ответы на весь предложенный ряд
утверждений в серии и если эти ответы правильно обведены в соответствии с
инструкцией теста.
186
Нормирование
Правильно выполненным заданием теста в этом случае
является ряд «да» и «нет», именно в той последовательности, которая
означена в ключах к тесту.
Задание Р8.
Инструкция: Обведи ответ «да» или «нет». (Если ты согласен с
утверждением — обведи кружком «да» в клеточке таблицы ответов, а
если не согласен - обведи «нет»).
Вопрос: Корни с чередующимися гласными написаны
правильно...
Варианты ответа:
да
да
да
да
да
да
нет
нет
нет
нет
нет
нет
— каса
— лаж
— тира
— пера
— раще
— мире
Ключ для данного вопроса:
да—нет—да—нет—да—нет
Орфограммы в корнях слов
Обратите внимание на то, что частично правильный ответ
однозначно фиксируется как неправильный. Это определяется тем, что
от учащегося, в данном варианте ожидается точное знание всех
частей содержания задания.
Вариант второй. Задания множественного выбора. Вопрос
предполагает только один правильный ответ. Правильным считается
только один из предложенных и обведенный в соответствии с
инструкцией ответ. Если в тестовом задании не предусмотрено более
одного ответа, то два и более отмеченных ответов считаются
неправильными. Даже в случае, если один из отмеченных ответов является
правильным, ответ на задание не засчитывается, если учащийся не
выполняет требования инструкции. Никаких «пограничных» оценок
проверяющий выставлять не имеет права. В случае, если учащийся
по размышлении считает правильным ранее зачеркнутый ответ, то
правильным выполнением задания считается написанная рядом с
зачеркнутой буквой именно та же буква, обведенная
соответствующим образом.
Пример 47: К какой группе веществ относится серная кислота?
A. Не электролит
B. Слабый электролит
C. Электролит средней силы
D. Сильный электролит
Ответ в ключе: D
Глава 9 187
Правильно выполненным заданием в этом случае является
именно обведенная буква «D», означенная в ключе ответов и
обведенная в соответствии с инструкцией.
Вариант третий. Задания дополнения. От учащегося ожидается
определенная формулировка, или просто формула и т. д., но только
именно она, и в именно этой форме и является «правильным»
ответом на тестовое задание. Отклонение от написания данной формулы
или неточность в какой-либо из ее частей засчитывается как
неправильная и не соответствующая правильному ответу на тестовое
задание.
Пример 48: Часть геологической оболочки Земли, населенная
живыми организмами называется ... .
Ключ: биосферой
Слово, в соответствии с инструкцией должно быть записано
именно в отведенное для него место, соответствующим образом.
В задании может быть предложено вписать несколько слов в
несколько пропусков во фразе. При выполнении таких заданий важно
помнить, что одному многоточию соответствует только одно слово.
Если ключами ответов предусматривается ряд слов или
понятий, являющихся синонимичными, или равноправильными, и
именно такой ответ предполагается как правильный, то только
любые, соответствующим образом записанные ответы засчитываются
как правильное выполнение тестового задания.
Пример 49: Сумма квадратов катетов равна
прямоугольного треугольника.
Ожидаемый ответ: квадрату гипотенузы
Это задания, подразумевающие перечисление правильных
ответов, типа «... и ... и ...»
Правильно выполненным заданием в этом случае является
именно те слова, которые означены в ключе ответов, вписанные
именно в отведенное для них место.
В том случае, если ответ для этого вида заданий предполагается
в числовой форме и тестовое задание не содержит иных
ограничений, то ответ следует считать правильным, если число указано с
точностью не менее одного знака после запятой (в соответствии с
инструкцией для учащихся). В том случае, если ученик указал больше
знаков, то такой ответ ошибкой не считается и должен быть засчитан
как правильный. Даже в том случае, если часть ответа,
расположенная после второго знака, содержит ошибку.
Вариант четвертый. Задания свободного изложения.
Инструкция: Закончи предложение.
Вопрос: Орфографический словарь дает:
188
Нормирование
званый и званный
кованый и кованный
кошеный и кошенный
луженый и луженный
Чем объяснить возможность альтернативы?
Варианты ответа: В данных словах пишется НН, если
«...есть зависимые слова» или
«... являются причастиями»
Н-НН с различными частями речи
В данном случае ответ предусматривает связку «или», в этом
случае ответ считается правильным. Если ученик привел любое из
словосочетаний, приведенных в ключе.
Вариант пятый. Задание на восстановление последовательности.
Задание И21.
Инструкция: Расположи в правильной последовательности. (В
столбце ответов проставь соответствующие буквы).
Вопрос: Расставь в хронологической последовательности
следующие события, связанные с Северной войной.
Варианты ответа:
-А. Взятие крепости Ниеншанц
— В. Сражение у деревни Лесной
— С. Битва у мыса Гангут
— D. Битва под Нарвой
— Е. Полтавская битва
— F. Взятие крепости Нотебург (Орешек)
1
2
3
4
5
6
Ответ
Ключ для данного задания:
И21 I D, F, А, В, Е, С | Петровская эпоха
Правильным ответом в данном случае следует запись учеником
последовательности букв. Последовательность должна быть полной.
В том случае, если ученик не закончил последовательность,
пропустил какие-то ее члены или вписал в одну клеточку для ответов две
буквы, ответ следует признать неправильным. Запятые, точки или
иные знаки препинания, поставленные после букв, не должны
влиять на правильность ответа.
Вариант шестой. Задания на восстановление соответствия.
Задание И4.
Инструкция: Соотнеси написанное в столбцах 1 и 2. (Запиши в
таблицу ответов цифры из столбца 2, которые соответствуют
утверждениям из первого списка).
Вопрос: Установи соответствие.
А
В
С
D
Ответ
Глава 9
Столбец 1
A. К. В. Кавелин
B. А.И. Герцен
C. В.Г. Белинский
D. Н.Г. Чернышевский
189
Столбец 2
1. «Письмо к Гоголю»
2. Журнал «Современник»
3. Газета «Колокол»
4. Записки об освобождении
крестьян
5. Журнал «Вестник Европы»
И4 А.4; В.З; C.I; D.2 Общественное движение в России в 1830-1850 гг.
Только правильно расставленные в соответствии с ключем
ответов цифры засчитываются проверяющим, как правильно
выполненное задание теста.
После того как первый проверяющий закончил свою работу,
второй проверяющий перепроверяет правильность выполнения
заданий и ставит знак «-» у тех заданий, которые выполнены неверно.
В конце проверки второй проверяющий должен просчитать
количество знаков «+» в тесте и записать полученную цифру на лицевой
стороне обложки.
Первый и второй проверяющие могут работать последовательно
в том случае, если каждый из них имеет свой комплект ключей.
В том случае, если второй проверяющий не согласен в оценке с
первым проверяющим, то возникшая проблема должна быть обсуждена
всеми членами экзаменационной комиссии. В том случае, если по
результатам обсуждения будет признана некорректность или ошибочность
формулировки задания или ключа, то комиссия вправе:
а) использовать для оценки свою, исправленную версию ключа
или
б) изъять данное задание из проверки и оценивания у всех
учащихся.
Только в результате обсуждения и соответственного сравнения
возможна однозначно принятая оценка.
Оба проверяющих должны расписаться на лицевой странице
тестовой тетради, где выделено специальное место.
ПЕРЕПРОВЕРКА
Эту функцию осуществляет третий член комиссии.
Перепроверяющий обращает внимание только на правильность подсчета
баллов, начисленных за выполнение тестовых заданий. Его задачей не
является проверка правильности выполнения содержательной части
задания. В том случае, если сумма оценок при перепроверке
совпадает с суммой, выставленной проверяющим, перепроверяющий вы-
190 Нормирование
ставляет ее в соответствующую графу на лицевой стороне тестовой
тетради и расписывается в отведенном для этого месте.
9.2. Система оценивания
Система оценивания учащихся по результатам тестирования
содержит, наверное, максимальное количество достаточно нелепых
стереотипов, домыслов и ошибок. Основной негативный стереотип,
присущий педагогам с большим стажем, заключатся в том, что
отличную оценку можно ставить только в том случае, когда ученик
справился со всеми заданиями. Ошибочность этого суждения мы
подробно рассматривали в главе, где мы давали определение тестам.
Еще один стереотип заключается в том, что для получения
положительной оценки достаточно ответить более чем на половину заданий
в тесте. Многие авторы книг с названием «Тесты по...» вообще не
предлагают никакой оценочной шкалы.
В одной из работ можно найти такие рекомендации:
«Мы предлагаем оценивать ответы учащихся по следующей
системе:
а) оценку «5» («отлично») получают учащиеся, справившиеся с
работой полностью;
б) оценка «4» («хорошо») может быть поставлена в том случае,
если верные ответы составляют 80% от общего количества вопросов;
в) оценке «3» («удовлетворительно») соответствует работа,
содержащая 50—70% правильных ответов».
Однако за рамками рассмотрения остаются вопросы о том, почему
же все-таки именно за 80 процентов нужно ставить оценку «4». Какую
оценку, следуя этим рекомендациям, должен получить ученик,
выполнивший 75 процентов заданий, в каких случаях за 60 процентов
выполненных заданий ставится оценка «3», а в каких «2».
В другой работе можно найти рекомендацию по использованию
равномерной шкалы:
Оценка знаний учащихся по итогам выполнения теста может
производиться по шкале:
Число правильных ответов
Оценка в баллах
0-2
1
3-4
2
5-6
3
7-8
4
9-10
5
В данном случае остаются все те же вопросы: почему за такое
количество верно выполненных заданий нужно ставить именно этот
балл.
И еще один пример, который можно было бы не приводить,
однако он опубликован под названием «Тесты по литературе...»:
Глава 9 191
«Оценка «3» — промежуточная. Она означает, что тестируемый
выбрал формально правильный ответ и в некоторой степени
углубился в текст изучаемого материала, но недостаточно.
Оценки «4» и «5» предполагают хорошее или отличное усвоение
материала, достаточно глубокое проникновение в художественный мир
произведения, отличное знание истории и теории литературы.
Оценка «5» означает абсолютно правильный ответ,
отличающийся точностью и глубиной.
Оценка «4» говорит о том, что ответ правильный, в нем лишь
упущены определенные нюансы, иными словами, «хорошо, но
можно было бы и лучше».
В данном случае, такие рекомендации по оцениванию напрочь
перечеркивают все старания сделать тесты хоть в какой-то мере
объективным инструментом.
Среди рекомендаций можно встретить и еще одну, когда вопрос
оценивания целиком перекладывается на плечи пользователя, то есть
учителя, авторы снимают с себя, таким образом, всякую
ответственность за результаты использования предлагаемых материалов.
Попытаемся разобраться в поставленных вопросах.
В начале работы было показано, что одно из преимуществ,
которыми обладают тесты по сравнению с другими видами измерений,
— это то, что они имеют основания для сравнения. Для тестов,
ориентированных на критерий, — это полученный на основе экспертных
оценок критерий значимости, превысив который считается, что
ученик справился, готов, прошел и т.д. в зависимости от целей
тестирования. Для нормативно-ориентированных тестов основанием для
сравнения служат статистические нормы. Следовательно, возможно
сравнение показателя некоторого испытуемого с таковыми в
репрезентативной выборочной совокупности или других релевантных
группах, что в конечном счете дает возможность адекватной
интерпретации полученного показателя. Из сказанного следует, что
нормализация тестов наиболее важна в тех случаях, когда
осуществляется явное или неявное сравнение показателей испытуемых, как,
например, при итоговой аттестации.
Отдельно можно назвать случай, когда тестирование проводится с
целями отбора. Эти тесты, являясь нормативно-ориентированными, не
требуют разработки норм. Для их применения достаточным оказывается
знания места ученика в ряду тех, кто вместе с ним проходил испытание.
Например, в том случае, если нам необходимо отобрать 25 человек для
продолжения образования, то нам достаточно сделать ранжированный
ряд по результатам проведения тестирования и отобрать 25 учеников с
лучшими результатами.
192 Нормирование
Некоторые возможные ошибки при проверке тестовых работ и
рекомендации по их устранению содержатся в инструкциях CITO:
S Оформление работы. «Такие критерии как: точность, творчество
и хорошее оформление ответа (почерк, аккуратные рисунки)
принимаются во внимание в оценке одними проверяющими, а
другими воспринимаются как малозначительные детали.
Инструкции должны прояснить, до какой степени эти моменты могут
влиять на конечную оценку.
S Знание об экзаменуемом из других источников. К сожалению,
проверяющие стремятся дать высокую оценку тому экзаменуемому,
который до того хорошо занимался. Чтобы этого избежать,
должен быть второй проверяющий или оценивание должно быть
анонимным, т.е. проверяющий не может определить личность
экзаменуемого.
S Влияние предшествующей оценки. Если экзаменуемый имеет
слабую подготовку, то проверяющие имеют тенденцию оценивать
последующие ответы более снисходительно. Этого можно
избежать, если оценивать сначала ответ всех экзаменуемых на 1-й
вопрос, потом на 2-й и т.д., при этом меняя последовательность
экзаменуемых с каждым новым вопросом».
9.3. Тестовые нормы
Тестовые нормы представляют собой установленные на базе
репрезентативной выборки эмпирические усредненные
количественные данные о результатах выполнения теста, полученные в
стандартных условиях.
Какими же бывают нормы? По широте охвата можно выделить:
— универсальные нормы — устанавливаются для широкого
контингента людей и лишь в малой степени зависят от действия каких-
либо признаков;
— национальные нормы — применяются для представителей
конкретной народности или страны в целом и учитывают
особенности культуры, норм и традиций обследуемых;
— региональные,
— локальные нормы.
В рамках образования в настоящее время мы можем вести речь
о региональных и локальных нормах — нормах для Калуги, нормах
для Тульской области, нормах для Санкт-Петербурга и т.д.
Возможно, что появятся организации, которые возьмут на себя
нормирование инструмента и на национальном уровне, однако задача эта чрез-
Глава 9 193
вычайно дорогостоящая, именно это является основным
ограничением на выполнение таких работ.
При разработке норм необходимо учитывать следующее:
1. Нормы устанавливаются при разработке нового теста,
адаптации или редактировании существующего, если он используется на
выборке, отличающейся от стандартизованной по каким-либо
критериям.
2. Введение нового типа нормировочного балла при разработке
теста должно быть обосновано.
3. Стандартизированная выборка при разработке норм должна
быть хорошо сбалансированной по составу и численности.
4. Все отклонения от процедуры нормирования тестовых
результатов должны оговариваться в прилагаемых руководствах.
Дальнейшее рассмотрение будет носить преимущественно
качественное описание, в том случае, если читателю необходимы
количественные характеристики или описание процедуры
нормирования, рекомендуем обратиться в конец этой книги в раздел
литературы, там Вы найдете качественные и доступные ссылки.
Мы же попытаемся ответить на два вопроса:
Каким образом можно корректно сравнивать результаты
тестирования, полученные в результате проведения разных тестов по разным
предметам?
Каким образом можно на основе оценок тестирования выставлять
оценки в привычной для нас пятибалльной системе, таким образом,
чтобы эти оценки были обоснованы так, чтобы ответ на вопрос, почему
за 23 балла этого теста мы ставим оценку 4, а за 18 баллов этого —
оценку 5, был однозначным?
Обычно показатели некоторого индивидуума сравниваются с
показателями релевантной нормативной группы посредством
некоторого преобразования, которое выявляет статус этого индивидуума
относительно данной группы.
Итак, решая задачи сравнения в самом широком понимании
этого слова, необходимо провеоти преобразование исходных данных
в более удобный вид, такой, который позволит нам ответить на
первый из поставленных нами вопросов.
Учитывая наше обещание минимально использовать
математический аппарат и вычисления, попытаемся показать наглядно
различные формы представления данных. Однако без некоторых
сведений классической теории ошибок нам не обойтись.
Для дальнейших рассуждений нам необходимы три понятия:
среднее, дисперсия (среднеквадратичное отклонение) и нормальное
распределение.
194 Нормирование
Представим их здесь в вербальном виде и поясним на примере.
Пусть в результате проведенного тестирования получены
значения сырых показателей — количество заданий, которые учащиеся
выполнили верно, сами показатели в этом случае — это номер
учащихся, принимавших участие в тестировании в гипотетическом
списке:
показатель
значение
1
13
2
15
3
16
4
12
5
19
6
14
7
18
8
15
9
15
10
12
То есть, первый ученик верно выполнил 13 заданий, второй —
15 и т.д.
Xq) — среднее значение показателя. Для его получения
необходимо: сложить данные всех измерений и поделить их на количество
измерений:
13 + 15 + 16 + 12 + 19 + 14 + 18 + 15 + 15 + 12 149 %л Л
О — отклонение: показывает, насколько далеко данное
значение показателя отстоит от среднего значения ряда показателей. Для
его расчета необходимо:
1) рассчитать среднее значение показателя;
2) вычесть из среднего значения показателя значение данного
показателя.
Для показателя 1 отклонение будет равно:
14,9-13-1,9
для показателя 2
14,9- 15 = -0,1
показатель
значение
отклонение
1
13
1,9
2
15
-0,1
3
16
-1,1
4
12
2,9
5
19
-4,1
6
14
0,9
7
18
-3,1
8
15
-0,1
9
15
-0,1
10
12
2,9
G — среднеквадратичное отклонение — мера разброса
показателей относительно среднего значения. Если отклонения являются
2
характеристикой одного показателя, то О является
характеристикой ряда показателей, он показывает, насколько значения
показателя в данном ряду далеко отстоят от среднего. Крайний случай мог
быть тогда, когда все значения нашего ряда были равны 14,9, в этом
случае значение С будет минимальным, другой случай, когда 9
значений показателей будут равны 0, а одно значение равно 14,9. В
этом случае можно ожидать максимальное значение О . Среднее
значение и в том и в другом случае будет 14,9.
Для расчета среднеквадратичного отклонения необходимо:
1) рассчитать среднее значение группы показателей;
Глава 9 195
2) вычесть из среднего значения показателя значение каждого
показателя;
3) возвести каждое из полученных отклонений в квадрат:
1,92=3,61; (-0,1)2=0,01; (-1 ,1)2=1,21; 2,92=8,41; (-4,1)2=16,81;
0,92=0,81; (-3,1)2=9,61; (-0,1)2=0,01; (-0,1)2=0,01; 2,92 =8,41.
4) сложить полученные значения:
3,61-+-0,01 + 1,2И-8,41 + 1б,81+0,8И-9,61+0,01-Ь0,0Н-8,41=48,9
5) поделить полученное число на количество показателей:
6) извлечь из полученной цифры квадратный корень:
7^89 = 2,19 «2,2
Путем этих несложных вычислений мы можем получить
характеристику ряда значений показателей с точки зрения их разброса.
Конечно, вычисления по формулам даже с помощью калькулятора
уже никто не проводит, для этого существуют компьютерные
программы. В данном случае вычисления приведены с единственной
целью — прояснить смысл понятия среднеквадратичного отклонения
для ряда значений показателей.
Нормальное распределение — распределение частот, которое
подчиняется определенному закону (закону нормального
распределения), существование этого распределения обосновано
эмпирически и математически.
По закону нормального распределения в большинстве
случаев распределяются как чисто случайные величины, так и
результаты выполнения тестов и их заданий. При этом необходимо
сделать существенное замечание — количество значений показателя
должно быть достаточно большим: не менее 30. Это утверждение
придется принять на веру или обратиться к литературе по
математической статистике.
График нормального распределения представлен на рисунке
8. Как можно видеть, график функции нормального
распределения симметричный, с асимптотически приближающимися к 0
ветвями. Вообще, может быть бесконечное множество графиков
нормального распределения, но все они имеют одинаковый вид.
На приведенном ниже примере значение показателя 10
встречается чаще всего — самая высокая точка на оси «частота», значение
показателя 13 встречается реже, значение показателя 5 еще реже.
196
Нормирование
5
10
13
значение
показателя
Рисунок 7
Графики нормального распределения отличаются, друг от друга
по двум значениям — это среднее — оно характеризует положение
графика относительно оси ОХ, и среднеквадратичное отклонение,
которое характеризует «широту» или «крутизну» графика.
Попытаемся ответить на наши два вопроса на конкретном
примере.
У нас в распоряжении есть два комплекта тестовых материалов.
Один по физике, второй по русскому языку. На основе данных
апробации этих тестов на репрезентативной выборке учащихся были
получены характеристики теста по физике — среднее количество
заданий, с которым справлялись учащиеся Хсрф=42, а среднеквадратич-
ное отклонение О ф=8, для теста по русскому языку Хсрр=26, а
СТ2=5.
Использовав эти тесты, мы провели оценку учеников нашего
класса и взяли результаты для двух учеников. Их результаты в
количестве правильно выполненных заданий (баллах) представлены в
таблице.
Фамилия
Мамин М.
Папина С.
физика
35
50
русский язык
35
23
Если оценивать эти результаты, исходя только из количества
выполненных заданий, то может показаться, что первый ученик
справился с тестированием по двум предметам одинаково успешно, а
вторая ученица блестяще выполнила тест по физике и провалилась
Глава 9
197
по русскому. Однако такие оценки, как правило, не соответствуют
действительности.
Для сравнения результатов тестирования сырые оценки обычно
переводятся в стандартные.
Этот перевод заключается в выполнении двух операций
центрирования и нормирования.
Центрирование. На рисунке 9 изображены два графика
распределения показателей, которые получены на одной шкале. Здесь мы
можем видеть один из недостатков первичных значений — они не
совпадают по шкале. Для того, чтобы сделать показатели
сравнимыми, нам необходимо либо сдвинуть один на две единицы вправо,
либо — второй на две единицы влево. На практике поступают
несколько иначе: сдвигают оба графика в некоторую фиксированную точку,
обычно это среднее значение выбранной шкалы измерения или
нулевое значение. Для приведения данной кривой к нулевой
необходимо вычитание из значений показателей Хер. Действительно, если
из значений показателей первой вычесть ее среднее значение 2, а
второй кривой — 4, то обе кривые окажутся симметричными
относительно нулевой шкалы.
,...«=
12 3 4 5 6 7
Рисунок 8
Нормирование. Его суть состоит в переходе к другому масштабу.
Попытаемся проиллюстрировать эту операцию графическим
примером. На рисунке 10 представлены два графика, оба они уже
приведены к единой шкале — их средние значения совмещены с нулевой
отметкой. Однако форма этих графиков различна, что не дает
возможности провести сравнения признаков для этих двух распределений.
Для приведения их к нормальному виду нам следует провести еще
одну операцию, а именно уравнять их среднеквадратичное
отклонение. Для этого необходимо либо «сжать» один из графиков, либо
расширить другой. Как и в случае центрирования, используют
способ приведения графиков к стандартизированному виду с а =1.
198
Нормирование
1
Рисунок 9
На практике это означает деление показателей для
стандартизации на величину среднеквадратичного отклонения. В этом случае
величина этого отклонения станет равна единице и результаты
исследований можно будет сравнивать.
Таким образом, мы пришли к понятию стандартного
Z-показателя, который характеризуется средним значением 0,
средним квадратичным отклонением 1.
Для нашего примера:
Хсрф=42, а среднеквадратичное отклонение <7 ф=8, для теста по
русскому языку Хсрр=26, a G р=5.
Использовав эти тесты, мы провели оценку учеников нашего
класса и взяли результаты для двух учеников. Их результаты в количестве
правильно выполненных заданий (баллах) представлены в таблице.
Фамилия
Мамин М.
Папина С.
Фамилия
Мамин М.
Папина С.
физика
35
50
русский
35
21
вычисления
(35-42)/8
(50-42)/8
вычисления
(35-26)/5
(23-26)/5
Z-оценка
-0,9
1
Z-оценка
1,8
-0,6
Таким образом, осуществив несложные преобразования и
получив оценки в одних стандартных баллах, мы получили
возможность некоторого сравнения результатов. Представим полученные
результаты графически.
Глава 9
199
-0,9-0 6 0
м,
фи»
'РУС
1 1 82
Пфиз Мрус
Рисунок 10
Уже сейчас становится ясно, что оценки Мамина по физике и
русскому языку очень разные. Что казавшаяся провальной оценка
Папиной по русскому лучше оценки Мамина по физике. Эти оценки
начинают приобретать некоторый педагогический смысл.
Принципиальное значение для дальнейших рассуждений имеет
определение площади под кривой нормального распределения.
Среднее значение показывает максимум пика кривой.
Среднеквадратичное отклонение (в случае стандартной Z-оценки) равно
расстоянию от среднего значения до точки 1. Последняя определена
таким образом, что площадь графика, ограниченная Хер. кривой и
ординатой точки 1, составляет 34,13% ограничения, а ограниченная
расстояниями А с двух сторон — 68,26%, а вся площадь составляет
100%. С точки зрения результатов выполнения тестов эти проценты
представляют собой распределение учащихся.
Рисунок 11
200 Нормирование
Что мы можем сказать про ученика, который в единицах
стандартных Z-оценок получил оценку 0? Можем сказать то, что
половина учащихся справляется лучше, чем он, а другая половина хуже. Что
означает получение учеником в стандартных единицах оценки «1»?
Это означает то, что хуже него справляются с работой
50+34,13=84,13% учащихся, а все остальные лучше, а оценка 2 будет
означать то, что лучше справляются чуть больше 2% школьников, а
все остальные хуже. Аналогичные рассуждения мы можем провести
и для других оценок.
Если мы вернемся к нашему примеру, то окажется возможным
выразить оценки в количестве учащихся, которые справляются с той
же работой лучше.
Фамилия
Мамин М.
Папина С.
Фамилия
Мамин М.
Папина С.
физика
35
50
русский
35
23
Z-оценка
-0.9
1
Z-оценка
1,8
-0,6
Лучше выполняют, %
82
16
Лучше выполняют, %
5
77
Для окончательного корректного перевода оценок наших
учеников в привычные нам школьные оценки нам необходимо знать
статистическое распределение по школьным оценкам нашей
выборки. То есть нам необходима информация о том, какое количество
учащихся имеют школьные оценки двойки, тройки, четверки и
пятерки. Для малых групп, например для класса, такое распределение
зависит от способностей учеников, отношений сложившихся между
учениками и педагогом, от стиля работы преподавателя, от вида
оценок, которые мы выберем для использования, от предмета.
Факторы, влияющие на распределение оценок
в образовательных учреждениях
При этом существует ряд закономерностей, знание которых
может оказаться полезным составителю тестов. Распределение
оценок от способностей детей в классе существует, однако оно не так
ярко выражено, как другие факторы. Даже в классе, где обучаются
очень способные дети, количество отличных оценок по таким
предметам, как математика или русский язык, является очень
небольшим. Это связано, скорее всего, с тем, что школьные оценки
выставляются относительно силы учеников в классе и для класса, где очень
способные ученики, общая планка оценивания оказывается выше, а
распределение оценок внутри класса приближено к среднему
статистическому.
Глава 9 201
Отношения между учениками и учителем и стиль работы
педагога (частота использования оценки как наказания, использование
оценки с целью поощрения или повышения мотивировки и т.д.)
являются существенными факторами, определяющими распределение
оценок.
Вид оценок и класс являются так же факторами, которые
влияют на распределение оценок. Общие закономерности следующие.
Оценки по четвертям (триместрам): в первой четверти самые низкие
оценки (максимум двоек и минимум пятерок), в последней наоборот
— самые высокие. От шестого к одиннадцатому классу идет плавное
изменение распределения оценок в сторону их увеличения.
Исключение составляет распределение оценок в 9 классах, в которых
годовые оценки практически не содержат двоек, а количество пятерок
несколько возрастает. Причины такого положения для педагогов
достаточно очевидны.
Влияние такого фактора, как предмет, является очень
существенным. Распределение оценок по таким предметам, как
математика, физика, русский язык, литература близки между собой и могут
существенно отличатся от распределения оценок по таким
предметам, как физическая культура, труд, изо, мировая художественная
культура, ОБЖ.
Для больших выборок факторы, связанные с отношениями,
особенностями работы педагогов рандомизируются, особенности
предмета сохраняются, однако и они выражены не так сильно, как
может показаться.
Для практической работы можно:
1) Использовать то распределение, которое приведено ниже,
оно получено на основе анализа оценок по достаточно большой
(более 500 классов 4-х регионов России) выборке;
2) Провести самостоятельный расчет распределения для той
категории учащихся и региона, где предполагается использовать
тестирование;
3) Получить распределение оценок на основании экспертного
оценивания;
Кроме этого, распределение оценок может быть
скорректировано с учетом целей тестирования, но в любом случае выбранный
вариант получения распределения должен быть ясен и обоснован.
Если предположить, что распределение по оценкам
соответствует приведенному в таблице, то нам необходимо посчитать комму-
лятивный (накопленный) процент, то есть количество учащихся,
которые усевают лучше, чем учащиеся, имеющие данную оценку.
Школьные отметки
Количество учащихся, имеющих
соответствующие отметки (в %)
Коммулятивный процент
2
3
100
3
44
97
4
45
53
5
8
8
202 Нормирование
Таким образом, для школьных оценок можно получить
следующие интервалы.
Оценка
Процент выполнения
2
менее 97
3
от 97 до 53
4
от53до8
5
более 8
Нам осталось получить соответствующие выделенным интервалам
стандартные Z-оценки. Это можно сделать, используя таблицу «Доли
площади под нормальной кривой...», которая приведена ниже.
В таблице представлены значения для одной ветви
положительных значений. Найдем значение для точки 8 процентов. Для
этого из 50 (напомним, в таблице данные по одной ветви и,
следовательно, только 50 процентов) вычтем 8 получим 42 или если брать в
долях, то 0,42. Найдем в таблице ближайшее значение, оно составит
0,4207 (значение выделено жирным шрифтом). По вертикали
найдем значение 1,4, по горизонтали значение сотых 0,01 сложив эти
значения, получим 1,41.
Таблица 17
г
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
0,00
0,0000
0,0398
0,0793
0,1179
0,1554
0,1915
0,2257
0,2580
0,2881
0,3159
0,3413
0,3(343
0,3849
0,4032
0,4192
0,4332
0,4452
0,4554
0,4641
0,4713
0,4772
0,4821
0,4861
0,4893
0,4918
0,4938
0,4953
0,01
0,0040
0,0438
0,0832
0,1217
0,1591
0,1950
0,2291
0,2611
0,2910
0,3186
0,3438
0,3665
0,3869
0,4049
0,4207
0,4345
0,4463
0,4564
0,4649
0,4719
0,4778
0,4826
0,4864
0,4896
0,4920
0,4940
0,4955
0,02
0,0080
0,0478
0,0871
0,1255
0,1628
0,1985
0,2324
0,2642
0,2939
0,3212
0,3461
0,3686
0,3888
0,4066
0,4222
0,4357
0,4474
0,4573
0,4656
0,4426
0,4783
0,4830
0,4868
0,4898
0,4922
0,4941
0,4956
0,03
0,0120
0,0517
0,0910
0,1293
0,1664
0,2019
0,2357
0,2673
0,2967
0,3238
0,3485
0,3708
0,3907
0,4082
0,4236
0,4370
0,4484
0,4582
0,4664
0,4732
0,4788
0,4834
0,4871
0,4901
0,4925
0,4943
0,4957
0,04
0,0160
0,0557
0,0948
0,1331
0,1700
0,2054
0,2389
0,2704
0,2995
0,3264
0,3508
0,3729
0,3925
0,4099
0,4251
0,4382
0,4495
0,4591
0,4671
0,4738
0,4793
0,4838
0,4875
0,4904
0,4927
0,4945
0,4959
0,05
0,0199
0,0596
0,0987
0,1368
0,1736
0,2088
0,2422
0,2734
0,3023
0,3289
0,3531
0,3749
0,3944
0,4115
0,4265
0,4394
0,4505
0,4599
0,4678
0,4744
0,4798
0,4842
0,4878
0,4906
0,4929
0,4946
0,4960
0,06
0,0239
0,0636
0,1026
0,1406
0,1772
0,2123
0,2454
0,2764
0,3051
0,3315
0,3554
0,3770
0,3962
0,4131
0,4279
0,4406
0,4515
0,4608
0,4686
0,4750
0,4803
0,4846
0,4881
0,4909
0,4931
0,4948
0,4961
0,07
0,0279
0,0675
0,1064
0,1443
0,1808
0,2157
0,2486
0,2794
0,3078
0,3340
0,3577
0,3790
0,3980
0,4147
0,4292
0,4418
0,4525
0,4616
0,4693
0,4756
0,4808
0,4850
0,4884
0,4911
0,4932
0,4949
0,4962
0,08
0,0319
0,0714
0,1103
0,1480
0,1844
0,2190
0,2517
0,2823
0,3106
0,3365
0,3599
0,3810
0,3997
0,4162
0,4306
0,4429
0,4535
0,4625
0,4699
0,4761
0,4812
0,4854
0,4887
0,4913
0,4934
0,4951
0,4963
0,09
0,0359
0,0753
0,1141
0,1517
0,1879
0,2224
0,2549
0,2852
0,3133
0,3389
0,3621
0,3830
0,4015
0,4177
0,4319
0,4441
0,4545
0,4633
0,4706
0,4767
0,4817
0,4857
0,4890
0,4916
0,4936
0,4952
0,4964
Глава 9 203
z
2,7
2,8
2,9
3,0
3,1
0,00
0,4965
0,4974
0,4981
0,4987
0,4990
0,01
0,4966
0,4975
0,4982
0,4987
0,4991
0,02
0,4967
0,4976
0,4982
0,4987
0,4991
0,03
0,4968
0,4977
0,4983
0,4988
0,4991
0,04
0,4969
0,4977
0,4984
0,4988
0,4992
0,05
0,4970
0,4978
0,4984
0,4989
0,4992
0,06
0,4971
0,4979
0,4985
0,4989
0,4992
0,07
0,4972
0,4979
0,4985
0,4989
0,4992
0,08
0,4973
0,4980
0,4986
0,4990
0,4993
0,09
0,4974
0,4981
0,4986
0,4990
0,4993
Аналогично найдем и другие значения для выделенных нами
интервалов.
Оценка
Процент выполнения
Стандартная Z-оценка
2
менее 97
менее-1,88
3
от 97 до 53
от-1,88 до-0,18
4
от 53 до 8
от-0,18 до 1,41
5
более 8
более 1,41
В этом случае мы можем достаточно корректно выставить
школьные оценки, получив ответ, почему это так. Мамин по русскому получит
оценку 5, потому что он выполнил работу так же, как выполняют ее 8
процентов отличников, Папина по физике получит оценку 4, потому ччо
ее результат выполнения не попал в 8 процентов лучших, но он попал в
53 процента четверочников и отличников. Мамин по физике и Папина
по русскому получат оценку 3, потому что их результаты попадают в
соответствующий интервал. Конечно, разрыв между двумя последними
оценками достаточно велик, но такова наша традиционная система
оценивания. Мы привели здесь примеры, выражая оценки в процентах, для
того, что бы был понятен смысл перевода. Гораздо удобнее пользоваться
стандартными оценками, поэтому в таблице мы приводим все оценки.
Фамилия
Мамин М.
Папина С.
Фамилия
Мамин М.
Папина С.
Физика
35
50
Русский
35
23
Z-оценка
-0,9
1
Z-оценка
1,8
-0,6
Лучше выполняют, %
82
16
5
77
Школьная оценка
3
4
5
3
Теперь становится достаточно ясно, что наши предварительные
оценки результатов выполнения теста были ошибочны.
Завершая наши рассуждения, сделаем несколько важных
замечаний и выводов.
Схему выставления оценок мы рассмотрели в большей мере
качественно, без привлечения достаточного математического
аппарата, тем не менее, из наших рассуждений становится ясно, что
нормирование дает нам качественный способ корректного сравнения
оценок, полученных в результате применения различных тестов, и
выставления оценок в школьных баллах.
Вычисление оценок, конечно, проводит компьютерная программа,
но пользователь, особенно руководитель, должен иметь представление о
тех преобразованиях, которые она делает, об их корректности, должен
доверять полученным в результате обработки оценкам.
204
Нормирование
В практической работе, в том случае, когда нет крайней
необходимости, лучше пользоваться стандартными оценками, поскольку
школьные оценки очень резко огрубляют полученные результаты,
снижают дискриминативность инструмента.
Мы рассмотрели только одну стандартную оценку — Z, на
самом деле стандартных оценок несколько, все они имеют свои плюсы
и минусы. С точки зрения П.Клайна, для тестов с распределением,
если не нормальным, то по крайней мере симметричным,
Т-показатели со средним значением х = 50 и со стандартным откло-
нением СТ" =10 являются лучшей значимой оценкой. Получение
этих оценок носит линейный характер и не должно представлять
труда, в крайнем случае можно обратиться к литературе. Наглядное
представление о переводе между шкалами можно получить из
следующего графика.
Z-оценки —f-
-4
О
Т-оценки —f-
I Икала
Векеле ра
10
-4-
20
4
30
-4-
40
50
60
70
10
13
16
80
19
4
90
-4-
Отклонения —f
П яти балльные
шкалы
шкалы
Процентили -f-
55
70
4
+
4
4
4
7%
-4
85 100 115 130 145
2,3,4, 5
4 3^
Девяти балльные 1
24% 38% 24%
2 3 4 5 6 7 8
1 1 [-н 1 1
7%
9
^
т
^р .^р ^о «^р >»р ^о *^Р
о^ о"4" о^- о^ ст" о*- еГ4-
1-~ N N О Г^ N Г-
■I 1 I I 1 II I 1—\—4-
4-
5 10 20 40
60 80 90 95 100
4
Рисунок 12
Глава 9 205
Наконец, последнее и, может быть, самое главное — при
рассмотрении задачи нормирования мы нигде не использовали
значение — количество заданий в тесте. Для оценок учащихся и оценок
теста это совершенно неважно. Показатель того, что учащийся из
70 заданий теста справился с 40, ни коим образом не
характеризует ученика. Потому что тест может содержать простые и
сложные задания в разной пропорции. Точно так же не является
характеристикой ученика время, которое ученик может затратить
на выполнение заданий. Поскольку задания могут быть очень
сложными, но не требующими большого времени на выполнение
(попробуйте ответить на вопрос о том, как звали вторую жену
Георга IV. Не получилось? Но ведь и времени потратили совсем
немного!), а может быть больше заданий, которые не представляют
большой трудности, но на их выполнение требуется значительное
время.
Количество заданий и время на выполнения тестирования
являются характеристиками теста как измерительного средства и не могут
служить основанием для оценки ученика.
206 Глава 10
Глава 10
Выборка
Как мы уже несколько раз отмечали, проблемы построения
выборки для апробации тестовых заданий, тестов, получения норм
являются чрезвычайно важными. Напомним, что от того, насколько
качественно построена выборка, зависят: корректность расчетов
трудности и дискриминативности заданий, надежности и отчасти
валидности, кроме того, на основе работы с выборочными
совокупностями строится система оценивания, перевода тестовых баллов в
стандартные и школьные оценки.
При формировании выборки следует учитывать две важные
переменные: объем и репрезентативность. Выборка должна точно
отражать категорию лиц, для которых предназначен тест (конечно,
может быть несколько таких категорий и, следовательно, несколько
выборок или же одна большая выборка), а также быть достаточно
большой для обеспечения столь малой стандартной погрешности
нормативных данных, чтобы ею можно было пренебречь. Ниже
приведены расчеты объемов выборки для всех участников
педагогического процесса, а не только учеников.
10.1. Варианты расчета объемов выборки
Объем выборки — число единиц наблюдения, включаемых в
выборочную совокупность.
Что определяет объем выборки и от чего он зависит.
В общем виде объем выборки определяется следующими
четырьмя обстоятельствами.
1. Задачи и условия проведения исследования.
1.1. Получение экспресс-информации, фундаментальное
исследование, необходимость получения прогноза по результатам
исследования требуют разной степени точности и определяют
точность и доверительную вероятность результатов проводимого
исследования.
1.2. Объем выборки зависит от разрешающей величины шкалы
изучения (дихотомическая, процентная, семантический
дифференциал) и требует учета при выборе способа расчета объема выборки.
1.3. От условий проведения зависит способ определения объема
выборки, при этом возможны три случая:
— об измеряемых величинах есть статистическая информация
по предыдущим исследованиям;
Выборка 207
— будет проведено пробное исследование;
— о характеристиках статистических величин ничего
неизвестно.
В последнем случае возможно получение оценок, необходимых
статистических данных. Дисперсия может быть оценена по правилу
«шести сигм»:
— R
^_. X max X mm
\J — "— ,
6 6
где Хтах — максимальное значение шкалы измерения;
ymtn — минимальное значение шкалы.
Л 1111II
Остальные необходимые статистические данные могут быть
либо заданы, либо оценены как максимально теоретически
возможные.
Таким образом, задача расчета объема выборки в этом
случае может быть сведена к задаче с известными статистическими
данными.
2. Степень однородности генеральной совокупности. Объем
выборки определяется разбросом измеряемого показателя в
генеральной совокупности, выражаемым дисперсией или стандартным
отклонением.
3. Вероятность, с которой гарантируется достоверность
результата. Определяется условиями исследования. Обычно в практике
исследований ее величина колеблется от 85% до 99%. Наиболее часто
используется вероятность 95% (0,95).
4. Точность результатов, определяемая предельной ошибкой
репрезентативности. Предельная ошибка репрезентативности задается
обычно в пределах от 0,01 до 0,10 с наиболее частым употреблением
5% (0,05).
Определяющим фактором является первое обстоятельство
(задачи исследования), а зависит объем выборки от остальных трех
обстоятельств (степень однородности генеральной совокупности,
вероятность, с которой гарантируются результаты, предельная
ошибка репрезентативности).
Дадим обозначения нескольким известным статистическим
понятиям, без которых дальнейшее объяснение затруднено:
Р — вероятность,
п — объем выборки,
А — предельная ошибка репрезентативности,
о2 —дисперсия,
a — стандартное отклонение,
208 Глава 10
N — объем генеральной совокупности,
t — табулированная константа, смысл которой определим
несколько позже (см. расчеты по формулам),
ОС = 1 — Р - уровень значимости.
Общий подход к расчету объема выборки
Основная величина, от которой зависит величина объема
выборки — дисперсия и ее поведение (изменение).
При выборочном методе исследования дисперсия изучаемого
признака слагается из двух составляющих — дисперсии генеральной
совокупности (собственно мера рассеяния признака как такового) и
дисперсии, вызванной неоднородностью генеральной совокупности.
При малых объемах выборки обе составляющие вносят в нее свой
вклад, при этом вторая составляющая может как увеличивать, так и
уменьшать дисперсию. С увеличением выборки, составляющая,
вызванная неоднородностью генеральной совокупности, уменьшается,
значение дисперсии при этом перестает изменяться, при этом
дальнейшее увеличение объема выборки нецелесообразно, поскольку
ошибка выборки становится пренебрежительно мала.
Графически это может быть выражено следующим образом:
i
а2
N, N
Рисунок 13
График зависимости дисперсии от объема выборки.
N, - оптимальный объем выборки.
Способы расчета объема выборки
Замечание 1.
Объем выборки, рассчитывающийся в данной части, относится к:
1. Чисто случайной.
2. Бесповторного случая — один и тот же испытуемый в одном
исследовании дважды не тестируется.
Выборка 209
Это обусловлено тремя обстоятельствами:
а) объем выборки для чисто случайного способа отбора не является
максимальным, однако в практике применяется только этот способ;
б) объем выборки для доли и среднего рассчитывается
одинаковым способом, считая признаки альтернативными;
в) расчеты более сложных выборок уменьшают объем выборки
и их проведение подробно описано в литературе.
Степень близости выборочной средней к генеральной средней
при постоянной дисперсии при повторном отборе зависит только от
объема выборки, а не от удельного веса выборочной совокупности в
генеральной.
Так 1% выборки из 100000 единиц дает меньшую точность, чем
2% из совокупности в 1000 единиц.
Объем выборочной совокупности рассчитывают в основном
четырьмя способами:
1. По изменению дисперсии.
2. По таблицам достаточно больших чисел и номограммам
больших чисел.
3. Эмпирический по среднему квадратичному отклонению.
4. По формулам математической статистики.
Приведем варианты расчета объемов выборки четырьмя
способами, из одинаковой генеральной совокупности.
1. Расчет объема выборки ПО ИЗМЕНЕНИЮ ДИСПЕРСИИ
Расчет объема выборки по изменению дисперсии вытекает из
общего подхода к расчету объема выборки. Применяется, когда
известны значения статистик, характеризующих различные объемы
совокупностей.
Для примера изучения образовательной системы Санкт-
Петербурга взяты следующие совокупности: учителя, родители,
учащиеся. Расчеты проведены для двух вопросов в каждой группе —
один, носящий оценочный характер по отношению к
образовательному заведению, второй — самооценка.
В таблице представлены простые статистики для разных выборок
совокупностей для наиболее употребительной пятибалльной шкалы.
Таблица 18
Категория
учителя
Объем
выборки
100
150
200
300
400
500
600
Дисперсия
вопрос 1
0,35
0,51
0,46
0,43
0,44
0,44
0,43
Дисперсия
вопрос 2
0,54
0,55
0,67
0,63
0,62
0,62
0,62
210 Глава 10
Категория
ученики
Объем
выборки
50
100
200
400
500
700
Дисперсия
вопрос 1
1,37
1,25
1,03
1,01
1,00
1,00
Дисперсия
вопрос 2
1,86
1,81
1,89
1,95
1,93
1,93
Жирным шрифтом в таблицах выделены значения дисперсии,
статистически равнозначные, и обозначен момент, с которого
дальнейшее увеличение выборки не уменьшает дисперсию. Таким
образом, для данных вопросов объемы выборки могут быть определены в
150—350 единиц.
2. Расчет объема выборки по ТАБЛИЦАМ ДОСТАТОЧНО
БОЛЬШИХ ЧИСЕЛ И НОМОГРАММАМ ДОСТАТОЧНО
БОЛЬШИХ ЧИСЕЛ
Расчет объема выборки по номограммам и таблицам дают
примерно одинаковые результаты, но применяется при разных условиях.
Таблицы достаточно больших чисел используют, если ничего
нельзя сказать ни о средних показателях, ни о генеральной
совокупности. При этом используются следующие вполне корректные (не
уменьшающие объема выборки) допущения:
— объем генеральной совокупности не влияет на объем выборки
(замечание 2),
— численность выборки зависит от Р и
— величины вероятности, с которой делается вывод о
достоверности выводов предельной ошибки репрезентативности и
вероятности появления события.
Поскольку таблицы достаточно больших чисел построены с
расчетом максимального значения признаков, то определенное число явится
несколько завышенным, по сравнению с тем, которое необходимо.
Одним из видов таблиц достаточно больших чисел является
следующая таблица:
Таблица 19
р
0.85
0.90
0.95
0.99
0.997
0.999
0,10
51
67
96
165
220
270
0,09
63
83
118
204
271
334
0,08
80
105
150
259
344
422
0,07
105
138
195
338
449
552
0,06
143
187
266
400
611
751
0,05
207
270
384
633
880
1082
0,04
323
422
600
1036
1376
1691
0,03
755
751
1067
1843
2446
3007
0,02
1295
1690
2400
4146
5504
6767
0,01
5180
6763
9603
16587
22018
27069
Выборка 211
Достаточно большие числа при допустимой ошибке (ОС) и
доверительных вероятностей (Р), рассчитанные без учета величины
N — объема генеральной совокупности.
Чтобы найти по таблице достаточно большую численность
выборки для обеспечения точности оценки ОС =0.05, ее надежности
(доверительной вероятности) Р=0,95, на пересечении находим число
384, которое и является исходным достаточно большим числом.
Для случая изучения образовательных систем наиболее
употребителен максимальный объем выборки в 400—600 единиц.
Возможная ошибка тем меньше, чем больше численность
выборки. Причем, чтобы уменьшить ошибку вдвое, численность
выборки приходится увеличить в 4 раза.
В таблице выделены шрифтом значения выборок наиболее
употребительных в практике социально-педагогических
исследований на уровне города.
По этой же таблице можно провести обратную работу -
определение предельной допустимой ошибки и вероятности при известной
выборке.
Если рассеяние признака известно на основании предыдущих
исследований, то объем выборочной совокупности может быть
определен по номограммам больших чисел, представленных в работе,
при этом объемы выборки при тех же значениях Р и СС меньше, чем
определенные по таблицам.
3. Расчет объема выборки ЭМПИРИЧЕСКИМ способом
Определение объема выборки по процентному выражению
среднего квадратичного отклонения от величины измеряемого
параметра есть эмпирический способ.
Согласно эмпирическому закону объем выборки увеличивают до
тех пор, пока среднее квадратичное отклонение, выраженное в
процентах от величины средней, не станет меньше или равным 50%.
Проведем расчет для категории 1 родителей.
Выборка
150
300
400
500
700
Отношение, %
52
49
46
44
45
Как видно из расчета — устойчивое значение отношения менее
50% соответствует выборке в 300—400 единиц.
Аналогичные расчеты, проведенные для учеников и учителей,
дают значения 200-300 и 300—400 соответственно.
212 Глава 10
4. Расчеты по СТАТИСТИЧЕСКИМ ФОРМУЛАМ
Напомним еще раз условия, для которых проведены настоящие
расчеты (замечание I).
Различные источники дают одну формулу для расчета объема
выборки для нашего случая:
/V*N
где п — объем выборки.
Некоторые сложности появляются с определением величины t.
В работе (59) она определяется, как нормированное отношение
или стандартизованная разность и даны значения
t=2 при Р=0,95, и
t=3 при Р=0,99,
где Р — вероятность (надежность заключения).
В работе (27) эта величина не определяется, а постулируется
равной 4.
В работе (53) t определена как критическая точка
стандартизированного нормального распределения и составляет
t=1,6449 при а =0,05, и
t=2,3263npn а =0,01,
где а— уровень значимости.
В работе (56) t определена как величина, связывающая
среднюю ошибку выборки (jU ) и предельную ошибку выборки (Д ):
Отсюда становится ясным статистический смысл этой
величины — мера риска допущения ошибки, связанной с выборкой —
предельная ошибка выборки равна t-кратному числу предельных
ошибок выборки.
Табличные значения этой величины следующие:
t= 1,96 при а =0,05, и
t=2,58npn a =0,01.
В этой же работе определены источники этих значений,
вытекающие из значений функции Лапласа для нормального
распределения.
Кроме того, в этой работе для выяснения этой величины
рекомендуется использовать эмпирическую формулу:
,=з+-6-
п-4
Выборка 213
Подробное рассмотрение этой величины вызвано ее
значительным вилянием на получаемый в результате расчетов объем выборки.
Разброс итоговых значений количества единиц наблюдения весьма
значителен при констатировании остальных составляющих, так для
случая N=29962 — количество учителей в Санкт-Петербурге, при
равенстве прочих переменных получаем следующие значения:
npnt=2n= 1198, а
при t= 3 п= 1752, таким образом, разброс составляет около 600
единиц, что для практики исследований весьма существенно.
Для дальнейших расчетов использовались данные значений t из
работы (46), где, как нам кажется, изложение понятия этой
величины наиболее подробно.
Расчет объемов выборки по формулам идя различных
совокупностей образовательной системы города дает следующие результаты:.
1. Для учителей города, при N=29962, п=286
2. Для учащихся в школах города N=540481, п=298
3. Для образовательных учреждений типа «школа» N=662, п= 78
4. Для классов N=2018, п=184
Некоторые выводы
Рассчитанные четырьмя различными способами объемы
выборок дают примерно одинаковые результаты, при сохранении
показателей качества.
Достаточные объемы выборки можно оценить в пределах от 120
до 600 единиц — это максимальное и минимальное значение для
выборок с нашими граничными условиями.
При этом необходимо заметить, что построение более сложных
выборок приводит, как правило, к некоторому уменьшению
количества измеряемых объектов.
В заключение необходимо сказать о стойком убеждении среди
педагогов и социологов о необходимости 5 или 10 % выборки для
получения надежных результатов.
Анализ литературных источников, посвященных расчетам
объемов выборок, ни теоретически, ни эмпирически не обосновывают
такие объемы.
Выявлен всего один источник, где рекомендуются подобные
объемы: «... пока их (предприятий) немного, взять под наблюдение
все... Затем, когда их станет очень много, обследовать 1/10 или 1/20
выборочным методом». (В.И.Ленин. ПСС. Т. 35 С. 150-151).
214 Глава 10
10.2. Репрезентативность выборки
Как мы показали, для простого уменьшения значения
стандартной погрешности вполне адекватной будет выборка из 300-500
испытуемых.
Однако для целей тестирования гораздо большее значение
имеет не объем выборочной совокупности, а ее репрезентативность,
которая зависит не только от ее объема. До сих пор мы рассматривали
выборки без выделения страт. Для стратифицированных выборок
существуют отдельные формулы расчета объемов (53, 46). Однако
для практической работы более полезно будет рассмотреть вопрос
оценки, а не расчета объема выборочной совокупности.
При получении нормы для общей популяции, например, детей
школьного возраста, необходима выборка больше, чем выборка из
столь ограниченной популяции, как укротители львов или факиры.
Таким образом, до начала исследования нельзя сделать никакого
утверждения относительно объема выборки безотносительно той
популяции (категории лиц), из которой она подбирается. Здесь
проясняется тот момент, что репрезентативность выборки является
более важной, чем ее размер. Маленькая, но репрезентативная
нормативная выборка будет предпочтительнее, чем большая, но
неравномерно представленная.
Получение репрезентативной нормативной выборки
Ясно, что наиболее неоднородной популяцией является
генеральная популяция (все население), а все остальные являются ее
подмножествами. По этой причине получить выборку заданного,
определенного качества из генеральной популяции — наиболее
трудная задача. Однако в практике тестов школьных достижений этого и
не нужно.
Правила для общих норм
Принципиальным для оценки объема выборки является то, как
будет использованы полученные данные. Если на их основе будут
получаться нормы, то проведение расчетов объемов должно быть
максимально строгим, если же предполагается критериально-
ориетированное оценивание, то оно требует меньшей точности и
соответственно меньших затрат.
При получении норм для генеральной популяции могут быть
сформулированы несколько общих правил:
1) Выборка должна быть стратифицирована. То есть в выборке
должны быть представлены представители разных групп реально
представленные в генеральной совокупности, желательно в той пропорции, в
которой они представлены в генеральной совокупности.
Выборка 215
Кроме этого, страты должны быть выделены таким образом,
что вероятность их ответов на задания давала максимальный
разброс. Обычно в психолого-социологических исследованиях
адекватной является стратификация на четыре уровня. Важными
стратификационными переменными обычно являются социальное
положение, возрасти пол.
Для тестов школьных достижений — возраст и пол.
2) В каждой подгруппе должно быть количество испытуемых,
достаточное, чтобы сформировать адекватную выборку.
Выборка для всего населения означает, что с учетом всех
возможных классификаций, необходимо очень большое количество
испытуемых, например: 4 (социальное положение) х 2 (пол) х 5
(возраст) дает 40 категорий по 300 (среднее значение
предварительных расчетов) испытуемых в каждой, что дает общее количество
12000 испытуемых. Следовательно, обеспечение адекватности норм
для генеральной популяции требует огромных ресурсных затрат.
Нормы, полученные в менее масштабных исследованиях, также
полезны, но должны использоваться с осторожностью.
По приведенной выше причине, а именно из-за необходимости в
огромных ресурсах, многие разработчики психологических тестов
указывают более специфические нормы для групп, специально
соответствующих характеру и практическому применению теста.
Формирование выборок для специфических групп
Для получения адекватных норм для специфических групп
необходимо стратифицировать выборку по основной переменной,
влияющей на эти группы. На примере будет показано, как это
делается в целом, хотя для выбора стратифицирующих переменных
необходимы значительные исследования конкретной группы.
Учащиеся одной параллели
Казалось бы, что для расчета объема выборки в системе
образования следует использовать стратифицирующие переменные для
образовательных учреждений, такие как тип образовательного
учреждения - школа, гимназия, лицей, авторская школа и т.д. Однако,
как показывает опыт, это разделение на категории может оказаться
несущественным. Статистически физико-математические классы в
гимназии и обычной школе оказываются гораздо более схожими,
чем физико-математический класс и класс гуманитарный в рамках
каждого образовательного учреждения. Наиболее существенным для
стратификации является тип реализуемой образовательной
программы, выделенный по двум основаниям.
216 Глава 10
По уровню преподавания: коррекционная (компенсирующего
обучения), базового уровня, повышенного уровня.
По профилю: физико-математический, естественнонаучный,
гуманитарный, эстетический, военно-спортивный,
профессионального обучения.
Таким образом, единицей отбора, если речь идет об
образовательных учреждениях общего образования, должна быть
образовательная программа, а единицей отбора тот или иной класс, в
котором данная программа реализуется.
Показателями стратификации являются:
1) Пол: мальчики, девочки, смешанная группа.
2) Географическое размещение: центр города, спальный район,
поселок, сельская местность.
3) Статус школы в системе образования: начальная, неполного
среднего, полного среднего образования, начального
профессионального образования.
В зависимости от целей тестирования количество страт может
быть уменьшено. Например, если тестирование рассчитано только
на городскую полную среднюю школу для детей, обучающихся в
гимназических и обычных классах, то по позиции статус
стратификацию можно не учитывать, а по позиции уровень преподавания
уменьшить до двух.
Таким образом, для расчета норм по параллели классов
может потребоваться: 2 (уровень преподавания) х 2 (пол) х 2 (район
города) = 8 х 300 получим 2400.
Будет трудно отобрать выборку, точно сбалансированную по
всем переменным (поскольку на окраине города достаточно мало
школ, реализующих профильную программу обучения на
повышенном уровне), но, тем не менее, выборка, отражающая пропорции
каждой из школ в общей популяции, даже если было по две школы
на категорию, должна была бы дать адекватные нормы.
П. Клайн предлагает следующие правила формирования
выборок для специальных групп:
1) Найдите наиболее важные переменные, релевантные для
данных групп, и используйте их как основание для
стратифицирования выборки.
2) Подберите настолько большую выборку, насколько
возможно: как минимум из 300 испытуемых.
3) Помните, что маленькая выборка — это лучше, чем вообще
ничего. Если использовались небольшие выборки, акцентируйте
внимание пользователей теста, на том, чтобы они не использовали
нормы, а если будут делать это — то с предельной осторожностью.
Выборка 217
Из приведенных рассуждений ясно, что при установлении норм
нет никаких теоретических проблем.
Наоборот, обычной трудностью является отсутствие ресурсов:
времени, денег, испытуемых и помощников для проведения
тестирования и обработки тестов.
Однако, если тест предназначен для практических целей отбора
детей для продолжения образования, профотбора и
профориентации, то естественно, что его нормы должны удовлетворять высоким
стандартам, описанным здесь. Существенно важно использование
стратифицированных и больших выборок.
10.3. Выборки на разных этапах создания тестов
При создании тестов школьных достижений могут быть
использованы по крайней мере 5 видов выборочных совокупностей,
которые могут существенно отличаться как по объему, так и по
репрезентативности. Определяющим здесь, кроме статистических
характеристик генеральной, являются те цели, которые преследует создатель
на этапе апробации.
Внимание! Приведенные ниже цифры объемов выборки
являются не более чем ориентиром, очень приближенным. Их
использование не может быть рекомендовано.
1. Самая маленькая выборка может быть использована для
проверки формулировок открытых вопросов. Для выполнения этой
работы может оказаться достаточной выборка в 30-50 человек или 2-3
класса. С точки зрения репрезентативности в нее должны войти
разные классы (по профилю и уровню подготовки) из тех, для кого
предназначен тест. Для этой работы лучше проводить сплошное
обследование класса, т.е. в нем должны принять участие все учащиеся
класса.
2. Для определения времени, необходимого для выполнения заданий и
теста целиком и для выявления ошибок (опечатки, орфографические
ошибки и пр.) в текстах заданий. Для выполнения этой работы так же
может быть взята небольшая выборка, мало того, поскольку нас, как
правило, интересует верхняя граница времени выполнения теста для
выполнения этих работ в состав выборки можно включить лучших
учащихся, по остальным возможным стратам желательно сделать выборку
репрезентативной (мальчики-девочки, профиль классов, отличия
образовательных учреждений и т.д.). Объем выборки в абсолютном
выражении может быть оценен в 100—200 учеников.
3. Для определения трудности и дискриминативности заданий важно
участие в тестировании как группы сильных учащихся, так и группы
218 Глава 10
слабых учеников. Для этой апробации вполне применим метод крайних
групп, когда в выборку отбираются наиболее и наименее успешные
ученики. Такой подход позволяет уменьшить объем выборочной
совокупности, но при этом могут возникнуть сложности с расчетом сложности
заданий, возможно его придется просчитать для двух этих групп. Объем
выборки можно оценить в 200 человек.
4. Для определения надежности и валидности теста. Для
проведения апробации теста с этими целями важен не столько объем,
сколько репрезентативность выборки. Она должна быть тщательно
выверена и сбалансирована по всем возможным стратам. Объема в 200-
300 испытуемых, как правило, может оказаться достаточно.
5. Для получения норм предъявляются максимальные
требования к объему и репрезентативности выборки. Она должна полностью
соответствовать генеральной совокупности, на которой
предполагается использование тестов. Объем выборки для получения норм
будет зависеть от вида норм, которые предполагается получить —
школьные, локальные, региональные, федеральные. Выборка для
получения норм должна тщательно формироваться как по объему
(желательно, чтобы объем выборки был спроектирован на основе по
крайне мере двух методов), так и по репрезентативности, для
определения которой следует выделить максимальное количество
возможных страт. Объем выборки для определения норм в 1000
учащихся не кажется излишним.
В заключение хочется привести еще два правила:
1) лучше плохая выборка, чем никакой;
2) лучше маленькая и репрезентативная выборка, чем большая, но
нерепрезентативная.
Глава 11 219
Глава 11
Методическое оснащение
Методическое оснащение должно решать одну из основных задач
тестирования — задачу объективности получаемых результатов - оно
должно обеспечивать одинаковость условий для всех испытуемых.
Методическое оснащение — составная часть теста, которая
состоит из комплекта сведений, инструкций и рекомендаций, которые
в комплексе обеспечивают всем испытуемым равные условия на всех
этапах использования теста.
Методическое оснащение включает в себя несколько частей:
сведения, которые необходимо знать пользователю теста об
инструменте;
правила и требования предъявления теста испытуемым;
правила обработки результатов;
рекомендации по интерпретации полученных данных.
Подбор оснащения зависит от назначения тестов, от их вида и
количества участников.
Основным видом тестов школьных достижений являются
групповые тесты. Групповое тестирование определяется в первую очередь
запросами практики.
Опыт проведения тестов достижений среди детей России и
стран СНГ позволяет говорить еще об одной особенности
проведения тестов в нашей стране, особенно если это исследование носит
сравнительный характер. Эта особенность вытекает из исторически
сложившегося отсутствия опыта тестирования и ответов на вопросы,
в которых нужно дать качественную оценку какому-либо явлению
или процессу. В результате такого положения возникает такое
количество случайных ошибок, что они могут существенно повлиять на
итоги тестирования.
В настоящее время есть основания говорить о крайней
неоднородности в подготовке детей к тестированию, кто-то имеет
достаточно существенный опыт выполнения тестовых работ, для кого-то
тестирование — первая встреча с тестом. Вероятно такая ситуация
сохраниться достаточно длительное время. Отсюда необходима
особая тщательность при написании инструкций для детей и
экспериментаторов, их качественная подготовка. В некоторых случаях
бывает целесообразно проведение тренировочного тестирования, в
процессе которого будут отработаны навыки выполнения тестовых
заданий разного типа, исправления ошибок, исправления
исправленного. Не так страшно и сложно само тестирование, как боязнь перед
220 Методическое оснащение
ним. Наличие даже минимального опыта снимает
психоэмоциональное напряжение, стабилизирует мотивацию.
Разработка методического оснащения будет отличаться в
зависимости от того, какой способ предъявления теста выбран -
индивидуальные тесты, тесты с использование тестовых тетрадей или бланков,
тесты выполняемые на компьютере.
Индивидуальные тесты, представляются некоторой экзотикой
для нашей системы образования, однако, они имеют свою нишу на
поле образовательного тестирования. Их рекомендуется применять в
следующих случаях:
1) большое количество заданий в тесте с открытыми
вариантами ответов;
2) требуется повысить достоверность результатов;
3) требуется непрерывное наблюдение за работой испытуемых,
фиксация промежуточных результатов, времени, или нужен тесный
контакт с испытуемым с целью оптимизации его деятельности
(например, корректировка промежуточных результатов);
4) испытуемые не умеют читать и писать, либо плохо или
совсем не знают языка;
5) тестирование лиц с соматическими или нервно-
психическими расстройствами или пониженным интеллектом (на
проблемах адаптации тестов для детей с физическими недостатками
мы еще остановимся).
Индивидуальные тесты требуют большего времени и более
высокой квалификации экспериментатора. В этом смысле они менее
экономичны по сравнению с групповыми. Индивидуальное тестирование
играет особенно важную роль на начальном этапе многих
психологических исследований. Большинство предметных и аппаратных тестов
проводятся индивидуально. В некотором смысле апробация теста с целью
уточнения времени на проведение всего теста и тестовых заданий
обладает элементами индивидуального тестирования.
Использование бланковых тестов обеспечивает большую
экономичность процедуры и массовость выборок. Как мы уже отмечали,
среди классификации тестов по средствам предъявления выделяют
бланковые (тесты «бумага и карандаш»), эти тесты в свою очередь
можно разделить на два вида:
— с использованием тестовых тетрадей, в которых находятся
тестовые задания и в которых испытуемый фиксирует результаты;
— с использованием бланков, в которых испытуемые отмечают
или вписывают правильные ответы (фиксируют ответы). Бланки
предъявляются отдельно от заданий.
Глава 11 221
В случае использования тестовых тетрадей, все пометки,
вычисления, ответы делаются испытуемыми только в тестовой тетради,
которая содержит необходимые инструкции для учащихся и всю
необходимую информацию по тестовым заданиям. Проведение
тестирования с использованием тестовых тетрадей самый надежный
качественный и объективный способ заполнения тестового инструмента. Все
международные исследования, вся аттестация учащихся в развитых
странах проходит только с использованием тестовых тетрадей. Этот
способ единственный, который позволяет дать оценку не только
решению задачи, но и ее процессу. Самое главное — он оставляет в
руках проверяющих материальный носитель выполнения тестовых
заданий, что является необходимым условием рассмотрения
апелляций и жалоб по результатам выполнения работы.
Тесты с использованием бланков позволяют экономить
значительные материальные ресурсы, и этим они являются чрезвычайно
привлекательными. Для текущей работы учителя в нашей стране
тесты с использованием бланков являются на сегодняшний день
наиболее рациональной формой тестирования. Рассмотрим более
подробно особенности оснащения тестов с использованием бланков. В
случае использования таких тестов бланк ответа (регистрационный
бланк, протокол) является неотъемлемой частью теста. Он
представляет собой лист или несколько листов, на которых отмечаются
ответы тестируемого ученика. К этому бланку прилагаются тетради с
заданиями. Типовая тестовая тетрадь, как правило, состоит из набора
утверждений, вопросов или задач. На бланке отражена
последовательность задач с вариантами ответов или с пропусками в
соответствии с типом вопросов.
Правила разработки бланков
Существуют определенные правила для разработки бланка:
1. Составляется таким образом, чтобы свести к минимуму
непродуктивную работу испытуемого по отыскиванию места для
проставления ответа.
2. Предпочтительно по возможности свести ответ к обведению
кружком, преимущества такого способа заполнения мы уже
обсуждали (обязательно для задач закрытого типа).
3. Бланк не должен быть перегружен цифрами, делениями,
строками и др. обозначениями.
4. Ответы по отдельным сериям (субтестам) должны выделяться
на бланке отдельно. Если групп заданий нет, но их количество
велико — графы для ответов должны разделяться на отдельные блоки по
10—25 заданий.
222 Методическое оснащение
5. Из бланка, как правило, исключают название теста.
6. На бланке должны быть предусмотрены места для
проставления необходимых паспортных данных, а также номера регистрации
обследования и даты проведения.
7. Иногда целесообразно дважды поместить инструкцию для
испытуемого на бланке и в тетради с заданиями.
8. При переходе к ответам на новую группу заданий необходимо
поместить примеры заполнения граф.
9. Задачи в тестах расположены, как правило, в порядке
возрастания сложности. Перед задачами должна быть инструкция
испытуемому по выполнению теста с одним-двумя примерами. На
примерах учащийся знакомится с типом и формой задач, с правилами
ответа на вопросы, осуществляются первые попытки решения задач
подобного типа.
Приведем фрагмент бланка ответов, разработанного для тестов
школьных достижений лабораторией изучения образовательных
систем Санкт-Петербурга.
Фамилия Имя Школа Класс 8 Код I II 1 1 I
Ответы на вопросы тестирования
Тренировка
1 ABCDE
2АВС0
3 Ответ:
41 .ABCD
2.ABCD
Часть 1
математика
1ABCD
2ABCD
31.ABCD
2.ABCD
4ABCD
Часть 2
биология
1 ABCDE
2ABCD
31. ABC
2.ВСА
З.САВ
4ABCD
Часть 3
физика
1ABCD
2ABCD
3ABCD
4 Ответ
Часть 4
химия
1ABCD
2ABCD
3 Ответ:
4ABCD
Как можно видеть, испытание с этим бланком предусматривает
тренировочное тестирование учащихся, в нем использованы задания
множественного выбора. На восстановление соответствия, на
восстановление последовательности, дополнения. Форма
представления в бланке тестовых заданий альтернативных ответов и
дополнения совпадают, — выполняя задания альтернативных ответов,
учащиеся должны вписать соответствующую комбинацию ответов «да»
и «-нет» на строке, оставленной для ответа.
Формы для обработки и анализа результатов создаются также с
учетом указанных требований и не должны затруднять работу
исследователя.
Как правило, в методические материалы к тестам прилагаются
образцы бланков. Соблюдение точности бланка необходимо, так как
— Глава 11 223
для ряда методик незначительные изменения внешнего вида бланка
могут существенно изменить результаты его работы. Таким образом,
бланк составляется так, чтобы обеспечить наибольшее удобство при
его заполнении и обработке.
Руководство к тесту пишется для его пользователей,
в нем излагаются основные сведения о тесте:
1) назначение и педагогическое или психолого-педагогическое
содержание;
2) ограничения и показания для применения;
3) состав теста;
4) информация об апробации теста (цели апробации, объем и
состав выборки, основные статистические характеристики);
5) инструкция для ведущего (указания к проведению теста);
6) ключи;
7) данные о трудности и дискриминативности заданий;
8) данные о надежности, валидности и трудности всего теста;
9) другие статистические материалы;
10) правила обработки данных;
11) устройство шкал;
12) правила и особенности интерпретации результатов.
Состав инструкции для ведущего:
1) условия проведения теста;
2) материалы и приборы, требуемых при проведении
(карандаши, резинки, приборы, черновики, бланки для ответов,
отношение к использованию калькуляторов и др.); порядок их
размещения и предъявления;
3) временные ограничения;
4) полный текст инструкции для испытуемых;
5) поведение экспериментатора во время проведения теста (что
он обязан, что может делать и что ему запрещено);
6) описания ответов на возможные типичные вопросы, в том
числе вариант ответа на те вопросы, на которые ведущему отвечать
запрещено;
7) указания о решении вопроса об угадывании;
8) необходимая квалификация для лиц, которые проводят
тестирование, проверяют правильность выполнения, анализируют
результаты;
9) вопросы конфиденциальности и доступа к получаемой в
результате тестирования информации;
10) инструкция по проверке результатов и занесению
результатов на магнитный носитель.
224 Методическое оснащение
Инструкции для ведущего и испытуемого входят в состав всех
стандартизированных тестов и определяют его объективный
характер. Инструкция для ведущего приводится, как правило, в
руководстве, а инструкция для испытуемого — в тестовой тетради
(возможно, на лицевой странице регистрационного бланка).
Пример несложной инструкции для ведущего приведен в
приложении «Руководство для ведущего».
Состав инструкция для испытуемого
1) описание назначения теста (если это не противоречит
условиям тестирования);
2) правила заполнения бланков для ответов (тестовых тетрадей);
3) образцы решения задач-образцов, по крайней мере, по одной
на каждый тип заданий, представленных в тесте;
4) образцы исправления неверно выполненного задания и
образцы исправления исправленного.
Изложение инструкций должно быть ясным, доступным и
подробным. От этого зависит понимание их испытуемыми и отсутствие
лишних вопросов.
Зачем нужно предупреждение для учащихся?
Кроме этого инструкция может содержать правила поведения
учащегося и санкции за нарушения этих правил. Как показывает
опыт, наиболее целесообразно предупреждения для учащихся
размещать в образовательном учреждении накануне экзамена, а устное
сообщение для учащихся делать накануне. Текст предупреждения
для учащихся может выглядеть следующим образом:
Предупреждение для учащихся
Вы сдаете экзамен в форме тестирования.
Сообщаем Вам, что:
Вы имеете право:
S задавать вопросы по процедуре проведения до полного
понимания того, что от Вас требуется;
S выполнять работу самостоятельно;
S в рамках временных ограничений выбирать темп работы;
S в соответствии с инструкцией, выбирать порядок выполнения
тестовых заданий.
Во время экзамена:
□ не разрешается пользоваться никакими справочными
материалами на любом виде носителей, микрокалькуляторами и другими
вспомогательными материалами или инструментами;
□ запрещается разговаривать, с кем бы то ни было, получать
консультации, подсказки каким бы то ни было способом;
Глава 11 225
а запрещается задавать вопросы, разговаривать, обращаться
любым иным образом к другим учащимся.
Вы должны помнить:
• за нарушение этих правил имеют права и полномочия удалить
Вас из класса и (или) результаты Вашего экзамена могут быть
аннулированы;
• повторного тестирования по мотивам дисциплинарного
нарушения не предусмотрено.
Пример инструкции для учащегося заполнения теста
приводится в приложении «Руководство для исследователя».
Вне зависимости от происхождения теста (создание нового,
модификация старого, адаптация теста) инструкции составляются к
каждому из них. Хотелось бы обратить на это обстоятельство
внимание разработчиков и пользователей компьютерных тестов.
Рекомендуется соблюдать следующий порядок составления
инструкций.
1. Написание первого варианта инструкций.
2. Первое опытное проведение теста.
3. Устранение грубых ошибок в инструкциях.
4. Апробация инструкции при проведении проверочного
тестирования (желательно, чтобы проводящий тестирование не принимал
участие в составлении инструкции).
5. Окончательная редакция инструкций.
В.К. Гайда и В.П. Захаров указывают, что точное выполнение
разработанных таким образом инструкций является обязательным
для всех пользователей, желающих получить сравнимые результаты.
Изменение инструкций допустимо только в том случае, если они
показали свою несостоятельность и не осуществляются с
выполнением всех требований стандартизации теста.
Ключи к тесту представляют собой наборы ответов с оценками
к вопросам или к вариантам ответов для определения степени
выраженности того или иного свойства личности. В тестах достижений
ключом к тесту являются упорядоченные наборы правильных (или
неправильных) ответов на вопросы или задачи.
По сути, ключи являются трансформированной
технологической матрицей, в которую вписаны варианты правильных ответов.
Приведем два примера выдержек из ключей. Первый пример
построен на самом простом варианте технологической матрицы,
который содержит только темы изучаемого курса. Во втором примере
более сложный вариант технологической матрицы, в котором
использованы три уровня обученности школьников, разработанных на
основании таксономии целей Б. Блума.
226 Методическое оснащение
КЛЮЧИ
Биология 8-й класс
Код
Б1
Б6
Б7
Б8
Б11
Б15
Б16
Правильный ответ
...цисты
...незамкнутая
В
А2,4;В1,3,5
да-нет-нет-да-да
A3; В4; С1; D6; Е2; F5
С
Тема
Простейшие
Членистоногие
Простейшие
Рыбы
Членистоногие
Земноводные
Рыбы
ключи
Математика 8-й класс
Код
Ml
М7
М25
М12
Правильный ответ
-3;1;4
нет-да-да-нет
A3;B2;C1;D6;E5;
F4
128
Тема
Функции, графики функций
Решение линейных неравенств
Линейная функция и ее график
Степень с натуральным показателем
Уровень
Репродукция
Понимание
Перенос
Репродукция
Приведенные ключи сами по себе представляют неплохой
объект для анализа, с целью оценки качества тестового инструментария.
По ключам можно судить о разнообразии использованных заданий,
качестве подбора вариантов ответов, полноты охвата тем изучаемого
курса и их баланс, состав технологической матрицы, возможные
варианты анализа и т.д.
Разработка требований к условиям проведения тестов
Разработка теста, позволяющего получить объективные
результаты, предполагает учет условий, необходимых для успешного его
проведения. Результаты теста во многом зависят от внешних условий
его проведения — физических, психологических и технологических.
При определении таковых условий учитываются
характеристики помещения, его оснащение, наличие или отсутствие
отвлекающих факторов, состояние тестовых материалов, субъективно-
психологические факторы.
В.К. Гайда предлагает учитывать следующие характеристики
помещений при выявлении условий проведения теста:
1. Удельный объем помещения на 1 человека (в соответствии с
санитарно-гигиеническими нормами — не менее 2,0 кв.м на 1 чел.).
2. Освещенность (равномерное распределение света по
поверхности стола, прибора, при интенсивности освещения не ниже 500
люксов).
3. Вентилируемость.
4. Уровень шума (не выше 4 сонов).
Глава 11 227
5. Акустические характеристики.
Нам такие требования представляются чрезвычайно сложными,
избыточными, поскольку их выполнение без специального
оборудования и специалистов оценено быть не может.
При групповом проведении теста, как основного для тестов
достижений, требования к формальной стороне процедуры
проведения могут быть следующие:
— обеспечение инструментарием в необходимых
количествах, в случае, когда используются простые материалы —
карандаши, ластики, ручки, фломастеры, необходимо иметь их полутора-
кратный запас;
— обеспечить наличие столов и стульев в количестве,
необходимом для проведения исследования, представляется лучшим
вариантом, когда каждый ученик располагается за отдельной партой;
— разместить столы и стулья так, чтобы к каждому испытуемому
было удобно подойти;
— обеспечить каждому испытуемому за столом удобное место,
что достигается подбором помещения, оснащенного мебелью
необходимых размеров;
— оборудовать место для ведущего и, если это необходимо для
наблюдателя с максимальным обзором.
Особое место среди факторов, влияющих на индивидуальную и
групповую работоспособность испытуемых, занимает время
проведения теста и характер деятельности учащихся до тестирования.
Наиболее благоприятно время с 9 до 12 или с 16 до 18 часов.
Поскольку речь идет о тестах школьных достижений, то наиболее
приемлемо время второго или третьего урока первой смены. Авторами
тестов может быть выдвинуто требование не проводить тестирование
после занятий физической культурой и спортом. В любом случае
требования к процедуре проведения должны быть зафиксированы в
инструкциях для исследователя.
При организации обстановки для проведения тестов важно
учитывать ситуативные отвлекающие факторы, К ним относятся:
шумы (с улицы, из других частей здания, радио и телетрансляции
и т.п.), звонки, стук, звук шагов, гудение неисправных ламп
дневного света; запах (пищи, краски и пр.); освещенность
(достаточность и удобство освещения, отсутствие мигания света);
неопрятность столов, помещения и т.д.
Перед началом тестирования экспериментатор должен оценить
состояние тестируемых. Визуально можно определить состояние
возбуждения или депрессии, учащихся, у которых отмечается проявления таких
состояний, желательно не допускать к тестированию. В том случае, если
228 Методическое оснащение
тестирование является частью учебной работы или аттестации
учащихся, то их участие в тестировании обязательно.
Непосредственная подготовка к проведению теста заключается в
проверке состояния помещения, его оснащения, пригодности для
размещения определенного числа испытуемых, а также устранении или
уменьшении ситуативных отвлекающих факторов и проверке наличия,
состояния и размещения тестовых установок и материалов.
Сценарий проведения исследования
в общем виде должен включать в себя следующие необходимые
сведения, которые могут сообщаться испытуемым (в зависимости от
условий тестирования что-то может быть сокращено или добавлено.
Например, в приведенном в приложении сценарии достаточно
подробно описана процедура раздачи и сбора тестовых тетрадей):
1. Объяснить, зачем нужен тест, сообщить, какие результаты
ожидаются.
2. Объяснить, почему испытуемые должны приложить
максимум усилий для его выполнения, акцентировать внимание
испытуемого на возможности проверки своих сил или подчеркнуть
соревновательный мотив, при этом следует подчеркнуть, что как сильная
мотивировка, так и слабая в одинаковой степени негативно
сказываются на результативности выполнения заданий.
3. Медленно, громко, четко, без запинок, естественным
голосом прочесть инструкцию к тесту с примерами, если они имеются. В
данном случае возможен вариант, когда испытуемые самостоятельно
следят по своим вариантам текста за инструкцией. При таком
порядке возможно воспроизведение инструкции по памяти.
4. Дать возможность испытуемым потренироваться, решив
самостоятельно одну или более задач-образцов, если таковые имеются,
проверить, правильно ли понята инструкция.
5. Сообщить о временном ресурсе, о правилах исправления
допущенных ошибок, о том, чего не рекомендуется делать при
решении задач, к кому обращаться в случае возникновения вопросов.
6. Вместе с испытуемыми или самому заполнить, если
требуется, паспортные и биографические данные в регистрационных
бланках. Проследить за правильностью заполнения.
7. Ответить на имеющиеся вопросы.
8. Дать команду начать решение задач теста. Время начала
записать самому или попросить сделать это испытуемых на
регистрационном бланке.
9. Во время решения задач или ответов на вопросы следить:
— за временем решения (если это необходимо);
Глава 11 229
— за наличием отточенных карандашей и других материалов;
— за правильностью заполнения паспортной части
регистрационных бланков (если замечена ошибка — своевременно ее устранить);
— за тем, чтобы испытуемые не писали на тестовых брошюрах, если
иное не предусмотрено, не портили тестовых установок и приборов;
— за тем, чтобы соседи не общались между собой, не шептались,
не мешали друг другу, не подглядывали друг у друга;
— за состоянием испытуемых;
— за тем, чтобы испытуемые своевременно получали ответы на
вопросы в ситуациях, связанных с процедурой проведения (ответы
не должны служить подсказкой для решения или нарушать указания
руководства, возможные варианты ответов должны быть
предусмотрены в руководстве).
10. После сигнала окончания решения задач теста при
групповом проведении дать команду сложить брошюры и бланки для
ответов в исходное положение или самому собрать (если участвует не
более 30 человек). Если участников тестирования больше 30 человек,
то рекомендуется попросить всех оставаться на своих местах, чтобы
облегчить сбор материала. Затем попросить передать в начало или
конец колонки (ряда) тестовые материалы в следующем порядке:
бланки для ответов, брошюры, черновики. После этого пересчитать
количество бланков и брошюр, проверить, чтобы их количество
совпадало с числом испытуемых.
11. По окончании тестирования просмотреть все брошюры и
стереть пометки на них; если это невозможно — брошюры следует
уничтожить.
Кроме этого, сценарий должен предусматривать процедуру
приветствия и благодарности за выполненную работу, действия
экспериментатора с опоздавшими учащимися и просьбами учеников
временно покинуть место проведения тестирования, ответы на
наиболее часто встречающиеся вопросы и некоторые другие
процедурные вопросы по усмотрению авторов.
Требования к личности ведущего
Проводить тестирование может только специально
подготовленный человек. Он должен удовлетворять следующим
профессиональным и личностным требованиям:
1) понимание задач тестирования, компетентность в
проведении теста, а если ему предстоит обработка результатов, то и в
оценивании результатов;
2) умение контролировать себя, эмоциональная
уравновешенность, общительность, тактичность.
230 Методическое оснащение
Для тестов школьных достижений представляется важным ,
чтобы ведущий имел одинаковый статус по отношению к учащимся.
То есть если ведущим является учитель того предмета, по которому
проводится испытание, или заместитель директора. Представляется
не столь существенным, кто из педагогических работников будет
выступать в качестве ведущего. Важнее, чтобы их статус в разных
ситуациях проведения сохранялся. Автор теста должен
предусмотреть вариант адекватной замены ведущего.
Наблюдатели
Значительные возможности по стандартизации процедуры
проведения тестирования дает институт наблюдателей.
Наблюдатель — лицо, фиксирующее процедуру проведения и
соответствие действий ведущего (исследователя) сценарию
тестирования. Наблюдателю запрещается вмешиваться в процесс
тестирования. Присутствие наблюдателя, несомненно, удорожает
проведение исследования, однако при этом значительный выигрыш в
качестве может компенсировать все дополнительные затраты. Ведь в
случае некачественного проведения все затраты могут оказаться
напрасными. Кроме этого, наблюдатели могут присутствовать не на
всех процедурах тестирования, однако сама возможность их
присутствия в значительной степени дисциплинирует исследователей.
Присутствие наблюдателей позволяет сравнить качество
проведения тестирования у разных ведущих, в тех группах, где
присутствовал наблюдатель, и там, где не присутствовал. Наш опыт
использования института наблюдателей говорит о том, что процедурные
ошибки могут добавлять до 50% разброса в результативность
выполнения тестов. Особенно важно присутствие наблюдателя на этапе
апробации инструментария, поскольку он дает возможность собрать
материал для дальнейшей работы над инструментом.
Деятельность наблюдателя заключается в заполнении анкеты
наблюдателя, в которой, кроме фиксации времени и оценки
правильности выполнения ведущим пунктов сценария, должны
содержаться вопросы по оценке поведения учащихся, корректности
поведения ведущего, неординарных случаях.
Институт наблюдателей предполагает наличие инструкции по
использованию анкеты наблюдателя. В ней должны содержаться сведения
о том, при каких нарушениях процедуры, зафиксированных
наблюдателем, результаты тестирования могут быть аннулированы.
Основываясь на собственной практике, можно сказать о том,
что сам факт присутствия наблюдателя настолько дисциплинирует
ведущего, что за 6 лет работы не было случая, когда пришлось бы
воспользоваться этой инструкцией.
Глава 12 231
Глава 12
Артефакты и факторы, искажающие результаты
тестирования
Если говорить совсем строго, то любое социальное измерение
или неверно или неточно или искажено. Тестирование, как и любое
другое измерение социальных систем испытывает мощное
воздействие целого ряда факторов. Но при этом трудно судить о том, какое
комплексное воздействие оказывают все эти факторы. Попытаемся
их назвать и зафиксировать их потенциальную опасность, а в
некоторых случаях наметить пути учета, для тестирования.
Примерный список этих факторов может выглядеть следующим
образом:
1) Качество инструментария.
2) Профессионализм и подготовленность людей.
3) Изменение людей в процессе измерения.
4) Статистическая регрессия.
5) Цикличность.
6) Отбор испытуемых.
7) Значимость индикатора и его смещение.
8) Нарушение в информационных потоках.
9) Показатели и индикаторы.
10) Эффект повторного измерения.
11) Изменения группы под влиянием отношений окружающих,
вызванных экспериментальным воздействием.
12) Групповая фальсификация результатов.
13) Изменение группы в процессе проведения эксперимента.
14) Естественное развитие.
15) Социально-территориальные особенности групп.
16) Различная внутренняя жизнь групп
17) Разные события для разных групп.
18) Различная скорость протекания внутригрупповых процессов.
19) Условия, вызывающие реакцию на эксперимент.
20) Интерференция воздействий.
21) Синергизм.
22) Компенсаторность.
Вряд ли этот список носит конечный характер, возможно,
какие-то факторы остались за полем нашего зрения, какие-то могут
появиться с развитием науки. В настоящее время мы можем с
достаточной уверенностью говорить только о том, что учет этих факторов
при проведении измерений необходим. В том случае, если их влия-
232 Артефакты и факторы, искажающие результаты тестирования
ние не предусмотреть, вероятность получения некорректного
результата значительно возрастает.
Согласно В. П. Щедровицкому, любая деятельность связана с
тремя типами последствий: контролируемыми и учитываемыми,
неконтролируемыми, но учитываемыми и неконтролируемыми и
неучитываемыми. Задача хорошего измерения минимизировать
влияние последних, хотя, если говорить строго, совсем устранить эти
влияния невозможно.
Перечисленные факторы могут быть разбиты на четыре группы.
1) Контролируемые при проведении измерения.
2) Могут контролироваться при определенных условиях.
3) Неконтролируемые, но учитываемые.
4) Неконтролируемые и неучитываемые.
В качестве примера последней группы факторов можно
привести влияние солнечной активности, состояния магнитосферы и пр.
Возможно, что кому-то они покажутся несколько искусственными
или экзотичными, однако оспаривать их возможное влияние на
результаты измерения вряд ли возможно. Если подходить строго, то и
влияние этих факторов должно быть, по крайней мере, изучаемо.
Однако, для большинства экспериментов, необходимая точность
измерения достигается без учета этих факторов, для части случаев
измерения (например одномоментных) они могут считаться
учтенными.
Попытаемся коротко пояснить представленные выше факторы.
1. Качество инструментария
Контролируемый при проведении эксперимента фактор. Это
достаточно широкий фактор. Общеметодологическими
требованиями к инструменту остаются валидность, надежность, удобство
использования, соответствие целям обследования, корректность
статистических процедур, стандартизированность, апробированность и
другие. Если говорить о реальной практике проведения
обследований, то можно назвать три основных причины, которые приводят к
неудовлетворительному качеству инструментария:
Использование инструментария для иных целей, чем те, для
которых они разрабатывались, особенно это характерно для
использования психологического инструментария в образовании. Как
нормальная практика рассматривается использование психологических
гестов которые создавались для выявления структуры интеллекта,
отдельных психических познавательных процессов, для отбора детей
в образовательные учреждения. Печальные последствия таких
измерений достаточно широко известны работникам управления
образованием, руководителям учреждений образования повышенного
Глава 12 233
уровня. В технике никому не придет в голову использовать
микрометр для измерения расстояния до соседнего города, или
использовать амперметр для измерения объема. Для системы образования на
сегодня — это скорее прискорбная норма.
«Усовершенствования» инструментария. Существует
достаточно большое количество качественного инструментария,
стандартизированного и нормированного. Однако его использование часто
бывает слишком вольным. Апофеозом этого подхода можно назвать
рекомендацию использовать тест Люшера как групповой тест для
определения общего настроения класса.
Обнадеживает значительный прогресс за последние несколько
лет. Несмотря на то, что с теоретической точки зрения, проблемы
измерения результатов учебного процесса достаточно ясны,
приходится постоянно сталкиваться с фактами использования
инструмента не по назначению (психологических тестов для оценки
эффективности работы школы), попытками использовать одни оценки
вместо других (усредненные школьные оценки как показатель
эффективности учебного процесса), использование инструмента,
построенного на основах, не выдерживающих элементарной критики
(уровневые контрольные работы) и т.д.
К основным проблемам можно отнести:
низкое ресурсное обеспечение, кадровое (для подготовки
полноценного теста необходимы скоординированные усилия
специалистов по крайне мере 12 специальностей, часть из которых не
являются педагогами:
Виды работ
Построение технологической матрицы
Составление заданий
Экспертиза заданий
Составление тестов из тестовых заданий
Построение выборки
Апробация заданий
Расчет показателей качества
Составление тестов после апробации
Повторная апробация
Подготовка тестов для издания
Необходимые специалисты
Педагог, психолог
Педагоги, методисты
Методисты, тестологи
Тестологи, редактор, технический редактор,
верстальщик, художник
Социолог, статистик
Педагог, социолог
Социолог, тестолог, математик
Тестолог, педагог
Педагог, социолог
Художественный редактор, технический редактор,
верстальщик
материальное (создание полноценного теста для итогового
тестирования по одному предмету для одного класса по международным
оценкам составляет 10—50 тыс. долларов, в наших условиях эта цифра
может быть снижена, однако ее снижение до голого энтузиазма
невозможна), ресурсы времени (разработка полноценного теста занимает два-
три года, а результат управленцы требуют уже сейчас).
234 Артефакты и факторы, искажающие результаты тестирования
2. Профессионализм и подготовленность людей
Фактор, контролируемый при проведении обследования.
Процесс измерения разбивается, как правило, на несколько этапов:
создание инструментария, проведение измерения, интерпретация
результатов, подготовка рекомендаций.
Вполне естественно, что эти этапы могут быть реализованы
разными людьми.
Тестирование минимизирует влияние субъективного фактора,
связанного с личностью ведущего. При качественном методическом
оснащении и соблюдении процедуры этот фактор во внимание
можно не принимать. Выход из такой ситуации достаточно прост. Чем
меньший профессионализм предполагается у пользователя, тем
более жесткой должна быть инструкция по проведению и жестче
должен быть контроль за соблюдением этой процедуры.
3. Изменение людей в процессе измерения
Этот фактор относится к контролируемым при определенных
условиях.
В том случае, когда в процессе обследования используются
экспертные оценки, в качестве метода исследования применяется
наблюдение. При контент-анализе, в процессе работы происходят
изменения тех людей, которые участвуют в измерении. Причина этих
изменений — научение, появление опыта, согласование позиций,
когда мнение более авторитетного эксперта начинает смещать
оценки других экспертов. Для тестирования, особенно при разработке
технологической матрицы ее экспертизе, экспертизе тестовых
заданий и всего теста проблема согласованных действий экспертов
весьма актуальна.
4. Статистическая регрессия
Вариант искажения результатов в процессе проведения
обследования подробно описан Д. Кэмпбеллом. Смысл этого явления
достаточно прост, несмотря на сложное доказательство величины
смещения и доказательство необходимости учета этого эффекта.
Представим себе, что мы провели тестирование группы
обучающихся. Вполне естественно, что часть из них выполнила тест
лучше, другая часть хуже. На результативность выполнения теста
отдельным учеником оказывает влияние целый ряд факторов.
Среди них: собственно знание материала(уровень овладения),
настроение, самочувствие, усталость, умение выполнять
операции, связанные с заполнением теста, угадывание верных ответов,
везение и некоторые другие. Из перечисленных нами факторов
только один может не измениться к следующему тестированию —
это первый из перечисленных выше.
Глава 12 235
В том случае, если мы возьмем группу учащихся, лучше других
справившихся с первым тестированием, и проведем повторное
тестирование, то окажется, что они получили результаты ниже, чем в первом
тестировании. Причина этого в том, что перечисленные нами факторы в
изменившихся условиях оказывают уже не то (для лучшей группы
позитивное) влияние. Протестировав повторно две группы — лучших и
худших, можно прийти к выводу, что за прошедшее с предыдущего
тестирования время «умные» поглупели, а «глупые» поумнели, хотя это всего
лишь влияние регрессии для крайних групп. Несмотря на кажущуюся
гипотетичность этого случая, применительно к образованию, он все та-
ки достаточно вероятен.
Представим себе, что мы организуем специальное обучение для
отстающих. Для того, чтобы отобрать таких детей проводится
тестирование, по его результатам формируется группа, с которой
проводятся занятия. Повторное тестирование показывает повышение
результатов, что естественно служит доказательством эффективности
реализованной программы по обучению отстающих. Данный вывод
может оказаться ошибочным, поскольку при повторном
тестировании не был учтен эффект регрессии для крайней группы,
следовательно, эффективность программы таким образом доказана быть не
может.
Вероятно, в качестве метода снижения влияния этого фактора
может быть предложено увеличение надежности инструментария,
повторное тестирование, использование нетестовых форм
получения оценок.
5. Цикличность
Социальные процессы носят ярко выраженный цикличный
характер, поэтому, занимаясь социальными измерениями, необходимо
учитывать и эти факторы.
В образовательном учреждении существуют и реально
проявляются годичный и четвертные циклы. В основе этой цикличности вполне
понятные процессы. Например, к концу четверти или года
накапливается усталость и повышается раздражительность. К сожалению,
цикличность в социальных системах изучена далеко недостаточно.
Зафиксированы, например, достоверные факты цикличности связанные, с
солнечной активностью, однако они в настоящее время могут быть отнесены
только к неконтролируемым факторам.
В том случае, если используется нормативно ориентированный
тест, который проходил апробацию и нормирование в те же сроки,
когда проходит его использование, годичная цикличность рандоми-
зируется. Однако вопрос о времени и возможных сроках
использования тестов остается. Достаточно очевидно, что использовать тест
236 Артефакты и факторы, искажающие результаты тестирования
через полгода и сравнивать полученные результаты некорректно.
Проведение тестирования с разницей в 1-2 дня представляется
корректным. На сегодняшний день нет работ, которые доказательно
могли бы определить календарный период использования тестов.
При проведении таких работ необходимо учитывать годичную
цикличность, которая даже в рамках небольшого календарного периода
может оказать существенное влияние. Например, перед началом и
сразу после каникул.
Конечно, совсем не учитываемыми пока оказываются циклы
большие, чем годичные.
6. Отбор испытуемых
Варианты отбора испытуемых и формирование
экспериментальных групп — несомненно, один из центральных факторов,
контроль за которым позволяет не только выровнять оценки, но и
решить проблему распространения результатов обследования на более
широкую популяцию.
В общем виде варианты могут предусматривать порядок
формирования на добровольных основах из какой-то группы, доступной
на момент измерения.
Отбор испытуемых тесно связан со следующими моментами в
проведении обследования: построением репрезентативной выборки,
рандомизацией групп.
Должна быть оптимальной и технология проведения самого
обследования. Например, в случае необходимости проведения обследования
родителей, существует несколько путей. Можно провести опрос на
очередном родительском собрании, провести почтовый опрос, посетить
родителей и опросить их дома, передать инструмент с детьми, с
просьбой вернуть заполненные анкеты на следующий день. Максимальное
соотношение цена-качество достигается при последнем варианте,
однако здесь существует опасность смещения оценок в силу жестких
инструкций педагогов, бороться с которой можно, контролируя четкую
систему инструктирования учащихся.
Иногда возникает ситуация влияния скрытых факторов при
обследовании групп, официально находящихся в равных условиях В
качестве примера можно привести изучение результатов работы
группы педагогов начальной школы, работавших в одном
учреждении в одной параллели, где все классы были сформированы по
микрорайону. Результаты одного из педагогов оказались гораздо выше
всех остальных. Это можно было бы отнести на счет большей
эффективности работы учителя, тем более, что и стаж этого педагога
значительно отличался от стажа ее коллег. Однако, при более
подробном рассмотрении оказалось, что этот педагог, обладая большим
Глава 12
237
стажем и авторитетом, принимал непосредственное участие в
распределении учеников. Таким образом, учитель и произвел
несанкционированный, скрытый, отбор в свой класс. Вполне естественно,
что дети этого класса показывали гораздо более высокие результаты.
Разобраться в сложившейся ситуации помог индикатор,
который контролировал подобного рода фактор.
При массовом характере отбора уже в течение почти
десятилетия мы не обладаем технологией учета фактора отбора и оценки его
влияния на результаты тестирования. Это смещение может иметь и
характер скрытого отбора, пример такого приведен выше.
Возможно, частично эту проблему удается решить на этапе нормирования,
когда для одно и того же инструмента могут быть получены нормы
для разного вида и уровня отбора классов. Влияние отбора может
оказываться весьма существенным, разница в результатах
тестирования может достигать 2—3 раз. Конечно, в таких условиях учет этого
фактора крайне необходим.
7. Значимость индикатора и его смещение
В том случае, если существует индикатор, значимый для
испытуемых, и он им известен, то этот индикатор начинает испытывать
неосознанное или осознаваемое воздействие со стороны
испытуемых и начинает смещаться.
Известный пример со средней оценкой аттестата, который в 70—
80-х годах принимался как одна из оценок при поступлении в вуз.
Смещение достигло такой величины, что от самой оценки пришлось
отказаться. Такая же участь угрожает достаточно информативным
индикаторам и показателям, если они известны испытуемым и используются
достаточно долго при получении значимых оценок.
Эта причина для системы образования вероятна как никакая
другая. Именно из опасности такого смещения следует разнести
проведение тестирования с контрольными и информационными целями. Это
смещение в принципе предсказуемо, и возможность принятия
адекватных мер, несомненно, в рамках тестирования существует (варьирование
временем, введение института наблюдателей, ужесточение процедуры и
пр.). Однако это смещение порождает негативные процессы в рамках
использования тестов с целью аттестации. Использование
неадекватного учебному курсу тестового инструмента порождает изменение в
преподавании. Например, если в состав итоговых тестов по биологии не
включать схемы, то их изучение начинает сокращаться. Такое влияние
тестирования на учебный процесс давно замечено специалистами,
именно оно является причиной неиспользования тестов для аттестации
учащихся в ряде стран.
238 Артефакты и факторы, искажающие результаты тестирования
8. Нарушение в информационных потоках
Проводя измерения в социальных системах мы априори
предполагаем, что объект измерения обладает какой-то значимой
информацией, специальное знакомство с которой при измерении не
предполагается. Но может оказаться так, что часть этой информации
или отсутствует, или владение ею недостаточно. Например, при
оценке эффективности различных аспектов процедуры аттестации
педагогов, были получены негативные показатели по ряду позиций
опроса руководителей образования. Можно было бы сделать вывод о
том, что предлагаемые и апробируемые процедуры неэффективны.
Однако оказалось, что эти оценки спровоцированы низкой
информированностью руководителей, то есть сбоями в информационных
потоках существующей системы управления. Для проведения
тестирования необходима полная уверенность в том, что все дети
закончили учебную программу полностью.
Своеобразным нарушением информационных потоков можно
считать тенденцию вольного обращения с учебным материалом, когда
часть учебного материала в образовательном учреждении или у учителя
может быть заменена другим. Необходимо отметить, что опасность
получения искаженных результатов в виду того, что данный материал не
изучался или изучался не в должном объеме, в условиях нашей системы
образования существует. Вероятно такая ситуация будет существовать до
принятия и введения в действие полноценных образовательных
стандартов, а это срок не одного десятилетия.
9. Различная мотивация участников в естественных условиях
При изучении социальных систем, достаточно привлекательной
выглядит возможность получения информации в естественных
условиях. Однако зачастую оказывается, что одни и те же действия,
выполняемые в рамках управления, реализуются с различными целями.
Проводить опрос учителей можно с целью аттестации
руководителя, а также затем, чтобы получить информацию для нужд
администрации образовательного учреждения. Проведение того и другого
опроса может проходить с использованием одного и того же
инструмента, однако результаты, в зависимости от важности этого опроса
для респондентов, могут быть подвергнуты существенным
искажениям.
Учет этого фактора при тестировании несложен технически —
сравнение результатов, полученных при разной мотивации
некорректно. Учесть влияние этого фактора на этапе коррекции
результатов навряд ли возможно. Как вариант учета фактора можно
предложить искусственное усиление мотивации. Если какие-то данные
были получены в рамках аттестационных процедур, то в процессе, воз-
Глава 12 239
можно, сообщить учащимся о том, что их результаты будут
использованы для аттестации, сделать так, чтобы это произошло. Однако
такой способ не всегда можно использовать.
10. Эффект повторного измерения
Выполненные предварительно задания всегда оказывают
влияние на повторное выполнение. Вопрос только в том, при каких
условиях мы можем считать эти влияния достаточно малыми с точки
зрения их воздействия на конечный результат измерения.
Причины этого явления достаточно ясны: запоминание части
вопросов, научение способу работы или решению группы задач,
эффект привыкания - смещения ответа при повторном многократном
опросе, когда респондент отвечает так же, как и в предыдущий раз,
несмотря на то, что обстоятельства или оценки изменились.
Повторное измерение тем же инструментом применительно к
нашей области представляется крайне сомнительным. С большой
степенью уверенности можно говорить о том, что эффект
повторного измерения и эффект развития делают такие измерения
некорректными.
11. Изменения группы под влиянием отношений окружающих,
вызванных экспериментальным воздействием
Попадая в те или иные экспериментальные условия, люди
начинают оценивать свое положение относительно тех людей, кто в
такие условия не попал. Если эти оценки активно поддерживаются
окружением и референтными окружающими, то у представителей
этой группы начинает вырабатываться иная система оценивания.
Педагогам достаточно широко известны эффекты «мания
величия» и «казанская сирота», которые вырабатываются в классах одной
параллели, когда для одного класса начинают создаваться особые
условия обучения. При этом не представляется существенным даже
основание, по которому проводился отбор.
Вероятно, что такое изменение может дать эффект при
тестировании. Однако его влияние вряд ли можно учесть в рамках учебного
процесса. Для выявления и возможного учета этого фактора
смещения оценок необходим учет оценок социальной эффективности
деятельности образовательного учреждения.
12. Групповая фальсификация результатов
В методологии классического эксперимента рассматривается
случай, когда респонденты договариваются о том, какие оценки они
будут давать. Это достаточно редкая ситуация тогда, когда нет
непосредственного личного взаимодействия между тем, кто проводит
измерение, и объектом измерения.
240 Артефакты и факторы, искажающие результаты тестирования
Для образования такая ситуация весьма возможна, в том случае,
если это обследование, которое проводится внутри образовательного
учреждения.
Есть и еще один аспект этой проблемы. Он связан с целями
проведения обследования. В том случае, если обследование проводится в
рамках какой-либо аттестационной процедуры, эффект групповой
фальсификации будет иметь место. Он носит часто неосознанный характер и
проявляется в отсутствии предварительного сговора.
Вероятность такого смещения оценок существует и для
тестирования. Однако ее определение достаточно просто. Фальсификация в
сторону увеличения оценок при корректной процедуре значительно
затруднена. В сторону занижения вполне вероятна. В случае
использования нормированного инструмента это смещение возможно выявить.
Аномально высокие или низкие оценки должны насторожить и
заставить исследователя проверить гипотезу такого смещения.
13. Изменение группы в процессе проведения эксперимента
Эти изменения могут носить как случайный, так и
систематический характер, они могут быть естественными и
спровоцированными.
Естественный характер носит выбытие участников группы по
объективным причинам. Они могут быть как случайные (например,
болезнь), так и систематические (отчисление и зачисление новых
членов группы).
Спровоцированные изменения могут быть связаны с желанием
выглядеть лучше. Особенно часто они проявляются при проведении
аттестационных процедур (исключаются под любым предлогом из
обследования те, кто может дать негативные оценки).
Очень наглядный пример выбывания дает Д. Кэмпбэлл в
описании гипотетического эксперимента по изучению «количества
красоты» выпускниц колледжа. Оказывается, что выпускницы колледжа
менее красивы, чем те кто в него поступает. Это факт, не
вызывающий сомнения. При рассмотрении данных, подтверждающих этот
факт можно, вероятно, сделать вывод, что обучение в колледже
негативно влияет на красоту девушек. Однако, это утверждение неверно,
поскольку оказывается, что более красивые девушки быстрее
выходят замуж и выбывают из колледжа, это и приводит к тому, что в
конце обучения количество красавиц действительно снижается.
Это достаточно легко учитываемый фактор, однако для таких
небольших групп, как класс, выбытие 3—4 человек может
существенно изменить результаты. При увеличении количества участников
тестирования его влияние конечно рандомизируется.
Глава 12 241
14. Естественное развитие
В процессе эксперимента происходит естественное развитие
как отдельных членов группы, так и всей группы в целом. Этот
фактор наиболее важен для работы с образовательными системами, где
динамика развития очень велика. Причем, чем меньше дети, тем
больше динамика их развития.
Все педагоги соглашаются с тем, что сравнение результатов,
полученных при тестировании учащихся в начале учебного года и в его
середине, не может быть признано сравнимым. К сожалению,
точного ответа на вопрос о том, какой же промежуток времени можно
считать приемлемым для сравнения, пока нет. Можно лишь
сформулировать общее требование. Этот промежуток должен быть таким,
чтобы оказывать минимальное искажающее воздействие на
результат.
15. Социально-территориальные особенности групп
Выбирая в качестве единицы измерения класс в каком-то
образовательном учреждении, необходимо учитывать его социально-
демографические характеристики, для того чтобы не получить
смещенных оценок, а также, чтобы иметь возможность корректного сравнения.
Отечественная практика в данном случае отличается от западной, где
территориальная стратификация районов застройки определяет и
качество жизни, и качество образовательных систем на той или иной
территории. Поэтому западные специалисты, в качестве единицы измерения,
охотно используют образовательное учреждение, считая, что внутри
него социальные различия достаточно гомогенизированы. Именно
поэтому они постоянно отмечают некорректность сравнения
образовательных учреждений, расположенных в разных районах. У нас
стратификация проходит иначе, не по районам застройки, а по отдельным
образовательным учреждениям и классам. Здесь в качестве фактора,
смещающего результаты измерения, могут оказаться как территориальные,
так и социально-демографические особенности отдельных классов.
Причем, это смещение может быть вызвано не только официально
сложившейся системой отбора в образовательные учреждения, но и
скрытым отбором.
Чрезвычайно важный, опасный и малоизученный фактор для
тестирования. Как мы уже отмечали, социальная стратификация,
которая сейчас проходит в школах, реализуется не по
территориальному признаку престижности городской застройки, а по отдельным
образовательным учреждениям, поэтому учесть западный опыт учета
этого фактора не представляется возможным.
Дейл Манн вообще считает, что «результаты тестирования следует
располагать в зависимости от социального статуса учащегося».
242 Артефакты и факторы, искажающие результаты тестирования
Для нас это фактор не только внутритерриториального
различия, но и различий между населенными пунктами городской и
сельской местности. Мы достаточно хорошо знаем то, что в городских
школах результаты учащихся выше, мы достаточно неплохо знаем,
почему они выше, но мы совершенно не можем учитывать эту
разницу в полученных результатах тестирования.
Возможно, учет этого фактора лежит на пути создания разных
норм.
Вероятно, рамки этого фактора распространяются и на другие
особенности, такие как половые особенности, национальная
специфика и т.д.
16. Разные события для разных групп
Экспериментальные или сравнительные группы, отобранные
для измерения, проживают собственную жизнь, наполненную
событиями, определяющими процесс групповой динамики и
протекающую вне временной и территориальной зоны эксперимента. Кроме
того, каждый член группы испытывает влияние событий частного
порядка вне группы и вне эксперимента. Значит всегда существует
опасность того, что различные воздействия в межэксперментальный
период вызовут различные смещения оценок.
17. Различная внутренняя жизнь групп
Кроме внешних событий, которые могут оказать существенное
влияние на результаты, существуют и объективные закономерности
жизни группы, связанные с морфологией группы, определяющие ее
качественные изменения, различные в каждом конкретном случае. Этот
фактор может оказать существенное влияние на выводы, сделанные по
результатам эксперимента. В качестве примера можно привести уже
рассмотренный нами пример о повышении конфликтности и
нестабильности коллектива с началом реформирования или введением
новшеств. Нестабильность коллектива характерна для всех образовательных
учреждений, в которых в той или иной форме проходит
реформирование. В одних коллективах противоречия реформ разрешаются эволюци-
онно, но длятся достаточно долго, в других революционно,
эмоционально, но быстро. Конечно измерения, связанные с определением
качества отношений и удовлетворенности, в этих коллективах не могут
дать сравнимых результатов.
Различная внутренняя жизнь групп, разные события для разных
групп и события, не связанные с воздействием, которые могут повлиять
на результат. Эти три фактора несомненно могут оказать какое-то
влияние на результаты тестирования, однако можно предположить,
что их влияние не так велико, как в случае изучения социальных и
внутри групповых процессов.
Глава 12 243
18. Различная скорость протекания внутригрупповых процессов
Экспериментальное или управленческое воздействие на ту или
иную группу может давать одинаковый эффект. Однако, в одних
группах этот эффект может проявиться достаточно быстро, и,
соответственно можно его зафиксировать. Другие группы преодолевают
достаточно длительный период адаптации, прежде чем появится тот
эффект, на который рассчитывали инициаторы воздействия.
Таким образом, существует реальная опасность зафиксировать
отсутствие эффекта, хотя он просто еще не проявился. Это весьма
важное обстоятельство, особенно когда речь может идти об оценке
эффективности различных технологий обучения. Промежуточные
измерения могут давать разный результат именно в силу того, что
процессы протекают неравномерно, причем это может быть связано
как с особенностями самой группы, так и с особенностями
технологии. В какой-то мере промежуточное исследование в рамках
мониторинга может оказаться информативным, но в специальных случаях
лучше дождаться окончательного результата.
19. Условия, вызывающие реакцию на эксперимент
Реальные изменения, наблюдаемые в экспериментальных
условиях и возникающие вне эксперимента, могут оказаться
неэквивалентными. Этот разрыв во многом объясняет тот факт, что
разработанные новые учебные программы, успешно апробированные в
режиме эксперимента, не приносят должного эффекта на этапе
внедрения в реальную практику. Спектр причин, приводящих к
подобному «сбою», может быть достаточно широким — от
неэквивалентности кадров до сокращения, в целях экономии, необходимых
технологических процессов, требуемых при внедрении.
При всем многообразии обозначенного ряда причин, этот
фактор очень важен для оценки и прогнозирования. Этот фактор
отражает угрозу, которая может возникнуть, когда результаты
эксперимента внедряют в практику и не получают тех результатов, что были
достигнуты в экспериментальных условиях. Конечно, тестирование
не может оказать существенное влияние на этот процесс, за
исключением, может быть, тех случаев, когда речь идет о внедрении самого
тестирования.
20. Интерференция воздействий
Возникает в том случае, когда один и тот же испытуемый
подвергается различным воздействиям, разнесенным по времени. Эффект от
предыдущего воздействия не исчезает совсем, а иногда может оказаться
достаточно существенным. В этом случае происходит наложение
(интерференция) воздействий. Часто не удается разделить эффекты
различных воздействий, что конечно угрожает результатам измерения.
244 Артефакты и факторы, искажающие результаты тестирования
Вполне реальный эффект, который может оказать влияние на
результаты тестирования, особенно в наших условиях. Например, один из
классов мог пройти предварительное тестирование, быть обученным
навыкам тестирования, а другой нет. В условиях, когда навыки
тестирования у детей в массовом масштабе не сформированы, такая ситуация
вполне может оказать влияние на результаты тестирования.
21. Синергизм
В случае совместного проявления некоторых воздействий, одно из
которых может носить естественный, а другое экспериментальный
(отслеживаемый) характер, эффект может значительно превзойти
предполагаемые и вероятные эффекты каждого из воздействий. В этом
случае существует опасность восприятия эксперимента как неудавшегося,
поиск ошибок или третьего воздействия.
22. Компенсаторность
Один эффект может компенсировать другой: два или несколько
воздействий, проявляясь одновременно, могут скомпенсировать
эффект, который вызывается иными событиями. Этот фактор
достаточно хорошо изучен, однако его учет в практике измерений
встречается не часто. Примером такого воздействия может служить
повышение субъетивных оценок уровня удовлетворенности заработной
платой, в случае высоких возможностей для творчества.
Рассмотренные факторы могут проявляться совместно, в
различных сочетаниях, при этом они далеко не всегда проявляются.
Синергизм и компенсаторность. Найти примеры влияния этих
факторов на результаты тестирования нам не удалось, однако это
совершенно не значит, что их не может быть.
Приложения 245
Приложение 1
Инструкция по разработке тестовых заданий
NEAB Northen Examinationes and Assesment Board
с комментариями и пояснениями
Ниже приведен образец инструкции по разработке тестовых заданий для
итоговой аттестации учащихся, которая предоставлена NEAB (Northen
Examinationes and Assesment Board), с замечаниями и пояснениями автора.
Данная инструкция предусматривает взаимодействие четырех субъектов итоговой
аттестации: разработчиков заданий — того, кто составляет задания и несет за них
ответственность вплоть до принятия их составителем, составителей тестов, тех
кто из заданий составляет тесты и несет за них полную ответственность,
ассистентов экзаменатора — лиц, которые проводят тестирование и оценивают
выполнение заданий, экспертами — лицами, которые проверяют то или иное
составляющее качества теста или процедуры, они несут ответственность в части
касающейся их компетенции.
Инструкция по составлению заданий для итогового тестирования
Вступление
1. Данная инструкция предназначена для того, чтобы обозначить некие
рамки, внутри которых создаются тестовые задания и схема оценки выполнения этих
заданий. Она должна отвечать требованиям большинства письменных экзаменов. В
случае, если инструкцию нельзя выполнить буквально, ею следует
руководствоваться по духу. Разработчик при необходимости вырабатывает специальные
инструкции по отдельным предметам или типам экзаменов.
Безопасность (сохранность) материалов
2. На всех стадиях разработки тестовых заданий должны соблюдаться
меры безопасности, предотвращающие возможность утечки информации.
Строжайшие меры должны предприниматься по сохранности всех черновых
материалов, окончательных вариантов, пилотажных копий и других связанных
с тестами материалов. Если данные материалы на определенном этапе работы
не используются, они должны храниться в надежном месте, исключающем
доступ посторонних к данным материалам. В случае, если сохранность
материалов экзаменов стоит под сомнением, разработчик должен иметь
альтернативный вариант экзаменационных вопросов.
Как уже отмечалось количество заданий, которое создается автором
больше чем необходимо. При создании заданий возможна реализация двух стратегий
— создается множество заданий не очень высокого качества (в 3—4 раза большее,
чем должно войти в итоговый тест), при этом задания отбраковываются при
выявлении любого недочета либо создается незначительно большее количество
заданий, однако каждое из заданий дорабатывается особенно качественно,
задания корректируются и трансформируются неоднократно. Однако в любом
случае количество заданий должно превышать итоговое на менее чем в 1,5 раза.
246 Приложения '
Стратегия составления заданий определяется целями тестирования и
материальными ресурсами разработчиков.
Время представления материалов
3. Все представленные материалы получаются и тщательно изучаются
составителем тестов за год до проведения экзаменов. Разработчик начинает
свою работу непосредственно после определения графика работ по составлению
и перепроверке заданий.
В Великобритании принят двухлетний цикл разработки тестов для
итогового тестирования, но второй год падает оценка тестовых заданий и
составление из них тестов.
4. Все материалы, пересылаемые по почте, должны посылаться заказным
письмом.
Формулирование заданий
5. (а) Перед началом составления задания разработчик обязан прочитать
учебную программу данного года.
(б) Если в программе не произошли существенные изменения по сравнению
с предыдущим годом, то разработчику следует придерживаться формата тес-
товых заданий предыдущего года.
(в) Язык вопросов (и вопросов, и пояснений) должен быть ясен, четок и
понятен для тестируемых по данному предмету.
(г) И вопросы и схема оценки должны разрабатываться одновременно.
При изменении вопроса изменяется и схема оценки.
(д) Важно, чтобы вопросы не вызывали неприятия по своей сути, по
предмету, или по спорности восприятия, то есть вопрос не должен касаться
этнических, культурных, физиологических особенностей тестируемого.
Половые особенности
6. Вопросы должны при возможности составляться в форме, приемлемой
для тестируемого любого пола. Необходимо избегать вопросов, которые в
каком-либо виде дают превосходство тестируемому определенного пола.
Половой ориентации вопроса необходимо избегать в любом случае. Нельзя
считать, что формулировка вопроса в мужском роде подразумевает легкость
ответа в женском роде. Тем не менее использование формулы «он/она» также
нежелательно, при формулировали вопросов. Лучше пользоваться неродовыми
формулировками, типа «учащиеся», «школьники», а не «школьница»,
«учащийся». Лучше обращаться к группе, а не к отдельному учащемуся.
Необходимо избегать и половых стереотипов, типа: «Доктор — очень уважаемая
профессия, он ...». Следует предлагать нейтральную формулировку: «Врачи — люди
уважаемой профессии, они...»
Для русского языка в подобных словах характерна значительно
меньшая половая дифференциация (врач, учитель и пр.), поэтому данное
требование носит гипотетический характер.
Культурные особенности
7. (а) Необходимо избегать в вопросе любой возможности его культурного
толкования. Вопрос должен легко восприниматься человеком любого
культурного слоя.
Приложения 247
(б) Вопросы, где от тестируемых требуется описать их культурный
слой, должны быть сформулированы так, чтобы любой мог ситуативно
ответить на него привычной терминологией. Вопрос должен подразумевать
легкость ответа на него ребенка любого культурного или этнического слоя.
Эти требования инструкции подчеркивают отличия педагогического
тестирования от психологического, которые мы уже отмечали. Они
нацеливают составителей тестов на выявления индивидуальных приращений,
полученных исключительно в процессе обучения.
Подбор материала для заданий
8. Хорошо, если имеется определенный банк информации для составления
заданий. Источники такой информации могут быть разные, но важно, чтобы
эти источники не совпадали с теми, которыми могли бы пользоваться
учащиеся при подготовке к экзамену. (Естественным исключением является
используемый учителем учебник). Известный учащимся материал необходимо
перефразировать или видоизменить, особенно если это касается случаев, когда
экзаменационный вопрос повторяет вопрос промежуточного тестирования. При
такой ситуации необходимо значительное изменение текста вопроса, графика
или диаграммы.
Соответствие требованиям программы
9. (а) Любые экзамены должны отвечать определенным требованиям.
Это необходимо помнить при составлении тестовых заданий. Если имеется
несколько разработчиков заданий, то составителю теста необходимо
убедиться, что подготовленный тест соответствует критериям и «весу»
заданий, которые входят в тест, именно по данной программе. По некоторым
предметам возможна координация разработчиком предложенных тестовых
заданий.
В Великобритании принято взвешивать задания, придавать им то или
иное количество баллов. Делается это эмпирическим путем — экспертным
оцениванием. Данная процедура является наиболее уязвимой, поскольку
экспертное оценивание не является достаточно объективным. Время от
времени среди тестовых заданий встречаются мало дискриминативные,
задания с неадекватными экспертными оценками уровня сложности и
другими недостатками. Однако такое положение вполне осознается английскими
коллегами. Отсутствие предварительной апробации заданий, условиях
небольшого государства, помогает значительно повысить уровень сохранности
и секретности экзаменационных материалов.
(б) После предъявления тестового задания разработчик определяет
соответствие задания предмету экзамена. Если имеется возможность выбора в
самом тесте, то исключительное значение приобретает баланс между
собственно заданиями, так как они ориентированы на конкретные цели при изучении
предмета. В любом случае, задания теста должны соответствовать предмету
систематически.
(в) При имеющемся предмете тестирования разработчик обязан
убедиться, что весь предмет охвачен предлагаемыми вопросами. Содержание
предмета должно полностью покрываться матрицей по всем темам. Если же
248 Приложения
имеет место тестирование по отдельным подтемам, то и в этом случае
необходимо, чтобы вся подтема была охвачена вопросами теста. В случае, если
вопрос или часть вопроса не соответствует теме, или не полностью ясна в
рамках данной темы, от вопроса следует воздержаться.
Данная позиция инструкции содержит требования качественного
составления технологической матрицы. Мы данную проблему матриц уже обсуждали.
В качестве основного элемента (числа в примере) матрицы может выступать
количество времени выделяемое на ту или иную тему, их важность в курсе,
оценка сложности заданий по той или иной теме и пр., что может
соответствовать количеству заданий по данной теме в итоговом тесте.
Например:
Математика
Алгебра
Дроби
10
Неравенства
5
Уравнения и т.д.
15
Геометрия
Подготовка тестовых заданий
10. Предпочтительно, чтобы тестовые задания печатались на одной
стороне листа. Если печатание невозможно, то текст задания пишется
разборчивым почерком, темными чернилами или пастой для того, чтобы можно
было сделать фотокопию данного задания. Составитель должен помнить, что
перепечатка материалов может осуществляться неспециалистом.
Очень существенный пункт инструкции, особенно для предметов,
имеющих собственный символический аппарат.
//. Если на листе должны поместиться ответы на какие-либо, или все
вопросы, то необходимо, чтобы на этом листе было предусмотрено место для
ответов (предположим, 5 строк для письменного ответа, или 7,5 см для
рисунка. Если ответы предусмотрены на отдельном листе, это должно быть
оговорено в инструкции.
Подготовка схемы оценки
12. Схема оценки определяется одновременно с составлением
тестового задания. Разработчик удостоверяется в том, что предполагаемый
результат оценивается соответственно, и что оценивание в принципе
возможно. Схема оценки должна быть приемлемой для любого
специалиста, который может быть задействован в тестировании. В схеме оценки
должны быть предусмотрены все возможные варианты ответов
тестируемых (если таковые возможны при формулировании ответа). В
тестовом задании должны также указываться и неприемлемые ответы. Схема
оценки должна допускать дифференциацию результатов. Реальный зачет
должен выставляться учащемуся за действительные результаты, за то,
что он знает, понимает и может выполнить.
Несмотря на предоставляемую разработчику возможность
использования сложных многоступенчатых заданий, требующих развернутого ответа,
требование однозначности правильного ответа сохраняется.
Приложения 249
Планирование и представление тестовых заданий
13. Тестовые задания должны представляться исключительно в той
форме, которая требуется составителем. Если разработчику предъявляется
черновой вариант задания, то он должен быть пронумерован, для того, чтобы в
работу ошибочно не был включен более ранний вариант задания.
В частности:
(а) Задание вписывается только в предлагаемую составителями форму.
(б) Четко формулируется тема, к которой относится данное задание.
(в) Указывается расчетное время выполнения данного задания.
(г) Каждая страница нумеруется.
Лучше заранее предоставить составителю форму, в рамках которой он
может составлять задания. Образцы таких форм приведены.
14. Графические изображения (рисунки, карты, диаграммы и т. д.)
должны выполняться темными чернилами или пастой на стандартной белой бумаге.
Стандарт рисунка должен быть легко читаем тестируемыми.
Оригиналы графических изображений должны представляться
разработчику отдельно, соответствие размеров необходимым размерам не обязательно,
но желаемый размер должен быть указан. Если представленный рисунок
выполнен качественно, то он может быть использован в окончательном варианте. В
других случаях составитель самостоятельно выполняет изображение.
Рисунок или график, обычно представляются на стандартном (А4) листе
бумаги, Если рисунки меньше, но хорошо распределены на листе бумаги, хорошо
«читаются», то они могут быть представлены на одном листе бумаги. Но при
этом каждый лист должен быть пронумерован, четко указана тестируемая
параллель и дано указание, каков должен быть окончательный размер
изображения.
Диаграммы(фотографии) должны быть черно-белые, а не цветные.
15. Иллюстрации должны быть связаны с вопросом. Если имеется
необходимость в иллюстрации, то ее наличие должно быть гарантировано.
Вопрос, связанный с представлением материала в тесте и его
невербальным сопровождением подробно обсуждается в соответствующей главе.
16. Фотографии должны быть оригиналами. Если делается копия
фотографии из учебника, то разработчик должен убедиться, что она
соответствует оригиналу (и понятна учащемуся).
17. Дополнение к тесту допускается только в том случае, если
невозможно включить данный материал в текст задания непосредственно.
18. Все материалы, которые потребуются учащемуся для выполнения
задания, как то: специальная бумага (миллиметровка, копирка),
математические инструменты, цветные карандаши, особые книги и т.д. должны быть
указаны отдельно, специально для разработчика.
19. Если тест разбит на субтесты, то они должны быть обозначены
особо:
«Раздел А», (или «Часть 1») и т.п. Если в разных разделах работы
имеется определенное количество вопросов, то они обозначаются: «Al, A2..., или 1.1,
1.2...», но далее нумерация продолжается: «Б9, Б10... 2.9, 2.10и т.д.».
250 Приложения
В каждом вопросе, если имеется его подразделение на подпункты, они
должны быть соответственно отмечены:
(а) (1)...
(2)...
(б) (1) ... и т.д.
Применение сложных, многоступенчатых вопросов с оценкой каждой
ступени решения дает возможность провести более детальный
качественный анализ. Однако чем выше сложность вопроса тем более вероятность
появления случайных ошибок и, как следствие, снижение надежности теста.
Если вопрос требует дальнейшего разделения на подпункты, то может
быть, что сам вопрос слишком сложен и его следует упростить.
20. Вопросы должны быть ясными, краткими и недвусмысленными.
Вопрос должен предполагать тип ответа. Например, «приведите доводы, что
необходимы изменения в ...», этот вопрос значительно лучше, чем «думаете ли
Вы, что необходимы изменения в ...», поскольку на второй вопрос можно
теоретически ответить односложно «да» или «нет».
Чрезвычайно важно, чтобы в предложенной формулировке пунктуацией
были четко выделены подчиненные части предложения и чтобы фраза была
цельной.
Следует избегать ненужной эмфазы (особого ударения или
подчеркивания). Если есть необходимость особо выделить какую-то часть фразы или
слово, то следует пользоваться полужирным шрифтом, или изменением шрифта
(печать «курсив»), а не выделять слово печатью заглавными буквами.
21. Если ответ предполагает рисунок (графическое изображение)
учащегося, то следует убедиться в том, что такой рисунок можно выполнить на
заданном формате бумаги (то есть А4).
22. Если для выполнения задания необходима специальная бумага, то ее
наличие должно быть предусмотрено.
Вопросы свободного изложения и дополнения,
не поддающиеся машинной обработке.
23. Для проверки данных заданий необходимо создание специальных
инструкций по их обработке и оцениванию.
Утверждение тестовых заданий и схем оценки
24. Черновики тестовых заданий и схем оценки рассматриваются
разработчиком. Для рассмотрения заданий привлекаются специалисты. При
необходимости разрабатываются альтернативные задания. Если задание вызывает
критику специалистов, то в тест вводится альтернативное задание, а не
производится коррекция данного задания.
25. Окончательный вариант теста принимается разработчиком и он
несет всю полноту ответственности за качество продукта (теста).
26. Окончательный вариант подлежит перепроверке. Процедура
перепроверки организуется разработчиком. Проверенный и утвержденный вариант
должен быть подготовлен заблаговременно до даты проведения тестирования.
В Великобритании этот срок составляет от года до 4 месяцев.
Приложения 251
Подготовка схемы оценки экзамена для осуществляющих тестирование
(ассистентов экзаменатора)
27. После того как подготовлен и перепроверен окончательный вариант
тестового задания проверке подвергается и схема оценки задания. При этом
собственно задание не может подвергаться дальнейшему обсуждению,
возможно только обсуждение и объяснение процедуры.
28. Схема оценки должна содержать следующее:
(а) Общая инструкция, содержащая советы по оцениванию работы в
целом. Ассистенты экзаменатора должны быть хорошо знакомы с данной
инструкцией и уметь применять ее при оценивании.
(б) Схема распределения оценки по каждому вопросу и подвопросу с
указанием минимальной и максимальной оценки каждого из оцениваемых аспектов
предложенных вопросов, где такая оценка в принципе возможна.
(в) Форма и качество ответов учащихся, которые по мнению
разработчика соответствуют заслуживающими оценки (зачета).
(г) Ожидаемые альтернативные ответы учащихся с указанием их
соответствия зачету.
29. Ясная схема оценки должна обеспечить пользователя тестом
аппаратом оценивания именно в рамках заложенной в тест оценки разработчика.
Многие вопросы толкования могут быть сняты при разработке ясной и
недвусмысленной схемы оценивания, которая содержит наиболее возможные
варианты ответов, которые можно принять к рассмотрению и оценить, как
зачетные. Схема оценивания должна полностью соответствовать конкретному
вопросу. Все формулировки ожидаемых ответов должны быть предельно
ясными и недвусмысленными, чтобы при оценивании у проверяющего не могло
возникнуть сомнения в правильности зачитываемого ответа. Единство
требований к тестируемым не может быть осуществлено, если сама схема оценки
может толковаться специалистами по-разному.
30. Операционная схема оценки может содержать следующее:
(а) Общее руководство для ассистента с соответствующими сносками
на используемые материалы и объяснением метода оценивания.
(б) Общая инструкция разработчика ассистенту экзаменатора:
(1) Инструкции по спецификации программы,
(2) Объяснение принятых сокращений,
(3) Советы ассистенту, позволяющие самостоятельно оценивать не
указанные разработчиком в схеме оценки варианты ответов.
(4) Инструкция для проверяющего, каким образом следует ставить
какие-либо пометки или символы на работе учащегося (допустимость
«галочек», «значков» и т.п. на копии теста).
31. Схема оценки печатается, для того, чтобы ее можно было легко
размножить при помощи копировальной техники. В ряде случаев (по определенным
предметам) возможно наличие книги «вопросника» и отдельного листа
ответов. В любом случае все страницы документов должны быть пронумерованы.
Все вопросы в схеме указываются вместе с приемлемыми, по мнению
разработчика, ответами, которые могут быть приняты к рассмотрению и зачтены,
как правильные.
252 Приложения
Для нас важным в данной позиции инструкции представляется факт
возможности использования не тестовых тетрадей, а бланков при
проведении итоговой аттестации учащихся.
32. В том случае, если ответом учащегося является рисунок, график,
диаграмма, то правильный ответ должен прилагаться с оговорками насколько
допустимо отклонение от изображения разработчика, если делать поправку на
возможную неточность (неаккуратность) учащегося, выполняющего тест.
Внесение изменений в схему оценки
Таковое возможно только разработчиком при необходимости, выявленной
экспертами.
Приложения 253
Приложение 2
Критерии компетентности в тестировании
Приведенные критерии контроля компетентности в вопросах
тестирования разработаны на основе аналогичной работы для психологов,
выполненной Государственным сертификационным регистр Британского
психологического общества (перевод А. Виноградова). Доработка критериев была
осуществлена в минимальной мере. Были заменены названия
специфических психологических тестов на педагогические и убраны критерии
относящиеся к особенностям изучения отдельных аспектов личности. Критерии
дополнены пятью, имеющими специфический педагогический смысл.
Проведена незначительная редакторская правка. Возможно, следовало
несколько сократить критерии, касающиеся интерпретации и представления
результатов заказчику и в испытуемому. Однако посчитав что ситуация
необходимости представления результатов в два адреса, в области образования
не кажется совсем фантастической, то это раздел был оставлен в полном
объеме.
Критерии разбиты на два уровня но сложности требований,
заложенных в них.
Данные критерии представляются полезными с трех точек зрения:
1) Для самопроверки собственной подготовленности как пользователя
тестовых методик и как разработчика тестовых методик.
2) Для разработки соответствующих программ обучения тестологов и
пользователей тестовым инструментом среди педагогов.
3) Для определения уровня компетенции разработчиков и
пользователей тестовых материалов
Контроль компетентности в вопросах тестирования
(профессиональной пригодности)
Уровень А
Раздел 1. Тестирование: определение необходимости
в обследовании
В состоянии ли экзаменуемый:
1. Объяснить, что такое тесты школьных достижений (школьной
успешности, педагогические, дидактические), и как они могут быть
использованы.
2. Описать различие между тестами, предназначенными для
измерения школьной успешности и тестами, измеряющими психологические
особенности (личность, деятельность, интересы и т.п.).
3. Провести различие между тестами достижения и другими способами
аттестации учащихся.
4. Дифференцировать нормативно-ориентированные, критериально-
ориентированные тесты (например: тесты, предназначенные для итоговой
аттестации учащихся и тесты оценки уровня усвоения учебного материала).
254 Приложения
5. Привести примеры разного типа тестов, применяющихся в
образовательной деятельности.
6. Описать различия инструментов для измерения педагогом на своем
уроке, администрацией образовательного учреждения для целей контроля,
для отбора в специализированные классы, для итоговой аттестации
учащихся.
Раздел 2. Основные принципы шкалирования и стандартизации
Может ли экзаменуемый:
1. Построить распределение частот (гистограмму или полигон частот)
по выборке «сырых» баллов.
2. Вычислить среднее и стандартное отклонение для того же набора
данных.
3. Указать местоположение среднего и стандартного отклонения на
шкале измерения признака в гистограмме.
4. Описать взаимосвязь среднего, медианы и моды распределения и
изменение их относительного расположения с изменением формы
распределения.
5. Указать причины изменчивости среднего и стандартного
отклонения в различных выборках, извлеченных из одной и той же генеральной
совокупности.
6. Описать связь между стандартной ошибкой среднего в выборке
наблюдений и объемом выборки.
7. Дать определение доверительным интервалам и
продемонстрировать способ их вычисления на основании выборочных среднего и
стандартного отклонений.
8. Описать измерительные свойства шкалы на основе «сырых» баллов,
стандартизированных баллов и привести примеры для каждого типа шкал.
9. Используя среднее и стандартное отклонение, преобразовать «сырые»
баллы в стандартизованные Z-показатели, Т-показатели и наоборот.
10. Используя таблицу норм, найти процентильные эквиваленты
«сырых» баллов и затем получить Z-показатели и Т-показатели на
основании таблицы нормального распределения.
11. Использовать таблицу площади под единичной нормальной
кривой для преобразования стандартных Z- или Т-показатели в школьные
оценки.
Раздел 3. Важность надежности и солидности
Может ли экзаменуемый:
1. Объяснить понятие корреляции как меры степени связи двух
переменных.
2. Дать определение условий, при которых корреляция достигает
максимального (положительного и отрицательного) и минимального значения.
З.Дать приблизительную оценку величины коэффициента
корреляции для различных двумерных диаграмм рассеяния.
Приложения 255
4. Описать базовую предпосылку классической теории тестов:
измеренный показатель всегда содержит погрешность и может быть представлен
как сумма истинного показателя и случайной ошибки.
5. Объяснить в общих чертах основные методы оценки надежности
тестов (внутренней согласованности, устойчивости к повторному
тестированию, параллельных форм) и описать их относительные преимущества и
недостатки.
6. Описать причины ненадежности тестовых баллов (напр., ошибки
измерения, подсчета баллов, влияние ситуационных факторов,
особенностей формирования выборки заданий теста).
7. Дать описание того, как изменяется надежность теста при
изменении его длины.
8. Дать описание того, как на надежность теста влияет ограничение
диапазона вариации признака и как можно корректировать это влияние.
9. Вычислить доверительные интервалы с разными доверительными
коэффициентами для сырых и стандартизированных баллов, используя
стандартную погрешность измерения.
10. Вычислить стандартную ошибку разницы баллов по двум шкалам и
их суммы.
11. Объяснить, как величина корреляции между баллами по двум
шкалам влияет на надежность их суммы и разности.
12. Сформулировать основное положение теории генерализации, а
именно утверждение о том, что надежность количественно характеризует
возможность обобщить (генерализовать) результаты, полученные при одном
наборе условий, на результаты, которые могут быть получены при другом
наборе условий.
13. Описать и проиллюстрировать примерами различия между
содержательной и критериальной валидностью.
14. Описать процедуры для оценки разных форм валидности и указать
на положительные и отрицательные стороны каждой из процедур.
16. Описать взаимосвязь надежности и валидности.
17. Описать, в какой степени возможен перенос данных о валидности
теста, полученных в одних условиях, на его использование в некоторой
другой ситуации.
Раздел 4. Принятие решений об использовании тестов в качестве
одного из компонентов процесса обследования
Может ли экзаменуемый:
1. Использовать изданные тесты, рекламные образцы и другие
справочные материалы для определения инструментария, потенциально
пригодного для выполнения определенной функции.
2. Определить для каждого теста на основании руководства к нему
данные о его теоретических основаниях, надежности, валидности,
нормативных выборках, а также о специфических ограничениях области
применения.
256 Приложения
3. Учесть относящиеся к делу соображения практического характера
(простота проведения, требуемое время, необходимость в специальном
оборудовании и т. п.).
5. Рассмотреть любые ограничения области применения теста (напр.,
возраст испытуемых, культурные или этнические особенности, диапазон
выраженности изучаемого свойства и т. п.) и вынести суждение
относительно возможности его использования.
6. Сопоставить имеющуюся информацию о валидности теста с
задачами обследования и вынести суждение о степени их соответствия.
7. Рассмотреть данные о нормативной выборке и вынести суждение об
ее соответствии решаемой задаче в терминах ее репрезентативности и
объема.
8. Произвести окончательный отбор теста (тестов), демонстрирующий
плательный учет всех имеющихся показаний уместности проведения
тестирования для решения задач обследования.
Раздел 5. Проведение тестирования и обработка результатов
Может ли экзаменуемый:
1. Правильно спланировать сбор данных для заданного количества
испытуемых с учетом их максимального числа в группе и предельной
продолжительности тестирования.
2. Обеспечить правильное функционирование оборудования (напр.,
компьютера) и наличие достаточного количества тестовых материалов для
испытуемых.
3. Обеспечить тщательную проверку многократно используемых
тестовых материалов на наличие пометок или надписей, сделанных
предыдущими испытуемыми.
4. Организовать подходящее помещение для проведения
тестирования, обеспечить испытуемых посадочными местами и достаточным
пространством за столом так, чтобы создать им максимально комфортные
условия работы и уменьшить вероятность списывания. Информировать
испытуемых заранее о месте и времени проведения тестирования, убедиться,
если это необходимо, что они соответствующим образом подготовлены к
тому, что от них потребуется и по какой причине.
5. Кратко объяснить испытуемым цель тестирования, добиться тою,
чтобы они чувствовали себя свободно, поддерживая в то же время
соответствующую деловую атмосферу.
6. Внести сведения об испытуемых и относящуюся к делу
информацию об используемом инструментарии в соответствующий документ учега и
регистрации.
7. Произвести проверку наличия у каждого кандидата всех
необходимых материалов.
8. Использовать стандартные инструкции к тестам, излагать их
испытуемым ясно и доступно.
Приложения 257
9. Дать испытуемым достаточно времени для проработки примеров
тестовых заданий, следить за временными ограничениями при проведении
тестирования.
10. Осуществлять тщательный контроль за правильным заполнением
тестовых бланков и процедурами ответа.
11. Отвечать на любые возникающие вопросы таким образом, чтобы
это не шло вразрез с целью теста.
12. Объяснить ограничения на время обдумывания и обеспечить
тишину в ходе тестирования.
13. Четко объяснить испытуемым, что после начала тестирования
никаких вопросов задавать нельзя.
14. Строго придерживаться инструкций конкретного теста
относительно темпа и времени предъявления.
15. Собрать все материалы после завершения каждого теста.
16. Тщательно проверить по списку возврат всех тестовых материалов.
17. Закрывать все материалы в безопасном месте.
18. Поблагодарить испытуемых за участие после завершения работы с
последним тестом и объяснить следующий этап обследования (если таковой
имеется).
19. Внести заключительные записи в документ учета и регистрации
данных, включая заметки о тех или иных конкретных проблемах,
возникших в ходе тестирования, которые могли повлиять на работу кандидата.
20. Визуально проверить опросные листы для выявления случаев
взаимоисключающих ответов, которые пройдут незамеченными при ручной
обработке с помощью просветных «ключей» или создадут проблемы при
машинном подсчете баллов.
21. Продемонстрировать правильное использование различного рода
ручных способов подсчета «сырых» баллов по ключам, а также бланков,
предполагающих подсчет баллов самими испытуемыми.
22. Правильно перенести «сырые» баллы на бланки регистрации.
23. Использовать таблицы норм для получения соответствующего
процентильного и (или) стандартного балла и перенести их в личные дела
испытуемых.
Раздел б. Адекватное использование результатов тестирования и обеспечение
письменной или устной обратной связи с клиентами и испытуемыми
Может ли экзаменуемый:
1. Выбрать соответствующие таблицы норм в руководстве по тесту или
в дополнительных материалах.
2. Соответствующим образом использовать информацию из
руководства по тесту о критериальных границах (точках отсечения).
3. Сделать соответствующее предостережение относительно
интерпретации результатов тестирования либо вовсе отказаться от применения теста
в отсутствие подходящих норм или критериальных границ.
4. Уделить должное внимание, где это необходимо, вопросу
сопоставимости данных испытуемого с той или иной референтной группой, стан-
258 Приложения - '
дартной ошибке групповой средней и стандартной ошибке измерения
баллов кандидата.
5. Представлять баллы, вычисленные на основе норм, в контексте,
который дает четкое представление о диапазоне изменения измеряемой
переменной в данной группе, или иных, имеющих значение, характеристик
нормативной выборки.
6. Описывать значение баллов по шкалам в терминах, которые
правильно передают смысл, отражают доверительные интервалы
соответствующих баллов, а также понятны клиенту и испытуемому.
7. Строить интерпретацию тестовых баллов, обращая должное
внимание на величину корреляций, существующих между каждой парой шкал, и
стандартную ошибку их разности.
8. Вычислять интегральные показатели по батарее тестов на основании
приведенных в руководстве весовых коэффициентов.
Обеспечивает ли экзаменуемый обратную связь испытуемому по
результатам тестирования, которая:
9. Дается в форме, соответствующей пониманию последним тестов и
шкал.
10. Описывает точно и осмысленно значение шкал в педагогических и
обыденных понятиях.
11. Дает возможность испытуемому задать вопросы, прояснить те или
иные моменты, прокомментировать тест и процедуру его проведения.
12. Побуждает кандидата высказаться о воспринимаемой
правильности и точности (или наоборот) информации, полученной с помощью теста.
13. Ясно информирует кандидата о том, как информация будет
представлена (устно или письменно) и кому именно.
Может ли экзаменуемый готовить письменные отчеты для клиента
(или испытуемого), которые:
14. В управленческих, педагогических или обыденных терминах
разъясняют обоснование и правомерность использования теста.
15. Описывают значение наименований шкал в точных и
осмысленных терминах.
16. Тщательно разъясняют применение любых нормированных баллов в
отношении к диапазону проявления диагностируемого свойства в нормативной
выборке; тщательно обосновывают предсказания относительно будущего
исполнения на основании информации о валидности теста.
Контроль компетентности в вопросах тестирования
(профессиональной пригодности)
Уровень Б
Базовые разделы включают общие теоретические вопросы и
фундаментальные знания, предположительно обеспечивающие
пользователю такой уровень понимания проблем тестирования, который является
необходимым для видения конкретного инструмента в
соответствующем контексте.
Приложения 259
Базовый раздел 1. Методы исследования
Может ли экзаменуемый:
1. В общих чертах описать основные источники и возможности
появления специфических ошибок и искажений, присущих методам
исследования, которые разработаны в рамках различных подходов.
2. Описать, как подобные искажения можно контролировать или
свести к минимуму.
3. Объяснить, как искажения проявляют себя также и в неформальных
методах получения информации (в реальном межличностном
взаимодействии, при проведении интервью и т. п.).
4. Привести примеры инструментов, различного целевого назначения,
объяснить их различия.
5. Объяснить опасность доверия к ложной валидности на примере
эффекта Барнума (иллюзорной валидности), оценки адекватности результатов
тестирования самим испытуемым, буквальной интерпретации и переноса
названий шкал на оценку.
Использование тестов: разделы 3, 4 и 5
Компетентность в использовании тестов следует оценивать в связи с
реальным конкретным инструментом или инструментами. Основное внимание
при оценке следует уделить способности экзаменуемого как практика
продемонстрировать хорошее понимание сильных и слабых сторон инструмента,
корректное применение инструмента в различных контекстах обследования,
учет полученной с его помощью информации в соответствии с данными об
испытуемом из других источников.
Разделы 3 и 4 требуют свидетельства компетентности в
интерпретации результатов и обеспечении обратной связи как клиенту, так и
испытуемым в каждом из двух типов контекста:
1. Ориентированном на нужды клиента или его организации, когда
первоочередной целью обследования выступает необходимость предоставления
клиенту информации о испытуемом:
а) Подготовка отчета для клиента для проведения отбора, оценки или
формирования групп.
б) Обеспечение обратной связи с клиентом относительно вышеуказанного.
2. Ориентированном на нужды испытуемого, когда первоочередной целью
обследования выступает необходимость предоставления человеку информации
о нем самом:
а) Подготовка отчета клиенту информации о результатах и потенциале
развития.
б) Обеспечение обратной связи испытуемым относительно вышеуказанного.
Совершенно очевидно, что ситуации, в которых возникает
необходимость ориентироваться на интересы испытуемого, имеют место и в тех
случаях, когда:
а) предоставление обратной связи организации-клиенту не является
корректным шагом;
б) клиент и испытуемый одно и то же лицо.
260 Приложения
Собранные свидетельства должны охватывать оба указанных типа
условии и включать как примеры устной обратной связи испытуемому, так и
письменной обратной связи испытуемому и клиенту. Получение свидетельств
должно протекать в условиях, приближенных к рабочим.
Если не представляется возможным получение достаточных
свидетельств для удовлетворения данных требований при использовании одного
инструмента, допустимо собирать свидетельства на основании применения
нескольких инструментов.
Раздел J. Проведение тестирования
Может ли экзаменуемый:
1. Правильно информировать испытуемого (испытуемых, далее в ед.
числе) относительно характера обследования, причин его использования,
условий, в которых оно будет проводиться, а также характера ожидаемой
обратной связи.
2. Уверить его, если это необходимо, в конфиденциальности
получаемых данных, характера их использования и хранения.
3. Обеспечить получение «информированного согласия» испытуемого.
4. Получить от испытуемого необходимые
социально-демографические данные.
5. Продемонстрировать способность провести обследование с
помощью инструмента, уделяя должное внимание необходимости установить
контакт с испытуемыми, побудить к откровенным ответам и поддерживать
необходимый темп тестирования.
6. Вести соответствующие записи и фиксировать информацию для
отчетности, а также в исследовательских целях, гарантируя сохранение
анонимности испытуемых при публикации данных.
7. Гарантировать использование данных обследования только для тех
целей, относительно которых испытуемый дал свое согласие.
Раздел 4. Проблемы интерпретации данных
Экзаменуемый:
1. Может в общих чертах, не прибегая к использованию специальной
терминологии, описать теоретическую концепцию, лежащую в основе
методики, подход к ее построению, а также основные этапы создания.
2. С осторожностью интерпретирует «значимые» коэффициенты
корреляции в матрицах, полученных для методик с большим числом шкал.
3. Демонстрирует понимание проблем, связанных с выбором
подходящих нормативных выборок при интерпретации шкальных баллов.
4. Интерпретирует профиль шкальных оценок с учетом технического
качества инструмента.
5. Может прокомментировать эффект использования норм,
основанных на: гетерогенных в противоположность однородным выборкам (низкая
дисперсия); смешанных по полу или этническому составу выборках в
противоположность однородным; профессиональных группах в
противоположность общим популяционным нормам.
Приложения 261
6. Увязывает интерпретацию балла по шкале с информацией об
используемом инструменте, природе шкалы и способе ее построения.
7. Подтверждает информацию, полученную с помощью теста,
данными из других источников.
8. Должным образом использует любую имеющую отношение к делу
информацию (такую, как отчеты о предшествующих обследованиях, данные
самооценки, экспертной оценки и т. п.) при интерпретации результатов.
Раздел 5. Обеспечение обратной связи
Экзаменуемый:
1. Демонстрирует достаточное знание инструмента для обеспечения
компетентной интерпретации и устной обратной связи, по крайней мере
нескольким испытуемым и подготовки взвешенного письменного отчета а)
испытуемому, б) клиенту — в случае, если обследование проводится для
третьей стороны.
2. Обеспечивает испытуемым безоценочную устную обратную связь по
результатам обследования, решая методическую задачу верификации диа1-
ностических гипотез.
3. Указывает испытуемому и клиенту (при наличии третьей
заинтересованной стороны) на статус и значение полученной информации и ее связь
с другими данными об испытуемом.
4. Готовит письменные отчеты, в которых в интегрированном виде
содержится информация об имеющих отношение к делу особенностях
испытуемого, для обеспечения целостного сбалансированного описания в
контексте решаемой задачи.
5. Гарантирует, что ни организационные, ни личностные решения не
будут основываться исключительно на интерпретации данных
единственного обследования.
Выбор теста и оценивание: разделы 6, 7, 8 и 9
Данные разделы охватывают знания и уровень понимания,
предположительно необходимый пользователям тестов для компетентного выбора
инструмента в соответствии с его пригодностью для достижения различных целей.
Затрагиваемые в разделе 6 аспекты конструирования тестов предполагают
наличие уровня знаний, который необходим для компетентной оценки
инструмента на основании литературных данных и информации, содержащейся в
техническом руководстве к тесту. Уровень понимания и практических
навыков, требующихся для создания и построения тестов, не является необходимым
на уровне В.
Раздел 7 расширяет круг вопросов, связанных с понятиями надежности и
валидности, затронутыми на уровне А, и предполагает наличие базовых знаний
на уровне А.
В разделе 9 следует убедиться в том, что экзаменуемый обладает
значительно более широкой базой знаний для принятия решений о выборе
инструментов, чем та, которая требуется для решения задач данного раздела.
262 Приложения
Раздел 6. Подходы к конструированию тестов
Экзаменуемый может:
1. Привести пример инструмента, рассчитанный на разные уровни
использования (учитель, группа учителей, администрация) и для разных целей
(аттестация, отбор, определение уровня подготовки) — и пояснить
взаимосвязь между методикой и ее целевым назначением.
2. Привести примеры трех различных методов обнаружения или
контроля погрешностей или искажений процедур исследования и описать их
практическое использование.
3. Описать (не прибегая к помощи математических терминов)
основные принципы, лежащие в основе факторного анализа, и объяснить его
сильные стороны и ограничения как основы для конструирования тестов.
4. Привести пример инструмента, чьи шкалы построены на основе
факторного анализа, а также инструмента, созданного на основе так
называемых «рациональных» критериев (напр., содержания заданий).
5. Объяснить, не прибегая к помощи специальной терминологии,
основные моменты касательно области применимости критериально-
ориентированных инструментов, приводимых в дискуссии о преимуществах
нормативно-ориентированных методик.
Раздел 7. Проблемы валидности и надежности
Может ли экзаменуемый:
1. Объяснить разницу между эквивалентностью, стабильностью и
внутренней согласованностью.
2. Объяснить, какое влияние оказывает широта проявлений
измеряемого качества на внутреннюю согласованность шкалы, а также обсудить
относительные преимущества и недостатки высокогомогенных и
гетерогенных шкал.
3. Объяснить необходимость периодического проведения новых
обследований и причины, по которым информация, полученная в результате
тестирования, может «устаревать».
4. Перечислить факторы, которые вносят вклад в ненадежность
методов исследования личности, различая факторы, обусловливающие
вариативность тестовых баллов, и факторы, влияющие на вариативность их
интерпретации.
5. Провести аргументированный анализ свидетельств в пользу
валидности двух различных инструментов относительно их: а) содержательной
валидности; б) критериальной валидности.
6. Привести пример двух реальных способов установления
критериальной валидности методик изучения личности.
7. Объяснить важность подкрепления информации, получаемой с
помощью одного типа инструмента, данными из других источников с целью
устранения ошибки интерпретации вариативности, вызванной спецификой
метода измерения как вариативности, обусловленной индивидуальными
различиями в измеряемой черте.
Приложения 263
8. Обсудить влияние действующего законодательства и нормативных
актов, связанных с корректным применением тестов в области образования.
Раздел 8: Компьютеризованное обследование
и генерируемая программой интерпретация
Может ли экзаменуемый:
1. Обсудить проблемы эквивалентности тестов, надежности,
отношения к тестированию в связи с различиями между бланковыми и
компьютеризованными тестами.
2. Сравнить относительные преимущества и недостатки
интерпретаций, генерируемых компьютерной программой и экспертом в отношении
надежности, валидности, степени принятия испытуемым, полезности и
стоимости.
3. Объяснить в общих чертах основные методы построения
интерпретации, использующиеся в компьютерных программах генерации отчетов.
4. Описать, каким образом можно формально оценить валидность
личностной интерпретации, генерируемой компьютерными программами.
5. Очертить проблемы профессионального и практического плана,
связанные с использованием компьютеризованной интерпретации:
а) как вспомогательного средства для пользователя теста;
б) для клиента;
в) для испытуемого.
Раздел 9. Когда и каким образом использовать инструменты исследования
Может ли экзаменуемый:
1. Оценить степень применимости и ограничения двух инструментов в
отношении каждой из набора функций обследования. В каждом случае:
а) Обсудить факторы, ограничивающие пригодность и практичность
использования инструментария различных типов
б) Объяснить, каким образом и по какой причине следует или не
следует использовать информацию о личности и/или интересах.
2. В отношении по крайней мере трех различных функций обследования:
а) Указать и обосновать использование одного инструмента измерения.
б) Описать, какого рода подтверждающую информацию можно
получить, используя другие методы.
3. Обсудить воздействие наследственных факторов и внешних условий
(таких, например, как культура и образование) на результаты тестирования.
264 Приложения
Приложение 3
Инструкция по апробации тестовых заданий
1. Правильность ключей. Для этого необходимо прорешать задания. В
том случае, если выясниться несоответствие ключей, многовариантность,
спорность ответов или какие-либо иные недостатки необходимо сообщить
об этом в следующей форме:
Номер вопроса
Ответ в
существующих ключах
Уточненный
ответ
Объяснение
Вывод
Объяснение должно содержать анализ допущенной ошибки. Вывод
должен содержать рекомендацию о данном задании: использовать и с
измененным ответом, переделать, изъять.
2. Определить время необходимое для выполнения всего теста.
Результаты представить в следующей форме:
Предмет
Время выполнения теста
первым учеником
Время выполнения теста последним
учеником
3. Наличие ошибок в заданиях в том числе и орфографических.
Результаты представить по форме:
Номер вопроса
Содержание ошибки
Внимание! Тестовые тетради выдаются педагогам только на время
проведения апробации! Тестовые тетради запрещается выносить из школы,
копировать их целиком или какую-либо их часть, переписывать задания от
руки.
Все тестовые тетради и ключи необходимо вернуть в лабораторию
ИОС.
Особенности по апробации заданий 1997 года.
1. Просим обратить внимание на значительный объем теста по
русскому языку, каково Ваше мнение о сокращении и какие задания можно
было бы сократить.
2. Просим Вас дополнить тесты по химии типовыми расчетными
задачами разного типа (всего 5—6), в том числе и 1—2 повышенного уровня.
Приложения 265
Приложение 4
Инструкция для ведущего
Ведущий
Проводить испытание может любой учитель, включая учителя того
предмета, по которому проводится тестирование, включая председателя
приемной комиссии, при условии прохождения ими специального
инструктажа.
Ведущим не может быть классный руководитель (воспитатель).
Ведущий должен понимать задачи эксперимента, быть компетентным
в проведении тестирования и в оценивании результатов, уметь
контролировать себя, быть эмоционально уравновешенным, общительным, тактичным.
Задачи ведущего
1) Составлять список (протокол экзамена) учащихся класса, в котором
будет проводиться тестирование.
2) Получать пакет с документами, необходимыми для тестирования.
3) Проверять наличие всех материалов, необходимых для проведения
тестирования.
4) Сохранять в тайне до начала тестирования содержание документов.
5) Готовить проведение испытания: выбирать классную комнату и
отвечать за ее подготовку.
6) Готовить дополнительные материалы для тестирования: ручки, часы
(секундомер) и прочее.
7) Проводить испытание в строгом соответствии с инструкцией и
сценарием.
8) Собирать все материалы тестирования, включая и
неиспользованные и возвращать их председателю экзаменационной комиссии.
Учащиеся школы, принимающие участие в тестировании, должны
знать о времени и месте его проведения не менее, чем за пять дней.
Ответственность ведущего
Ведущий держит в тайне содержание тетрадей для учащихся, а также
несет личную ответственность за сохранность всех материалов по
тестированию, в частности, за тетради с тестовыми заданиями и настоящей
инструкцией.
НЕ РАЗРЕШАЕТСЯ СНИМАТЬ КОПИИ С МАТЕРИАЛОВ ПО
ТЕСТИРОВАНИЮ. ОНИ НЕ ДОЛЖНЫ ПЕРЕДАВАТЬСЯ КАКОМУ-
ЛИБО ЛИЦУ, НЕПОСРЕДСТВЕННО НЕ СВЯЗАННОМУ С
ПРОВЕДЕНИЕМ ИСПЫТАНИЯ.
Все материалы тестирования: списки учащихся, заполненные и
незаполненные тетради, другие материалы должны быть переданы председателю
экзаменационной комиссии.
266 Приложения
Во время проведения тестирования ведущий не должен:
— проявлять высокомерия, легкомыслия, фамильярности;
— показывать словом, голосом, жестом, мимикой насколько
неправильны и даже абсурдны ответы испытуемых;
— высказывать свои мнения и оценки.
Ведущий обязан хорошо знать инструкцию и сценарий проведения
тестирования, уметь сформировать позитивную установку на выполнение
тестовых заданий, знать возможные типичные вопросы и ответы на них,
уметь отчетливо, достаточно громко и без запинок прочесть или пересказать
инструкцию, сценарий, текст задач или вопросов.
Ведущий должен как можно меньше передвигаться во время группового
проведения теста, чтобы не мешать испытуемым. После того, как выяснилось,
что все испытуемые правильно поняли инструкцию и углубились в решение
задач, без крайней нужды не менять своего местонахождения.
Во время наблюдения за работой ведущему запрещается вступать в
разговоры с учениками.
Ведущий не должен вступать в дискуссию с испытуемыми. Он должен
следить за тем, чтобы незаполненное работой время у испытуемых было
минимальным во избежание лишних разговоров, обмена мнениями,
сравнения ответов, шума и т. п. Учащиеся должны тратить незаполненное
работой время на проверку правильности выполнения заданий.
Процедура проведения тестирования оценивается наблюдателем.
При грубых нарушениях процедуры проведения тестирования и
плохом поведении учащихся, основываясь на замечаниях, отмеченных в анкете
наблюдателя, результаты тестирования могут быть аннулированы в
соответствии с «Инструкцией по использованию анкеты наблюдателя».
Варианты проведения тестирования
Возможно два варианта проведения тестирования. Первый
предусматривает проведение одного испытания в день по одному предмету. Второй
предусматривает проведение в один день двух испытаний. Выбор варианта
проведения экзамен определяется образовательным учреждением. Вариант
проведения тестирования сообщает ученику не менее чем за 5 дней до
начала испытаний. Для второго варианта ведения, в конце настоящей
инструкции, приведены дополнение к сценарию для проведения испытаний по
нескольким предметам в один день, которые описывают особенности сценария
для второго варианта использования тестов.
Не рекомендуется проводить испытания более чем по двум предметам в
один день.
Условия и процедура проведения тестов
Результаты испытания в значительной мере зависят от условий их
проведения — физических и психологических. При подготовке условий
проведения тестов следует учитывать:
1) характеристики помещения;
2) его оснащение;
3) наличие или отсутствие ситуативных отвлекающих факторов;
Приложения 267
4) состояние тестовых материалов;
5) субъективно-психологические факторы.
К характеристикам помещения относятся:
— удельный объем помещения на 1 чел. (в соответствии с санитарно-
гигиеническими нормами — не менее 2,0 кв. м на 1 чел.);
— освещенность (равномерное распределение света по поверхности
стола);
— вентилируемость;
— уровень шума;
— акустические характеристики.
Запрещается проведение тестирования в кабинете, оборудованном
наглядными материалами по предметам, относящимися к тестируемой области.
При проведении теста требуется оснастить помещение в соответствии
со следующими правилами:
1) Обеспечить наличие столов, стульев по количеству учащихся.
Желательно, чтобы учащиеся сидели по одному за столом (партой).
2) Разместить столы и стулья так, чтобы к каждому испытуемому было
удобно подойти.
3) Обеспечить каждому испытуемому за столом не менее 75x45 кв. см
площади.
Минимизировать, по возможности, воздействие ситуативных
отвлекающих факторов:
— шумов (с улицы, из других частей здания, от работающих
радиоприемников, телевизоров и др.), звонков, стуков, звука шагов, гудения
неисправных ламп дневного света и т. п.;
— запахов (пищи, краски и др.);
— мигания света;
— неопрятности столов, помещения и т. д.
Для обеспечения непрерывной работы испытуемых требуется заранее
получить тестовые материалы, заготовить ручки, предусмотрев запас в
количестве 0,5 от числа испытуемых.
Непосредственная подготовка к проведению тестирования состоит из:
1). Проверки состояния помещения, его оснащения, пригодности для
размещения определенного числа испытуемых.
2). Устранения или уменьшения влияния ситуативных отвлекающих
факторов.
3). Проверки наличия, состояния и размещения тестовых материалов.
Ведущий должен иметь следующие материалы для проведения
тестирования:
— сценарий проведения тестирования;
— списки учащихся (протокол экзамена);
— тетради с тестовыми заданиями;
— надежный таймер или секундомер;
— дополнительные ручки.
268 Приложения
Ведущий не должен открывать тестовые тетради раньше, чем за 0,5
часа до начала тестирования. Тестовые тетради вскрываются в присутствии
наблюдателя.
Учащимся не разрешается пользоваться никакими справочными
материалами, микрокалькуляторами и другими вспомогательными материалами или
инструментами.
Процедура проведения теста должна быть идентичной
стандартизированной процедуре, изложенной в сценарии.
Последовательность проведения тестирования примерно такова:
1. Объяснить задачи тестирования; объяснить, почему испытуемые
должны приложить максимум усилий для его выполнения; сообщить, какие
результаты ожидаются, остановившись на том, что для получения высшего
балла нет необходимости справляться со всеми заданиями.
2. Медленно, громко, четко, без запинок, естественным голосом
прочесть инструкцию к тестам.
3. Сообщить о временном ресурсе, о правилах исправления
допущенных ошибок, о том, чего не рекомендуется делать при решении задач, к
кому обращаться в случае возникновения вопросов.
4. Ответить на имеющиеся вопросы.
5. Дать команду начать решение тестовых заданий.
6. Во время решения тестовых заданий следить:
а) за временем;
б) за наличием ручек;
в) за тем, чтобы соседи не общались между собой, не шептались, не
мешали друг другу, не подглядывали друг у друга;
г) за состоянием испытуемых (если кто-то почувствует себя
неудовлетворительно, рекомендуется снять его с испытания);
д) за тем, чтобы испытуемые своевременно получали ответы на
вопросы (ответы не должны служить подсказкой для решения).
7. После сигнала окончания решения задач теста:
а) попросить всех оставаться на своих местах, чтобы облегчить сбор
материалов;
б) попросить передать в начало или конец колонки (ряда) тестовые
материалы;
в) пересчитать количество сданных материалов (их количество должно
совпадать с числом испытуемых).
Подготовка списка учащихся
Ведущий, прежде всего, составляет списки учащихся (протокол) того
класса, в котором будет проводиться тестирование. Списки составляются по
алфавиту.
Вариант тестирования соответствует профилю проводимого
тестирования.
Итоговые оценки выставляются согласно инструкции по обработке.
Приложения 269
Распределение времени на проведение тестирования
Для планирования проведения тестирования в школе необходимо
знать распределение времени. Условиями тестирования предусмотрено
распределение времени, приведенное в таблице 1:
Таблица 1
N
п/п
1
2
3
4
Организационная часть (чтение инструкции по
сценарию, раздача тестовых тетрадей, заполнение
паспортной части тестовых тетрадей, раздача
тетрадей, ответы на вопросы учащихся). Ведущий
может увеличить это время по своему усмотрению,
но не следует слишком затягивать эту часть.
Предметы
Математика
Физика
Химия
География
Код тетради
МА
ФИ
ХИ
ГЕ
15 мин
Время на
заполнение
75 мин
60 мин
45 мин
40 мин
В случае набора в классы разного профиля учащихся класса
допускается разделять на две подгруппы для выполнения тестирования в разных
вариантах.
Не допускается давать учащимся дополнительное время для работы.
Опоздавшие ученики
Если ученик опоздал, а тестирование еще не началось, то ведущий
выдает ученику тестовую тетрадь и помогает ему заполнить паспортную часть.
Опоздавшие ученики допускаются к экзамену в случае, если обучающиеся
не начали работу над заданиями в тестовых тетрадях, при этом время на
выполнение работы для них не продлевается. Если ученики уже приступили к
выполнению заданий, то опоздавший ученик не допускается к работе.
Правила наблюдения за работой
Ведущий, а также все члены экзаменационной комиссии,
присутствующие при тестировании, должны соблюдать следующие правила во время
тестирования.
До начала заполнения учащимися тестов необходимо убедиться в том,
что все учащиеся понимают, что они должны делать и знают, как
записывать свои ответы.
Нельзя отвечать на вопросы учащихся, когда они уже приступили к
выполнению теста. Нельзя сообщать им никакой дополнительной
специальной информации, давать ответы на вопросы или инструктировать
их, а также помогать в чтении и написании слов. Наилучшим ответом на
любую просьбу ученика может быть следующий: «Извините, пожалуй-
270 Приложения
ста. Я не могу отвечать ни на какие ваши вопросы. Постарайтесь сами
справиться с заданием».
Если ученик просит разрешения выйти из класса, это разрешается
только в исключительных случаях. Если ученик не может закончить работу
(например, почувствовал себя плохо), возьмите у него тестовую тетрадь и
напишите на ней причину прекращения работы. Если ученик вышел из
класса, а потом вернулся, запишите на тетради время его ухода и
возвращения. Во всех этих случаях эти бланки следует рассматривать как
«заполненные».
Если при выполнении работы ученик обнаружил дефекты в тетради,
замените ее. Проследите, чтобы ученик указал в новой тетради свою
фамилию и прочую информацию. После окончания работы вложите новую
тетрадь в тетрадь с дефектом.
Сбор тетрадей и бланков ответов
Собирайте тестовые тетради по одной. Взяв тетрадь, проверьте
заполнение верхней части и убедитесь в том, что в ней написаны тип класса, пол
учащегося, район, название и номер образовательного учреждения, в
котором обучался учащийся, его фамилия, имя.
Возвращение материалов тестирования
Все тетради и бланки ответов, как заполненные, так и незаполненные,
собираются. Ведущий, отпустив учащихся, заполняет идентификатор,
записывая в три последние клеточки номер ученика из списка (протокола) и
дополняя номер нулями до трехзначного. Не следует смешивать
заполненные и неиспользованные тетради. Заполненные тетради должны быть
сложены в порядке возрастания номеров. Сверху должна лежать тетрадь с
идентификатором 001. Незаполненные тетради подкладываются снизу под
заполненные, после чего передаются председателю экзаменационной
комиссии для организации проверки в соответствии с инструкцией по обработке
результатов.
Заполнение лицевой стороны тестовой тетради
На лицевой стороне тетради находится:
1. Код тетради. Не заполняется. Он отражает ту группу предметов, по
которым проводится тестирование.
Математика
Физика
Русский язык
Экономика
Предметы
Коды
МА
ФИ
РУ
ЭК
2. Вариант заполнения. Не заполняется.
Может быть 1 или 2. Отражает номер варианта в классе.
Обучающиеся, сидящие за одной партой, могут иметь одинаковые варианты
Приложения
271
заполнения. Задания разных вариантов одинаковы и различаются
порядком предъявления.
3. Тип класса. Заполняется учеником.
ФМ — физико-математический
ЕН — естественнонаучный
ИК — исторический, обществоведческий, юридический.
ГФ — гуманитарный, филологический (включая языковые)
ЭД— экономический
БП — не имеет профиля
Обозначает профиль того класса, в который проводится отбор. В том
случае, если профиль класса не совпадает с приведенным перечнем,
заполняется ближайший к нему по направлению. Для того, чтобы заполнить тип
класса, необходимо обвести кружком подходящий вариант ответа.
Например:
Тип класса ФМ ЕН ИК ГФ ЭД
4. Пол. Заполняется учеником. Для заполнения необходимо обвести
соответствующую букву.
5. Район. Заполняется учеником. Вписывается название района, в
котором обучался ученик.
6. Образовательное учреждение. Заполняется учеником. Вписывается
название образовательного учреждения (можно сокращенно), в которое
обучающийся поступает, то есть Вашего образовательного учреждения.
7. Фамилия имя. Заполняется учеником. Вписывается фамилия и имя
ученика в именительном падеже.
Идентификатор. Заполняется ведущим. Заполняются последние три
клеточки, которые соответствуют номеру ученика в списке (протоколе)
проведения экзамена. Если номер однозначный или двузначный, то
необходимо дополнить номер до трехзначного добавлением нулей. Например:
10. Оценка. Заполняется согласно инструкции по проверке. В этой
графе записывается количество правильно выполненных заданий и ставятся
подписи двух проверявших.
11. Перепроверка. Заполняется при перепроверке. В первой клеточке
ставится количество правильно выполненных заданий. Во второй —
ставится подпись перепроверявшего.
Образец заполненной лицевой страницы см. ниже.
Приложения
Комитет по образованию Санкт-Петербурга
Тесты школьных достижений
Вступительные экзамены
Код тетради
Вариант заполнения
Тип класса
Пол
ФМ
Район
Образовательное учреждение
Фамилия, имя
Идентификатор:
■ 11.11 I I II I ill - I III I __,,_,______, ____________ ___________■
Оценка
Количество баллов
Подписи проверявших
Перепроверка
Количество баллов Подпись перепроверявшего
Санкт-Петербург
1997 г.
Приложения 273
Сценарий проведения тестирования
ВВЕДЕНИЕ
Поздоровайтесь (представьтесь, если учащиеся Вас не знают).
Сообщите о цели предстоящей работы и о времени, которое отводится
для этого.
Например:
Ребята! Сегодня вы сдаете экзамены, но это не совсем традиционные
экзамены. Вы сдаете экзамены в форме тестирования.
Целью нашей работы является выявление уровня знаний по (назовите
предмет, по которому проводится тестирование). Для получения отличной
оценки вам не обязательно выполнить все задания, со всеми заданиями за
отведенное время справиться практически невозможно. Однако вы должны
стремиться справиться с максимально большим количеством заданий. При
подсчете результата учитываются только задания, выполненные правильно.
На работу отводится (сообщите время, выделенное на работы по
данному предмету, в соответствии с приведенной ниже таблицей).
Nn/n
1
2
Предметы
Математика
Физика
Код тетради
МА
ФИ
Время на заполнение
75 мин
60 мин
Внимательно читайте каждый вопрос и старайтесь ответить на него
как можно лучше.
Пользоваться калькулятором, записями, учебниками и справочниками
не разрешается. Все вычисления необходимо делать в тетради на свободном
месте.
Полученные тетради положите лицевой стороной вниз.
Сейчас я назову вас по фамилиям и отмечу отсутствующих.
Отметьте отсутствующих в списке (протоколе) буквой «н».
РАЗДАЧА ТЕТРАДЕЙ
Сейчас будут розданы тестовые тетради. Тетради должны лежать
лицевой стороной вниз до тех пор, пока не будет разрешено их перевернуть.
Для работы понадобится только ручка, остальное со столов следует
убрать.
Проследите за тем, чтобы на столах учащихся не было ничего, кроме
ручки. Раздайте тетради тестирования каждому из присутствующих.
ЗАПОЛНЕНИЕ ЛИЦЕВОЙ СТОРОНЫ ТЕТРАДИ
Предложите перевернуть тестовую тетрадь на лицевую сторону. На
лицевой стороне тетради учащиеся должны отметить кружком тип класса, в
который проводится отбор, отметить пол учащегося, записать район города,
в котором они учились, название образовательного учреждения, в котором
проводится тестирование (можно сокращенно), свои фамилию, имя.
Посмотрите на лицевую сторону тетради. Найдите то место, где
написан тип класса. Возьмите ручку и обведите кружком буквы
274 Приложения
(сообщите учащимся те буквы, которые они должны обвести, используя
следующую таблицу:
ФМ
ЕН
ИК
ГФ
эд
БП
- физико-математический
- естественнонаучный
- исторический, обществоведческий, юридический
- гуманитарный, филологический (включая языковые)
- экономический
- не имеет профиля
В следующей строке отметьте ваш пол, обведя кружком
соответствующую букву. После слова Район напишите название того района города, в
котором была расположена школа, в которой вы в последнее время учились.
Например: Адмиралтейский, Приморский, Центральный и т. д. После этого
запишите в следующей графе вашу фамилию и имя в именительном падеже.
Например: Яковлев Антон, ГрушкоАнна.
Тетради не открывать! Пройдите по рядам и убедитесь, что лицевая
сторона тетрадей заполнена у всех учеников.
Откройте первую страницу. Я прошу вас не переворачивать
следующую страницу.
ПРОВЕДЕНИЕ ИНСТРУКТАЖА
У вас в начале тетрадей приведена инструкция и даны примеры
выполнения заданий.
В тетрадях вы будете читать вопросы и отвечать на них.
Во время работы, пожалуйста, пройдитесь по классу для того, чтобы
убедиться, что все учащиеся придерживаются инструкции по заполнению
бланков для ответов.
Спросить, есть ли вопросы, ответить на них.
Мы рассмотрели вопросы, которые могут встретиться в тесте.
Переворачивать следующую страницу не нужно. Сейчас несколько
правил, которые касаются вашей работы над заданиями.
ЧТЕНИЕ ИНСТРУКЦИИ
Перед вами тестовые тетради, они содержат задания по (назовите
предмет, по которому проводится тестирование).
Некоторые вопросы легкие, другие — сложные. Нужно внимательно
читать вопросы и постараться ответить на них как можно лучше.
Обращаю еще раз ваше внимание на то, что ответы на вопросы вы
будете отмечать и записывать только в тетрадях.
Если у вас останется время после того, как вы ответили на все
вопросы, то проверьте ваши ответы.
Если вам надо сделать какие-нибудь вычисления, то используйте для
этого свободное место на полях тетрадей.
Приложения 275
ПОМНИТЕ!
Читайте каждый вопрос ВНИМАТЕЛЬНО. Если вам надо изменить
свой ответ, сначала зачеркните ровной горизонтальной чертой тот ответ,
который вы дали раньше. Если у вас осталось время после выполнения
задания, то ОБЯЗАТЕЛЬНО ПРОВЕРЬТЕ, как вы ее заполнили.
Спросить, есть ли вопросы, ответить на них.
Ниже приводится пример инструкции, находящейся в тестовых
тетрадях (образец инструкции для учащегося приведен после окончания
сценария).
Ответьте на вопросы учащихся, если они возникли.
ПРОВЕДЕНИЕ ТЕСТИРОВАНИЯ
Часть I
Мы начинаем работу.
Если вам во время работы понадобится ручка, пожалуйста, поднимите
руку. Я не могу отвечать на ваши вопросы во время работы. Пожалуйста
начинайте.
(Установить таймер).
Остановитесь. Это конец работы.
СБОР ТЕТРАДЕЙ
Пожалуйста, закройте тетради и отложите ручки.
Оставайтесь на своих местах, пока я не соберу ваши тетради.
Соберите тетради ответов, проверяя каждую, заполнена ли ее лицевая
сторона.
БЛАГОДАРНОСТЬ
Поблагодарите учащихся за участие в работе, пожелайте им успехов.
ОТПУСТИТЕ УЧАЩИХСЯ
Заполните идентификатор, записывая в последние три клеточки
номер ученика из списка (протокола). Не забывайте дополнять номер нулями
до трехзначного.
Проверьте, совпадает ли количество тетрадей с количеством
испытуемых.
Сложите тетради в порядке возрастания номеров. Сверху должна
лежать тетрадь с идентификатором 001. Незаполненные тетради подложите
снизу под заполненные.
Передайте материалы тестирования председателю приемной
комиссии.
Дополнение к сценарию для проведения испытаний по нескольким предметам в
один день
В том случае, если в образовательном учреждении проводится экзамен
по нескольким предметам в один день, то сценарий проведения имеет
следующие особенности.
276 Приложения
Тестирование в этом случае состоит из двух частей и проводится с
перерывом. Приведенный ранее сценарий используется для выполнения
заданий первой тестовой тетради. После ее заполнения и сдачи учащиеся
опускаются на перерыв.
ПЕРЕРЫВ
Сообщите учащимся длительность перерыва (10 минут) и предложите
им выйти из класса. Убедитесь, что все ученики покинули класс и начато
проветривание. Выйдите из класса.
КОНЕЦ ПЕРЕРЫВА
Убедитесь, что все учащиеся вернулись в класс после перерыва.
Часть II
Сейчас мы переходим к началу II части. Это задания по (назовите
предмет).
На выполнение этой части отводится (укажите время). Пожалуйста,
начинайте.
(Установите таймер).
Остановитесь. Это конец 2-й части и нашей работы.
Далее действуйте в соответствии с приведенным ранее сценарием.
Приложения 277
Приложение 5
Инструкция для учащегося
Перед тобой тестовая тетрадь, содержащая задания по предметам,
которые подлежат аттестации.
На выполнение работы по каждому из предметов отводится разное
время. Обрати на это внимание! В зависимости от предмета время
распределяется следующим образом:
На выполнение всей работы в тестовой тетради, содержащей задания
по русскому языку и литературе, отводится 2 часа. Это время
распределяется следующим образом: на выполнение заданий по русскому языку
отводится 1 час, по литературе — 1 час.
На выполнение всей работы в тестовой тетради, содержащей тестовые
задания по истории России, обществоведению и истории и культуре Санкт-
Петербурга отводится 2 часа 30 минут. Это время распределяется
следующим образом: на выполнение заданий по истории России отводится 55
минут, по обществоведению — 40 минут, по истории и культуре Санкт-
Петербурга — 55 минут. После 1 часа 35 минут работы будет объявлен
десятиминутный перерыв.
В тетради, содержащей задания по математике и физике, содержится
всего пять разделов (4 раздела по математике и 1 раздел по физике). На
работу с каждой частью отводится определенное время. На выполнение всей
работы отводится 2 часа 25 минут. На выполнение заданий по математике
отводится I час 10 минут (на раздел 1 — 25 мин, на раздел 2-10 мин, на
раздел 3—15 мин, на раздел 4 — 20 мин). На выполнение заданий по физике
отводится 1 час 15 минут. После 1 часа 10 минут работы будет объявлен
десятиминутный перерыв.
На выполнение всей работы в тестовой тетради, содержащей тестовые
задания по химии, биологии и географии отводится 2 часа 20 минут. Это
время распределяется следующим образом: на выполнение заданий по
химии отводится 45 минут, по биологии — 35 минут, по географии - 1 час.
После 1 часа 20 минут работы будет объявлен десяти ми путный перерыв.
На выполнение всей работы в тестовой тетради, содержащей задания
по экономике, отводится 45 минут.
Поскольку существует несколько вариантов тетрадей, то гвой сосед по
парте будет выполнять другие задания.
Внимательно читай каждый вопрос и постарайся ответить на него как
можно лучше. При выполнении работ не разрешается пользоваться никакими
справочниками, микрокалькуляторами и другими вспомогательными
материалами.
Начинать и заканчивать работу нужно по команде учителя. Если
останется время после того, как ты ответил на все вопросы раздела, то
обязательно проверь свои решения.
278
Приложения
Сейчас мы рассмотрим то, как следует выполнять задания.
В части заданий ответы необходимо вписывать над соответствующим
многоточием, как это показано в примерах 1 и 2.
Пример /. Впиши пропущенное слово.
Вопрос: Часть геологической оболочки земли, населенная живыми
организмами называется ... .
Пример 2. Закончи предложение.
В заданиях такого вида количество слов, которые нужно вписывать
вместо многоточия, не ограничено. Однако при выполнении таких заданий
необходимо быть по возможности кратким, записывая самое главное,
существенное.
Вопрос: Биосфера — это ...?
Ответ считается правильным, если в продолжении, записанном
учеником встречаются словосочетания «геологическая оболочка» и «живые
организмы».
Поэтому такие ответы, как ... часть геологической оболочки Земли,
населенная живыми организмами,... геологическая оболочка, где
функционируют живые организмы будут одинаково правильными, а ответ ... часть
оболочки Земли — неправильный.
В заданиях следующего типа требуется обвести правильный вариант
ответа кружком (примеры 3,4, 5).
Пример 3. Обведи ответ «да» или «нет». (Если ты согласен с
утверждением — обведи кружком «да» в клеточке таблицы ответов, а если не согласен
— обведи «нет».)
Вопрос: Биосфера — это ...?
- часть геологической оболочки Земли
- часть биологической оболочки Земли
- часть гидрологической оболочки Земли
- то, окружающее Землю, где присутствует воздух
- часть оболочки Земли, населенная организмами
- часть оболочки Земли, где возможна жизнь
Пример 4. Обведи кружком букву, соответствующую правильному от-
®
да
да
да
(£>
да
нет
©
&
&
нет
©
вету.
Вопрос: К какой группе веществ относится серная кислота?
A. Не электролит
B. Слабый электролит
Приложения
279
(^С?) Электролит средней силы
1Л Сильный электролит
Пример 5. Найди лишний элемент в списке ответов и обведи кружком
букву, его обозначающую.
Вопрос:
A. Аорта
B. Вена
("с) Сердце
IX Артерия
Е. Капилляр
Последняя третья группа заданий представлена примерами 6 и 7. В
заданиях такого типа требуется записать цифру или букву в соответствующую
графу таблицы.
Пример 6. Соотнеси написанное в столбце 1 и 2. Запиши в таблицу
ответов цифру из списка 2, которая соответствует утверждению из первого
списка.
Вопрос: В первом столбце приводится название произведения.
Во втором — список авторов. Объедини их правильно.
Ответы: Столбец 1
— А. Обломов
А
В
С
D
Е
— В. Капитанская дочка
Столбец 2
1. Толстой Л.Н.
2. Островский А.Н.
— С. Севастопольские рассказы 3. Пушкин А.С.
- D. Лес
— Е. Крыжовник
4. Чехов А.П.
5. Гончаров И.А.
Пример 7. Расположи в правильной последовательности.
(В столбце ответов проставь соответствующие буквы).
Вопрос:
Ответы:
— А. Старость
— В. Рождение
— С. Юность
— D. Детство
— Е. Зрелость
— F. Отрочество
Если ты случайно отметил не тот вариант ответа, то для исправления
необходимо зачеркнуть ровной горизонтальной чертой неправильный вариант и
рядом вписать или отметить кружком правильный (примеры 8,9, 10).
1
2
3
4
5
6
280
Приложения
Пример 8. Впиши пропущенное слово.
Вопрос: Часть геологической оболочки земли, населенная живыми
организмами, называется ...?
вету.
Пример 9. Обведи кружком букву, соответствующую правильному от-
Вопрос: К какой группе веществ относится серная кислота?
Не электролит
Г.4Слабый электролит
^SL Электролит средней силы
С D.) Сильный электролит
О
да
\ L
Ф.
1 \
да
(да)
да
нет
(нет)
(нет)
(нет)
нет
(нет)
Пример 10. Обведи ответ «да» или «нет». (Если ты согласен с
утверждением - обведи кружком «да» в клеточке таблицы ответов, а если не согласен
— обведи «нет».)
Вопрос: Биосфера — это ...?
— часть геологической оболочки Земли
— часть биологической оболочки Земли
— часть гидрологической оболочки Земли
— то, окружающее Землю, где присутствует воздух
— часть оболочки Земли, населенная организмами
— часть оболочки Земли, где возможна жизнь
Если ошибочно зачеркнут правильный ответ и отмечен неправильный,
то следует зачеркнуть неправильный ответ, а возле зачеркнутого правильного
ответа написать букву, обозначающую вариант правильного ответа, и
обвести ее кружком (пример* 11).
Пример 11.
Вопрос: К какой группе веществ относится серная кислота?
QAj He электролит
Слабый электролит
C. Электролит средней силы
D. Сильный электролит
Часть ответов необходимо вписывать над соответствующим
многоточием, как это показано в примерах 1 и 2. Если необходимо выполнить
письменные вычисления, то все записи нужно делать в этой тетради на
свободном месте.
Приложения 281
Пример 12. Впиши ответ в отведенное место.
Вопрос: В одном пакете 10 яблок, а в другом в два раза больше. Сколько
яблок в двух пакетах?
Ответ: 30 10+20=30
ПОМНИ!
Некоторые вопросы легкие, другие - сложные. Нужно ВСЕ
ВОПРОСЫ читать ОЧЕНЬ ВНИМАТЕЛЬНО и постараться ответить на них
как можно лучше.
Обрати еще раз внимание на то, что ответы на вопросы нужно
отмечать ТОЛЬКО В ТЕТРАДИ.
Если у тебя останется время после выполнения всех заданий раздела,
го ОБЯЗАТЕЛЬНО ПРОВЕРЬ свои ответы.
Если потребуется сделать какие-нибудь вычисления, то используй для
этого СВОБОДНОЕ МЕСТО В ТЕТРАДИ.
Если потребуется ИЗМЕНИТЬ свой ответ, сначала нужно
ЗАЧЕРКНУТЬ ровной горизонтальной чертой тот ответ, который дан
раньше, а затем НАПИСАТЬ новый.
Если ОШИБОЧНО ЗАЧЕРКНУТ правильный ответ и отмечен
неправильный, то следует ЗАЧЕРКНУТЬ неправильный ответ, а возле
зачеркнутого правильного ответа НАПИСАТЬ букву, обозначающую вариант
правильного ответа, и ОБВЕСТИ ее кружком.
Приложения
Приложение 6
Комитет по образованию Санкт-Петербурга
Тесты школьных достижений
Вступительные экзамены
Анкета наблюдателя
АНКЕТА НАБЛЮДАТЕЛЯ
Код тетради
Код тетради
ФМ
S 4
ФМ
f ч
ЕН
ЕН
^ - -—<
г- - -1
ИК
ИК
^ ^
< —>
ГФ
L. _._ ...л
t >
ГФ
N 4
ЭД
ч , ■ - ^
ЭД
Образовательное учреждение
Телефон образовательного учреждения:
ФИО ведущего
ФИО председателя экзаменационной комиссии
Дата проведения тестирования « »
Время проведения тестирования:
Начало час мин.
200 г.
Окончание
час
мин.
ФИО Наблюдателя,
Подпись
Санкт-Петербург
1996 г.
Приложения 283
АНКЕТА НАБЛЮДАТЕЛЯ
Подготовка к тестированию
Наблюдения
1. Отметьте время, когда ведущий
вскрыл пакет с материалами
Ответы
час мин
Объяснения
Проведение тестирования
Наблюдения
1. Отметьте время, когда ведущий
начал читать сценарий проведения
тестирования
2.Следовал ли ведущий сценарию во
время «ВВЕДЕНИЯ»?
3. Следовал ли ведущий сценарию при
«РАЗДАЧЕ ТЕГРДЦЕЙ И БЛАНКОВ
ОТВЕТОВ»?
4. Следовал ли ведущий сценарию при
«ЗАПОЛНЕНИИ ЛИЦЕВОЙ СТОРОНЫ
ТЕТРДЦИ»?
6. Следовал ли ведущий сценарию при
«ПРОВЕДЕНИИ ИНСТРУКТАЖА И
ЧТЕНИИ ИНСТРУКЦИИ»?
7. Отметьте время, когда учащиеся
приступили к работе над 1 частью
8. Отметьте время, когда учащиеся
закончили работу над 1 частью
9. Отметьте время, когда учащиеся
приступили к работе над 2 частью
10. Отметьте время, когда учащиеся
закончили работу над 2 частью
11. Отметьте время, когда учащиеся
приступили к работе над 3 частью
12. Отметьте время, когда учащиеся
закончили работу над 3 частью
Ответы
час мин
A. Дословно
B. С небольшими добавлениями
C. Много добавлений (Объясните)
D. Пропуски/свободная
интерпретация (Объясните)
A. Дословно
B. С небольшими добавлениями
C. Много добавлений (Объясните)
D. Пропуски/свободная
интерпретация (Объясните)
A. Дословно
B. С небольшими добавлениями
C. Много добавлений (Объясните)
D. Пропуски/свободная
интерпретация (Объясните)
A. Дословно
B. С небольшими добавлениями
C. Много добавлений (Объясните)
D. Пропуски/свободная
интерпретация (Объясните)
час мин
час мин
час мин
час мин
час мин
час мин
Объяснения
284
Приложения
Наблюдения
13. Отметьте время, когда учащиеся
приступили к работе над 4 частью
14. Отметьте время, когда учащиеся
закончили работу над 4 частью
15. Отметьте время, когда
учащиеся приступили к работе над
последней частью
16. Отметьте время, когда
учащиеся закончили работу над
последней частью
17. Следовал ли ведущий сценарию при
организации перерыва?
Ответы
час мин
час мин
час мин
час мин
А Дословно
B. С небольшими добавлениями
C. Много добавлений (Объясните)
D. Пропуски/свободная
интерпретация (Объясните)
Объяснения
Общие наблюдения за работой
Наблюдения
18. Проверял ли ведущий, правильно ли
заполнена лицевая сторона бланка для ответов?
19. Хорошо ли вели себя учащиеся во время
тестирования ?
20. Если нет, то предпринимал ли школьный
координатор попытку контролировать
учащихся?
21. Ходил ли ведущий по классу для того,
чтобы проверить, над нужной ли частью
работают учащиеся ?
22. Правильно ли ведущий выполнял правила,
как отвечать на вопросы учащихся?
Наблюдения
23. Запишите время окончания работы здесь и
на лицевой стороне.
Ответы
А. Да
В. Нет
А. Да
В. Нет
А. Да
В. Нет
А. Да
В. Нет
С. Не мог ходить
по классу
А. Да
B. Нет
C. Вопросов не
задавали
D. Отвечать на
вопрос не мог
Объяснения
Ответы
час мин
Приложения 285
Приложение 7
Инструкция
по использованию анкеты наблюдателя
Институт наблюдателей вводится как средство стандартизации,
повышения объективности, надежности и качества тестирования в целом.
Требования и порядок работы наблюдателей определяется
соответствующей инструкцией.
Наблюдатели при проведении массовых испытаний могут назначаться
в образовательные учреждения выборочно или готовиться из педагогов
данного образовательного учреждения.
После проведения тестирования и заполнения анкет наблюдателей
необходимо отбраковать те результаты, которые не отвечают показателям
качества. В этих классах следует назначить повторные испытания. Решение
о назначении повторного испытания принадлежит председателю приемной
комиссии.
К таким следует отнести те работы, в которых:
время на проведение тестирования превышено более чем на 7 минут
на все субтесты или более 2 минут на любую из частей. Возможна
отбраковка только тех субтестов, в которых нормы времени не выдержаны, если
остальные отвечают критерию качества по времени;
более чем в 30 % случаев объяснений проводящего тестирование
зафиксированы ответы С. — «Много добавлений» и D. -
«Пропуски/свободная интерпретация»;
если не был сделан перерыв ранее, чем через полтора часа работы;
если были грубо нарушены правила ответов на вопросы.
Вопрос о зачете результатов в случае нарушений дисциплины и других
правил проведения решается председателем экзаменационной комиссии
или вышестоящим органом управления образованием по представлению
наблюдателя. Критерием оценки в данном случае служит то, насколько
данные нарушения могли повлиять на результативность выполнения работ.
286 Приложения
Приложение 8
Рекомендации по адаптации тестов для детей
имеющих физические ограничения
Ниже приведен пример инструкции по внесению специальных
изменений в тесты, которые должны быть использованы для аттестации детей с
физическими ограничениями. Общий подход использования тестов
заключается в том, что все дети подвергаются испытаниям одним и тем же
тестовым инструментом с точки зрения содержания. Как Вы увидите из
содержания этих рекомендаций, все изменения касаются одной стороны
тестирования — сделать задания максимально понятными и ясными для испытуемых.
Они не затрагивают содержания самих заданий, не влияют на их трудность.
Поскольку опыта подобной адаптации в нашей стране найти не
удалось, то приведена выдержка из инструкции (касающаяся тестирования по
математике), которая используется при итоговой аттестации учащихся
Великобритании.
РЕКОМЕНДАЦИИ ПО ВНЕСЕНИЮ СПЕЦИАЛЬНЫХ ИЗМЕНЕНИЙ
МАТЕМАТИКА
Цель настоящих рекомендаций оказать помощь учителям в работе с
детьми, нуждающимся в оказании специализированной помощи в процессе
учебы. Рекомендации следует читать параллельно с информацией,
представленной в брошюре «Руководство по внесению специальных изменений
в тесты и контрольные задания».
Тесты были разработаны таким образом» что они могли быть
использованы для широкого контингента учащихся. После ознакомления
с формулировками заданий, учителя сами могут решать, следует ли
изменять их для детей с особыми проблемами в обучении или нет. Однако,
вносимые изменения в формулировки вопросов не должны искажать
смысл самих заданий, или давать учащимся какую-либо подсказку для
его выполнения. В данном случае учителя должны полагаться на свои
профессиональные знания и опыт, с тем, чтобы отличить допустимую
степень адаптации формулировок ог недопустимой. Необходимо
опираться на рекомендуемую шкалу оценок знаний и перечень навыков и
умений, подлежащих контролю.
Допускается проводить следующие видоизменения заданий.
Упрощение формулировок заданий
Некоторые учащиеся нуждаются в объяснении отдельных слов в тесте.
В школах, где у учеников есть взрослые помощники, которые читают для
них вслух, можно провести их собрание и обсудить допустимые варианты
упрощений и персфраза.
Приложения 287
Некоторые термины существенны для понимания математики и
являются предметом тестирования, поэтому их не следует пояснять.
Есть ряд терминов, перефраз которых допускается, но следует
проявлять осторожность, чтобы не разъяснять сущность понятий, понимание
которых тестируется.
Имена собственные, встречающиеся в тестах, никогда не являются
предметом тестирования. Учащиеся могут быть ознакомлены с ними до
проведения теста. Учителя могут дать учащимся справку о данных именах
собственных или заменить их другими по своему усмотрению.
Обеспечение учащихся не владеющих свободно английским или
валлийским языком списками слов с переводом.
Незнакомые слова могут быть представлена отдельным списком с
переводом. Те термины, которые невозможно объяснить или перефразировать
должны быть пояснены через наиболее точный перевод.
Использование помощника, записывающего ответ учащегося
под диктовку
В случаях, когда учитель или другой взрослый выступает в качестве
помощника, записывающего ответ учащегося под диктовку, необходимо
использовать разные чернила для письма, чтобы часть, записанная
помощником, была выделена другим цветом чернил. На лицевой странице теста
после фамилии ученика следует указать фамилию помощника. Это делается
для того, чтобы внешний экзаменатор четко представил объем работы,
выполненный лично учеником или совместно с помощником.
Адаптация формулировок вопросов
Разрешается увеличивать фигуры и графики, вырезать их и
наклеивать на картон или другой материал. Учащиеся могут свободно
обращаться с рабочим материалом и демонстрировать свою реакцию на
них. Учителя могут заменять иллюстрации реальными предметами.
Следует проявлять аккуратность в отборе форм и размеров предметов,
которые не должны сильно отличаться от математических форм,
идентичных тем, что предлагаются в тесте. Также разрешается использовать
контуры и модели фигур для демонстрации передвижения предметов в
пространстве и изменения их положения. Любые ограничения по типу и
размерам допустимых материалов приводятся ниже.
В вопросах о форме предметов, включая задания по симметрии и
отражению, ученикам можно раздать зеркала или листы бумаги с разметкой
следов форм предметов.
Допускается изменять интенсивность тонировки на диаграммах,
графиках, таблицах с тем, чтобы визуально увеличить четкость границ.
Например для задания, в котором необходимо определить вероятность
вытащить из мешка фишки определенной формы можно показать верное
число фишек одной формы, смешать их и положить в мешок. Ученикам
запрещается экспериментировать с ними.
288 Приложения
Для задания, в котором используется рисунок глобуса с нанесенным
экватором, ученикам может быть продемонстрирован глобус с отметкой
экватора на нем.
Рекомендации по адаптации некоторых конкретных вопросов
приводятся ниже.
Модификации вопросов для детей с ослабленным зрением
Можно использовать любые модификации, описанные выше.
В дополнение, рекомендации по использованию записи шрифтом
Брайля, увеличение и распечатка контрольных работ более крупным
форматом.
Модификаций вопросов для детей с ослабленным слухом
Можно использовать любые модификации, описанные выше.
Общие рекомендации для сурдопомощников.
— Персонал помощников должен максимально обеспечить понимание
учащимися требований тестов. Необходимо обратить внимание на то, что
передаваемый языком жестов вопрос не будет содержать подсказки
правильного ответа. Отдельные трудности передачи содержания вопросов
языком жестов приводятся в специальном разделе Руководства для глухих.
— Некоторые математические понятия не имеют четкого знака,
отражающего его значение. Часто учителя сами предлагают жесты для подобных
слов. Необходимо чтобы весь персонал помощников был в курсе, какие
жесты рекомендуется использовать.
— Незнакомые имена собственные могут представить определенную
трудность для понимания и вводить учеников в замешательство. Если имя
собственное вызывает затруднение, его можно пояснить жестом более
общего характера, например, девочка, мальчик, мужчина, женщина, место.
— Некоторые вопросы дают ссылку на события прошлого или,
наоборот, будущего, либо просят учащегося обратиться к ранее изученной
информации. Разрешается напоминать ученикам о некоторых из них, включая
повтор частей самого вопроса.
В качестве подсказки разрешается использовать реальные предметы,
если есть необходимость в этом.
Ученикам разрешается отвечать на вопросы на языке жестов, при этом
помощники должны записать их ответ графически, без каких-либо подмен
или коррекции.
Ученики должны сидеть так, чтобы не видеть ответы жестами других
учащихся.
Символ слова «Запишите» может быть заменен на «Заполните»,
«Скажите».
Некоторые математические понятия очень сложно объяснить на языке
жестов. Если какой-либо вопрос вызывает затруднение, ученикам
разрешается начать ответ с другого вопроса, т.е. последовательность выполнения
заданий каждый ученик выбирает сам.
Приложения
Для передачи значений специальных слов, приводимых ниже,
рекомендуется использовать знакомые знаки (список приведен в сокращении):
пропорция
отражать
взаимоотношение
верный угол
корень (уравнения)
образец
масштаб
расположить график
равные треугольники
решать
квадратные образцы
стандартная форма
290 Приложения
Приложение 9
Источники дополнительной информации
Литература
Применяемые в конце книг списки литературы навряд ли можно
считать лучшим выходом, если ставить себе цель ознакомить читателя с
теми источниками, которые были использованы при написании книги и
порекомендовать какую-то литературу для дополнительного
ознакомления.
Недостатки, как мне представляется, двух планов: один из них носит
специфический Российский характер — зачастую литература, которую
приводит автор недоступна, происходит это в силу разных обстоятельств, часть
информации попадает к автору достаточно случайно, поэтому
представляется полезным дать оценку доступности книги. Второй недостаток списка
литературы — его безличность, в нем нет отношения к тому или иному
произведению, кроме того, они как показывает опыт могут быть крайне
внутренне неоднородны, одну часть хочется порекомендовать, другие не очень.
Еще одно обстоятельство побудившее изменить традиции — это
возможное отношение к авторам — существует целый ряд авторов, работы
которых хочется порекомендовать вне зависимости от конкретного
произведения. Это может быть обеспечено профессиональными интересами автора
и тем, что возможно какие-то книги выйдут уже после появления
настоящей книги.
Наконец последнее обстоятельство связано с современными
источниками информации, я имею в виду в основном ИНТЕРНЕТ. Поскольку он
все в большей мере становится наиболее доступным информационным
источником, то возникает необходимость сделать какие-то ссылки. Поскольку
сегодня отсутствует традиция ссылок в ИНТЕРНЕТе, то я считаю
необходимым указать по крайней мере адреса нескольких сайтов, где читатель
может найти полезную информацию.
Конечно, оценочные суждения, которые приведены ниже, сугубо
субъективны и отражают мнение автора на данный момент.
Доступные книги помечены *. Доступной считается книга, если ее
можно приобрести в настоящий момент или если она издавалась массовым
тиражом и есть достаточно высокая вероятность найти ее в библиотеке.
1. Тестирование и информационное обеспечение
1.*Аванесов B.C. Композиция тестовых заданий М., Адепт, 1998.
Некоторое мое несогласие с автором этой книги по вопросам составления заданий
не делает ее менее ценной и полезной. Почти все о тестовых заданиях и их
сочетаниях. Книга для вдумчивого чтения.
Приложения 291
2. Аванесов B.C. Композиция тестовых заданий. М., Ассоциация
инженеров-педагогов, 1996. — 191 с.
3. Агапов В. Ю., МишаковаЛ. В. Алгоритмы целеполагания в
современных педагогических технологиях. — Рязань: РОИРО, 1994. — 24 с. Весьма
изящная работа в духе теории диагностично поставленных целей.
4. Агафонова И.Н., Колеченко А.К. и др. Методика изучения
интеллекта. Часть 1. С-Пб., 1991.
5.*Айзенк Ю.Г. Проверьте свои способности. С-Пб., 1993.
6.*Беспалько В.П. Слагаемые педагогической технологии. М., 1989.
Работа в какой-то мере эпохальная, культовая. Для своего времени
революционная. В настоящее время представляет больше исторический
интерес.
7. Вербицкая М.В., Волошина О.И. Чтение. Начальная школа. Тесты
М.: Дрофа, 1998.
8. Вопросы психологии обучения. /Под ред. Н.А. Менчинской. М.,
Изд-воАПН РСФСР, 1960.
9. Выготский Л.С. Избранные психологические исследования. М.,
АПН РСФСР, 1956.
Ю.*Ингенкамп К. Педагогическая диагностика. /Пер. с нем. — М.,
1991.-238 с.
Книга для своего времени. Классика.
11.Качество знаний учащихся и пути его совершенствования. /Под
ред. М.Н. Скаткина, В.В. Краевского. М., Педагогика, 1978.— 208 с.
Незаслуженно забытая книга. Если у вас есть возможность прочитайте,
если читали — освежите в памяти.
12.*Кларин М.В. Инновационные модели обучения в зарубежных
педагогических поисках. М.: Арена, 1994 г. 223 с.
Эту книгу должен иметь каждый, кто занимается проблемами
проектирования и оценки в образовании. При весьма высокой полемичности содержит
неплохие переводы.
13. Ковалева Г.С. Третье международное исследование по оценке
качества математического и естественнонаучного образования TIMSS, 1996.
М, ИОСО РАО.
Серия из 8 выпусков, несомненно, образец высокого уровня, как с точки
зрения международного исследования, так и представления материалов
российскими авторами.
14. Ковалева Г.С. и др. Сравнительная оценка естественно-
математической подготовленности школьников. М.: Изд-воАПН, 1992.— 146 с.
Все работы этого автора, несомненно, стоит читать в том случае, если
Вас интересуют современные тестовые технологии и результаты
международных исследований. Кладезь полезной, но не всегда структурированной
информации.
15. Кулагин Б.В. Основы профессиональной психодиагностики. Л. 1984.
16. Левитов Н.Д. О психических состояниях человека. М.:
Просвещение, 1964.
292 Приложения
17. Лучшие психологические тесты для профотбора и профориентаци.
Описание и руководство по использованию. /Под ред. Кудряшова А.Ф.,
Петрозаводск, 1992.
18. Мельников В.М., Ямпольский Л.Г. Введение в экспериментальную
психологию личности. М., 1985.
19.*Макарова Т.Д. и др. Итоговое тестирование Дидактика 2000.
Педагогическое общество России. 1999.
Серия тестовых материалов этого автора выгодно отличается наличием
обоснованных обоснований для сравнения.
20. Мальцев А.В. Тестовая технология контроля знаний.,
Екатеринбург, 1997.
Не самый внятный пересказ идей B.C. Аванесова. Содержит неплохие
примеры.
21. Мышко С.А. Тестирование как психолого-педаго! ическое средство
оценки академических способностей в системе образования США. —
Высшая и средняя школа за рубежом. М., НИИВЩ, 1980, вып. 6
22. Общая психодиагностика. /Под ред. Бодалева А.А., Столина В.В.
М. 1987.
23. Огорелков В.И. Надежность измерений и оценки знаний учащихся
на основе элективных заданий. //Советская педагогика, 1970, № 7.
24. Наводнов В.Г. Математические модели САПР ПИМ, Йошкар-Ола:
Научно-информационный центр государственной аккредитации, 1997.
25. Полонский В.М. Научно-педагогическая информация. Словарь
справочник. М., Новая школа, 1995.
Чрезвычайно полезное начинание. Формально-информационный подход
привел к отсутствию ряда очень нужных статей. Представленные статью
несомненно профессиональны, однако во многих сквозит авторское отношение или
односторонний взгляд.
26. Полуаршинова Е.Г. Тесты как средство контроля качества
подготовки учащихся. Автореферат на соискание ученой степени к.т.н., М., 1998.
27. Развитие школы: модели и измерения. Пер. с англ. / Под ред А. К.
Зайцева. Калуга, 1993, 239 с.
Представлены неплохие модели анализа внутри школьного управления.
Система представленных моделей носит наднациональный характер и этим
очень интересна. Про измерения в этой книге практически ничего нет.
28. *Симонов В.П. Директору школы об управлении учебно-
воспитательным процессом. М.: Педагогика, 1987. — 160 с.
Классическая книга. Обратите внимание на год издания.
29. Татур А.О. и др. «Стандарты и тесты в образовании», М., МИФИ,
1995.
Одна из редких хороших и взвешенных книг по тестированию, если
немного убрать навязывание своего варианта стандартов, возможно она стала бы
лучше.
30. Тестовые технологии и педагогические тесты в общем и
профессиональном образовании. Тезисы докладов. Институт развития
регионального образования. Екатеринбург, 1998. -52 с.
Приложения 293
Появление этой работы в регионе конечно свидетельствует о громадной
динамике развития тестирования и мониторинга на уровне региональных и
школьных и вузовских образовательных систем, дает возможность оценить
уровень их развития. Есть свежие идеи.
Другие работы автора
Первые три работы наиболее доступны, первая из них вышла двумя
изданиями, вторая и третья вышли в 1998 году вторым и третьим изданием
соответственно. Эти книги можно заказать по адресу, приведенному в конце
книги. С остальными книгами можно познакомиться в центральных
библиотеках.
1)* Тесты школьных достижений: конструирование, проведение,
использование. Образование и культура, С-Пб., 1996, 1997, 304 с.
2)* Экзамены в форме тестирования. Рекомендации по подготовке к сдаче
экзаменов. С-Пб., Образование и культура, 1996,1997, 1998,79 с.
3)* Стандарты Санкт-Петербургской школы. Требования к тестам
школьных достижений. Образование и культура, С-Пб, 1996, 1998, 39 с.
4) Элементы педагогического мониторинга и стандартов в управлении.
С-Пб., в соавт. УПМ, 1992, 80 с.
5) Конструирование заданий для тестов школьных достижений.
С-Пб., Фонд «Культурная инициатива», 1995, 67 с.
6) Состояние образовательной системы Санкт-Петербурга. С-Пб.,
Фонд «Культурная инициатива», 1995, 118 с.
7) Бюллютень состояния образовательной системы Санкт-Петербурга
/Под. Ред. Майорова А.Н., 1995-1996. 8 выпусков.
2. Психология
1. Бурлачук Л.Ф., Морозов С.Н. Словарь-справочник по
психодиагностике. С-Пб, Питер, 1999.
2. *Бурлачук Л.Ф., Морозов С.Н. Словарь-справочник по
психологической диагностике. Киев, 1989.
3. В. Черных, Т. Колларик. Компендиум психодиагностических
методов: Братислава, 1988, в 2-х т.
4. Вступительный психометрический экзамен в университеты.
Разъяснительная брошюра., Израильский центр экзаменов и оценок. Иерусалим.
5. Психологический словарь. /Под ред. А.В. Петровского и М.Г.
Ярошевского. М., 1990, 396 с.
6. Зиверт Р. Подготовка к тестированию, Нолиж и Интерэксперт,
М., 1997.
7. Гайда В.К., Захаров В.П. Психологическое тестирование. Л., 1982.
8. *Клайн П. Введение в психометрическое программирование.
Справочное руководство по конструированию тестов Киев. 1994. с. 184
9. Психологическая диагностика: Проблемы и исследования. Под
ред. К.М.Гуревича. М.
10. *Ярошевский М.Г. История психологии. 3-е изд., М., 1985.
294 Приложения
3. Статистика и обработка результатов
1. *Гласс Дж. Стэнли Дж. Статистические методы в педагогике и
психологии. М. 1976. — 495с.
2. *Ллойд Э., Ледерман У. Справочник по прикладной статистике. —
М.: Финансы и статистика, 1989. - 21 с.
3. Основные математико-статистические понятия и формулы в
экономическом анализе. М.: Статистика, 1979.
4. *Рабочая книга социолога.— М.: Наука, 1976, 506 с.
5. *Сидоренко Е.В. Методы математической обработки в
психологии. С-Пб, 1996,350 с.
6. *Справочник метролога. М: Издательство стандартов, 1991, 78 с.
7. Маликов С.Ф. Введение в метрологию М., 1965
4. Методология науки
1. Дж.ван Гиг. Прикладная общая теория систем, в двух книгах. М.,
Мир, 1981
2. *Кэмпбелл Д. Модели экспериментов в социальной психологии и
прикладных исследованиях, С-Пб., Социально-психологический центр, 1996.
Это объемный сборник, изданный достаточно большим тиражом,
который освещает большинство проблем экспериментирования в социальных
науках и оценки эффективности реализации различных программ улучшений в
социальной области. Книга чрезвычайно полезная и интересная, просто
настольная книга специалиста по оценке в социальной области.
5. Оригинальные переводы
В данном разделе собраны те работы, которые в России не публиковались,
их источники самые разные — это материалы семинаров, личное знакомство с
авторами, участие в международных исследованиях, знакомство с опытом
работы по созданию и использованию тестов за рубежом и другие.
Перевод оригинальных материалов выполнен: А. Сотовым, Е. Рива, Е.
Ивановой, А. Яковлевым.
1. Bloom В. S., Hasting J. Т. & Madaus G. F. Handbook on Formative and
Summative Evaluation of Student Learning. New York: McGraw-Hill, 1971.
2. Dale Mann A delphi analysis of the instructionally effective schools,
Columbia University, USA.Gronlund Norman E. How to Make Achievement
Tests and Assessments. — Allyn and Bacon, 1993. — 180 с
3. Methodology and Measurement in International Educational Surveys.
The IEA Technical Handbook. Edited by John P. Keeves. The International
Association for the Evaluation of Educational Achievment, 1992.
4. Standards for Educational and Psychological Testing, American
Psychological Association, Washington, 1985.
5. Вилмс Дж. Д. Мониторинг деятельности школы. Руководство для
преподавателей, Лондон, Фалмер Пресс ,1992.
6. Гронлунд Норман. Тесты достижений в конструировании. Лондон,
Прентис-Холл, 1982.
Приложения 295
7. Оценка результатов в области образования, СИТО, Национальный
институт по оценке достижений в области образования, Амхем,
Нидерланды, 1995.
8. Ричарде Крейг. Экологическая модель планирования и управления
школьным образованием. Колумбийский университет, 1995, США.
9.Роберт ван Крикен, Стивен Баккер. Подготовка и проведение
экзаменов. Руководство для организации и разработки централизованных
экзаменов. CITO, Национальный институт по оценке достижений в области
образования, Амхем, Нидерланды, 1995
Ю.Тедцли Чарльз. Эффективность школ и их совершенствование.
Луизиана, США, 1995.
11.Уаттс Майкл. Исследование методологии преподавания в школах в
Соединенных штатах, Университет Пердью, 1994.
Кроме этого были использованы рабочие материалы (инструкции,
технологические материалы по составлению тестов, нормативные
документы, стандарты, информационные материалы) предоставленные службами
аттестации разных стран:
1. NЕАВ (Northen Examinations and Assesment Board),
2. ULEAS (University of London Examinations and Assesment Cousil),
3. ACAC (Awdurdod Cwricwlwm ac Asesu Cymru).
4. SQA (Scottish Qualifications Authority)
5. SCET (Scottish Council for Educational Technology)
6. SCRE (The Scottish Council for Research in Educational)
7. Local Examinations Syndicate University of Cambridge
8. DFEE (Department for Education and Employment)
9. NFER (National Foundation for Educational Research)
10. Израильский центр экзаменов и оценок
Адреса сети INTERNET
CSTEEP.BC.EDU — материалы и результаты международного
сравнительного исследования подготовленности школьников TIMSS.
UNC.EDU — мониторинг подготовленности учащихся начальной
школы.
UTTOU2.TO.UTWENTE.NL— международная ассоциация по оценке
достижений в образовании (IEA), материалы международных
сравнительных исследований и другая полезная информация.
APA.ORG — американская психологическая ассоциация,
нормативные документы.
Майоров Алексей Николаевич
Теория и практика создания тестов
для системы образования.
(Как выбирать, создавать и использовать тесты
для целей образования)
« И нтелл ект- центр»
Изд. лицензия ЛР № 065552 от 05.12.97 г.
Подписано в печать 23.07.2001 г. Формат 60x84/16.
Бумага газетная. Печать офсетная.
Усл. печ .л. 18,5. Тираж *Ш)
Заказ № \\4п
Воскресенская типография Комитета по делам издательств,
полиграфии и книжной торговли Московской области:
140200, г. Воскресенск Московской области, ул. Центральная, д. 30
В книге излагаются основы теории разработки тестов.
На основании собственного опыта, ана/шза зарубежного и
отечественного опыта автор рассматривает полный ком-
плекс работ по проектированию, созданию и
использованию тестов школьных достижений в образовании.
Книга проиллюстрирована многочисленными
примерами, из самых разных предметных областей, образцами
инструкций и рекомендаций от разработчиков тестового
инструмента.
Книга рассчитана в первую очередь на разработчиков и
профессиональных пользователей тестами — педагогов,
заместителей директоров школ, работников
аттестационных служб, перед которыми стоит задача составления
тестов, выбора инструмента на рынке, определение того,
какими тестами и как стоит пользоваться в своей
работе, какие можно доработать, а какие стоит отвергнуть.
5удш fa/Mhvb &§ое/& отоёой дк&мрьмшт/ а, о/з-
и
ISBN 5-89790-115-5
>