Текст
                    М.Б. Челышкова
Теория
и практика
конструирования
педагогических тестов
Учебное пособие
Москва • «Логос» • 2002


УДК 371.263(07)+378:001.891 ББК 74.202 441 Федеральная целевая программа «Культура России» (подпрограмма «Поддержка полиграфии и книгоиздания России») Рецензенты: доктор психологических наук, профессоре.О. Шмелев, кандидат филологических наук, профессор Т.М. Балыхина, кандидат физико-математических наук, доцент АО. Татур Мельникова М.Б. 441 Теория и практика конструирования педагогических тестов: Учебное пособие. - М: Логос, 2002. - 432 с: ил. I8ВN 5-94010-143-7 Освещаются теоретические основы, методы конструирования и практические вопросы создания и использования гомогенных педагогических тестов. Раскрываются роль и функции педагогического кот роля в учебном процессе. Даются основы теории педагогических измерений Анализируются содержание тестов и формы их представления. Видное место отводится статистическому обоснованию качества теста. В приложениях приводятся инструктивно-методические материалы и математические формулы, используемые в ходе создания тестов и шкалирования результат» тестируемых. Для слушателей учреждений дополнительною образования, обучающихся по образовательной программе в области педагогических измерений с дополнительной квалификацией «Тестолог». Представляет интерес для учителей общеобразовательных школ, преподавателей высших и других профессиональных учебных заведений, а также для студентов педагогических направлений и специальностей. УДК 371.263(07) I 378:001.891 ВБК74.202 В гл. 3, § 5.1 и 8.5 использованы материалы, предоставленные Г. С. Ковалевой, которой автор выражает благодарность за помощь в обсуждении рукописи. 15ВК 5-94010-143-7 ©М.Б. Мельникова,2002 © «Логос», 2002
ОГЛАВЛЕНИЕ Предисловие 5 Введение 7 1. Педагогический контроль в современном учебном процессе 12 1.1. Педагогический контроль. Предмет и объект контроля 12 1.2. Виды педагогического контроля 17 1.3. Функции педагогического контроля 20 1.4. Принципы контроля 27 2. Основы теории педагогических измерений 38 2.1. Классификация педагогических тестов 38 2.2. Основные определения 52 2.3. Педагогические измерения и тесты 62 2.4. Основные этапы конструирования педагогического теста ... 79 3. Содержание теста 83 3.1. Целеполагание на этапе планирования содержания теста 83 3.2. Планирование содержания теста 94 3.3. Экспертиза качества содержания теста 99 3.4. Общие принципы отбора содержания теста 106 Приложение 3.1. Таксономии когнитивных и аффективных учебных целей (по М.В. Кларину) 108 Приложение 3.2. Результаты экспертизы содержания заданий ..111 4. Формы предтестовых заданий 112 4.1. Общие требования 112 4.2. Закрытая форма предтестовых заданий 115 4.3. Задания на дополнение 181 4.4. Задания на установление соответствия 190 4.5. Задания на установление правильной последовательности . 200 4.6. Сравнительная характеристика форм предтестовых заданий 203 5. Статистическое обоснование качества теста 216 5.1. Сбор эмпирических результатов тестирования 216 5.2. Математико-статистическая обработка эмпирических данных. Интерпретация результатов обработки 219
5.3. Методы обработки данных в рамках современной теории создания тестов 256 5.4. Характеристики тестовых заданий 299 5.5. Надежность и валидность гомогенного теста 319 Приложение 5.1. Инструкция Т1М88 346 Приложение 5.2. Инструкция для самооценки знаний с помощью теста по 352 Приложение 5.3. Формулы для вычисления дисперсии 357 Приложение 5.4. Расчетная формула для вычисления коэффициента корреляции Пирсона 358 Приложение 5.5. Переход от гхук ср-коэффициенту 359 Приложение 5.6. Составление системы уравнений для вычисления оценки наибольшего правдоподобия параметров испытуемых 360 Приложение 5.7. Информационная функция задания для однопараметрической модели Г. Раша 362 6. Сотрудничество преподавателей и учеников в процессе контроля 363 6.1. Основные положения педагогического сотрудничества 363 6.2. Пути организации контроля учебной деятельности в условиях сотрудничества 371 7. Методы шкалирования и интерпретации результатов тестирования 384 7.1. Стандартизация и нормы 384 7.2. Основные типы шкал в педагогических измерениях 387 7.3. Шкалирование результатов тестовых измерений 391 7.4. Шкалы стандартных оценок, полученных при преобразованиях ^-шкалы 399 7.5. Шкалы станайнов и стенов 404 7.6. Одиннадцатибалльная шкала 404 7.7. Шкалалогитов 408 8. Основные подходы к оценке качества подготовки 419 8.1. Качество подготовки обучаемых как предмет обсуждения 419 8.2. Уровни анализа информации о качестве подготовки обучаемых 420 8.3. Традиционные подходы к оценке учебных достижений 421 8.4. Современные подходы к оценке качества подготовки обучаемых 423 8.5. Международные исследования по оценке качества образования 426 Библиографический список 429
ПРЕДИСЛОВИЕ Настоящее учебное пособие предназначено для учителей школ, преподавателей высших и других профессиональных учебных заведений, заинтересованных в овладении современными методами тестирования и их использовании в учебном процессе для контроля и оценки уровня подготовки обучаемых. Пособие посвящено методам конструирования и применения только одного, но зато самого распространенного вида педагогических тестов, получивших название гомогенных, т.е. предназначенных для контроля знаний по одному предмету или дисциплине. В целом учебное пособие представляет собой своего рода введение в проблематику тестирования и, шире, в теорию и практику педагогических измерений. Если о тестах в той или иной мере осведомлены все педагоги, то знания в области научных основ педагогических измерений распространены у нас недостаточно. Главная причина кроется в том, что эта сравнительно новая область педагогической науки, получившая признание только к середине XX века, весьма скептически оценивалась в советский период. Тем не менее российские ученые очень много сделали для развития теории и практики педагогических измерений, что позволило адаптировать применительно к отечественным реалиям методы и технологии, созданные в других социально-культурных условиях и иных традициях в области образования. Чем же интересны для нас сегодня педагогические тесты и технологии тестирования? Дело в том, что тесты представляют собой особую совокупность заданий, которые позволяют дать объективную, сопоставимую и даже количественную оценку качества подготовки обучаемого в заданной образовательной области. В свою очередь, объективность и измеримость качества образования открывают широчайшие возможности для управления учебным процессом — от корректировки содержания образовательных стандартов и программ до совершенствования методов преподавания и повышения эффективности стимулирования самостоятельных занятий учащихся и студентов. Особенно важно, что использование методов тестирования позволяет еще в раннем возрасте выявить одаренных детей и подростков и организовать с ними индивидуальную учебную работу. 11ельзя не упомянуть и о большом социальном значении тестирования как инструмента, гарантирующего повышение объективности конкурс мою отбора поступающих в высшие и другие учебные заведения. 5
Разумеется, тестирование не заменяет и не отменяет традиционных форм педагогического контроля, основанных на непосредственном общении учителя с учеником и преподавателя со студентом. Такой контроль выполняет важные обучающие функции, он вооружает педагогов информацией об уровне знаний их питомцев, о пробелах в их подготовке и даже об эмоционально-психологическом состоянии класса или студенческой группы. Другое дело, что традиционные формы педагогического контроля носят во многом субъективный характер и не позволяют получить сопоставимые данные, столь необходимые для управления процессом образования в масштабах учебного заведения, района, области, края, страны. А задачи такого плана давно уже встали перед обществом и государством. Развитию теории и практики педагогических измерений в известной мере препятствует фигура умолчания, утвердившаяся в нашей педагогической мысли. Замалчивание достижений в области современных методов и средств педагогического контроля характерно для большинства трудов и учебных изданий в области общей педагогики и методики обучения. Хотелось бы надеяться, что настоящее учебное пособие будет способствовать преодолению этого во многом искусственно созданного пробела в нашей педагогической культуре. Как и все технологии, основанные на достижениях науки, тестирование требует серьезной подготовки со стороны тех, кто намерен всерьез заняться созданием и использованием педагогических тестов. Прежде всего необходимо глубокое овладение строгими правилами и математическим аппаратом, применяемыми в области педагогических измерений. Никаких обходных путей тестирование не признает: неряшливо разработанные, не прошедшие апробации тесты способны давать лишь ошибочные результаты, поэтому их использование станет шагом назад, а не вперед. В заключение хочу пожелать читателям успехов в освоении современной теории и практики педагогических измерений. Труд педагога сложен, но благодарен. И если каждый из нас привнесет в него больше знаний, больше строгих методов и, конечно, больше души и сердца, то дело обучения подрастающего поколения ощутимо выиграет. А это именно тот результат, к которому стремится автор настоящего пособия.
ВВЕДЕНИЕ Эта книга написана для преподавателей общеобразовательных учреждений, для всех тех, кто в своей работе планирует создавать или применять педагогические тесты. Материал пособия, за исключением нескольких разделов, содержащих информацию углубленного характера, рассчитан на преподавателей, впервые приступающих к созданию педагогических тестов для оценки знаний учащихся по одной из дисциплин. В теории такие тесты получили название гомогенных в отличие от гетерогенных педагогических тестов, содержащих междисциплинарные задания и предназначенных для комплексной оценки знаний учеников. Разработка качественных гомогенных тестов требует использования научных методов отбора содержания, теории педагогических измерений, современных математико-статистических методов, применяемых для проверки соответствия теста определенным научно обоснованным критериям качества. Эта целевая установка на перспективный научный подход накладывает соответствующий отпечаток на материал пособия. По ходу изложения материала возникает необходимость обращения к современному отечественному и зару бежному научному аппарату, к новым научным результатам. Наряду с классическими, в пособии обсуждаются современные методы создания тестов посредством применения математических моделей теории латентно-структурного анализа. В этой связи в пособии не всегда оказалось возможным дифференцировать уровень изложения в зависимости от уровня математической подготовки будущего разработчика тестов. Для облегчения восприятия материала в отдельных случаях устоявшаяся традиция целостного изложения сознательно на рушалась: часть необходимых формул выносилась в специальные приложения. С этой же целью максимально использовалисьтаблицы, подробное описание вычислений, многочисленные примеры и графики. Современное положение в сфере тестового контроля осложняется тем, что у подавляющего большинства преподавателей нет специальной подготовки по методике разработки и применения педагогических тестов, как нет и специальной науки, ответственной за развитие тестового педагогического контроля, аналогичной существующей за рубежом теории педагогических измерений. Та педа- 7
гогика, которая утвердилась в нашей стране, довольно прохладно относится к этому крайне важному для повышения качества образования направлению. Широко распространено мнение, что теория педагогических измерений вообще не имеет собственного содержания — не существует материала, который можно было бы выделить как содержание науки об измерениях в педагогике. В учебниках по педагогике, как правило, разделы по тестовому контролю представлены крайне фрагментарно либо не представлены вообще. Существующая на протяжении десятилетий ситуация в сфере теории не могла не сказаться на практике. Среди преподавателей- практиков бытует расхожее мнение, что главное — хорошо изложить материал, а хорошо контролировать вовсе необязательно, и уж тем более необязательно использовать для этого педагогические тесты. Отдельные случаи неприятия тестов могут быть связаны с незнанием возможностей тестовых методов, непониманием их сильных и слабых сторон. Материал пособия в определенной степени призван восполнить наметившиеся пробелы в теории и помочь в сфере практики тем, кто решил сам разрабатывать педагогические тесты. В этой связи представленный материал довольно разнообразен. В нем освещаются теоретические вопросы обоснования методик разработки педагогических тестов, приводятся подробные сведения практического характера о процедурах их разработки, содержатся справочные и инструктивные материалы по применению тестов. В один из разделов пособия включены основные сведения по педагогическому контролю, необходимые для целей изложения и ориентированные на современные тестовые средства. Благодаря нестандартной ориентации содержания раздела у читателей возникает возможность переосмыслить некоторые, ставшие давно привычными положения дидактики, вернее, той ее части, которая затрагивает вопросы контроля знаний учеников, лучше понять достоинства тестовых методов, а главное — принять определенные новшества и перестроить соответственно собственную работу. В процессе изложения материала ситуации текущего и итого вого контроля нередко разделяются, что вполне оправдано не только различиями в методике, целях и задачах, но и психологическими особенностями поведения учеников. В ситуации текущего контроля ученик нередко обращается за помощью к преподавателю, охотно идет на сотрудничество с педагогом, старается выполнить инструкции преподавателя как можно более точно, не имея сознательных намерений приукрасить или фальсифицировать свои результаты. При итоговом контроле главная цель обучаемого - - хорошая оцен- 8
ка, и поэтому он старается выполнить все контрольные задания как можно лучше. При этом он вполне осознанно контролирует свое поведение и свои ответы, с тем чтобы выглядеть в максимально ныигрышном свете даже тогда, когда это абсолютно не соответству- I* I реальному уровню его подготовки. Отмеченные различия накладывают определенный отпечаток на средства контроля, в частности и на педагогические тесты. Разрабатываемые для целей итогового контроля тесты должны в полной мере отвечать всему набору требований, выдвигаемых профессионалами. И это вполне понятно, так как в ситуации итогового контроля на первый план выходят точность оценок, их сопоставимость и объективность — словом, все то, что в немалой степени зависит от качества используемых для контроля тестов. К тестам для текущего контроля предъявляются менее жесткие требования. В принципе, в этом случае любой набор заданий, закрывающий определенный раздел содержания и стандартизованный по форме, может быть назван тестом, правда, с одной оговоркой, поскольку и здесь есть свои проблемы. В ситуации текущего контроля неизмеримо возрастает потребность в сбалансированном подборе трудности заданий вследствие сознательной стратегии, ориентированной на реализацию развивающей функции контроля в условиях сотрудничества педагога и учеников. В этой связи в материал пособия включен специальный раздел, посвященный проблемам сотрудничества преподавателя и учеников в процессе текущего контроля, однако решение проблем их сотрудничества имеет нетрадиционный характер. Оно строится на сочетании отдельных достижений психологов отечественной школы и авторов современной зарубежной теории латентно-структурного анализа. Кроме различных аспектов методики, нацеленной на разработку тестов, в пособии рассматриваются некоторые общие положения теории педагогических измерений, даются основные определения и понятия педагогической теории тестов, излагаются подходы к отбору содержания теста. Отдельный раздел посвящен вопросам формы тестовых заданий. В нем приводятся основные требования к формам, анализируются типичные ошибки разработчиков. Анализ сопровождается многочисленными примерами заданий с характерными недостатками. Задания, как удачные, так и неудачные, не придуманы авторами книги. Они накоплены в результате многолетнего опыта обучения преподавателей вузов, техникумов и школ методике разработки педагогических тестов. Закрепление излагаемых положений обеспечивается многочис ленными упражнениями для самостоятельного выполнения. 9
Таким образом, в пособии предлагается система знаний, необходимая для начинающего разработчика педагогических тестов, с надеждой на возможный в дальнейшем переход к уровню профессионала. Отсюда и необходимость концентрации внимания на представлении о тесте как о научно обоснованном методе оценки знаний учащихся. Вопросы научного обоснования затрагивают три взаимодополняющих друг друга направления работы. Первое связано с обоснованием отбора содержания теста, второе — с доведением формы заданий до уровня требований тестовой технологии, а третье нацелено на выявление системообразующих свойств заданий на основе анализа результатов обработки эмпирических данных тестирования. Необходимость такого анализа часто подвергается сомнению неопытными разработчиками. При этом они совершенно забывают, что достоинства тестовых методов — объективный характер оценок, сопоставимость и возможность их перепроверки — обеспечиваются не автоматически, а благодаря выполнению определенных требований к качеству заданий и теста в целом. Если эти требования не выполнены, то использование тестов не менее субъективная процедура, чем обычный экзамен. В некоторых случаях эта процедура может оказаться даже хуже экзамена, позволяющего скорректировать впечатления о знаниях испытуемого в процессе общения с помощью дополнительных вопросов. В отличие от экзамена тесты такой возможности не предоставляют. Плохой тест, не отвечающий по тем или иным характеристикам определенным критериям качества, может послужить источником искаженного впечатления о знаниях учеников. Причем скорректировать это впечатление в процессе тестирования никак нельзя, если, конечно, процесс тестирования носит массовый характер, а не организован в адаптивном режиме. Отсюда проистекает необходимость научного обоснования качества тестовых материалов и обращения в этой связи в материалах пособия к вопросам математико-статисти- ческой обработки тестовых результатов учащихся. Предлагаемые в пособии методики разработки педагогических тестов, равно как и их теоретические обоснования, носят инвариантный характер и поэтому подходят для использования всеми преподавателями, вне зависимости от специфики содержания учебного курса. По этой же причине для расширения круга заинтересованных читателей в пособии собраны многочисленные примеры по самым разным дисциплинам, преподаваемым в школе. Один из разделов пособия посвящен вопросам шкалирования тестовых результатов для повышения сопоставимости баллов, полу- 10
ченных по различным тестам. В разделе рассматриваются подходы к шкалированию разного уровня сложности. Вниманию читателя предлагаются как порядковые, так и интервальные шкалы, обеспечивающие интерпретацию разности тестовых баллов учеников. Несмотря на большой объем пособия, для успешного создания тестов и повсеместного внедрения их в практику обучения простого ознакомления с его материалами явно недостаточно. Необходимо также наладить соответствующий процесс, началом которого должно стать массовое обучение преподавателей школ методике разработки и применения педагогических тестов.
1 ПЕДАГОГИЧЕСКИЙ КОНТРОЛЬ В СОВРЕМЕННОМ УЧЕБНОМ ПРОЦЕССЕ 1.1. Педагогический контроль. Предмет и объект контроля Контроль — это одновременно и объект теоретических исследований, и сфера практической деятельности педагога. С помощью контроля можно выявить достоинства и недостатки новых методов обучения, установить взаимосвязь между планируемыми, реализуемыми и достигнутыми уровнями образования, сравнить работу различных преподавателей, оценить достижения ученика и выявить пробелы в его знаниях, дать руководителю учебного заведения объективную информацию для принятия управленческих решений и выполнить ряд других не менее важных задач. Понятие «педагогический контроль» применительно к учебному процессу имеет несколько толкований. С одной стороны, пе дагогический контроль представляет собой единую дидактическую и методическую систему проверочной деятельности. Эта взаимосвязанная совместная деятельность преподавателей и учащихся при руководящей и организующей роли педагогов направлена на выявление результатов учебного процесса и на повышение его эффективности. С другой стороны, применительно к повседневному учебному процессу под контролем понимают выявление и оценку результатов учебной деятельности школьников или студентов. По установившейся традиции в учебном процессе слову «оценка» придается оттенок, сводящий его к некоторому результату. Однако в данном контексте оно используется в несколько непривычном смысле, поскольку имеется в виду не только конечный результат, но и процесс формирования оценки. Такая ситуация типична для многих отглагольных существительных, например, слово «образование» обозначает одновременно процесс и результат процесса. Педагогические оценки нередко ошибочно отождествляют с отметками, которые служат для установления численных аналогов оценочных суждений. Например, по установившейся в нашей стране традиции удовлетворительные знания оцениваются «тройкой», отличные - «пятеркой». На самом деле эти баллы не имеют четко- 12
го педагогического смысла и не дают количественной характеристики ответа ученика. Они не лишены субъективизма в том случае, когда контроль проводится традиционными методами, поскольку при их выставлении преподаватель сравнивает все достижения учеников со своими мерками. Действительно, несмотря на рекомендуемые общие критерии оценки уровень требований различных преподавателей совершенно индивидуален. У каждого имеется свое понимание принципов требовательности и справедливости, свои критерии качества знаний. На оценку преподавателя влияют и предыдущий процесс общения с обучаемым, и его личностные установки по отношению к оцениваемому ученику. Определенное внушающее воздействие оказывают внешний вид контролируемого и приобретенное им умение ясно излагать свои мысли, а также ряд других факторов, условно называемых «эмоциональной составляющей». В отличие от субъективных оценок и отметок измерение предполагает проведение объективного количественного сопоставления оцениваемого свойства ученика с некоторым эталоном, принятым в качестве единицы измерения. При педагогическом измерении роль оцениваемого свойства отводится знаниям, умениям или навыкам ученика, а вместо единицы измерения используются контрольные задания или части заданий по проверяемому содержанию предмета. Разработка проблемы измерений предполагает решение трех взаимосвязанных задач: для чего, что и чем измерять. Ответ на первый вопрос достаточно прост. Он непосредственно связан с постановкой целей контроля. Если цель — оценка достижений учащихся, то главное внимание уделяется проверке и выявлению объема освоенных знаний или умений. Установленный объем обычно трактуется как уровень подготовки по предмету. При диагностике центр внимания преподавателя смещается на задачи управления процессом усвоения знаний путем организации систематического контроля за уровнем овладения материалом, за наметившимися пробелами в подготовке учеников. В последнем случае контроль обеспечивает обратную связь от учащегося к преподавателю и помогает следить за ходом процесса усвоения знаний у каждого обучаемого в целях своевременной коррекции этого процесса. Таким образом, основная цель диагностического контроля — оказывать формирующее влияние на текущий процесс обучения за счет установления обратной связи от ученика к педагогу. Ответ на второй вопрос сопряжен с решением ряда проблем, обусловленных спецификой измерений в педагогике. При педаго- 13
гическом измерении нет явно заданного предмета измерения, нет средства, готовой единицы, нет нулевой точки отсчета. Поэтому приходится начинать с теоретического анализа проблем и, главным образом, с определения предмета измерения, для чего необходимо преодолеть некоторые концептуальные трудности и ввести систему взаимосвязанных понятий, ассоциируемых с предметом. При оценке достижений учащихся в качестве предмета измерения обычно выделяют уровень и качество подготовки. Что касается уровня подготовки, то с его определением дело обстоит достаточно просто. Обычно полагают, что это совокупность знаний, умений, навыков и представлений, освоенных учеником. Как и многие другие трудно детерминируемые понятия общественных наук, предмет можно определить с помощью метода, используемого для измерения знаний. Отсюда возникает прагматическое определение уровня подготовки, когда учащийся выполняет правильно то или иное количество заданий по выбранным разделам дисциплины. Гораздо сложнее определить качество подготовки. Обобщение результатов ряда научных и методических работ позволяет говорить о разных подходах при решении этого вопроса. Среди точек зрения теоретиков и практиков нет не только единства, но и сходства. В одних случаях категорию качества отождествляют с полнотой знаний и их глубиной. В других случаях на первый план выходят конкретность и обобщенность знаний, их осознанность или прочность либо логичность изложения материала, рациональность способов и приемов решения учебных задач [24]. Есть и неудачные трактовки, когда качество знаний понимается как превышение некоторой степени обученное™, а степень обученное™ в свою очередь определяется как совокупность знаний, умений и навыков, усвоенных учеником. Однако чаще всего встречается упрощенное восприятие этого понятия: знания ученика считают качественными, если он выполняет задания повышенной трудности. Между тем отсутствие единой, обоснованной точки зрения по этому вопросу значительно затрудняет, если не снимает полностью, возможность оценки качества подготовки учеников. Несмотря на требования Закона РФ «Об образовании», все усилия практиков направлены в основном на оценку уровня, а не качества подготовки. Возможность согласования различных подходов к трактовке понятия качества подготовки возникает только с появлением определения, которое призвано по возможности обобщить существующие точки зрения теоретиков и практиков. (Попытка введения такого определения предпринята в гл. 8.) 14
Идея общего определения непосредственно увязывается с ответом на вопрос о том, для чего нужна категория качества в процессе контроля. Проводить оценку качества подготовки учащихся с различным уровнем достижений, по-видимому, не имеет смысла, поскольку они уже отличаются по объему усвоенных знаний, умений и навыков. Зато вполне правомерно одинаковому уровню подготовки поставить в соответствие различное качество. Отсюда остается один шаг до обобщенного определения, когда качество подготовки трактуется как совокупность существенных характеристик знаний, умений и навыков, способствующих дифференциации учащихся с одинаковым уровнем подготовки [35]. В дополнение к определению необходимо конкретизировать представление о существенных характеристиках знаний, умений и навыков учащихся. В процессе конкретизации возникает проблема выбора, когда приходится отдать предпочтение тем или иным характеристикам, но каким? Несомненно, привлекательно выглядят такие характеристики, как прочность, осознанность, обобщенность знаний. Они представляют особую ценность как для развития личности учащегося, так и для пополнения интеллектуального потенциала вузов за счет абитуриентов с высоким качеством знаний. Однако несмотря на привлекательность они обладают существенным недостатком, поскольку не поддаются никаким объективным методам измерения. Решение проблемы конкретизации базируется на тех возможностях, которые открывают в сфере измерений педагогические тесты. В отличие от традиционных средств контроля тесты при определенных условиях позволяют выявить не только уровень подготовки, но и структуру знаний учащихся, вернее, степень ее отклонения от идеальной структуры, планируемой педагогом на момент начала обучения. Элементарное представление о степени отклонения позволяет составить анализ профиля ответов учащегося на различные задания теста. Так как один и тот же уровень подготовки может быть получен при ответах на различные по трудности задания, то можно сравнить ответы учащихся с одинаковым уровнем подготовки. Если задания ранжированы по нарастанию трудности и отражают по содержанию и порядку расположения идеальную, планируемую структуру знаний, то общий вывод о качестве подготовки учащихся сделать довольно просто: чем меньше пробелов в ответах ученика на задания теста, тем лучше структура его знаний, тем выше качество его подготовки в группе других учеников, имеющих одинаковый с ним уровень учебных достижений. Для характеристики 15
степени отклонения рядом зарубежных исследователей был введен специальный индекс структурированности знаний, подсчет значения которого основан на анализе числа пробелов в ответах испытуемых на задания теста [47]. Есть и другие, более сложные подходы, когда оценки качества структуры знаний учащихся базируются на методах факторного анализа и требуют определенной подготовки преподавателей для их использования в учебном процессе. Для обработки эмпирических результатов тестирования методами факторного анализа необходимо также специальное программное обеспечение, которое, как правило, отсутствует в школах. Трудность, правда, представляет не столько поиск компьютерных программ факторного анализа, которые довольно распространены в нашей стране, сколько навык по их использованию, который приобретается постепенно на протяжении ряда лет. Предлагаемый в пособии подход к определению качества подготовки учеников, несмотря на определенные трудности, сопряженные с попытками оценить структуру подготовки учащихся, довольно корректен с точки зрения возможности измерения и удачен. Особенно привлекательно выглядит оценка структуры подготовки учащихся в тех случаях, когда речь идет о сравнении эффективности работы отдельных преподавателей либо групп преподавателей, как, например, при аттестации общеобразовательных учреждений. На фоне многообразия существующих аттестационных моделей, методик, технологий, показателей и критериев оценка уровня и качества подготовки выпускников остается важнейшим показателем эффективности работы педагога. При этом в центре внимания аттестационных комиссий находится, несомненно, уровень подготовки. Оценка качества хотя и декларируется в инструктивных документах Минобразования России, но все же остается за гранью работы организаций, проводящих аттестацию, что вряд ли оправдано. В то время, как уровень подготовки в основном зависит от прилежности учащегося, его способностей и желания учиться, структура знаний в значительной степени отражает особенности организации учебного процесса. На формирование структуры подготовки учеников влияют: умение преподавателя правильно построить программу подготовки и эффективно ее изложить, его ответственность в работе по выявлению и устранению пробелов в знаниях учащихся, его умение внести моменты индивидуализации в массовый учебный процесс — словом, все то, что следует в первую очередь принимать во внимание при оценке качества работы преподавательских коллективов. 16
Еще сложнее, чем при решении первых двух вопросов, обстоит дело с ответом на третий вопрос: чем измерять и с помощью каких методов? Ответ на него связан с конструированием и использованием средств измерения, методика разработки и применения которых получила пока довольно ограниченное рассмотрение в отечественной научно-методической литературе. Действительно, можно привести лишь единичные работы, в которых выдвигается на обсуждение весь комплекс задач, связанных с решением этих важных вопросов. Приходится констатировать тот факт, что ни педагогическая наука, ни практика не обладают пока в полной мере методами создания средств измерения и самими средствами [23). В какой-то мере это естественно, так как здесь необходим определенный опыт, который на сегодняшний день в силу разных причин в нашей стране практически отсутствует. К тому же разработка объективных методов измерения представляет немалые трудности, связанные с созданием стандартных процедур, введением метрики для количественного выражения характеристик подготовки обучаемых. Необходимо также решить ряд проблем методического характера — соотнести возможности различных средств измерения с видами контроля, которые выбирает преподаватель сообразно практическим задачам при оценке знаний учеников. 1.2. ВИДЫ ПЕДАГОГИЧЕСКОГО КОНТРОЛЯ Классифицируя виды контроля, большинство авторов выделяют текущий, тематический, рубежный, или поэтапный, и итоговый. Текущий контроль осуществляется с помощью устного опроса, письменных контрольных работ, а также педагогических тестов. Текущий контроль характеризуется сознательно поставленной це лью следить за ходом обучения. Проведение текущего контроля — наиболее простой для преподавателя способ получить оперативную информацию о соответствии знаний обучаемых планируемым эталонам усвоения. Эта информация создает условия для своевременной коррекции процесса усвоения знаний, умений и навыков обучаемыми и помогает педагогу перестроить в нужном направлении учебный процесс. Тематический контроль выявляет степень усвоения раздела или темы программы. На основании данных тематического контроля преподаватель принимает управленческое решение. Он делает вы- I г ' 17
вод о необходимости дополнительной отработки данной темы, если результаты контроля неудовлетворительны, либо переходит к изучению следующей темы, если результаты контроля говорят о хорошей подготовке учеников. В тематическом контроле наиболее интересна информация о динамике усвоения обучаемыми материала раздела, о степени рациональности мыслительных процессов или алгоритмов, использованных для выполнения заданий теста. Поэтому разработка системы тестов для тематического контроля органически связана с использованием ПЭВМ. В процессе компьютеризованного контроля с жестким временным режимом специальные инструментальные средства позволяют осуществлять систематическую пошаговую диагностику текущих результатов обучаемых для дифференциации стимулирующих воздействий со стороны педагога и своевременной коррекции процесса усвоения новых знаний. Правда, не всегда в повседневной практике контроля у преподавателей есть возможность использовать дорогостоящую технику. В этих случаях важная роль отводится традиционным методам проверки знаний, хотя и здесь каждый педагог может разработать наборы коротких контрольных заданий в одной из тестовых форм, которые, несомненно, облегчат проверку знаний учащихся по отдельным темам изучаемого курса. Функциональное назначение рубежного контроля — выявление результатов определенного этапа обучения. Оценка уровня подготовки обучаемых в этом случае производится с помощью зачетов по разделам программы, экзаменов или тестов. Важным показателем полноценности тематического и рубежного контроля является уровень сформированности навыков само контроля у обучаемых, умений осуществлять контроль за результатами собственной деятельности и корректировать ее в процессе выполнения заданий, предлагаемых педагогом [18]. К сожалению, формирование подобных навыков зачастую выпадает из сферы деятельности преподавателя, поскольку обычно все усилия направляются на процессы обучения и контроля для выставления оценок. К тому же формированию навыков самоконтроля в значительной степени препятствуют традиционные методы, когда ведущая роль в контроле принадлежит преподавателю, а не ученику. Новые возможности для формирования навыков самоконтроля открывают педагогические тесты. Специально созданные тестовые программы в соединении с программно-инструментальными средствами (оболочками), компьютерной техникой и шкалой для самооценки позволяют разгрузить преподавателей и реализовать идеи самоконтроля в условиях массового обучения. 18
За основу берутся тесты для самоконтроля, созданные по каждой из тем курса. Эти тесты хранятся в универсальных контролирующих оболочках, которые, помимо контролирующих, обладают обучающими свойствами и приспособлены для изменения последовательности выдачи заданий в процессе контроля. При работе с оболочкой учащийся самостоятельно выбирает тематику, режим работы и количество контролирующих заданий. После выполнения заданий ответы вводятся в компьютер, который выдает оценки в соответствии с эталонными ответами и выбранной шкалой. При желании учащийся получает информацию о сделанных ошибках и соответствующий справочный материал из обучающего модуля оболочки. Особого внимания заслуживает шкала, которая должна быть приспособлена для самооценки. Оптимальной здесь является шкала процентных рангов (подробнее об этом в гл. 7), позволяющая в понятной для каждого ученика форме сравнить свой результат с результатами других учеников. Правда, построение таких шкал выполняется на больших выборках учащихся, поэтому помимо разработки оболочек и тестов для организации самоконтроля необходима также предварительная работа по созданию шкалы. Цель итогового контроля — оценка работы учащихся после прохождения всего учебного курса. Обычно формой итоговой оценки обучаемого являются его отметка на экзамене либо результаты выполнения итогового теста. Одна из важных сфер осуществления итогового контроля — аттестация выпускников общеобразовательных учреждений. В сфере образования под аттестацией понимается процедура установления соответствия уровня и качества подготовки выпускников общепризнанной, зафиксированной документально системе требований к уровню и качеству образования. Различные виды аттестации предполагают использование разных систем. При итоговой аттестации выпускников общеобразовательных учреждений роль общепризнанной нормы играют требования образовательных стандартов или других нормативных документов, действующих в условиях отсутствия стандартов. При входной аттестации, осуществляемой в целях приема в высшие учебные заведения, этаже роль отводится требованиям программ для вступительных экзаменов [34]. Процедура аттестации допускает использование различных форм и методов контроля, среди которых наиболее важное место по праву отводится научно обоснованным тестам. Тесты открывают новые возможности в процессе аттестации, поскольку именно они обеспечивают оценки, обладающие необходимыми свойствами: обоснованностью, объективностью и сопоставимостью. 19
Обоснованность тестовых оценок достигается репрезентативным отображением требований стандартов в содержании аттестационных тестов. В отличие от обычных экзаменов, где сплошной опрос заменяется выборочным, тесты позволяют включить задания на все или по крайней мере почти на все требования стандартов и тем самым повысить обоснованность аттестационных оценок. Объективность тестовых оценок трудно поставить под сомнение. В процессе их получения практически исключены все моменты, порождающие субъективизм и несравнимость, характерные для оценок, выставленных традиционным путем. Отсутствие сопоставимости у традиционных оценок является крайне существенным недостатком, делающим невозможным осуществление корректной аттестации в той ситуации, когда она проводится без тестов. Отсюда же следует принципиальная невозможность установить, в какой школе и у какого преподавателя процесс обучения поставлен лучше. Ответы на эти вопросы можно получить только с помощью профессионально разработанных аттестационных тестов. Особенно выиграет от применения тестов аттестация общеобразовательных учреждений, развитие которой в настоящий момент изрядно тормозится отсутствием профессионально разработанных средств измерения. Существующие методы государственного контроля за качеством работы образовательных учреждений основываются зачастую на традиционных средствах оценки уровня и качества подготовки выпускников и обладают всеми перечисленными недостатками. Последнее обстоятельство препятствует эффективному осуществлению аттестационного процесса, внося в выводы аттестационных комиссий немалую долю субъективизма и искажений. 1.3. Функции педагогического контроля Большинство авторов к числу основных относят диагностическую, контролирующую, обучающую, воспитывающую, мотивирующую и развивающую функции контроля. Список довольно традиционен, поскольку ориентирован исключительно на традиционные средства контроля Появление тестов повлекло за собой определенное расширение перечня — введение еще одной функции контроля — прогностической, реализация которой позволяет предсказать потенциальные возможности обучаемого в освоении нового материала. 20
Способность к усвоению нового материала неизбежно отражает воздействие предшествующего обучения, и потому ее можно предсказать по результатам контроля знаний обучаемого. Весь вопрос в том, как создать средства для осуществления прогноза усвоения. Непосредственно из практики ясно лишь то, что прогнозировать вероятную успешность обучения того или иного испытуемого непосредственно по результатам контроля нельзя, если для их получения использовались традиционные средства. Однако задача становится вполне разрешимой, когда применяются тесты, прогностическая валидность которых была заранее подтверждена специальными количественными методами. В этом случае результаты тестового контроля могут быть использованы в качестве предикторов успешности усвоения новых знаний [32]. Диагностическая функция вытекает из самой сущности текущего контроля, нацеленного на выявление пробелов в подготовке учащихся и принятие по результатам диагностики некоторых управленческих решений, необходимых для совершенствования учебного процесса. Помимо выявления пробелов к сфере диагностики относятся установление причин пробелов, получение научно обоснованной информации о характере трудностей, возникших у учеников в процессе усвоения новых знаний. Активизация роли диагностической функции является, несомненно, важнейшим условием повышения качества современного учебного процесса путем его индивидуализации. Благодаря детальному анализу характера затруднений педагогическая диагностика открывает новые возможности в индивидуализации процесса обучения, который приобретает дифференцированный характер не на словах, а на деле. Каждый ученик приступает к изучению нового материала независимо от других только после устранения всех трудностей и пробелов, препятствующих усвоению следующих разделов курса. Темп обучения становится более гибким: более знающие продвигаются быстрее, менее знающие вынуждены потратить дополнительное время и усилия для устранения пробелов в подготовке. В конечном счете систематическое устранение пробелов и выявление характера трудностей, обусловивших их появление, не может не сказаться на качестве подготовки учащихся, меняя его в сторону повышения. Кроме привычных малоэффективных в условиях массового обучения средств диагностики есть и нетрадиционные высокоэффективные. К последним принято относить диагностические тесты. Преимущества нетрадиционных методов диагностики проявляются ярче, если проводить анализ видов деятельности, в ко- 21
торую включен контролируемый ученик. Это положение о неразрывной связи содержания контроля с различными видами деятельности учеников довольно полно освещено в отечественной литературе по проблемам педагогики [26]. Выделенные дидактами три уровня усвоения содержания образования предполагают проверку воспроизведения и запоминания знаний, применение знаний в знакомой ситуации по образцу, применение знаний в незнакомой ситуации. Соответственно уровням усвоения предлагается набор требований к действиям учащихся и контролируемые уровни их учебных достижений. В качестве индикаторов уровней выступают тестовые контрольные задания, содержание которых обеспечивает проверку того или иного уровня. С реализацией диагностической функции связаны некоторые трудности в становлении тестирования, поскольку роль тестов в контроле оценивается педагогами по-разному. Здесь можно выделить несколько точек зрения, часто взаимоисключающих друг друга. Одни педагоги относят к числу недостатков тестирования ярко выраженный характер диагностической функции. Другие считают ее ведущую роль несомненным достоинством тестов. А третьи попросту отрицают возможность осуществления диагностики с помощью тестов. По мнению последней группы преподавателей, те7 сты позволяют лишь оценить итоговые достижения учащихся, а не установить пробелы и уж тем более не выявить причины пробелов в подготовке [26]. Конечно, правы те, кто связывает повышение эффективности педагогической диагностики с внедрением в учебный процесс диагностических тестов. Функциональные возможности тестовых методов не исчерпываются актом проверки и установления степени рассогласования между эталоном и реальными знаниями учеников. Если тесты сконструированы специальным образом и состоят из довольно большого числа заданий, детально отображающих определенную область содержания, то появляется возможность выявления причин затруднений учеников. Это может быть неумение мыслить или выполнять что-либо по известной схеме в стандартных задачах, а может быть и неумение переносить знания в незнакомую ситуацию, искать необходимую информацию для выполнения творческих задач. Естественно, сделать тесты для целей диагностики непросто, однако необходимо, поскольку их отсутствие наносит заметный урон качеству работы общеобразовательной школы. Знания, полученные учащимися в процессе устного опроса, их анализ и дополнительные объяснения преподавателя обычно от- 22
носятся к обучающей функции контроля. Обучающая функция реализуется также и при других, традиционных формах и методах контроля. В первую очередь к ним можно отнести зачеты. Обсуждения, возникающие в классе при ответах учащихся на вопрос преподавателя, самоконтроль и самооценка учеников при подготовке к зачету выполняют также, хотя и не в полной мере, обучающую функцию, поскольку традиционные средства и методы контроля лишь частично обеспечивают возможность ее реализации. Решающая роль здесь, как и во многих других ситуациях, несомненно, принадлежит педагогическим тестам. Как правило, обучающее тестирование недооценивают те педагоги, которые в практике своей деятельности не занимались специальным изучением методики разработки и применения тестов и потому не видят и не знают всех возможностей тестовых методов. Этому непониманию способствует характер публикаций по тестовой проблематике. Основная литература по тестам не проясняетраз- личий между обучающим и контролирующим тестированием, в то время как эти различия есть и в сфере теории, и в сфере практики. Что касается практики, то здесь педагоги заинтересованы в основном в реализации обучающей функции тестового контроля. Те- оретики-тестологи, наоборот, центр тяжести смещают в сторону итоговых тестов, разрабатываемых в целях оценки итоговых достижений учеников. Поэтому большинство их работ написано именно с этих позиций, однако возможности применения тестов в обучающем режиме практически не изучены. Различия между потребностями теоретиков и практиков проявляются наиболее ярко в критике тестовых заданий с выборочными ответами, четко выраженная ориентация которых на цели итогового контроля, как правило, отождествляется педагогами- практиками с недостатками тестов, с отрицанием возможности использования тестов для контроля за продуктивным уровнем деятельности испытуемых и в процессе обучения [26]. В основе такого неверного отождествления лежит подмена логики итогового контроля требованиями контроля обучающего, когда явные технологические достоинства формы заданий с выборочными ответами относятся к числу недостатков. При этом противники тестов как- то забывают о том, что, помимо критикуемой формы заданий, есть и несомненные достоинства тестов, обеспечивающие в полной мере реализацию идей обучения и тестового контроля. Особенно эффективно реализовать обучающий потенциал тестовых заданий позволяет система тестового контроля, создание которой предполагает организацию ряда взаимосвязанных процес- 23
сов. Наиболее важным представляется создание современных автоматизированных контрольно-обучающих программ, требующих в свою очередь разработки тестов, программно-инструментальных средств для выдачи обучающих заданий в адаптивном режиме и специальных программных средств для компьютерной поддержки процесса разработки тестов, основанного на современных моделях теории педагогических измерений [20,30]. Немалую роль в создании научно обоснованной системы внутришкольного контроля играет подготовка преподавательского состава по вопросам разработки и применения педагогических тестов, без которой внедрение системы в массовый процесс обучения будет просто невозможно. Компьютеризованная система внутришкольного контроля открывает широкие возможности для индивидуализации процесса усвоения знаний обучаемыми. Появляется реальная возможность эффективного решения целого ряда задач, способствующих повышению качества обучения не за счет увеличения нагрузки педагога, а путем внедрения в учебный процесс обучающих программ и тестов [14]. Программа, связывая контроль и обучение, вначале выявляет степень понимания учебного материала с помощью входных тестов, затем анализирует те трудности, с которыми приходится сталкиваться учащимся при выполнении заданий в режиме обучения. На основе анализа в рамках программы проводится своевременная коррекция процесса усвоения новых знаний, в которой роль педагога минимизирована. Коррекция носит дифференцированный характер и сводится, как правило, к помощи обучаемому. В зависимости от рода ошибок коррекция усвоения может носить характер подсказки, предъявления образца выполнения задания, подробного рассмотрения базового теоретического материала, необходимого для выполнения задания, ссылки на соответствующий раздел учебника или рекомендации обратиться за консультацией к педагогу. Таким образом, участие педагога в процессе коррекции крайне незначительно. Он подключается на этапе выявления пробелов в подготовке учеников с помощью компьютера, лишь когда затруднения ученика носят наиболее серьезный характер и ученик нуждается в развернутой и обстоятельной консультации педагога. При разработке программного обеспечения системы тестового контроля весь учебный материал разбивается на отдельные модули, которые на этапах входа, выхода и продвижения по модулю сопровождаются тестами. Кроме того, программы обеспечивают возможность самоконтроля со стороны обучаемого в процессе выполнения заданий и позволяют учащемуся в случае необходи- 24
мости обратиться за помощью для выполнения отдельных самых трудных заданий к педагогу. Добровольное обращение за помощью к преподавателю в процессе самоконтроля создает у учащегося дополнительные мотивы его активной учебной деятельности, обеспечивает его стремление к получению новых знаний в сотрудничестве с педагогом. Однако говорить о том, что педагогика располагает отработанной методикой создания адаптивных контрольно-обучающих программ для функционирования системы контроля, по меньшей мере, преждевременно. Многое здесь еще находится в стадии исследований и носит скорее научный, чем методический характер. Еще меньше, чем теоретики, в этом направлении продвинулись практики. Большинство из рассмотренных преимуществ компьютеризованных систем контроля так и остались на уровне общетеоретических построений и не получили должного практического применения, как не получили его идеи сотрудничества преподавателей и учеников в процессе контроля. Последнее обстоятельство, несомненно, затрудняет реализацию воспитывающей функции педагогического контроля, который на сегодняшний день носит явно выраженный характер принуждения. Воспитывающая функция контроля в том случае, когда ее удается реализовать, проявляется в становлении таких позитивных качеств личности, как интерес к знаниям, умение систематически работать, навыки самоконтроля и самооценки, активность, чувство собственного достоинства. Набор качеств носит не случайный характер — он подсказан самой практикой. Неоднократно отмечалось, что ученики изучают предмет глубже и серьезнее, если заранее известно, что по нему будет проводиться обстоятельный систематический контроль. Воспитывающая функция контроля призвана играть ведущую роль в формировании мотивационной основы деятельности учеников. Однако это утверждение относится скорее к сфере теории, а не практики. В реальном повседневном учебном процессе мотивация к обучению при контроле создается не всегда и не везде. Многое здесь зависит от выбранных форм и методов оценки. Если контроль объективный и оценки преподавателя справедливы, то у учащихся возникают дополнительные стимулы к усвоению новых знаний. Если выбранные методы контроля не исключают субъективизма в оценках педагога, то систематическая проверка знаний, как правило, приводит к противоположным отрицательным результатам. У учеников появляются недоброжелательное отношение к преподавателю и полное нежелание учиться. 25
Как утверждают ученики, и, наверное, для этого есть веские основания, в каждой оценке преподавателя, полученной традиционными методами контроля, присутствует весомый элемент субъективизма. Соответственно, и каждая оценка, особенно неудовлетворительная, воспринимается обучаемым как выражение субъективного мнения преподавателя о нем. Хорошие, даже не очень обоснованные оценки могут повысить мотивацию, а вот несправедливые низкие оценки ведут, как правило, к нежеланию учиться, к полному нарушению контактов между преподавателем и учеником [28]. У субъективизма в педагогическом контроле есть еще одно неприятное следствие. Он является одной из причин прагматического отношения к предмету, когда у учащихся появляется стремление изучать предмет ради оценки, а не по существу. Гораздо труднее ученику поставить под сомнение объективность тестовой оценки, при выставлении которой используются стандартизованные средства измерения, четкие критерии, а участие преподавателя сведено к нулю. В этом случае близость тестовых оценок к объективным зависит только оттого, насколько профессионально сделаны тесты. Конечно, трудно ожидать, что тесты будут приняты всеми учениками доброжелательно, поскольку все учатся по-разному. Даже хорошо подготовленные ученики сдержанно относятся к идее проверки. Еще более сдержанно к тестам относятся сами преподаватели, и это вполне объяснимо: на экзамене преподаватель сам оценивает качество своей работы, а тесты являются внешним средством проверки, позволяющим сравнить результаты работы преподавателя с результатами его коллег. Но, как бы то ни было, при прочих равных условиях объективная проверка всегда лучше субъективной. В целом применение тестов в учебном процессе имеет несомненный положительный эффект, так как создает дополнительные стимулы у обучаемых к качественному изучению предмета, а у преподавателей — к качественной работе. С помощью тестов субъективизму и связанным с ним различным нарушениям можно противопоставить такую систему тестового контроля, которая опиралась бы на объективные методы. В тех школах, где работа по созданию такой системы уже начата, получены первые обнадеживающие результаты, которые говорят о том, что применение тестов в учебном процессе позволяет радикально повысить качество подготовки учеников. Контроль развивает память и мышление, формирует умения и навыки применять знания на практике, словом, работает на ту сферу, которую можно отнести к развивающей функции контроля зна- 26
ний учеников. Формированию этих качеств способствуют и традиционные средства контроля, и тесты. Вопрос о том, насколько полно реализуется развивающая функция, тесно связан с характером проверочных заданий. По мнению специалистов, хороший развивающий эффект дают задания, для выполнения которых требуется перенос знаний из одного предмета на другой [21], например физические задачи, требующие математического решения с помощью дифференциального или интегрального исчисления. Еще лучше в этих целях использовать нестандартные задания с недостаточными или избыточными данными. При их выполнении обучаемый отступает от привычных алгоритмов. Сначала он должен выбросить данные, не участвующие в решении, либо дополнить условие возможными величинами и затем выполнить скорректированную им задачу. Интересна также самостоятельная формулировка проблемы, т. е. постановка вопроса обучаемыми к набору данных и последующий ответ на поставленный вопрос [37]. 1.4. Принципы контроля Направляющая и регламентирующая роль по отношению к процессу контроля принадлежит дидактическим принципам, которые довольно мало, но все же отличаются от известных общих принципов обучения и воспитания [1]. В педагогическую практику контроля принципы вводятся как совокупность теоретических правил, способствующих эффективному осуществлению контроля за познавательной деятельностью учеников. Несмотря на то, что прин ципы возникают в процессе развития методологии, они крайне прагматичны. Цель их реализации — достижение наибольшей эффективности контроля для повышения качества обучения. Процесс контроля регламентируется рядом принципов, среди которых ведущими являются: принципы научности и эффективности, иерархической организации, объективности, систематичности, справедливости и всесторонности. Главная роль, несомненно, принадлежит принципу научности, поскольку именно он в первую очередь определяет возможность эффективного осуществления контроля. Принцип научности предписывает использование в практике контроля научно обоснованных средств оценки знаний учеников. Вопрос необходимости обоснования качества средств измерения в общем-то понятен и не нуждается в дополнительных пояснениях. Важнее другое — существует ли это обоснование в сфере практи- 27
ки, отвечают ли используемые при контроле средства научно обоснованным критериям качества? Ответ на этот вопрос не может быть только утвердительным или отрицательным, поскольку далеко не все средства контроля позволяют обоснованно оценить их качество. Например, как оценить качество контрольной работы, сплошь и рядом применяемой в повседневном учебном процессе? Для ответа на этот вопрос приходится привлекать не теоретические знания, а обычный педагогический опыт. Несомненно, ответ будет довольно неоднозначный: то содержание контроля, которое нравится одному преподавателю, может не понравиться другому, потому что у каждого из нас есть свои представления о том, что важно, а что не важно для оценки знаний учеников. Правда, определенную информацию о качестве подобранного преподавателем контрольного материала в некоторых случаях все же можно извлечь на основе анализа оценок учеников. Хотя выводы в силу отсутствия научно обоснованных критериев качества традиционных средств оценки, скорее всего, будут довольно неоднозначны. Например, если большинство учащихся в классе выполнили контрольную на «хорошо» и «отлично», то часть преподавателей расценит этот результат как показатель своей успешной работы в процессе обучения. Другая часть преподавателей, обладающих большим опытом, предложит более осторожную трактовку полученных результатов. Возможно, что результаты контроля не отражают вполне адекватно реальную картину успеваемости в классе. Не обучение было успешным, а контрольные задания излишне легки, что привело к неоправданному смещению результатов в сторону завышения. Таким образом, традиционные средства контроля можно считать вполне приемлемыми до тех пор, пока они сами не становятся предметом научного исследования. Даже элементарный пример, приведенный выше, свидетельствует об их непригодности в ряде случаев для получения достоверных оценок подготовки учеников. Иначе обстоит дело с педагогическими тестами, поскольку только для тестов существуют научно обоснованные критерии качества. Это, пожалуй, самое существенное свойство, выгодно отличающее тесты от традиционных средств контроля. Принцип научности предполагает проверку соответствия тестов двум критериям качества: надежности и валидности (подробнее об этом в гл. 5). Критерий надежности отражает характеристики тестов уточки зрения точности и устойчивости результатов измерения. 28
Рассматривая уровень знаний обучаемого как объект измерения, можно выделить две основные группы факторов, влияющие 113 точность педагогических оценок. Первая группа носит явно выраженный случайный характер. В нее попадают психологические и физиологические факторы, влияние которых на результаты кон- фоля предугадать попросту невозможно. Ко второй группе относят неслучайные факторы, отражающие особенности методов и средств измерения, выбранных для контроля. Из-за действия различных факторов педагогическая оценка наряду с объективными компонентами всегда содержит некоторую ошибку измерения, величина которой может варьировать в зависимости от надежности тестов, используемых для контроля. По мере совершенствования теста доля ошибочного компонента в оценке подготовки учащихся будет уменьшаться, а надежность выбранного средства измерения — увеличиваться. Таким образом, чем надежнее тест, тем точнее тестовые баллы учеников дают представ- юние об их истинном уровне подготовки. Второй критерий, необходимый для оценки качества тестов, связан с понятием валидности. Величина валидности указывает на степень пригодности выбранного теста для оценки подготовки учеников. При определении величины валидности всегда необходимо указать цель измерения, т.е. тот аспект подготовки, который подвергается оценке. Выявление адекватности метода измерения интересующей цели измерения без ее постановки может привести к ошибочным выводам о соответствии рассматриваемого теста критерию валидности. Например, тесты, пригодные для измерения уровня подготовки обучаемых, могут оказаться невалидными для оценки ее качества с позиций глубины знаний учеников. Высокая валидность тестов, предназначенных для оценки структуры знаний учащихся, не является основанием для применения этих же тестов при оценке уровня подготовки учеников и т. д. Однако соответствие теста научно обоснованным критериям качества еще не означает выполнения принципа эффективности, поскольку научность является необходимым, но не достаточным условием эффективности педагогического контроля. Принцип эффективности предполагает также выбор определенной методики проведения контроля, обеспечивающей полноценную реализацию функций контроля при минимальных затратах времени, усилий и средств со стороны педагога. Повышению эффективности способствует выполнение набора требований, на основании которых производится поиск решения по выбору наилучшего сочетания форм и методов контроля. Например, такими требованиями могут быть: 29
оптимальное выполнение обучающей, воспитывающей и развивающей функций контроля знаний; достижение объективности при выполнении диагностической функции контроля знаний; минимально необходимые затраты времени и усилий педагогов при условии достижения максимального эффекта в процессе контроля; применение количественных методов и надежных тестов для оценки уровня подготовленности обучаемых. Конечно, эти требования имеют весьма относительный характер, вполне допустимо их изменение в зависимости от поставленных целей контроля и конкретной ситуации. Помимо принципов научности и эффективности, в практике контроля важно соблюдение принципа иерархической организации, который можно трактовать в нескольких смыслах [34]. Прежде всего, он нацеливает на определенную иерархию знаний, умений и навыков при отборе содержания контроля. Преподавателю всегда приходится сталкиваться с тем, что все проверить просто невозможно, хотя и очень хотелось бы. Не составляют исключения и требования стандартов, которые не подлежат сплошной проверке, даже если для этого используются тесты. Поэтому при создании средств аттестации от чего-то приходится отказываться. Для этого необходимо ранжировать требования стандартов по степени важности, с тем чтобы ничего не упустить и не включить второстепенные требования при отборе содержания тестов [7]. Казалось бы, это утверждение вступает в определенное противоречие с принципами, положенными в основу разработки требований к уровню обязательной подготовки выпускников школ. Действительно, в концепции оценки достижений стандартов утверждается равновесомость (равная важность) всех требований стандартов [13]. Однако это противоречие является скорее кажущимся, чем действительным, поскольку каждый из принципов имеет свою область применения. Один из них, принцип равновесомости, обращен к сфере теории, а другой, принцип иерархической органи зации, нацелен на практику разработки аттестационных тестов. Принцип равновесомости на теоретическом уровне предписывает проверку достижения учащимися всех без исключения требований стандартов, но ничто в нем не указывает на то, как и когда должна производиться эта проверка. На практике при разработке инструментария приходится сталкиваться с тем, что далеко не все требования стандартов могут быть отражены в тесте. Объем требований стандартов столь велик, что 30
практически ни по одной дисциплине нельзя создать аттестацион- пый тест, содержание которого вбирало бы все требования стандартов. К тому же не всякое содержание поддается трансформации в тестовую форму. Специфика отдельных фрагментов содержания мчастую требует иных, не тестовых, форм проверки. В этой связи при создании аттестационных тестов возникает задача минимизации объема требований стандартов путем выбора из их числа наиболее важных, диагностируемых с помощью тестов. Процесс минимизации облегчается тем, что некоторые требования связаны между собой и потому в процессе проверки могут замещаться. Таким образом, принцип иерархической организации ориентирован исключительно на сферу практической разработки средств измерения. Он нацеливает на отбор наиболее важных, укрупненных требований стандартов для отображения их в тестах. Однако область его применения гораздо шире, поскольку проблема выбора всегда стоит перед преподавателем при отборе содержания контроля. Другое толкование принципа иерархической организации позволяет расставить определенные акценты в оценке знаний учеников на этапе введения образовательных стандартов, которые, по-видимому, изрядно затруднят для педагога планирование содержания проверки и выставление баллов учащимся. Это предположение граничит с убеждением, что трудности здесь неизбежны. Действительно, в существующей традиционной системе контроля, где давно не обновлявшиеся критерии оценок закреплены в сознании преподавателей, а почти все методы и средства контроля сводятся к интуитивному выставлению отметок, введение стандартов неизбежно потребует перемен. Вместо привычной, сложившейся за многие годы системы отсчета баллов, построенной на оценке убывания тех или иных характеристик подготовки обучаемого, преподавателю придется пользоваться новой системой, где оценивается прирост знаний, степень превышения достигнутого уровня подготовки над требованиями стандартов. При этом преподавателю необходимо постоянно помнить, что соответствие подготовки ученика обязательному минимуму требований образовательных стандартов дает основание для выставления лишь удовлетворительной оценки, а «хорошо» или «отлично» ставятся только в том случае, когда знания и умения ученика превышают обязательный минимум. Эти же соображения в условиях действующих стандартов осложняют отбор содержания контроля. Если перед преподавателем стоит задача дифференциации учащихся по уровню подготовки, то 31
в контролируемом содержании помимо обязательного минимума требований стандартов необходимо отобразить другую, превышающую эти требования часть. В противном случае нет никаких оснований для выставления хороших и отличных оценок. Таким образом, в любом содержании контроля вырисовываются как бы две части: одна — базовая ориентирована исключительно на обязательный минимум, а другая превышает этот минимум по одному из показателей: объему, трудности, глубине и др. Несомненно, большинство учеников справится успешнее с заданиями базовой части, чем с другими более трудными заданиями, которые обычно относят к вариативной части теста. Однако правомерно предположить существование обратного результата, когда отдельные учащиеся лучше выполнят более трудные задания, а не базовую часть. Неправильному истолкованию последнего результата призван воспрепятствовать принцип иерархической организации, отдающий приоритет при оценке результатов испытуемых базовой части. Согласно принципу оценку «неудовлетворительно» следует поставить всем ученикам, не выполнившим задания базовой части вне зависимости от результатов выполнения более трудных заданий, не входящих в базовую часть. Естественно, что преподавателю поступить так довольно сложно, поскольку в эту категорию нередко попадают неординарно мыслящие, лучшие ученики класса, победители олимпиад, поэтому оценить их знания «неудовлетворительно» просто не поднимается рука. Однако это утверждение может показаться вполне правомерным тем, кто знаком с реальной статистикой, согласно которой четверо из пяти победителей олимпиад, поступивших в вузы, отчисляются в процессе обучения. Конечно, не всегда причины отчисления связаны с отсутствием базовой подготовки, однако зачастую дело обстоит именно так. Отсутствие систематизированных базовых знаний рано или поздно негативно скажется на успехах учащегося. Есть и другие основания для принятия такого решения. Они заложены в самой концепции образовательных стандартов, согласно которой в стандартах представлен обязательный минимум требований, а раз он обязательный, то без его выполнения удовлетворительной оценки не может быть. У принципа иерархической организации есть одна особенность. Его действие должно носить постоянный, а не эпизодический характер. Например, нельзя руководствоваться принципом только в процессе итоговой аттестации, в противном случае некоторые отличники вдруг попадут в число неаттестованных учеников. Таким образом, принцип нацеливает преподавателей на систематический 32
контроль за соответствием уровня и качества подготовки учеников требованиям образовательных стандартов. Принцип систематичности педагогического контроля находится в определенной зависимости от его плановости. Неравномерное увеличение частоты проверок, их неожиданность создают дополнительное нервное и эмоциональное напряжение у учащегося. В равной степени и уменьшение числа контрольных проверок приводит к отрицательным последствиям. Опыт свидетельствует о том, что отрицание необходимости контроля, имевшее место в развитии педагогических методов в нашей стране, в равной степени как и попытки отрицания необходимости совершенствования его форм и методов, приводило, как правило, к неполной реализации функций контроля, к снижению его мотивационной роли, кухудшению качества обучения. Особенно важен систематический контроль для тех, кто несерьезно относится к учебе и привык плохо учиться. Принципы объективности и справедливости довольно тесно связаны между собой, поскольку объективность является необходимым условием справедливости. Перед решением вопросов о выборе методов реализации принципов необходимо ввести представление об объективных оценках. В обыденном смысле это представление нередко замещается другим, достаточно близким, но далеко не тождественным по смыслу. Когда говорят об объективности, как правило, имеют в виду именно справедливость. В теории педагогических измерений понятие «объективная оценка» трактуется совершенно иначе, как истинный компонент измеряемого свойства или просто истинная оценка. Тем самым в теорию измерений привносится идея существования ошибочного компонента измерения, который неизбежно присутствует во всех, как говорят специалисты, наблюдаемых или «сырых» баллах ученика. При идеализированных условиях, которые не встречаются в практике контроля, истинный компонент — это оценка параметра учащегося, не зависящая от средств измерения, или иначе константа ученика, не меняющаяся в течение вре мени, необходимого для нескольких измерений, но изменяющаяся в процессе обучения. Иногда истинную оценку рассматривают как предел, к которому стремится среднее значение наблюдаемых баллов при бесконечном увеличении числа измерений [48]. Каждое из определений достаточно несовершенно, но суть вопроса не в определении самого понятия, а в выборе метода, позволяющего реализовать принцип объективности и получить достаточно достоверные представления об истинных баллах учеников. Реализация принципа достигается различными методами, среди Мельникова М.В. 33
которых можно выделить более и менее эффективные, позволяющие получить представление об истинных баллах учащихся с большей или меньшей степенью достоверности. Традиционный подход к формированию представлений об истинных баллах достаточно прост и имеет большое число сторонников среди педагогов, особенно среди педагогов-практиков, хотя он малоэффективен. В нем идут по пути формирования коллегиальной оценки. Успех пути в основном определяется качественным составом проверяющей комиссии и четкостью соблюдения инструкций для экспертов [17]. В частности, необходимо, чтобы: • были подобраны квалифицированные эксперты из числа специалистов по проверяемым дисциплинам; • была разработана подробная инструкция, все пункты которой прошли проверку на однозначность выполнения экспертами; • была продумана процедура подсчета результирующего балла по оценкам экспертов и обеспечена независимость экспертных оценок. Несмотря на кажущуюся очевидность, эти условия часто не соблюдаются. Например, сплошь и рядом встречаются случаи, когда над мнением экспертов довлеет авторитарный стиль руководства председателя экзаменационной комиссии и ни о какой-либо независимости суждений членов комиссии нет и речи. Другой путь повышения объективности результатов контроля, который не нашел применения в практике в силу низкой эффективности, предполагает создание определенных эталонов усвоения знаний, умений и навыков обучаемых по каждому предмету. С точки зрения ряда теоретиков, принцип объективности контроля можно реализовать на практике, если дать преподавателю постоянную, разработанную коллегиально систему показателей, характеризующих различные уровни планируемых результатов контроля [6]. И наконец, третье направление формирования объективной оценки связано с тестированием. Здесь на идею объективизации результатов учащихся работает совокупность методов, начиная от момента замысла теста до момента окончания работы над ним и его использования, завершающегося шкалированием тестовых баллов учеников. Особенно эффективно проблема объективизации решается в современной теории тестов, где специальные математические методы и модели измерения обеспечивают переход от сырых баллов испытуемых к наиболее правдоподобным оценкам, которые дают оптимальное приближение к истинным компонентам измерения [31]. 34
Проблеме объективизации оценок придается особое значение в связи с попыткой реализовать в учебном процессе идеи сотрудничества преподавателя и ученика. Это далеко не случайное сочетание, поскольку необъективные оценки воспринимаются учащимися как несправедливые, а последние являются главной причиной возникновения конфронтации в учебном процессе. Хотя при авторитарно организованном учебном процессе отношения конфронтации могут иметь и чисто психологические корни. Например, к конфронтации приводят пристрастное или поверхностное отношение преподавателя к отдельным учащимся, психологическая несовместимость отдельных учеников с преподавателем или другие причины. В этой связи объективизацию результатов контроля можно считать необходимым, но не достаточным условием для установления отношений сотрудничества преподавателя и учеников. Принцип всесторонности подчеркивает необходимость тщательного отбора содержания контроля, которое должно репрезентативно отражать содержание подготовки. Задания, предназначенные для итоговой проверки, не должны дублировать друг друга, охватывать по возможности весь круг вопросов, подлежащих контролю. Первостепенное внимание уделяется проверке освоения основных знаний, умений и навыков, а второстепенные элементы исключаются из числа проверяемых. Существенную роль играет связь контроля с качеством обучения, хотя в истории развития нашей школы бывали периоды, когда эта связь отрицалась. На сегодняшний день эта связь несомненна: неоднократно отмечено, что в тех школах, где контроль организован хорошо, всегда выше результаты обучения. Объективный контроль создает дополнительные стимулы в работе преподавате ля, заставляет учеников глубже и серьезнее изучать предмет. Таким образом, педагогический контроль выступает как средство повышения качества обучения. Однако оно, как всякое средство, может приносить и пользу, и вред в зависимости от характера применения. Ужесточение контроля в рамках авторитарного подхода к обучаемым, использование его в качестве рычага для постоянного принуждения обучаемых к усвоению новых знаний находятся в полном противоречии с принципами сознательности и самостоятельности обучения, с идеей развития творческих способностей учеников [22|. 11еоднократно отмечалось, что принуждение приводит к постоянно нарастающему сопротивлению со стороны обучаемых либо к полной пассивности учеников. Вследствие этого развиваются столь не гативные качества личности, как равнодушное отношение к знани- >♦ 35
ям, интеллектуальная пассивность, стремление к механическому заучиванию, зачастую приводящие к уходу из школы учеников до завершения полного курса обучения. Таким образом, повышение качества обучения неразрывно связано с совершенствованием системы контроля, с приведением ее средств и методов в соответствие с идеями сотрудничества преподавателя и учеников. Выводы 1. Среди факторов, формирующих нынешнюю ситуацию в сфере педагогического контроля, можно выделить главный — необходимость введения в практику обучения количественных методов оценки знаний учеников. 2. Введение количественных методов предполагает правильную постановку целей контроля, выделение предмета измерения и выбор средств измерения. 3. Наиболее эффективным средством измерения, обеспечивающим объективность и сопоставимость оценок учеников в процессе контроля, являются педагогические тесты. 4. Использование педагогических тестов способствует эффективной реализации всех функций контроля и отвечает основным его принципам. 5. Педагогические тесты открывают перспективные направления повышения качества обучения путем совершенствования сие темы контроля и усиления мотивации к обучению в условиях сотрудничества педагога и учеников. 6. Традиционным средствам контроля и связанной с ними неизбежной перегрузке педагогов противопоставляется такая система контроля, где благодаря тестам в принципе исключаются отрица тельные проявления, ведущие к конфронтации педагогов и учеников. Вопросы и задания 1. Охарактеризуйте достоинства и недостатки традиционных средств контроля. 2. Перечислите основные виды педагогического контроля. 3. В чем состоит различие между функциями текущего и итогового контроля? 36
4. Почему педагогические тесты в отличие от традиционных средств контроля позволяют получить объективные представления о качестве подготовки обучаемых? 5. Чем отличается тестовый контроль от программированного контроля? 6. Обладают ли тестовые задания обучающим потенциалом? 7. Возможно ли осуществление диагностической функции контроля с помощью тестов? 8. Обведите номер наиболее правильного ответа. Качество учебного процесса с развитием тестового контроля в школе: 1) связано значительно; 2) связано, но незначительно; 3) не связано заметным образом; 4) не связано никак.
I ОСНОВЫ ТЕОРИИ I ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ 2Л. Классификация педагогических тестов В этой главе будут рассмотрены некоторые основополагающие вопросы теории педагогических измерений, имеющие, несмотря на теоретическую постановку, большое практическое значение для разработки тестов. Условно все вопросы можно разделить на три взаимосвязанные группы. Одна из них посвящена обсуждению ряда определений понятийного аппарата теории педагогических измерений, другая — классификации педагогических тестов, а третья — операционализации определений, установлению их связи с задачами измерения. Что касается вопросов первой группы, то их без всякого преувеличения можно отнести к категории нерешенных, поскольку к настоящему моменту понятийный аппарат теории педагогических измерений далек от завершения. Одни определения не нашли своего отражения в работах исследователей, другие хотя и не раз обсуждались, не получили однозначной трактовки и потому нуждаются в систематизации и переосмыслении. К числу последних, несомненно, принадлежит определение педагогического теста. Правда, нельзя сказать, что существенные признаки теста не анализировались с научных позиций. Скорее, наоборот, к настоящему моменту здесь наблюдается спектр подходов и мнений. Однако и по сей день нет одного корректного определения педагогического теста, принимаемого всеми исследователями без изменений и добавлений. Похоже, что в процессе работы каждый исследователь стремится сказать что-то свое, попутно обвиняя других в несущественности выделяемых признаков теста, в нефункциональности и нетерминологичности предлагаемых определений. Диапазон подходов к определению педагогического теста в методической литературе столь же широк, как и в научной литературе. Одни авторы учебных и методических пособий по тестовой проблематике, не обсуждая достоинств и недостатков, приводят все доступные им определения педагогического теста [ 16]. Другие, наоборот, стремятся получить всеобщее признание своего подхода и догматически утверждают уникальность собственного определения, не замечая 2 38
сю недостатков или ограниченности, неадекватности современному понятию «педагогический тест» [2]. Сложность рассмотрения этого понятия усугубляется неоднозначностью подходов теоретиков и практиков. Под тестом можно понимать либо весь метод исследования целиком, включая процедуру проверки, либо только средство измерения. Поскольку в привычном словоупотреблении устоялось второе толкование, то оно и будет использоваться далее в тексте. При этом практикам, работающим с научной и методической литературой, все же следует помнить о том, что разные исследователи могут иметь отличающиеся мнения, которые при взаимодействии с педагогическим контекстом приведут к различным определениям теста. Даже если оставить в стороне нечеткость и расплывчатость отдельных определений и не заниматься их сравнительным анализом, то приходится решать другую серьезную проблему, о которой почему-то забывает большинство теоретиков и практиков. Дело в том, что многообразие подходов к определению теста далеко не случайно. Оно порождается многообразием существенных признаков педагогического теста, которые напрямую зависят от цели создания теста, от круга решаемых с его помощью задач. Поэтому определение меняется вместе с изменением цели и задач тестирования. В этой связи напрашивается мысль о том, что само понятие «тест» имеет множественное истолкование. И следовательно, процесс совершенствования понятийного аппарата должен идти не по пути утверждения одного основополагающего определения и отрицания всех остальных, а по пути систематизации множества определений и приведения их в соответствие с решением вопроса классификации педагогических тестов. Именно это соображение повлияло на порядок расположения материала в данной главе, где сначала рассматриваются вопросы классификации педагогических тестов, а затем вводится определенный понятийный аппарат, необходимый для целей изложения и непосредственно увязанный с предлагаемой в пособии классификацией видов тестов. В отечественной и иностранной литературе нет особого единства по вопросу классификации видов педагогических тестов. На фоне других наиболее привлекательным выглядит подход, изложенный в [43]. В ней в качестве признака демаркации видов выбирается характер задач, решаемых преподавателем с помощью тестов в процессе обучения. При этом подходе выделяются: 1) задачи, стоящие перед преподавателем на входе в обучение; 39
2) текущие задачи; 3) задачи, соответствующие концу определенного периода учебного процесса. Тестирование на входе в обучение Началу обучения ставится в соответствие входное тестирование, позволяющее получить ответ на два наиболее важных для этого периода вопроса. Настолько важных, что многие сторонники входного тестирования напрямую связывают возможность ответа на эти вопросы с повышением качества учебного процесса. Первый вопрос нацелен на выявление степени владения базовыми знаниями, умениями и навыками, необходимыми для начала обучения, второй — на определение степени владения новым материалом до начала его изучения. Вряд ли кто из преподавателей школы выразит сомнения в важности решения первого вопроса, ответ на который так или иначе получает каждый в своей практической работе. Вполне понятно, что при использовании традиционных средств контроля этот ответ далеко не всегда бывает полным в силу перегрузок преподавателей, постоянно наличествующих в школьном учебном процессе. В результате некоторые, наиболее слабые, обучаемые приступают к освоению нового материала преждевременно, поскольку в силу отсутствия необходимых базовых знаний они этот новый материал не способны ни понять, ни принять. Как следствие у них накапливается хроническое отставание в области знаний, в сфере навыков и умений. В этой связи в качестве альтернативы традиционным средствам контроля нередко предлагают претесты (предварительные тесты), позволяющие с высокой эффективностью выявить готовность к усвоению новых знаний у всех учеников класса. Конечно, далеко не всегда можно проверить все, что важно для предстоящего обучения. Однако если такая возможность есть, то в содержании претеста лучше отобразить все базовые знания, умения и навыки, необходимые для усвоения новых знаний. В последнем случае степень обоснованности решения о готовности учеников к усвоению знаний будет, несомненно, выше. Правда, это формальное соображение относится не ко всем ученикам. Нет никакого смысла столь тщательно выявлять готовность к обучению у наиболее сильных учеников, поскольку нет никаких сомнений в том, что они смогут успешно освоить новый курс, как и у наиболее слабых учеников, так как заранее понятно без всякого претеста, что они не готовы к усвоению нового курса. Поэтому сфера примене- 40
пия претеста — сравнительно большая группа учеников, находящихся на границе между явно подготовленными и явно не готовыми к началу усвоения курса. По результатам выполнения претеста проводится деление тестируемых на две группы, в одну из которых попадают те, кто готов к изучению нового материала, а в другую — те, кто нуждается в дополнительной работе и в консультациях педагога. Если во второй группе нет учеников, то работу педагога можно считать крайне удачной, что дает основания для надежд на высокие результаты учебного процесса. Ответ на второй вопрос предполагает создание еще одного входного претеста, содержание которого покрывает планируемые результаты предстоящего обучения и построено полностью на новом материале. Иногда роль входного претеста выполняет итоговый гест, который предназначен для будущей оценки результатов усвоения нового материала после завершения периода его изучения. Последний случай наиболее интересен для оценки эффективности обучения. Использование одного и того же теста для «входа» и «выхода» позволяет оценить прирост уровня подготовки в виде обычной разности между конечным и начальным результатами. Правда, простая оценка прироста не дает оснований для веских выводов об эффективности, поскольку обычно прирост выше у тех, кто проявил слабую подготовку на входе. У более подготовленных учеников прирост, как правило, оказывается ниже, так как продвижение по пути усвоения знаний дается им гораздо труднее, чем слабым ученикам, в первую очередь из-за повышенного уровня трудности учебного материала. Таким образом, формальная оценка результатов учеников, основанная на подсчете прироста достижений, может привести к значительным искажениям в оценке эффективности учебного процесса. Проблема объективизации оценки прироста учебных достижений неоднократно рассматривалась в ряде работ зарубежных авторов. Наиболее интересный подход в работе [58] основан на использовании статистических и аналитических методов в сочетании со специальными математическими моделями для отражения темпа прироста результатов учебных достижений. По результатам выполнения претеста преподаватель принимает решение, позволяющее внести элементы индивидуализации в массовый учебный процесс. Если ученик показал некоторые предварительные знания по новому материалу, то план его обучения необходимо перестроить и начать с более высокого уровня, чтобы учебный материал имел для него действительный характер новизны. 41
На рис. 2.1 показаны возможные функции входного тестирования в учебном процессе. Конечно, потребность во входном тестировании есть далеко не всегда. В различных ситуациях решение преподавателя о создании претестов должно быть подсказано Входное тестирование (для определения входного уровня) Претест готовности (для выявления у учеников требуемых на начало обучения знаний) Входной претест (для выявления у учеников, достигших отдельных планируемых результатов до начала обучения) Обеспечить повторение базовых знаний Продолжать в соответствии с планом обучения Перевести учеников на более высокий уровень обучения Рис. 2.1. Упрощенная модель функций входного тестирования в учебном процессе, соотнесенная с функциями педагога его интуицией и опытом практической работы. Например, если преподаватель давно работает с классом и хорошо знает учеников, то во входном тестировании нет никакой необходимости, так как вся важная информация об учениках известна ему без всякого пре- теста. Иногда проверить готовность к обучению желательно, но просто невозможно, поскольку специфика содержания нового курса не позволяет четко очертить круг базовых знаний, умений и навыков, необходимых к началу обучения. В других случаях область планируемых к усвоению знаний может быть столь нова, что ни у одного ученика нет никаких заделов, и потому любое входное тестирование будет бесполезно. Тестирование в процессе обучения Текущие задачи учебного процесса обычно соотносят с формирующими тестами. Формирующее тестирование нацелено на осу- 42
ществление дифференцированного подхода к успевающим и неуспевающим ученикам в повседневном учебном процессе. Для тех, кто хорошо учится, с помощью формирующего тестирования можно выделить круг задач, мотивирующих учение, благодаря оптимальному подбору трудности заданий, когда знающему ученику на уроках не скучно, а интересно. Для неуспевающих — выявить пробелы, порождаемые излишне трудными учебными задачами, для выполнения которых слабому ученику необходима помощь педагога. Выявление пробелов крайне важно для повышения качества обучения, и потому основная часть усилий педагога чаще всего направлена на работу со слабыми учениками. Именно так обстоит дело, по крайней мере, в традиционно организованном учебном процессе. Используемые для этих целей тесты получили название формирующих в силу того, что их действие направлено на формирование качественных знаний путем своевременного выявления пробелов для столь же своевременного их устранения. Формирующие тесты не следует путать со средствами текущего контроля знаний учеников, однако они в какой-то мере близки хотя бы по периоду применения. При правильном положении вещей есть существенные различия технологического и содержательного характера. Традиционные средства текущего контроля менее эффективны, в основном ориентированы на выполнение мотивирующей функции контроля путем систематической оценки знаний учеников по небольшим единицам учебного материала. Формирующие тесты предназначены для выявления пробелов в знаниях по группе учебных единиц для своевременной коррекции процесса усвоения материала нескольких тем или даже разделов. Логика формирующего тестирования достаточно проста и привычна для педагога. Если большинство учеников класса не справляется с заданиями формирующего теста, то процесс обучения следует повторить, повысив детализацию, увеличив количество объяснений и уменьшив трудность учебных задач. Если не справившихся с тес том меньшинство, то необходимо сосредоточить максимум усилий на индивидуальной работе с отстающими учениками, а сильные мо- |уг продвигаться дальше в освоении новых тем и разделов. Таким образом, сама идея крайне тривиальна и не несет в себе ничего нового, поскольку именно этим ежедневно занимаются педагоги в повседневном учебном процессе. Однако если при обычных условиях вся работа по выявлению пробелов и коррекции процесса усвоения лежит на преподавателях, что приводит к значительным их I юре грузкам, то в условиях формирующего тестирования центр тяжести в работе смещается на тесты. 43
Особенно эффективен процесс коррекции в ситуации, когда формирующее тестирование осуществляется в компьютеризованном режиме и подкрепляется соответствующими обучающими модулями по каждой единице учебного материала. В этом случае коррекция проводится незамедлительно, поскольку после выявления очередного пробела компьютер сам подбирает обучающий модуль и сразу же выдает его ученику. В отдельных ситуациях затруднения ученика по какому-либо разделу учебного материала могут носить систематический характер и разъяснений в виде обучающего модуля оказывается недостаточно. Тогда на помощь приходят диагностические тесты. Основная цель диагностики — установление причин пробелов в знаниях учеников, что достигается в первую очередь специальным подбором содержания заданий в тестах. Как правило, в них бывают представлены слабо варьирующие по содержанию задания, рассчитанные на отслеживание отдельных этапов выполнения. Подробная детализация позволяет выявить причины устойчивых ошибок учеников путем конкретизации характера возникающих затруднений при выполнении заданий теста. При известных условиях установление характера затруднений сопровождается достаточно глубокими выводами педагога о несфор- мированности тех или иных учебных умений. Таким образом, с помощью диагностических тестов можно установить причины систематических ошибок учеников и наметить пути их устранения. Информация, которую получает педагог после применения диагностических тестов при условии правильной интерпретации результатов тестирования, носит вполне конкретный характер и непосредственно увязывается с планируемыми задачами обучения. Например, по результатам диагностики можно установить, что одни пробелы в подготовке вызваны неумением ученика применять на практике полученные им теоретические знания, а другие связаны с неумением переносить теоретические знания на новую нестандартную ситуацию и т.д. Поэтому диагностические тесты позволяют педагогу определить истинные источники постоянных неудач отдельных школьников в обучении. По сравнению с формирующими диагностические тесты являются более сложными с точки зрения их разработки, однако и информация, предоставляемая ими, на много порядков важнее для повышения качества обучения. Это утверждение станет яснее, если вспомнить о том, что диагностические тесты предназначены для углубленного анализа причин пробелов в подготовке учеников, в то время как формирующие тесты лишь указывают на количество и расположение пробелов. 44
Хотя применение диагностических тестов может коренным образом повлиять на качество учебного процесса, меняя его в сторону повышения, все же приступать к их созданию следует крайне осмотрительно, поскольку есть определенные ограничения в сфере их разработки и применения. Процесс создания тестов достаточно сложен, требует системного подхода, определенных материальных затрат, соответствующего программно-педагогического и кадрового сопровождения. Положение осложняется еще тем, что >ти тесты годятся не для любых учебных проблем и служат целям диагностики только в совокупности с формирующими тестами. Упрощенная модель функций формирующего тестирования, предложенная в [43], приведена на рис. 2.2. Формирующее тестирование (для мониторинга учебных достижений) I Есть ли ученики, достигшие планируемых результатов обучения' Обеспечить фуппову ю или индивидуальную коррекцию I Обеспечить усиленное обучение на более высоком уровне 11ровести диагностическое тестирование (для выявления трудностей устойч иного характера) Продолжить обу чение в соответствии с планом Рис. 2.2. Упрощенная модель функций формирующего тестирования Итоговое тестирование. Основные подходы к разработке итоговых тестов По окончании курса обучения ученикам предлагают итоговые тесты, которые иногда называют тестами школьных достижений или реже суммативными тестами. Основная цель итогового тестирования — обеспечение объективной оценки результатов обучения по завершению некоторого курса. Само понятие «оценка» по отношению к итоговым результатам имеет две основные трактовки, зависящие от цели создания теста и интерпретации результатов его 45
выполнения. В первом случае оценка ориентирована на характеристику степени освоения содержания курса, во втором — на дифференциацию учеников по результатам выполнения теста. На рис. 2.3 приведена модель функций итогового тестирования. Итоговое тестирование (для определения итоговых достижений) I Дости г л и л и у чепики планируемых результатов обучения? Обеспечить допол н ител ьное обучение не достигшим план ируемых результатов Выставить итоговый балл или отнести часть учеников к категории освоивших содержание обучения Оценить эффективность обучения Рис. 2.3. Упрощенная модель функций итогового тестирования Нормативно-ориентированный подход. Стандартизация теста В рамках первого, нормативно-ориентированного, подхода разрабатываются тесты для сравнения учеников по уровню учебных достижений. Сравнимость достигается путем сопоставления результата каждого учащегося с результатами других, выполнявших тот же самый тест. Сообразно двум подходам к интерпретации результатов тестирования выстраиваются два подхода к созданию педагогических тестов. Оба они перспективны и важны, имеют свою сферу применения, свои преимущества и недостатки. В нормативно-ориентированном подходе при интерпретации результатов возникают определенные трудности, так как относительная позиция испытуемого может быть неточно или даже неправильно определена. Очевидно, что испытуемый будет выглядеть лучше на фоне более слабой, чем более сильной группы. Например, можно высоко оценить знания ученика, выполнившего правильно в тесте всего 30 заданий из 60 в том случае, если группа слабая и 70%, а то и 80% испытуемых группы сделали меньшее 46
число заданий теста. Тот же самый результат ученика, но в другой, сильной группе будет отнесен к категории довольно низких, если только 10—20% испытуемых группы сделали правильно 30 заданий, а все остальные значительно превысили этот результат. В этой связи возникает вопрос об истинной оценке результата каждого учащегося, выполнившего тест. Многолетние попытки получить ответ на этот вопрос привели к идее установления норм, т. е. системы показателей, отражающих результаты выполнения теста большой группой (выборкой) испытуемых [5]. Нормы нельзя придумать или задать априорно, они устанавливаются эмпирически. Например, для школьных итоговых тестов нормы выбирают сообразно тому, как выполняет тест представительная выборка учеников. К числу наиболее важных показателей обычно относят средний уровень выполнения и вариативность результатов выборки. Процесс определения норм называется стандартизацией теста. Стандартизация осуществляется на представительной или, как говорят специалисты, репрезентативной выборке испытуемых, процесс формирования которой является обязательным моментом при определении норм теста. По окончании стандартизации у педагога появляется возможность сравнить тестовый балл каждого испытуемого с установленными нормами и таким образом оценить место результата каждого ученика в распределении баллов нормативной выборки по тесту. Подсчет показателей достаточно прост. При наличии определенных навыков и репрезентативной группы учеников определение норм либо их уточнение может быть осуществлено любым разработчиком или пользователем теста. (Примеры подсчета показателей будут рассмотрены дальше в гл. 5.) В процессе сравнения индивидуальных баллов учеников с нормами выполнения теста первичный результат каждого испытуемого обычно переводится в некий относительный, производный показатель, позволяющий несколько расширить возможности интерпретации результатов выполнения теста. Таким путем можно повысить сопоставимость баллов и сделать выводы о достижениях испытуемых по набору тестов, имеющих разные нормы их выполнения. Однако здесь легко допустить ошибку. Относительная позиция испытуемого в тестах по различным дисциплинам может быть неверно интерпретирована из-за несопоставимости тестовых норм, возникающей при стандартизации тестов на различных по подготовке выборках. Например, ошибочным будет результат сравнения оценок ученика по курсу химии и по математике, если один из этих тестов проходил стандартизацию 47
на выборке московских школьников, а другой — на выборке школьников Краснодара либо на любой другой по подготовке выборке школьников той же Москвы. Понятно, что разные выборки дают разные нормы, и потому при сравнении результатов ученика по разным тестам легко получить неправильный ответ. Таким образом, сопоставимость результатов испытуемого по различным тестам или групп испытуемых достигается далеко не всегда, а только в том случае, если для стандартизации тестов использовались сходные нормативные выборки, обеспечивающие сопоставимость норм различных тестов. Стандартизация предполагает единообразие не только оценок, но и всей процедуры выполнения теста. Помимо норм разработчик должен дать точные указания относительно формы предъявления теста, оптимального времени его выполнения, устных инструкций и ряда других деталей, влияющих на результаты выполнения теста. Необходимо указать состав выборки стандартизации и ее особенности, смещающие представления о нормативных результатах в сторону завышения или занижения. При этом следует иметь в виду, что тестовых норм, пригодных для интерпретации результатов всех учеников, не существует вообще. Область применимости любой нормы ограничивается конкретной совокупностью испытуемых, для которых она вырабатывалась. Поэтому нормы никоим образом не абсолютны и не постоянны. Они просто отражают результаты выполнения теста испытуемыми из выборки стандартизации на момент создания теста и подлежат систематическому обновлению и перепроверке. При разработке и применении тестовых норм особое внимание обращается на выборку стандартизации. Для обеспечения стабильности значений норм выборка должна быть достаточно большой и представительной. Например, если хотят установить нормы выполнения теста по химии для школьников Москвы и Московской области, то нужно протестировать не менее 200—300 учащихся в каждой из нескольких школ, расположенных как в Москве, так и в области, а затем объединить в равных пропорциях все результаты. При этом другая выборка из учащихся этих же школ не должна приводить к нормам, заметно отличным от предыдущих. Некоторые различия норм, без сомнения, будут существовать, однако они не должны быть слишком велики. В противном случае объем выбор ки необходимо увеличивать и определять новые нормы до тех пор, пока не наступит их стабилизация. С точки зрения интерпретации результатов каждого испытуемого нормы мало чего стоят, если они неустойчивы и определены с боль- 48
шой выборочной ошибкой. Поэтому процесс увеличения объема выборки и переопределения норм необходим, и только по его завершении есть основания считать, что разработчиком создан стандартизованный тест в рамках нормативно-ориентированного подхода. Процесс установления норм занимает довольно длительное время, и ногда до нескольких лет. Особенно в тех случаях, когда содержание теста ориентировано на какие-либо специальные знания, степень владения которыми можно проверить одновременно у очень небольшой группы учеников. Критериально-ориентированный поахоа При критериально-ориентированном подходе создаются тесты для сопоставления учебных достижений каждого ученика с планируемым к усвоению объемом знаний, умений или навыков. В этом случае в качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка учеников. При этом упор делается на то, что может выполнить ученик и что он знает, а не на то, как он выглядит на фоне других [39]. Есть свои трудности и при критериально-ориентированном подходе. Как правило, они связаны с отбором содержания теста. В рамках критериально-ориентированного подхода в тесте стараются отразить все содержание контролируемого курса или по крайней мере то, что можно принять за этот полный объем. Процент правильного выполнения заданий рассматривают как уровень подготовки или как степень овладения общим объемом содержания курса. Конечно, в рамках критериально-ориентированного подхода для последней интерпретации есть все основания, так как тест включает все то, что можно условно принять за 100%. Критериально-ориентированные тесты закрывают довольно широкий спектр задач. В частности, они помогают собрать полную и объективную информацию об учебных достижениях каждого учащегося в отдельности и группы учеников; сравнить знания, умения и навыки ученика с требованиями, заложенными в государственных образовательных стандартах; отобрать учеников, достигших планируемого уровня подготовленности; оценить эффективность профессиональной деятельности отдельных преподавателей и групп преподавателей; оценить эффективность различных программ обучения. Акцент на содержательном подходе может оказать благотворное влияние на педагогическое тестирование в целом. От такого подхода выигрывает, например, интерпретация тестовых баллов 49
при текущем контроле. Ученик получает информацию не о том, как он выглядит на фоне других, а о том, что он может делать и что знает по сравнению с заданными требованиями к уровню подготовки по предмету. Разумеется, такая интерпретация не исключает сочетания с отнесением результатов к нормам, что, как правило, происходит при текущем контроле знаний учеников в повседневном учебном процессе. В этом случае тестирование интегрировано с обучением и помогает учащемуся выявить возможные затруднения, а также своевременно исправить ошибки в усвоении содержания учебного материала. Сравнительный анализ нормативно- и критериально-ориентированного подходов С первого взгляда нормативно- и критериально-ориентированный подходы не имеют особых различий, по крайней мере, тех, которые наблюдаются явно, путем обычного осмотра заданий тестов. К другим, прямо противоположным, выводам приводит углубленный анализ существенных характеристик тестов, разработанных в рамках различных подходов. Результаты анализа указывают наряд особенностей, способствующих дифференциации подходов. В частности, нормативно- и критериально-ориентированные тесты отличаются по целям создания, методике отбора содержания, характеру распределения эмпирических результатов тестирования и методам их обработки, критериям качества тестов и тестовых заданий, а, главное, по интерпретации результатов испытуемых, выполнивших тест. В целом можно лишь сказать, что отличий мно го, и, по мнению специалистов, они существенны. Однако подробного анализа отличий в пособии проводиться не будет из-за риска отвлечься от основных целей обсуждения. Правда, особого единства мнений здесь не существует. Некоторые исследователи считают, что четкого разграничения между критериально- и нормативно-ориентированными подходами практически нет. В принципе, результаты любого тестирования можно интерпретировать в рамках того или иного подхода, так как они нисколько не противоречат, а только взаимно дополняют друг друга. Интерпретация результатов теста по отношению к определенному содержанию учебной дисциплины вовсе не снимает возможности дифференциации индивидуальных различий учеников. В свою очередь сам выбор объема содержания, подлежащего про верке, предполагает наличие сведений, связанных с нормативной интерпретацией учебных достижений школьников [33]. Поэтому 50
некоторые тесты разрабатываются с расчетом на то, что результаты ныполнения заданий можно соотносить как с нормами, так и с содержанием теста. Из-за существующих различий разработка тестов, допускающих обе интерпретации результатов выполнения, очень трудна, хотя идея совмещения обоих подходов к интерпретации результатов тестирования чрезвычайно привлекательна. Действительно, дополняя друг друга, оба подхода позволяют создать наиболее информативный тест, в полной мере отвечающий обеим задачам итогового контроля знаний. В заключение хотелось бы отметить, что критериально-ориентированные тесты имеют довольно ограниченную область применения. В основном они используются в тех случаях, когда можно четко определить знания, умения, навыки по конкретной области содержания и задать их верхний и нижний пределы. Например, критериально-ориентированные тесты просто необходи мы для оценки уровня учебных достижений учащихся при сравнении его с требованиями, заложенными в государственных образовательных стандартах по отдельным дисциплинам или по группе учебных дисциплин. В более сложных и менее структурированных областях знаний, связанных с решением задач творческого уровня, определить верхний предел зачастую довольно сложно. В этом случае полное владение содержанием невозможно, да оно и не нужно. Иногда при выполнении заданий школьник руководствуется знаниями, а иногда все решают смекалка и догадка. Поэтому при создании тестов, предназначенных для контроля за выполнением задач творческого уровня, предпочтение следует отдавать нормативно-ориентированному подходу либо постараться совместить оба подхода в одном тесте [31]. Классификация виаов педагогических тестов Сообразно рассмотренным задачам и функциям педагогических тестов выстраивается общий подход к классификации их видов (рис. 2.4). Анализ классификационной таблицы позволяет выделить в качестве основополагающих четыре вида педагогических тестов. Среди них некоторые имеют подвиды и могут отличаться подходом к их разработке. Несомненно, все они достаточно важны для повышения качества подготовки школьников и требуют самого серьезного рассмотрения в специальной методической литературе для 51
Педагогические тесты Задача I: тестирование на входе в обучение Задача II: тестирование в процессе обучения Входные тесты Задача III: тестирование на выходе из обучения Формирующие тесты (обычно критериально- ориентированны и подход) Диагностические тесты (специфический подход для выявления причин пробелов в знаниях) Итоговые тесты 11ретест готовности к обучению (обычно критериально- ориентированный подход) Входной претест (обычно нормативно- ориентированный подход) Нормативно- ориентированные тесты достижений Критериально- ориентированные тесты достижений Рис. 2.4. Классификация видов педагогических тестов ознакомления с ними преподавателей и широкого внедрения в учебный процесс. Конечно, предлагаемое пособие не может вместить все то, что хотелось бы написать по этому поводу. Для этого необходимо по меньшей мере несколько книг. Поставленные цели при подготовке данной книги намного скромнее, и потому весь материал пособия сосредоточен вокруг рассмотрения методики разработки и применения итоговых нормативно-ориентированных тестов. Именно для этого случая в следующем разделе предлагается сравнительно небольшой понятийный аппарат. 2.2. Основные определения Необходимость создания четкого научного фундамента для разработки тестов не всегда понятна преподавателям-практикам. Отчасти это объясняется кажущейся простотой вопросов разработки; нередко любой набор заданий, стандартизованных согласно требованиям тестовой формы, в обыденном представлении ассоции- 52
руется с тестом. Обыденное сознание исходит при этом из аналогии с привычными короткими контрольными заданиями, а вовсе не из определения научно обоснованного теста. Такие псевдотесты сплошь и рядом публикуются в специальных сборниках, а иногда применяются даже в отдельных аттестационных центрах. При этом зачастую без всяких оснований, априорно авторы подобных псевдотестов претендуют на соответствие их продукции научно обоснованным критериям качества, на точность и объективность обеспечиваемых их тестами оценок учеников. Однако эти априорные заявления обычно не подкрепляются практикой. На деле несоответствие псевдотестов научно обоснованным критериям качества сплошь и рядом приводит к искажению реальной картины подготовки выборки, к неправильным выводам относительно эффективности работы отдельных преподавателей или группы педагогов, к дискредитации возможностей тестов. В целом псевдотесты наносят большой ущерб внедрению идей теории педагогических измерений в практику контроля, порождая пессимистическое отношение многих педагогов к возможностям тестовых методов. Особенно недоверчиво к «тестам» относятся опытные педагоги. Это далеко не случайно, так как именно они в первую очередь замечают нередкие случаи расхождения некорректных тестовых баллов и их собственных оценок, которые благодаря большому опыту носят вполне объективный характер. По сути, здесь виноваты не тесты, а отсутствие таковых, однако этого обстоятельства часто не замечают и отождествляют недостатки псевдотестов с недостатками настоящих тестов. Изменению этой ситуации в немалой степени может способствовать разработка соответствующего понятийного аппарата теории педагогических измерений. Если удастся создать определение, содержащее существенные признаки теста, выполняющее не просто ориентирующую функцию, а служащее целям демаркации тестов от псевдотестов, то проблема будет решена. Появится действенный инструмент для дифференциации профессионально разработанных тестов от остальных средств контроля. Таким образом, необходимость корректного понятийного аппарата диктуется самой практикой. Только так можно найти в сфере практики действенное средство защиты от псевдотестов. Проблемы, трудности и подходы Вопрос необходимости создания понятийного аппарата для прогресса науки об измерениях в общем понятен и в отличие от 53
случая практики не нуждается в обосновании. Важнее другое — как создавать и каким путем? Например, можно попытаться ввести общее определение педагогического теста, а затем в процессе углубленного анализа развернуть это общее определение в ряд детализирующих, более мелких определений, нацеленных на отдельные существенные признаки теста. Многочисленные примеры подобного подхода легко найти в учебных пособиях, и не только по тестовой проблематике [2]. Но существует и другой, противоположный путь, не получивший должного отражения в работах исследователей в области педагогических измерений, несмотря на то что он в гораздо большей степени отвечает требованиям логики научного подхода. В этом случае адекватное построение понятийного аппарата достигается созданием системы вложенных определений, соответствующих переходу с более низкого уровня исследований на более высокий, обобщенный. Таким образом, процесс формирования определений идет путем обобщения, а не дробления, иначе говоря, не сверху вниз, а снизу вверх, от основных исходных определений и перво- понятий к производным, обобщенным. К выбору второго подхода в качестве ведущего авторов данного пособия подтолкнуло еще одно соображение, связанное с попыткой уйти от чрезмерной детализации, характерной для многих определений в теории педагогических измерений. Сказанное, конечно, не следует понимать как призыв к полному отказу от множества признаков, необходимых для разъяснения сущности определений. Просто при создании понятийного аппарата хотелось бы не забывать о том, что громоздкость определений приводит к снижению их функциональности, а краткость, наоборот, способствует лучшему пониманию, особенно теми, кто действует в сфере практики создания тестов. Стремление к краткости осложняется спецификой ряда определений теории педагогических измерений, которые громоздки изначально, по своей природе. Ситуация далеко не случайная, она предопределена сложностью рассматриваемых объектов. Общеизвестно, что чем сложнее объект, тем труднее описать его с помощью ограни ченного числа признаков и характеристик (ситуация далеко не единичная, она нередко возникает в теоретической деятельности по созданию понятийного аппарата ряда других наук). В научном обиходе подобные сложные определения выделяют в отдельный класс и используют при их создании специальный прием, заключающийся во введении обобщающих слов для обозначения группы признаков или характеристик. Соответственно возникает необходимость в допол- 54
пительных разъяснениях по расшифровке обобщающих слов, которые обычно приводятся после формулировки самого определяемого понятия. Именно по этому распространенному пути пришлось пойти в данном пособии при введении совокупности взаимосвязанных определений — основных, исходных и производных. По мнению авторов, предлагаемые определения отличаются от других функциональностью, корректностью, краткостью без потери существенности выделяемых признаков понятий. Преатестовое задание Каждое из определений приобретает особую важность на различных этапах разработки теста. Исходным является определение предтестового задания, содержащее ссылки на определенные специфические требования, которые выступают в качестве критериев демаркации предтестового задания от традиционных контрольных заданий. Определение 1. Предтестовое задание — это единица контрольного материала, содержание, логическая структура и форма представления которого удовлетворяют ряду специфических требований и обеспечивают однозначность оценок результатов испытуемых в выбранной шкале. Лучшему пониманию определения способствует краткое истолкование его основных положений. При формировании требований к содержанию всегда возникает вопрос о цели создания теста и выборе подхода к интерпретации результатов его выполнения. В рамках выбранного подхода специальными методами проводится анализ содержания учебного курса, позволяющий выделить содержание предтестовых задании. Они интегративно охватывают систему знаний по контролируемому курсу и включают опорные структурные элементы курса. Именно отсюда проистекает первое преимущество предтестовых заданий, содержание которых отбирается преподавателем не интуитивно, как при традиционном контроле, а на основе специального анализа, выдвигающего ряд научно обоснованных требований в процессе отбора. (Эти требования и методика отбора единиц контролируемого материала рассматриваются в гл. 3.) В целом содержание предтестового задания не должно быть тривиальным. Правильный ответ на него должен предполагать знание существенных элементов содержания дисциплины. Последнее требование полностью исключает возможность правильных ответов, основанных на простых логических рассуждениях или здравом смысле [43]. 55
Требования, предъявляемые к предтестовым заданиям, можно условно разделить на специальные, отражающие специфику формы заданий, и общие, инвариантные относительно выбранной формы [53]. К числу последних принадлежат следующие: • наличие порядкового номера задания, установленного согласно априорной оценке трудности задания и выбранной разработчиком стратегии предъявления заданий теста; • наличие стандартной инструкции, адекватной форме предтес- тового задания; • расположение элементов задания и инструкции на определенных местах, фиксированных в рамках выбранной формы; • наличие эталона правильного ответа к заданию и правила для оценки результатов его выполнения. В отличие от общих специальные требования довольно многочисленны (они представлены в гл. 4, посвященной требованиям тестовой формы). Преимущества предтестовых заданий обеспечиваются их четкой логической структурой. Предтестовое задание формулируется так, чтобы в его структуре была заложена возможность прямого ответа. Для этого в нем заранее определяется то, что однозначно считается правильным ответом с заранее заданной степенью его полноты. В отличие от предтестовых заданий традиционный контрольный материал порождает многословные ответы, разные по содержанию, по структуре и по степени правильности. Это обстоятельство значительно затрудняет оценку результатов испытуемых в процессе традиционного контроля, в то время как хорошо разработанные предтестовые задания обеспечивают простоту оцен ки ответа ученика благодаря наличию готового эталона для сравнения. Таким образом, для предтестовых заданий, как правило, исключаются правильные и неправильные в разных отношениях и в разной степени ответы. Реализации семантических преимуществ предтестовых заданий, несомненно, в ряде случаев способствует формулировка ус ловия в виде утверждения, а не вопроса [23]. Переход к форме высказывания позволяет минимумом средств добиться максимальной ясности смысла, поскольку удачно сформулированные в форме утверждения предтестовые задания с выборочными ответами по сравнению с вопросами гораздо более малословны и не порождают разных по содержанию и по структуре правильных ответов. Конечно, абсолютизировать возможности утвердительной формы нет никаких оснований. Встречаются, хотя и довольно редко, задания, содержание которых гораздо короче и понятнее можно выразить 56
именно в виде вопроса. Тем более нет оснований для включения подобных рекомендаций в состав определений, как это сделано в некоторых пособиях по тестовой проблематике [2], поскольку ло- I ическая форма утверждения не является существенным признаком любого предтестового задания и не отражает необходимую идею инвариантности определений относительно тестовой формы. Тестовое задание Качеству предтестовых заданий и степени их соответствия требованиям формы можно дать по-своему полезные априорные оценки, которые явно недостаточны с точки зрения общенаучного подхода, предполагающего эмпирическую проверку априорных суждений. Отсюда проистекает обязательность эмпирической про- мерки заданий, по результатам которой определенная часть предтестовых заданий превращается в тестовые, а оставшаяся часть удаляется из теста. Определение 2. Предтестовое задание называется тестовым, если апостериорные количественные оценки его характеристик удовлетворяют определенным критериям, нацеленным на проверку качества содержания, формы и на выявление системообразующих свойств заданий теста. Как видно из определения 2, далеко не каждое предтестовое задание может быть тестовым. Для этого требуются многочис- юнные проверки и улучшения иногда содержания, иногда формы, а иногда и того и другого. Таким образом, предтестовое задание превращается в тестовое после доведения его характеристик до уровня, соответствующего определенным научно обоснованным критериям качества. Исследование системообразующих характеристик тестового шдания проводится методами корреляционного, факторного и лаге нтно-структурного анализа. В частности, методами факторного анализа можно оценить некоторые аспекты качества содержания заданий теста. Однако что касается интерпретации результатов анализа, то здесь нет и не может быть готовых правил и рекоменда ций, пригодных на все случаи разработки тестов, поскольку интерпретация оценок — это всегда достаточно сложная аналитическая работа, результаты которой зависят от множества условий, в том числе и от вида создаваемого теста. Одно из важнейших требований к характеристикам тестового шдания связано с оценкой величины корреляции задания с критерием. Для итоговых тестов, разрабатываемых в рамках норматив- 57
но-ориентированного подхода, в качестве критерия обычно выбирается сумма индивидуальных баллов испытуемых по заданиям теста. Величина коэффициента корреляции является показателем валидное™ задания теста. (Значения коэффициента корреляции, позволяющие отнести тестовое задание к категории валидных, а также формулы для подсчета коэффициента приводятся в гл. 5.) В целом же можно считать, что, чем выше корреляция, тем более валидным является задание, тем больше оснований для отнесения его к категории тестовых и последующего включения в тест. Однако это утверждение относится не ко всем, а только к отражающим различное содержание заданиям теста [5,11,43]. Конечно, нет никакого смысла включать в итоговый тест задания, имеющие одинаковое или сходное содержание и подменяющие друг друга в процессе проверки. Учитывая это обстоятельство, можно сформулировать еще одно требование. Оно связано с выявлением степени отличия содержания данного задания от содержания остальных и нацелено на повышение специфичности каждого задания теста. При этом можно руководствоваться простым правилом: чем меньше задание коррелирует с другими, тем выше специфичность его содержания, тем больше оно отличается от других заданий теста. Определенные ограничения на подбор тестовых заданий накладывает требование аксиомы локальной независимости, согласно которой вероятность правильного выполнения каждого задания испытуемыми одного уровня подготовки не должна зависеть от вероятности правильного выполнения остальных заданий теста |46]. Конечно, в чистом виде требование аксиомы не может быть выполнено, однако оно, несомненно, исключает цепочную логику, когда ответ на предыдущее задание входит в число данных к последующему заданию теста. Есть определенные требования к оценкам параметров тестового задания. В первую очередь, это утверждение касается параметра трудности и параметра дифференцирующей способности, оценки которых должны обладать свойством инвариантности относительно уровня подготовленности тестируемой группы. Если судить по приведенному требованию, то для отнесения задания к категории тестовых необходима тщательная эмпирическая проверка, сопровождаемая специальной обработкой и развернутым анализом результатов обработки эмпирических данных выполнения теста. Еще одно требование связано с анализом информационных и характеристических кривых тестовых заданий, построение которых также основано на эмпирических результатах выполнения теста и 58
предполагает использование математического аппарата теории латентно-структурного анализа. Согласно требованию каждое тесто- пое задание должно обладать известной характеристической кривой с приемлемой формой и подходящим расположением, обеспечивающим в совокупности с другими кривыми планируемый при создании геометрический образ теста [31,46,47]. Помимо характеристической, каждому тестовому заданию можно поставить в соответствие информационную кривую, которая дает представление о точности оценок испытуемых различного уровня подготовки в том гипотетическом случае, когда измерение осуществлялось с помощью только одного данного задания теста. (Подробная методика и алгоритмы построения кривых приводятся в гл. 5.) Из перечисленных выше тестологических требований вытекает обязательность многократных эмпирических проверок и переработок предтестовых заданий до тех пор, пока они не обретут статус тестовых. Каждая проверка должна сопровождаться обработкой эмпирических результатов и их интерпретацией путем соотнесения с научно обоснованными требованиями к характеристикам тестовых заданий. Выполнение всех требований и общая принадлежность тестовых заданий к одной и той же системе дают основа- пие для их объединения в тест. Педагогический тест В отличие от первых двух определений, довольно инвариантных относительно целей создания тестов, определение педагогического теста ориентировано на конкретные цели и подходы. В частности, для случая оценки итоговых достижений по одной из учебных дисциплин в рамках нормативно-ориентированного под хода определение теста может иметь следующий вид. Определение 3. Итоговый нормативно-ориентированный тест — >то система тестовых заданий, упорядоченных в рамках определенной стратегии предъявления и обеспечивающих информативность оценок уровня и качества подготовки испытуемых. Предложенное определение отличается от многих других, имеющихся в отечественной и зарубежной литературе. В основном оно предназначено для гомогенного теста, обладающего дисциплинарной общностью заданий, однако с определенными оговорками и дополнениями может быть использовано и для гетерогенного теста, охватывающего систему знаний по нескольким учебным дисциплинам. В последнем случае необходимо изменить требования к ха- 59
рактеристикам тестовых заданий. Другой будет и стратегия их упорядочения в тесте. В отличие от гомогенного теста, где задания чаще всего располагаются по нарастанию трудности, в гетерогенных тестах сохранение принципа нарастания трудности выражается, как правило, в так называемой спиральной или ступенчатой форме. Гетерогенные тесты бывают двух заметно отличающихся друг от друга видов: полидисциплинарные и междисциплинарные [33]. Полидисциплинарные тесты просты в концептуальном отношении и состоят из гомогенных субтестов по отдельным дисциплинам. Сложности, которые здесь возникают, обычно носят исключительно технический характер и связаны с объединением результатов учеников по субтестам для подсчета итоговых баллов по всему полидисциплинарному тесту. Междисциплинарные тесты гораздо сложнее в концептуальном отношении, но зачастую кажутся проще полидисциплинарных в техническом отношении, особенно на начальном этапе работ по созданию теста. Однако эта кажущаяся легкость оборачивается значительными трудностями, которые нередко становятся непреодолимыми при интерпретации результатов выполнения теста, что приводит к профанации самой идеи междисциплинарной оценки. Сложность интерпретации здесь видится в том, что оцениваемые знания и умения относятся к разным учебным дисциплинам и задействуют их в разной степени. При правильном подходе междисциплинарность должна найти свое отражение в содержании всех заданий, для выполнения которых потребуется применение некоторых обобщенных, интегративных знаний и умений. Включение в тест междисциплинарных заданий заставляет искать ответ на вопрос: в какой степени разработанные задания пригодны для оценки измеряемых интегративных свойств и насколько они надежны? Обычно ответ на этот вопрос требует довольно серьезных усилий со стороны разработчика теста. В целом разработка гетерогенных тестов требует обращения к специальным достаточно сложным вопросам репрезентации структуры междисциплинарных знаний математико-статистическими методами многомерного шкалирования и в данном пособии не рассматривается. Обращение к многомерным статистическим методам вынудило бы авторов книги значительно расширить используемый математический аппарат и, несомненно, сузило бы круг заинтересованных читателей. Поэтому вопросы, связанные с гетерогенными тестами, осознанно исключены из рассмотрения. Возвращаясь к определению гомогенного нормативно-ориентированного теста, необходимо подчеркнуть главную идею — тест 60
образует не любая система заданий, а только та, которая обеспечивает информативные оценки уровня и качества подготовки испытуемых группы. Критерий информативности является ключевым в оценке качества теста, вернее, той грани качества, которая характеризует способность теста выполнять функцию средства измерения в рамках нормативно-ориентированного подхода для данной выборки учеников. Оценка информативности носит апостериорный характер. Она построена на подсчете дифференцированной ошибки измерения уровня подготовки каждого испытуемого группы и выявлении дифференцирующего эффекта теста. Что касается ошибки измерения, то здесь намечается обратно пропорциональная зависимость, которая не только описывается специальной математической формулой, но и хорошо согласуется с обыденным смыслом. Чем меньше ошибка измерения уровня подготовки каждого испытуемого группы, тем больше информации о знаниях или умениях ученика можно получить с помощью данного теста. Если ошибка измерения, полученная при оценке подготовки испытуемого, велика, то тест не дает информации о реальном уровне его подготовки и, следовательно, цель измерений не достигнута. Оценка дифференцирующего эффекта связана с анализом распределения тестовых баллов испытуемых группы. Оценка может Оыть проведена достаточно простым путем визуального анализа гистограммы. Более сложный путь основан на оценке близости эмпирического распределения к нормальному закону с помощью одного из известных критериев нормальности распределения [36]. Если гипотеза о нормальности не подтверждается и тестовые баллы учеников слабо дифференцированы, то тест не состоялся, поскольку не выполняются основные требования нормативно-ориентированного подхода. Из этих утверждений следуют два важных вывода. Первый — нет и не может быть тестов информативных вообще, так как оценка информативности зависит не только от характеристик тестовых заданий, но и от уровня подготовки тестируемой группы. Второй — для оценки информативности заданий необходимы эмпирические исследования качества теста на репрезентативной выборке учеников. Таким образом, информативность следует рассматривать как меру пригодности теста для выполнения функции средства измерения и дифференциации оцениваемой выборки учеников. В целом хотелось бы отметить, что в предлагаемом определении выделяется наиболее важное преимущество теста, выгодно от- 61
личающее его от традиционных средств оценки знаний учащихся. Это преимущество связано с тем, что только тест является качественным средством педагогического измерения, поскольку именно в отношении тестов утвердилась рефлексивная норма обязательной проверки их качества. Работа над повышением качества теста консолидирует систему тестовых заданий — постепенно нарастает внутренняя связь и целостность, интегративность системы, совершается переход от совокупности предтестовых заданий к профессионально разработанному тесту. 2.3. Педагогические измерения и тесты Отдельные идеи педагогических измерений в неявном виде всегда присутствуют в контроле знаний учеников, но на уровне теории они разделяются далеко не всеми участниками образовательного процесса. Многим преподавателям, особенно гуманитарных дисциплин, измерение знаний кажется не просто странным, но и невозможным. Конечно, в определенной степени их можно понять. В своем отрицании идеи измерений в педагогике обыденное сознание исходит из аналогии с физическими измерениями, где в отличие от первых есть некоторая шкала для отражения непрерывных свойств объектов, нулевая точка отсчета и строго фиксированная единица. Как бы в противовес идее непрерывности оценки учеников в сознании педагога обычно ассоциируются с дискретным распределением, где между привычными точками традиционной пятибалльной шкалы нет никаких промежуточных положений. Правда, идея дискретности далеко не всем кажется правомерной. Нередко педагог сам старается увеличить число опорных точек на шкале с помощью введения дополнительных баллов типа «четыре с минусом» или «три с плюсом». Иногда число минусов или плюсов доводится до двух или трех, что, естественно, не меняет дискретного характера шкалы, но зато расширяет ее возможности. Таким образом, потребность в точных оценках и тонкой шкале ощущается давно и повсеместно, хотя и в разной степени. Однако становление идеи измерений в педагогике невозможно обеспечить строго прописанной технологией или директивно введенной шкалой. Оно может произойти лишь путем постепенного внедрения в практику контроля знаний учащихся педагогических тестов. 62
Измерения в педагогическом контроле В основе перехода к идее измерений лежит довольно условное, но крайне необходимое предположение о непрерывном характере распределения баллов, полученных в результате тестирования репрезентативной выборки испытуемых. Соответственно возникает необходимость введения далее определения педагогического измерения [54]. В основном оно выполняет ориентирующую функцию и не может быть использовано в практической работе в силу своего теоретического характера. Определение 4. Педагогическое измерение — это процесс установления соответствия между оцениваемыми характеристиками обучаемых и точками эмпирической шкалы, в которой отношения между различными оценками характеристик выражены свойствами числового ряда. При педагогическом измерении в качестве характеристик обучаемых обычно выступают знания и умения, освоенные учениками на момент выполнения теста. Роль единицы измерения играют тестовые задания, объектом оценки являются сами ученики, а результатом измерения — шкала баллов тестируемых учеников. После решения вопроса о введении определения необходимо совершить переход от теоретического уровня исследований проблемы измерения к эмпирическому путем операционализации введенного понятия, придания ему удобной формы для решения практических задач. Процесс операционализации сопровождается выделением некоторого набора эмпирических индикаторов, в роли которых выступают задания теста. Количество правильно выполненных заданий дает основания для присвоения испытуемому определенного места на шкале [59]. В рамках проведенного рассуждения возникают трудности, связанные с необходимостью искать ответы натри вопроса: первый — в какой степени содержание заданий ориентировано на выявление измеряемых характеристик обучаемых; второй — как разработать тест, определяющий нужную шкалу; третий — как построить отображение наблюдаемых результатов выполнения теста в некоторые точки шкалы. Конечно, ответы на все эти вопросы достаточно слож- I !ы и требуют развернутого обсуждения, которое проводится далее на протяжении всей книги. В данном разделе представлены лишь отдельные упрощенные идеи теории педагогических измерений, связанные с визуализацией результатов выполнения теста. 63
Визуализация результатов тестовых измерений Стремление визуализировать формальные результаты тестовых измерений, получить определенную геометрическую интерпретацию результатов характерно для многих зарубежных исследователей. Наиболее удачной в данном отношении является работа [59]. В ней процесс визуализации разбивается на ряд этапов. На первом интерпретируется связь между наблюдаемыми результатами измерения и шкалой, ассоциируемой с осью. В рамках принятого ранее в тексте пособия соглашения о существовании сырых баллов — наблюдаемых результатов выполнения теста и производных показателей, принимаемых за истинные оценки учеников, — необходимо решить вопрос о характере величин, откладываемых на шкале. Если под шкалой понимается средство для отображения непрерывных свойств объекта, то речь, скорее всего, должна идти о производных показателях, вернее, о тех из них, которые в какой-то степени способны отражать идею непрерывности распределения. В целом вопрос выбора шкалы непосредственно связан с принятыми уровнем и методами измерения, поскольку различные шкалы предоставляют разные возможности для оперирования статистическими методами при переходе от наблюдаемых результатов выполнения теста к производным показателям. Подробно типы шкал и виды производных показателей будут рассматриваться в гл. 7. Что касается данного раздела, то здесь разумнее обратиться к обобщенному понятию переменной, конкретизация значений ко торой дает представление о результатах выполнения теста данной выборкой учеников. Идея взаимосвязи результатов измерения и положения испытуемого на оси переменной, ассоциируемой со шкалой в одномерном случае, когда по результатам выполнения теста выстраивается только одна шкала, представлена на рис. 2.5. Каждый результат измерения характеристики учащегося из тестируемой группы соответствует одной точке оси, а каждая точка определяет положение испытуемого или даже группы испытуемых с одинаковым тестовым баллом. На изображенной оси более высокие баллы располагаются правее, низкие — левее. Крайний слева результат обычно характерен для случая, когда испытуемый выполнил правильно лишь несколько заданий теста. Противоположный случай, когда ученик выполнил все или почти все, соответствует крайней правой точке на оси переменной измерения. Остальные точки занимают некоторое про- 64
IV:*} л ьтат из мере!»и я 1 Ось переменной Тестовый баял ученика или группы учеников Рис 2.5. Геометрическая интерпретация результата тестовых измерений межуточное положение между описанными выше экстремальными ситуациями. Второй этап визуализации нацелен на интерпретацию связи между отдельными значениями переменной и совокупностью различных по трудности заданий теста. Общий подход к интерпретации основан на операционализа- ции понятия измерения. Результаты операционализации позволяют поставить в соответствие каждой точке оси переменной определенное число правильно выполненных заданий теста. Есте- с гвенно предположить, что более трудные задания смещены вдоль оси вправо, так как их, скорее всего, будут выполнять правильно наиболее сильные испытуемые группы. Наоборот, более легкие задания будут смещены влево — они по силам ученикам с низким уровнем подготовки. Таким образом, при расположении заданий на оси переменной можно придерживаться следующего правила: чем выше уровень подготовки тестируемой группы учеников, тем правее расположены задания, поскольку сильным ученикам по плечу наиболее трудные задания теста. Если ранее на основании предварительного сбора статистических данных были получены устойчивые оценки параметра трудности заданий, то появляется возможность упорядочения заданий и рамках определенной стратегии предъявления их тестируемой группе учеников. Обычно в гомогенных педагогических тестах задания ранжируют по нарастанию трудности от начала к концу теста. Формально это утверждение можно представить в виде р, <р2<...<ру<...<р|М<р„, где Р — уровень трудностиу-го задания,} - 1, 2, ..., п\п — число заданий в тесте. Пример расположения заданий возрастающей трудности показан на рис. 2.6. Из дидактических соображений рассматривается случай выполнения небольшого числа заданий, однако все поло- I Мельникова М.Б. 65
Низкий уровень Истинный балл Высокий уровень подготовки ученика подготовки Р, Р. Рз 0 р, —о о о » о ► Самое лег кое Наблюдаемый Самое ^сь переменной задание балл =3 трудное задание Рис. 2.6. Операциональное определение переменной измерения жения, развиваемые на этом примере, применимы к любому числу заданий и к любому ученику тестируемой группы. Для иллюстрации идеи операционализации на рисунке указано положение истинного балла ученика на оси переменной для случая, когда правильно были выполнены три из ранжированных по нарастанию трудности четырех заданий теста. Нетрудно понять, что локализация места расположения результата ученика на оси переменной зависит в основном от соотношения между величиной его истинного балла и трудностью заданий теста. Если балл ученика довольно высок, а задание достаточно легкое, то у ученика есть все основания для успешного выполнения этого задания теста. В противном случае, когда соотношение между упомянутыми выше величинами меняется на противоположное, у ученика есть веские основания для неуспеха. Конечно, наверняка предугадать ничего нельзя. Обычно говорят лишь о некоторой вероятности успеха или неуспеха. ИСТОЧНИКИ ОШИБОК ИЗМЕРЕНИЯ Вероятностный характер наблюдаемых результатов выполнения теста обусловлен влиянием различных факторов, способствующих возникновению ошибок измерения. Среди этих факторов, действующих независимо друг от друга, выделяют случайные и неслучайные. К числу последних принадлежат те, которые появляются из- за просчетов разработчиков в процессе создания теста. К случайным факторам можно отнести настроение испытуемого, поведение экзаменатора, обстановку при тестировании в классе и многое другое — словом, все то, что учесть и предвидеть при тестировании попросту невозможно. Совсем иначе обстоит дело с неслучайными факторами, порождающими систематические ошибки в процессе измерения. Ошибки систематического характера возникают из-за неудачного выбора подхода к созданию теста либо вследствие применения малоэффек- 66
тивной технологии при его разработке. К ним могут привести нарушения требований методики сбора статистических данных, некаче- С гвенная интерпретация результатов выполнения теста и ряд других факторов, действие которых разработчики тестов обычно стремятся свести к нулю или хотя бы значительно уменьшить, чтобы не выйти *а пределы допустимой ошибки измерения. Минимизация ошибок измерения В процессе повышения точности измерений путем минимизации действия неслучайных факторов особенно важен первый шаг, связанный с отбором содержания заданий теста. Ведь всегда есть сомнения в том, что задания сделаны удачно. Всегда необходимо подтвердить тот факт, что содержание заданий «работает» на оценку значений концептуально выделенной переменной измерения. Причем для разрешения сомнений одной интуиции разработчика явно недостаточно. Как правило, обоснование качества содержания заданий требует систематических исследований, скрепленных общим замыслом и основанных на определенной методике. Если по результатам исследований становится ясно, что содержание большинства заданий позволяет локализовать положение испытуемых группы на выбранной шкале, то тест рассматривается как пригодный для оценки переменной измерения и есть все основания для вывода об успешной работе авторов теста. Один из вариантов исследования основан на методах факторного анализа, с помощью которых можно структурировать содержание заданий теста, хотя и весьма эффективным, но все же довольно сложным путем. Другой метод, несомненно более удобный для повседневного употребления в процессе разработки тестов, рассмотрен в упомянутой ранее работе [59]. Он связан с визуальным анализом профилей ответов репрезентативной группы испытуемых на различные по трудности задания теста, и потому его можно трактовать как очередной этап визуализации результатов измерения. Используемые во втором методе термины нуждаются в некоторых дополнительных пояснениях. В частности, необходимо конкретизировать представления о профиле ответов ученика на задания теста. Если за каждый правильный ответ на задание ученику давать один балл, а за неправильный ответ или пропуск задания — нуль баллов, то профиль ответов выглядит как последовательность единиц и нулей, полученных учеником при выполнении теста. Когда задания в тесте ранжированы по нарастанию трудности, анализ характера упорядочения нулей и единиц в профиле ответов !♦ 67
испытуемого дает ценную информацию о качестве его структуры знаний. Правильному профилю, где все нули следуют за всеми единицами, отвечает правильная структура знаний. Ученик без пропусков выполняет верно все, что знает, и получает только нули при выполнении более трудных, еще не освоенных им заданий теста. Если найдется ученик с высоким тестовым баллом, не сумевший выполнить правильно хотя бы одно легкое задание из начала теста, то возникает вопрос о несоответствии его структуры знаний требованиям педагога. При оценке качества структуры знаний за основу естественно выбрать предположение: чем легче задание, тем вероятнее успех ученика при его выполнении. Возвращаясь к примеру на рис. 2.6 в рамках сделанного предположения, можно утверждать, что правильный профиль ответов испытуемого, справившегося успешно с тремя из четырех заданий теста, имеет вид: 1110. Соответственно точка, локализующая значение истинного балла испытуемого на оси переменной, расположится правее первых трех легких заданий, но левее четвертого, самого трудного задания теста. В случае появления нулей на местах, соответствующих более легким, чем четвертое, заданиям теста, возникают инвертированные профили, которые для рассматриваемого примера могут иметь вид: 110 1, или 10 11, или 0 111. Конечно, наиболее неправдоподобным является последний случай, когда испытуемый не справился с самым легким заданием теста. Для характеристики меры инвертированности профилей вводится специальный индекс структурированности знаний, который довольно удобно использовать при дифференциации по качеству подготовки учеников, выполнивших одинаковое количество заданий теста. Оценка значений индекса основывается на подсчете числа ошибок в профилях испытуемых и проводится по специальным формулам, применяемым в массовом тестировании за рубежом (в работе они не рассматриваются из-за риска отвлечься от основной темы обсуждения). В некотором уточнении нуждается термин «репрезентативная группа», который в данном контексте обретает несколько непривычный смысл. В отличие от общепринятой трактовки здесь речь идет о группе учеников, охватывающих по уровню подготовки довольно широкий диапазон значений переменной измерения и обладающих по возможности правильной структурой знаний в рамках содержания теста. Последнее требование продиктовано желанием сузить круг различных причин, порождающих инверсии в профилях ответов учеников на задания теста. В результате появляется оп 68
ределенная уверенность в том, что большинство инверсий в профилях ответов учеников вызвано просчетами авторов при отборе содержания заданий, а не пробелами в знаниях тех, кто выполнял этот гост, и потому разработчику можно целиком сосредоточиться на оценке состоятельности содержания отдельных заданий теста. Действительно, если репрезентативная группа испытуемых оценивается по одной, а не по нескольким переменным и задания теста ранжированы по нарастанию трудности, то появляется возможность проведения сравнительного анализа ошибок в инвертированных профилях ответов на задания теста. Внимательный осмотр элементов профилей, стоящих не на своих местах, позволяет выявить случаи явной несостоятельности содержания отдельных заданий теста. В этой связи возникает вопрос дифференциации систематических и случайных ошибок. Поскольку различия между первым и вторым видами ошибок не носят явно выраженного критериального характера, то вводится простое нестрогое правило, которое легко соотнести с эмпирическими результатами выполнения теста. Например, если сильный ученик отвечает неправильно на легкое задание теста, то полученный нуль является, скорее всего, результатом случайной ошибки, описки либо простой невнимательности со стороны ученика, т.е. носит исключительно случайный характер. Совсем иначе обстоит дело в том случае, когда группа сильных учеников выполняет неправильно одно и то же легкое задание теста. Тогда ошибка имеет явный систематический характер, и потому возникает вопрос о несостоятельности задания. Как правило, ошибка бывает вызвана просчетами разработчика теста. Причины несостоятельности могут быть самыми разными. Чаще всего несостоятельность порождается тем, что содержание задания допускает двусмысленное толкование у хорошо подготовленных учеников либо вообще ориентировано на выявление других знаний и умений, не относящихся к оценке значений рассматриваемой переменной измерения. Аналогичный вывод о несостоятельности можно сделать в том случае, когда группа слабо подготовленных испытуемых успешно справляется с каким-либо трудным заданием из конца теста. Правда, здесь единичные случаи правильных ответов слабых уче- ников могут быть следствием угадывания, списывания или других форм искажения данных. Однако, как и ранее, устойчивый характер алогичных результатов учеников указывает в основном на несостоятельность содержания отдельных заданий теста. Конечно, нет никаких сомнений в том, как поступить с несостоя- 69
тельными заданиями. Вполне понятно, что они должны быть исключены из теста. Термин «состоятельность» в педагогической литературе нередко заменяется другим достаточно близким по смыслу. В этом случае говорят не о состоятельности, а о валидности заданий, т. е. об их пригодности служить поставленной цели измерения. Таким образом, подводя итог сказанному, можно отметить, что включение в тест невалидных заданий порождает серьезные концептуальные трудности, связанные с необходимостью искать ответ на вопрос: в какой степени допустимо измерять данным набором заданий одну и ту же характеристику знаний учеников — концептуально выделенную переменную измерения? В целом же при создании гомогенного теста следует стремиться к поиску заданий, валидных для измерения, главным образом, одного какого-либо свойства, и минимизировать соответственно число заданий, которые могут оказаться валидными для оценки других свойств. Визуализация истинных баллов тестируемых Представляет интерес анализ обратной ситуации, когда после определенной работы в тесте остались только валидные задания и можно оценить состоятельность профилей ответов испытуемых, а не заданий теста. Ситуация с испытуемыми осложняется тем, что их нельзя просто и легко исключить из рассмотрения как несостоятельные задания. Ученики выполняли тест, и в любом случае они должны получить свои оценки, причем не любые, смещенные в сторону занижения или завышения, а те, которые отражают реальную картину подготовки тестируемой группы. Проблема получения истинных баллов выглядит достаточно тривиально для случая состоятельных профилей ответов на задания теста. Однако она значительно осложняется для тех испытуемых, ответы которых не вписываются в рассматриваемую схему. Ситуация с несостоятельными профилями ответов учеников довольно сложна и требует дополнительного обсуждения. На рис. 2.7 представлены профили ответов двух испытуемых на одни и те же 10 заданий теста, ранжированных по нарастанию трудности и расположенных вдоль оси переменной измерения. Уровень подготовки испытуемых оказался одинаковым, поскольку каждый из них выполнил по шесть заданий, однако не одних и тех же, а разных по трудности из представленных десяти задании теста. 70
Профиль А I (изкий уровень подготовки Истинный балл испытуемого Оценки уровня трудности заданий 3 О Легкие задания 1 Профиль ответов Высокий уровень подготовки О Трудные задания I тизкий уровень подготовки .. .здесь? Профиль Б Истинный балл испытуемого. ...или здесь? Оценки уровня трудности задания О Легкие задания Профиль ответов Высокий уровень подготовки .. .или здесь? Р., | о- I Трудные задания Рис. 2.7. Положение истинных баллов испытуемых для правильного (А) и инвертированного (Б) профилей ответов на оси переменной измерения Профиль А отличается явной состоятельностью. В нем приведены результаты испытуемого, который выполнил правильно подряд шесть наиболее легких заданий и не справился с четырьмя более трудными заданиями теста. Для педагога подобный профиль интересен тем, что в нем наглядно представлен так называемый кумулятивный эффект, когда правильный ответ на шестое задание обеспечивает воспроизводимость правильных ответов на более легкие предшествующие задания теста. Конечно, стойкий кумулятивный эффект наблюдается далеко не всегда, в основном для заданий, довольно тесно связанных по содержанию. В англоязычной методической литературе популярен пример заданий на умножение О х 17 2) х 236 12 1437 3) * 382 х 4) х 57342 7412 71
который вполне ясно, хотя и довольно упрощенно, иллюстрирует идеи кумулятивности на практике. Действительно, если испытуемый умеет умножать на четырехзначное число, то он тем более справится с умножением на трех-, двух- и однозначные числа. Конечно, в процессе выполнения заданий нельзя исключать возможность случайных ошибок по невнимательности, простых описок, которые могут внести элементы инвертированности в правильные профили ответов. Однако в целом, если в тест отобраны состоятельные задания, содержание которых обеспечивает оценку значений планируемой переменной измерения, то есть надежда на стойкий кумулятивный эффект в профилях ответов учеников. В противном случае при возникновении инвертированных профи лей у педагога появляются основания для вывода о низком качестве подготовки учеников и, соответственно, о низкой эффективности своей работы. Для подобных нежелательных выводов есть веские основания, поскольку в процессе обучения не была обеспе чена реализация важнейшей цели, которую большинство педагогов трактует как формирование правильной структуры, а не объема знаний учеников. Возвращаясь к профилю А, необходимо решить вопрос с выбором точки на оси переменной измерения, соответствующей истинному баллу первого ученика. Естественно предположить, что эта точка расположена между шестым и седьмым заданиями теста. Положение точки левее седьмого задания выглядит вполне закономерным, так как испытуемый не выполнил правильно ни одного начиная с седьмого задания теста. Продвижение к искомой точке с другого конца теста дает столь же определенную картину: учащийся выполнил правильно шесть заданий и потому его истинный балл должен быть никак не меньше шести. У читателя может возникнуть вопрос обоснования возможного превышения наблюдаемого балла при оценке истинного уровня подготовки ученика, а именно: насколько правомерно считать, что истинный балл больше 6 либо почему при оценке истинного ре зультата нельзя ограничиться наблюдаемым баллом 6? Ответ на вопрос будет выглядеть достаточно просто, если предположить, что между шестым и седьмым заданиями помещены еще несколько более трудных, чем шестое, но менее трудных, чем седьмое, зада ний теста. Успех ученика при их выполнении будет выглядеть вполне закономерно, поскольку они все же легче, чем седьмое задание теста. Из этого рассуждения вытекает возможность смещения точки локализации истинного балла вправо от наблюдаемого балла вдоль оси переменной измерения. Есть и другой не менее веский 72
аргумент в пользу выбора точки локализации истинного балла между шестым и седьмым заданиями теста — идея смещения хорошо увязывается с общей концепцией истинной оценки как величины, не зависящей от подбора заданий теста. В отличие от предыдущего случая выбор предположительного места локализации истинного балла второго ученика с профилем ответов Б — задача довольно непростая. К тому же сам по себе профиль Б трудно объясним в силу своей явной несостоятельности: ученик не справился с четырьмя наиболее легкими заданиями и вместе с тем выполнил верно шесть более трудных заданий теста. Сложность выбора места локализации истинного балла для профиля Б становится вполне явной, если рассмотреть гипотетические экстремальные ситуации. Предположим, что точка, соответствующая истинному баллу второго ученика, находится на оси правее самого трудного десятого задания, что в какой-то мере вполне оправданно, так как ученик выполнил верно десятое задание теста. Однако тогда не ясно, как увязать принятое предположение с фактом неправильного выполнения первых четырех более легких заданий теста. Столь же непонятным остается общее решение задачи локализации, если пойти по другому пути и поставить в центр внимания неправильно выполненные учеником задания теста. В этом случае точку локализации истинного балла ученика необходимо выбрать левее самого легкого задания с оценкой трудности Ьх, что представляется довольно неразумным и плохо согласуется с естественной логикой, так как шесть наиболее трудных заданий были выполнены учеником верно. К сожалению, для профиля Б трудно, а скорее просто невозможно найти разумное решение, поскольку в равной степени алогичным кажется любое другое расположение истинного балла ученика между точками, локализующими положение заданий на оси переменной измерения. Таким образом, стремление педагога оценить всех учеников, выполнявших тест, нельзя признать рациональным, так как задача становится неразрешимой для случая ин вертированных профилей ответов учеников. Здесь выявляется определенная закономерность: чем выше мера инвертированнос- ти профиля ответа ученика, тем меньше оснований для реализации основной цели измерения — определения истинного балла каждого ученика тестируемой группы. Конечно, причины несостоятельности профилей ответов учеников могут быть самыми разными. Далеко не все инверсии в профилях указывают на некачественную структуру знаний испытуе- 73
мого. Например, возможна ситуация, когда ученик нарушил предлагаемый порядок расположения заданий в тесте при их выполнении и сосредоточил все усилия на самых трудных заданиях из конца теста, а к легким не успел приступить. Быть может, имели место ошибки разработчика при оценке значений параметра трудности заданий либо при ранжировании заданий по нарастанию трудности в тесте. Возможно, в процессе создания теста отсутствовал этап отбора заданий с несостоятельными профилями либо представленные в тесте задания не обладают четко выраженным кумулятивным эффектом из-за особенностей содержания теста. Окончательный вывод должен принадлежать педагогу-разработчику, поскольку именно он знаком со всеми обстоятельствами, сопутствовавшими процессам создания и применения теста. Для уточнения вывода представляет интерес сравнительный анализ результатов выполнения теста, который помогает сузить круг возможных причин инверсий в профилях ответов учеников. Сформулированное утверждение удачно иллюстрируется данными примера на рис. 2.7. Не обладая дополнительными сведениями, легко предположить, что причиной инвертированности профиля Б является несостоятельность отдельных заданий теста. О том, что предположение неверно и здесь имеет место несостоятельность второго испытуемого, а не заданий, свидетельствуют результаты первого ученика, у которого в профиле А все распределяется закономерно. Естественно, что для планирования процесса обучения наибольший интерес представляет профиль Б, причины несостоятельности которого педагогу предстоит выяснить в процессе непосредственного общения с учеником по результатам выполнения теста. Эмпирические методы валидизации заданий теста Тестолога, в отличие от педагога, обычно интересуют иные аспекты анализа результатов выполнения теста. Как правило, он стремится к определенным выводам, расставляющим акценты и намечающим приоритеты в работе по созданию и совершенствованию теста. Несомненно, работа начинается с подготовки заданий, содержание которых по возможности ориентировано на оценку значений концептуально выделенной переменной измерения. В большинстве своем задания бывают валидными, особен но в том случае, когда к их разработке привлекались опытные педагоги с большим стажем работы в школе. Однако, как бы то ни было, валидность следует доказать эмпирически на репрезентативной выборке учеников. 74
По результатам статистической проверки выявляются несостоятельные профили ответов на задания и производится удаление из теста невалидных заданий. Если удаление носит не единичный и случайный, а продуманный и закономерный характер, то в целом качество теста повышается. Происходит консолидация системы тестовых заданий, постепенно нарастает ее внутренняя связность и целостность, повышается интегративность содержания системы заданий с точки зрения их соответствия концептуально выделенной переменной измерения. Оттого, насколько хорошо проделана работа по консолидации системы заданий, во многом зависит успех дальнейшего продвижения к этапу использования теста для оценки знаний учеников. И теория, и практика говорят о том, что после завершения работы над тестом большинство профилей учеников будут правильными либо почти правильными, т.е. инвертированными в незначительной степени. Однако и по готовым тестам отдельные ученики, знания которых слабо структурированы, могут показать явно несостоятельные тестовые результаты, которые в любом случае не дают оснований для достоверных выводов об истинных баллах этих отдельных учеников. Выявление в инвертированных профилях ответов стоящих не на своих местах элементов образует информационную и мотива- ционную основы для реализации обучающей функции тестового контроля. Благодаря тестам преподаватель получает объективную информацию, столь необходимую для индивидуализации процесса обучения. В зависимости от характера и меры инвертированно- сти профилей ответов учеников принимается решение о необходимости проведения дополнительных занятий и консультаций, о характере помощи неуспевающим ученикам для улучшения качества их знаний. Таким образом, обучение становится эффективным не на словах, а на деле. Однако эти формальные рассуждения относятся исключительно к ситуации, когда работа над тестом завершена и педагога интересуют только результаты учеников при выполнении теста. В процессе разработки теста нет смысла удерживать в числе результатов несостоятельные профили ответов учеников, поскольку они могут внести серьезные искажения при оценке валидности заданий теста. Конечно, хорошо, когда несостоятельных профилей встречается не более одного-двух на 50—100 человек в группе тестируемых учеников. В противном случае исключение инвертированных профилей без всяких ограничений может негативно отразиться на репрезентативности группы учеников. Поэтому обычно, чтобы избежать различных ос- 75
ложнений с размерами выборки учеников, стараются исключить не более 5% несостоятельных профилей, а все оставшиеся использовать при создании теста. Нередко кажется, что реализовать определенную последовательность действий в работе с профилями достаточно сложно из- за их взаимной связи и влияния друг на друга. Действительно, изменение состава выборки учеников неизбежно отражается и на изменении меры инвертированности профилей ответов на задания теста. И наоборот, любое удаление невалидных заданий может привести к возникновению новых несостоятельных профилей учеников. Однако трудности эти кажущиеся и носят скорее искусственный, чем явный характер. В основном они порождены попыткой обособленного рассмотрения наблюдаемых результатов выполнения теста, когда профили учеников и заданий анализируются в отрыве друг от друга. Наделе профили тесно связаны и проистекают из общего источника, поскольку и профили учеников, и профили заданий являются результатом взаимодействия двух множеств, одно из которых — множество испытуемых, а другое — множество заданий теста. По мнению Б.Д. Райт (В.О. ДУп^М), взаимодействие множеств является наиболее существенным фактором, лежащим в основе правильного понимания идеи тестовых измерений. В результате взаимодействия появляются те наблюдаемые единицы и нули, по которым оцениваются параметры испытуемых и заданий теста. Идея взаимодействия удачно иллюстрируется с помощью рис. 2.8. По горизонтальной оси откладываются устойчивые оценки параметра трудности заданий теста, по вертикальной — истинные баллы тестируемых учеников. Взаимодействие между /-м испытуе- ► Ось оценок параметра трудности задания е, 11аблюдаемые ответы Ось истинных баллов ис! 1Ы1 уемых «< Рис. 2.8. Взаимодействие множества испытуемых и множества заданий теста 76
мым с баллом 0;. иу-м заданием с трудностью Р7 порождает наблюдаемый ответ л:., который при дихотомической оценке принимает одно из двух значений: 1, если ответ /-го ученика нау'-е задание правильный О, если ответ /-го ученика нау-е задание неправильный Матрица тестовых результатов Удобной формой представления наблюдаемых результатов выполнения теста служит матрица, т.е. прямоугольная таблица, сводящая воедино профили ответов учеников и профили заданий теста (рис. 2.9). Испытуемые 1 • • • / * • • N Количество правильных ответов на задание (Я,) Задания 1 ...у... п хи = < [1 0 N /=1 Индивидуальный балл (X) 7=1 N п 1=1 У=1 Рис. 2.9. Матрица наблюдаемых результатов выполнения теста В матрице представлены ответы N учеников на п заданий теста. Справа от матрицы, в вертикальном столбце, содержатся индивидуальные баллы учеников Х( (/ = 1, 2, ..., /V), которые получаются суммированием единичек по горизонтали в каждом профиле ответов N испытуемых группы. Сложение единичек в столбцах по профилям ответов на п заданий теста позволяет получить числа К. (/ = 1, 2,..., п), соответствующие количеству правильных ответов на каж дое задание теста. С помощью матрицы можно выполнить ряд расчетов (см. гл. 5), интерпретация результатов которых позволяет сделать важные выводы относительно тестовых баллов учеников и качества заданий теста. Характер выводов зависит от того, насколько продвинулся педагог в своей работе над тестом. Если тест далек по своим пока- 77
зателям от требований критериев качества, то истинные баллы учеников получить нельзя. В этом случае использование теста носит исключительно исследовательский характер и все выводы направлены на повышение качества отдельных заданий и всего теста. Если же работа над тестом в основном завершена, то все усилия педагога направлены на получение истинных баллов учеников по наблюдаемым результатам выполнения теста, а оценки характеристик теста предназначены для подтверждения его качества и перепроверки отдельных оценок параметров заданий. Этапы валидизании теста В работе по созданию теста можно выделить четыре основополагающих этапа, нацеленных на повышение его валидности. Первый этап носит в основном теоретический характер, так как он целиком связан с выделением на концептуальном уровне переменной измерения. Второй этап прагматического характера посвящен работе по созданию заданий, содержание которых должно обеспечить оценку испытуемых по выделенной переменной измерения. Третий этап предназначен для проверки заданий на репрезентативной выборке учеников с целью удаления невалидных заданий из теста. Выполнение этапа позволяет сделать первые шаги по улучшению качества содержания теста, а также получить первые выводы о примерном содержании теста и о его ожидаемых качественных характеристиках. Четвертый этап непосредственно предваряет момент использования, он посвящен работе с выборкой учеников и заключается в удалении несостоятельных профилей испытуемых из матрицы наблюдаемых результатов выполнения теста. В заключение хотелось бы подчеркнуть тот факт, что в содержании раздела полностью отсутствует какой-либо математический аппарат. Выполнение рекомендованных процедур вполне по силам педагогам либо группам педагогов, занимающимся созданием тес тов. Оно не отнимет много времени и сил, зато позволит существенно продвинуться вперед по пути создания качественного теста. 78
2.4. Основные этапы конструирования педагогического теста Процесс создания теста, его научного обоснования, переработки и улучшения можно разбить на ряд этапов. 1. Определение цели тестирования, выбор вида теста и подхода к его созданию. 2. Анализ содержания учебной дисциплины. 3. Определение структуры теста и стратегии расположения заданий. 4. Разработка спецификации теста, априорный выбор длины теста и времени его выполнения. 5. Создание предтестовых заданий. 6. Отбор заданий в тест и их ранжирование согласно выбранной стратегии предъявления на основании априорных авторских оценок трудности заданий. 7. Экспертиза содержания предтестовых заданий и теста. 8. Экспертиза формы предтестовых заданий. 9. Переработка содержания и формы заданий по результатам экспертизы. 10. Разработка методики апробационного тестирования. 11. Разработка инструкций для учеников и для преподавателей, проводящих апробацию теста. 12. Проведение апробационного тестирования. 13. Сбор эмпирических результатов. 14. Статистическая обработка результатов выполнения теста. 15. Интерпретация результатов обработки в целях улучшения качества теста. Проверка соответствия характеристик теста научно обоснованным критериям качества. 16. Коррекция содержания и формы заданий на основании данных предыдущего этапа. Чистка теста и добавление новых заданий для оптимизации диапазона значений параметра трудности и улучшения системообразующих свойств заданий теста. Оптимизация длины теста и времени его выполнения на основании апостериорных оценок характеристик теста. Оптимизация порядка расположения заданий в тесте. 17. Повторение этапа апробации для выполнения очередных шагов по повышению качества теста. 18. Интерпретация данных обработки, установление норм теста и создание шкалы для оценки результатов испытуемых. Возникает своеобразный цикл, так как после чистки теста разработчику приходится возвращаться к этапу сбора эмпирических 79
данных, причем, как правило, не один раз, а два, три и более. В определенном смысле этот цикл бесконечен, но не потому, что все задания плохи и разработчик не имеет достаточного опыта создания теста. Просто процесс конструирования теста довольно труден, поскольку необходим всесторонний подход к оценкам качества теста и характеристик тестовых заданий, к проверке их системообразующих свойств. К тому же можно считать, что задача оптимального подбора состава теста не имеет единственного решения, так как не все здесь определяется качеством тестового материала, а многое еще зависит от уровня подготовки группы учеников. Задания, хорошо работающие на одной выборке учеников, могут оказаться совершенно бесполезными на другой, так как они будут или слишком легкими, или слишком трудными и их не выполнит правильно ни один ученик группы. Успех создания теста во многом зависит от высокого качества начального тестового материала, которое обеспечивается правильным отбором проверяемого содержания и умением разработчика корректно отобразить его в заданиях теста. Крайне важен этап обработки эмпирических результатов тестирования, для выполнения которого необходимы специальные программные средства для профессиональной разработки тестов [55]. Конечно, далеко не всегда в процессе создания тестов необходимо достижение профессионального уровня качества, особенно если отвлечься от целей приема абитуриентов и аттестации выпускников. В повседневной деятельности педагога необходимы тесты разного, иногда невысокого качества, ориентированные на задачи текущего контроля. Выполнение последней задачи вполне по силам отдельному педагогу или группе педагогов. Однако и в этом случае можно самостоятельно сделать ряд расчетов, основанных на минимальном математическом аппарате и позволяющих значительно продвинуться от предтестовых заданий к настоящему тесту. Выводы 1. Теория педагогических измерений носит междисциплинарный характер, объединяя достижения педагогики и психологии с достижениями математики, статистики и теории измерений. 2. Разработка понятийного аппарата теории педагогических измерений имеет важное значение для повышения качества тестов. 80
3. При формулировании понятийного аппарата необходимо классифицировать виды тестов, чтобы привести вводимые определения в соответствие с различными видами тестов и целями их создания. 4. Педагогические тесты можно использовать для входного, текущего и итогового контроля при оценке результатов осуществленного учебного процесса. 5. Педагогические тесты разрабатываются в рамках двух подходов, позволяющих по-разному интерпретировать результаты их выполнения. 6. Наблюдаемые результаты выполнения теста получаются в результате взаимодействия множества испытуемых со множеством заданий теста. 7. Профессионально разработанные тесты обеспечивают представление об истинных баллах учащихся, определяемых с помощью специальных методов по наблюдаемым результатам выполнения теста. 8. Процесс конструирования теста включает ряд этапов, выполнение которых обязательно. Исключение любого этапа ведет к неизбежной потере качества теста. Вопросы и задания 1. Каковы функции входного тестирования? Есть ли смысл разрабатывать входные тесты в школе? 2. Каковы цели разработки формирующих тестов? Есть ли различия между формирующими тестами и традиционными средствами текущего контроля? 3. Какова цель итогового тестирования? 4. В рамках какого подхода, по вашему мнению, следует разрабатывать тесты для проведения выпускных экзаменов в школе? 5. Правильно ли в вашей школе оценивают эффективность работы преподавателей? 6. Какой процесс называется стандартизацией теста? 7. Перечислите факторы, влияющие на устойчивость норм теста. 8. Какие тесты, по вашему мнению, необходимо разрабатывать в первую очередь для повышения эффективности учебного процесса в школе? 9. Сформулируйте определения предтестового задания, тестового задания, педагогического теста. Сравните свой ответ с содержанием соответствующих разделов пособия. 81
10. В чем проявляются преимущества предтестового задания по сравнению с традиционными контрольными заданиями? 11. Каковы общие требования к предтестовым заданиям? Сравните свой ответе предлагаемым в пособии перечнем общих требований. 12. Охарактеризуйте факторы, снижающие точность тестовых измерений. 13. Можно ли с помощью традиционных средств контроля получить представление об истинных баллах учеников? 14. Три ученика отвечали на 6 заданий теста, ранжированных по нарастанию трудности. По результатам ответов получились профили: первый: 1 1 10 0 0; второй: 101010; третий: 0001 1 1. Кто, по вашему мнению, лучше усвоил содержание проверяемого курса? Сколько ошибок в профиле ответов каждого из трех учеников? У кого из трех учеников будет выше истинный балл? Правомерна ли постановка последнего вопроса по отношению к результатам третьего ученика? 15. Перечислите основные этапы разработки теста.
3 СОДЕРЖАНИЕ I ТЕСТА ЗЛ. ИЕЛЕПОЛАГАНИЕ НА ЭТАПЕ ПЛАНИРОВАНИЯ СОДЕРЖАНИЯ ТЕСТА При создании теста внимание разработчика прежде всего привлекают вопросы отбора содержания, которое можно определить как оптимальное отображение содержания учебной дисциплины в системе тестовых заданий. Требование оптимальности предполагает использование определенной методики отбора, включающей вопросы целеполагания, планирования и оценки качества содержания теста. Этап целеполагания является наиболее трудным и вместе с тем наиболее важным: от результатов его выполнения в первую очередь зависит качество содержания теста. В процессе целеполагания преподавателю необходимо решить вопрос о том, какие результаты учеников он хочет оценить с помощью теста. Ответ казалось бы прост, по крайней мере, он кажется таким тем, кто неоднократно проверяет знания учеников на уроках традиционными средствами. Однако наделе эта видимая простота зачастую оборачивается низким качеством результатов контроля, когда разные по подготовке ученики получают одинаковые оценки либо преподаватель приходит к неправильному выводу о достижении целей обучения, в то время как ученики не получили самых важных знаний или не научились их применять. Основания для ошибок в выводах педагога далеко не всегда связаны с технологическими недостатками традиционных средств контроля. Иногда они обусловлены недоработками педагога на этапе целеполагания, когда центр тяжести проверки смещается на второстепенные цели обучения, а иногда этап целеполагания отсутствует вовсе, поскольку часть педагогов уверена в непогрешимости*своего опыта и интуиции, особенно при условии многолетней работы в школе. Однако никакие даже очень совершенные методы контроля и никакой опыт не дадут оснований для надежных выводов о достижении целей обучения до тех пор, пока нет уверенности в правильной постановке це- 83
лей контроля и в их правильном, несмещенном отображении в содержании теста. В отличие от отбора содержания традиционных средств контроля, который производится в основном интуитивно на основании практического опыта педагога, отбор содержания теста имеет четкую целевую направленность, а это при условии правильной постановки целей является серьезной заявкой на его высокое качество. Образно говоря, при создании теста в сознании разработчика содержание контроля преломляется сквозь призму поставленных целей измерения, и если они сформулированы правильно, то есть большая уверенность в том, что тест состоится. Правда, сама по себе правильная постановка целей создания теста довольно непроста, к тому же положение осложняется рядом обстоятельств. С одной стороны, различные школы в современной педагогике при формулировке целей используют разные системы понятий и представлений, часто плохо сочетающиеся между собой. С другой стороны, использование отличающихся слов и выражений естественного языка в качестве терминов порождает изрядную путаницу, нередко контекст ряда педагогических подходов недостаточен для осуществления терминообразующей функции. Вместе с тем в течение целого ряда лет особой потребности в формировании единых подходов к формулировке целей просто не возникало. Существовавшая в нашей стране на протяжении десятилетий преимущественная ориентация на традиционные средства контроля снимала потребность в этом процессе, так как расплывчатость и неопределенность действующих образовательных целей не приходила в рассогласование с требованиями практики, далекой от проблем создания объективных средств измерения. И наконец, нередко положение осложняли сами исследователи, которые, образно говоря, прорицали, но не слышали друг друга. В целом это привело к тому, что до сих пор не выработаны общие правила выбора оснований для классификации целей, не найдены разделяемые всеми принципы для количественной оценки степени их достижения. Таким образом, сложившиеся на сегодняшний день представления о наиболее общих целях контроля не позволяют непосредственно перейти к разработке средств измерения. Для формулировок образовательных целей характерны излишняя общность, расплывчатость, многообразие и неопределенность. Поэтому для создания средств измерения в первую очередь необходима предварительная операционализация целей. Процесс операционализации заключается в придании содержанию и форме представления целей характеристик, позво 84
ляющих отобразить цели в содержании стандартизованных средств измерения [7]. Идея операционализации очень близка отдельным положениям работы М. В. Кларина [12], где вместо слова «операционализация» используется иной, довольно удачный термин «конкретизация». Дело разумеется не в термине, а в сути предлагаемого процесса. Конкретизация целей Конкретизация, по мнению М.В. Кларина, должна начинаться с описания направленности воздействия обучения на ученика, прояснения характера воздействия и детализации его результатов. В этой связи Кларин выделяет ряд вопросов, решение которых с необходимостью сопутствует процессу конкретизации. Ответ на первый вопрос направлен на характеристику образовательных условий, создаваемых для реализации целей. Ответ на второй — связан с выявлением внутренних параметров учащихся, их способностей к усвоению нового учебного материала. И наконец, ответ на третий вопрос нацелен на характеристику результатов образовательного процесса. Приведенные Клариным узловые моменты процесса конкретизации нуждаются в некоторых уточнениях — изменении не содержания, а просто порядка постановки вопросов. Поскольку порядок постановки вопросов подчинен определенной иерархии, то для отражения сущности происходящих при контроле процессов второй и третий вопросы, несомненно, следует поменять местами. Судить о внутренних параметрах учащегося можно только на основе анализа внешней стороны учебной деятельности, проявляющейся в результатах обучения. По сути, идея перехода от внешнего к внутреннему, идея интериоризации, составляет ядро теории педагогических измерений, когда по наблюдаемым результатам контроля с той или иной степенью точности пытаются сделать вывод о внутренних устойчивых характеристиках — параметрах ученика. Конечно, не следует забывать о том, что при контроле преподаватель как бы совершает обратный ход, поскольку на деле именно множество параметров испытуемых в процессе взаимодействия с заданиями порождает наблюдаемые результаты выполнения теста, т.е. то, что в процессе контроля принято называть результатами обучения. При этом выявление степени достижения целей обучения, замкнутых на определенную предметную область, осуществляется через контроль учебной деятельности школьников 85
путем сопоставления наблюдаемых и ожидаемых результатов обучения. Непосредственно для целей создания средств измерения наибольший интерес представляет ответ на третий вопрос, связанный с операционализацией результатов обучения. Процесс операцио- нализации характеризуется рядом этапов, которые схематично изображены на рис. 3.1. Общая образовательная цель -► Цель обучения в общих терминах I Санируемый результат обучения Диагностируемы и результат ооучения Рис. 3.1. Этапы операционализации результатов обучения Далее планируемые результаты обучения в сознании преподавателя-предметника преломляются сквозь призму содержания знаний по преподаваемой им учебной дисциплине, и содержание теста начинает обретать свои контуры. Конечно, многое здесь зависит от выбранных средств оценки, так как далеко не всякое содержание дисциплины и не в любой форме может быть отражено в тесте. В состав требований к планируемым результатам обучения обычно включают систему изучаемых объектов, описание видов учебной деятельности и качества усвоения учебного материала. Первым компонентом требований является характеристика объектов изучения с учетом глубины их освещения учителем и планируемого уровня усвоения учащимися. Группой исследователей НИИ СиМО АПН была предложена общепредметная схема, организующая множество объектов изучения в определенную структуру на основе морфологического и функционального анализа содержания предметов [13]. К важнейшим элементам системы научных знаний исследователи отнесли понятия и факты, законы, теории, идеи, знания о способах деятельности, методологические и оценочные знания. В этой же работе приводится вывод о том, что использование теории учебной деятельности, разработанной психологами нашей страны (С.Л. Рубинштейн, НА. Менчинская, Н.Ф. Талызина), «дает широкие возможности для ее характеристики в программных описаниях, объединяя своими подходами различные учебные предметы и различный по характеру материал обучения». Помимо этого, в работе [ 13] выдвигается на рассмотрение проблема, связанная с необходимостью выделения видов умений, их классификации и систематизации. 86
В качестве основы решения проблемы предлагается структура умений, выделенная И.И. Кулибабой [15]. В нее входят умения: • специальные, формирующиеся в процессе изучения отдельных учебных предметов; • рационального учебного труда, включающие умения пользоваться различными источниками знаний для решения познавательных задач, планировать и организовывать свою учебную деятельность, контролировать и корректировать результаты учебной деятельности, а также управлять ею в процессе учения; • интеллектуальные, представляющие собой ядро учебной деятельности и объединяющие все учебные предметы. Классификация целей При создании теста ставится задача отобразить в его содержании то главное, что должны знать ученики в результате обучения, поэтому ограничиться простым перечислением целей обучения нельзя. В тест хотелось бы включить все, но, к сожалению, это невозможно, поэтому часть целей приходится просто отбросить и не проверять степень их достижения учащимися. Для того чтобы не утратить самое главное, необходимо структурировать цели и ввести определенную иерархию в их взаимное расположение. Без сомнения, здесь нет и не может быть готовых общих рецептов, поскольку в каждой дисциплине свои приоритеты. К тому же отдельные цели заметно связаны между собой, и потому простого представления о системе целей как об упорядоченной совокупности без рассмотрения связей между элементами явно недостаточно. Для случая, когда представление об элементах как о несвязанных составляющих можно считать адекватным системе целей обучения, работа по построению системы целей была проведена Б.С. Блумом (В.8. В1оот) [40]. В настоящее время классификация целей (или, как ее иначе называют, таксономия целей), является наиболее известной в мировой педагогической литературе. Она же и является наиболее технологичной с точки зрения большинства зарубежных разработчиков педагогических тестов. В своей классификации Б.С. Блум выделяет: 1) знание названий, имен, фактов; 2) фактуальные знания; 3) знание определений и понимание их смысла; 4) сравнительные, сопоставительные знания; 5) классификационные знания; 87
6) знание противоположностей, противоречий, синонимичных и антонимичных объектов; 7) ассоциативные знания; 8) причинные знания; 9) алгоритмические, процедурные знания; 10) обобщенные, системные знания; 11) оценочные знания; 12) процессуальные знания; 13) абстрактные знания; 14) структурные знания; 15) методологические знания. Классификация знаний Б.С. Блума приведена в несколько измененном и сокращенном виде для облегчения этапа целеполага- ния при разработке теста, в учебном пособии [2]. Сама по себе система тоже не полна и допускает возможность расширения или изменения, обусловленную спецификой дисциплины. Более полное описание целей, взятое из работы Кларина [12], приводится в приложении 3.1. Предлагаемая в приложении таксономия целей подразделяется на две группы. К одной группе отнесены цели когнитивной (познавательной) области, а к другой — цели аффективной (эмоционално-деятельностной) области. В последнее время таксономия Б.С. Блума подвергалась значительной критике в связи с недостаточным отражением современных достижений в области психологии обучения. Общий критический анализ существующих концептуальных моделей планирования при отборе содержания контроля был проделан в 1987 г. Ромберг, Зариния (КотЬег^, 2аппта). К числу недостатков ими были отнесены излишняя упрощенность моделей, не позволяющая использовать современные теории процесса обучения, избыточное внимание к оценке результата обучения, а не к процессу формирования результата, использование линейной зависимости между отдельными составляющими модели. В последние годы особые осложнения в оценке учебных достижений вызывает смещение акцентов на выявление уровня владения интеллектуальными и практическими умениями, которые, по своей сути, слабо алгоритмизируемы, сложны и неоднозначны при проверке и требуют, как правило, создания концептуальных моделей, альтернативных существующим. Из апробированных на практике в настоящее время наибольшее применение находит трехмерная модель, включающая содержание, технику измерения и планируемый уровень познавательной деятельности, необходимый для выполнения заданий теста [25]. 88
Первая составляющая модели — содержание — обеспечивает содержательную валидность инструментария, его соответствие учебным программам. Под второй составляющей — техникой измерения — в основном понимается используемый тип заданий. Необходимость введения второй составляющей вызванатем, что в настоящее время произошло значительное расширение используемых в практике массового тестирования форм. Помимо традиционных заданий с выбором ответа, применяются задания со свободным ответом как в краткой, так и в развернутой форме, экспериментальные задания и др. Разнообразие форм обусловило введение различных технологий, особенности которых должны быть отражены в концептуальной модели. Третьей составляющей модели является познавательная деятельность, на оценку которой направлено измерение. В традиционном подходе, использующем таксономию Б.С. Блума, уровень мыслительной деятельности, необходимой ученику для ответа на предложенное задание, определялся экспертом. В новой концептуальной модели задания конструируются таким образом, что они предоставляют различные возможности для ответа и уровни познавательной деятельности планируются в концептуальной модели теста. Детальная разработка категорий познавательной деятельности, требований к уровню ее развития, к проявлению различных уровней сформированности интеллектуальных умений осуществляется в настоящее время в различных странах мира. СОЛО-таксономия (80Ш — 81шс1иге о(ЧЬе ОЬзег/ей Ьеагшщ* Ои^сотез), предложенная в 1982 г. (Вщ§8 апс! СоШ8), — один из примеров разработки современной модели структуры познавательной деятельности. На сегодняшний день СОЛО-таксономия прочно вошла в практику деятельности многих тестовых центров. Она достаточно успешно применяется в международных исследованиях качества образования в различных странах мира, в частности для оценки достижений учащихся по математике и естествознанию (СоШб (1987), СоШб апс! КотЬегё апс! .1игс1ак (1986), СЫк апс! \Уа1$оп апс! Со1И$ (1988), МагеЬаП апс! оШеге (1991) и др.). СОЛО-таксономия включает отдельные аспекты содержательно-деятельностной модели и этим может быть сравнима с таксономией Блума. Помимо этого, в ней есть элементы теории Пиаже об этапах развития познавательной деятельности. СОЛО-таксономия имеет иерархическую структуру, может быть использована как для разработки инструментария, так и при интерпретации результатов тестовых измерений 89
Современная модель предлагает качественное описание ответов учащихся. Это означает, что уже на этапе разработки инструментария должна быть четко очерчена познавательная деятельность, лежащая в основе выполнения каждого задания теста. Тогда на одном конце шкалы познавательной деятельности будут представлены задания на воспроизведение фактов и простейших алгоритмов, включающих только один шаг деятельности, — словом, задания, позволяющие учащимся продемонстрировать умения решать простейшие задачи, используя для этого рутинные процедуры или одноуровневую познавательную деятельность; на другом конце шкалы — задания, предлагающие учащимся продемонстрировать большое разнообразие интеллектуальных и практических умений. В ряде появившихся в нашей стране работ таксономия Б.С. Блу- ма также неоднократно подвергалась критике, в частности, из-за того, что в ней произошло методологически недопустимое смешение конкретных результатов обучения (знания, понимание и т.д.) с операциями, представляющими необходимое условие их достижения (анализ, синтез, оценка). В этой связи в пособии предлагается иная классификация целей. В ее основу положен уровневый системный подход описания достижений учащихся (И.Я. Лернер, В.П. Беспалько и др.), который позволяет сгруппировать результаты обучения в зависимости от уровней учебной деятельности. Первый уровень связан с непосредственным воспроизведением по памяти содержания изученного материала и его узнаванием. Второй уровень предполагает понимание и применение знаний в знакомой ситуации по образцу, выполнение действий с четко обозначенными правилами. Третий уровень включает применение знаний в измененной или незнакомой ситуации. Таким образом, предлагаемый подход к классификации основан на выделении уровней усвоения знаний и операций, сопутствующих их проявлению (табл. 3.1). ОПЕРАНИОНАЛИЗАИИЯ ПЛАНИРУЕМЫХ РЕЗУЛЬТАТОВ ОБУЧЕНИЯ После постановки целей в общем виде переходят к операциона- лизации планируемых результатов обучения. Процесс операциона- лизации строится на описании учебных целей в виде результатов определенной учебной деятельности так, чтобы о степени достижения цели можно было судить вполне однозначно. Идея подобного перехода не всегда встречается отечественными исследователями положительно. По поводу перехода от целей обучения, ориентирован- 90
Таблица 3.1. Классификация целей обучения Уровень усвоения учебного материала 1. Воспроизведение знаний 2. Понимание и применение знаний в зна комой ситуации 3. Применение знаний в измененной или незнакомой ситуации Требования к достижениям учащихся (уровню подготовки учащихся) в обобщенных терминах Знать терминологию, специфические факты (даты, события, имена людей и т.д.), категории, критерии, методы, принципы, законы, теории и т.д. Понимать факты, законы, принципы, критерии, теории; понимать прочитанный текст. Применять знания для объяснения, сравнения, для решения качественных и количественных задач; правильно использовать методы, алгоритмы, процедуры; строить графики, диаграммы, таблицы и др. Интегрировать знания из разных разделов для решения различных проблем, анализировать, обобщать, оценивать, конструировать, планировать деятельность, эксперимент Формулировки требований в терминах внешней деятельности Дать определение, называть, формулировать, описывать, установить соответствие (между термином и определением), показывать (находить), распознавать (находить), пересказывать, перечислять (особенности), выбирать и т.д. Объяснять, соотносить, характеризовать (приводить характеристики), сравнивать, устанавливать (различие, зависимость, причины), выделять существенные признаки, рассчитывать (определить по формулам или алгоритму), решить, составить что-то по готовой схеме, выполнить в соответствии с правилами, продемонстрировать, измерить, продолжить/закончить (предложение), вставить пропущенные слова (буквы) и т.д. Составить устный или письменный ответ на проблемный вопрос, написать сочинение, проводить исследование, формулировать гипотезу (выводы), обосновать свою точку зрения или точку зрения автора, предсказывать последствия, отличать факты от мнений (суждений), факты от гипотез, выводы от положений, анализировать информацию, находить ошибку, высказывать суждение, свое мнение, суждения о соответствии выводов и фактов, давать отзыв или рецензию, высказывать суждение о значении (роли) идей, о точности (измерений), высказывать суждение о качестве (точности, эффективности, экономичности) проделанной работы, о выбранном способе решения или используемых методах, строить модель (изменять модель), реконструировать, составить план эксперимента, рассказа, решения, изменить план и т.д. 91
ных на качественные изменения во внутренних характеристиках учащихся, к внешним проявлениям в виде результатов учебной деятельности написано немало критических работ, например [26, 35]. Представляется, что ситуация с переходом далеко не столь опасна, как это любят утверждать представители критического направления. Скорее наоборот, ориентация на внешние стороны деятельности учащихся несет в себе ряд положительных моментов. В частности, неизмеримо повышается технологичность описания целей, в связи с чем появляется возможность корректного перехода к диагностике степени их достижения. Повышению конкретизации описания результатов учебной деятельности, по мнению Кларина, способствует использование ряда глаголов, непосредственно характеризующих действия ученика [12]. В приведенном им примере из работы [43] цель «изучить использование символических обозначений на погодной карте» разворачивается в виде совокупности учебных результатов, характеризующих деятельность ученика, который должен уметь: • воспроизводить по памяти символы, употребляемые на карте погоды; • опознавать символы на карте; • читать карту, используя символы; • составлять карту, пользуясь символами; • уметь по заданной карте дать прогноз погоды. Несмотря на расхожее среди отечественных теоретиков мнение о возможности операционализации только результатов низкого познавательного уровня, процессу операционализации, несомненно, подлежат и довольно сложные цели более высокого уровня. Для этого нужны определенные навыки тех, кто берется за создание тестов. В приобретении подобных навыков разработчикам тестов может помочь ориентировочный перечень глаголов, который приводит Кларин для конкретизации учебных целей. В случае необходимости конкретизации общих целей он рекомендует использовать глаголы: анализироватьу вычислять, высказывать, демонстрировать, знать, интерпретировать, использовать, оценивать, понимать, преобразовывать, применять, создавать... для конкретизации целей творческого типа — варьировать, видоизменять, модифицировать, перегруппировать, перестроить, предсказать, поставить вопрос, синтезировать, систематизировать. .. для обозначения целей в области развития устной и письменной речи — 92
выделить, выразить в словесной форме, записать, обозначить, подчеркнуть (не в буквальном смысле), продекламировать, произнести, прочитать, разделить на составные части, рассказать... Основные категории конкретизированных учебных целей, разработанные Клариным в несколько измененном виде, удобном для задач измерения, приводятся в табл. 3.2. Таблица 3.2. Конкретизированные цели обучения Обобщенные учебные цели, планируемые преподавателем Знание на уровне запоминания и воспроизведения Знания на уровне понимания Умения по применению знаний в известной ситуации Умения по применению знаний в незнакомой ситуации Анализ Примеры конкретизированных учебных целей, достигнутых учеником Знает смысл употребляемых терминов, основные понятия и определения, формулы, законы, принципы Понимает и интерпретирует термины, интерпретирует понятия и определения, преобразует словесный материал в математические выражения, интерпретирует словесный материал на схемах и графиках Умеет применять термины, понятия и определения в знакомой ситуации по образцу, а также формулы, законы и принципы в знакомой ситуации Использует законы и принципы в новых ситуациях, осуществляет перенос известных методов на незнакомые ситуации Видит ошибки и упущения в логике рассуждений, корректирует неполные или избыточные постановки задач, выделяет скрытые предположения, проводит различия меж \у фактами и следствиями Очередной этап операционализации связан с переходом от планируемых результатов обучения к тому, что можно отобразить в средствах педагогического измерения, например в тесте. На этом этапе операционализация позволяет структурировать, расчленять, а иногда, наоборот, укрупнять, уточнять и детализировать содержание дисциплины для его отображения в содержании теста. Именно этот этап обеспечивает переход от теоретического уровня анализа целей обучения к эмпирическому и позволяет концептуально правильно подойти к выделению эмпирических индикаторов — заданий теста. Последний этап операционализации сопряжен с задачами планирования содержания теста. В процессе планирования автору те- 93
ста приходится думать о том, что далеко не весь набор целей обучения по разным причинам можно отобразить в содержании теста. Конечно, чем глубже и полнее отображение, тем выше содержательная валидность теста, тем больше оснований доверять тестовым баллам учащихся. Однако этот вывод носит исключительно теоретический характер. На практике же приходится думать не только о требованиях тестовой технологии, но и о реальных возможностях школьников определенного возраста, которые должны выполнять тест без излишнего напряжения и усталости. В этой связи набор целей необходимо структурировать, чтобы в тест попали самые важные цели учебного процесса. Выделение целей различного уровня иерархии позволяет уточнить определенные предметные области, разделы, темы, содержание которых необходимо отразить в тесте. Отсюда остается один шаг до оценки степени реализации целей, для чего знание предметных областей выражается правилами измерения с перечислением элементов содержания в совокупности с желаемыми, планируемыми при обучении уровнями владения этими элементами. Таким путем общие цели обучения обретают свою конкретизацию и возникает прагматическое определение знания учебной дисциплины: когда испытуемый правильно выполняет на определенном уровне усвоения такие-то задания таких-то разделов теста. 3.2. Планирование содержания теста После определения целей тестирования и их конкретизации необходимо разработать план и спецификацию теста. В соответствии с поставленными целями каждое задание теста предназначено для проверки у испытуемых уровня владения определенными знаниями, умениями или навыками. При разработке плана делается примерная раскладка процентного соотношения содержания разделов и определяется необходимое число заданий по каждому разделу дисциплины исходя из важности раздела и числа часов, отведенных на его изучение в программе. Раскладку начинают с подсчета планируемого исходного числа заданий в тесте, которое затем в процессе работы над тестом будет неоднократно меняться в сторону увеличения или уменьшения. Обычно предельное число не превышает 60—80 заданий, поскольку время тестирования выбирают в пределах 1,5—2 ч, а на выполнение одного задания отводится в среднем не более 2 мин. Пример 94
предварительной раскладки заданий при составлении плана теста для оценки знаний, умений школьников по одному из разделов алгебры показан в табл. 3.3. Таблица 3.3. План теста по разделу «Алгебраические уравнения» № п/п 1 2 3 4 5 6 7 8 9 10 11 Контролируемое содержание Определение уравнения Эквивалентность уравнений Виды уравнений Линейные уравнения Решение квадратных уравнений решение исследование неприведенных приведенных неполных Исследование квадратных уравнений Теорема Виега Биквадратные уравнения Методы решения уравнений Уравнения второй степени решение исследование подстановка разложение на множители решение исследование Задачи на составление алгебраических уравнений Число заданий 1 3 1 6 1 2 2 4 1 2 3 Номера заданий 1 4,5,31 2 11, 15-19 7 12,26 24,25 20-23 8 13, 14 28,30 9 3 27 6 10 32 Конечно, план теста начинает обретать некоторую определенность уже на этапе целеполагания, когда преподаватель примерно представляет, сколько и какие задания по различным темам он хо тел бы включить в тест. Однако такие примерные оценки не просто нежелательны, а скорее недопустимы. Тест неизбежно окажет- 95
ся перегруженном второстепенным материалом, а главные вопросы могут быть упущены либо для них просто не останется места. Отсюда легко понять важность разработки такого плана, который оптимально отображает содержание учебной дисциплины в содержании теста. После выполнения первого шага по планированию содержания разрабатывается спецификация теста, в которой фиксируется структура, содержание проверки и процентное соотношение заданий в тесте. Иногда спецификацию делают в развернутой форме, содержащей указания на тип заданий, который будет использоваться для оценки достижений учащихся в соответствии с намеченными целями создания теста, время выполнения теста, число заданий, особенности проведения тестирования, которые могут повлиять на характеристики теста и т.д. Спецификация в развернутой форме включает1: 1) цель создания теста, обоснование выбора подхода к его созданию, описание возможных сфер применения теста; 2) перечень нормативных документов (базисных программ, требований к уровню подготовки выпускников и др.), используемых при планировании содержания теста; 3) описание общей структуры теста, включающее перечень субтестов (если они есть) с указанием подходов к их разработке; 4) количество заданий различной формы с указанием числа ответов к закрытым заданиям, общее число заданий в тесте; 5) число параллельных вариантов теста либо ссылку на кластер, содержащую число и номера заданий кластера; 6) вес каждого задания, рекомендуемый автором теста; 7) рекомендуемое время выполнения теста, в том числе на каждый субтест, среднее время выполнения одного задания с учетом специфики формы; 8) соотношение заданий по различным разделам и видам учебной деятельности школьников; 9) рекомендации по контингенту учащихся для апробации теста; 10) охват требований стандартов (для аттестационных тестов); 11) перечень требований, не вошедших в тест (для аттестационных тестов); 1 Развернутая форма спецификации разработана коллективом тестологов под руководством Г.С. Ковалевой и применялась в 1998—1999 гг. для создания аттестационных тестов Российского центра тестирования выпускников общеобразовательных учреждений. 96
12) рекомендуемую автором стратегию расположения заданий в тесте. Один из наиболее распространенных подходов к созданию краткой спецификации основан на сопряжении системы знаний и умений с процентным соотношением заданий по различным разделам или по различным содержательным линиям проверяемой дисциплины в тесте (пункт 8 развернутой спецификации). Пример реализации подобного сопряжения приведен в табл. 3.4. Предлагаемый в ней перечень знаний и умении носит достаточно общий характер. В него включены: А — знание понятий, определений, терминов; В — знание законов и формул; С — умение применять законы и формулы для решения задач; О — умение интерпретировать результаты на графиках и схемах; Е — умение проводить оценочные суждения Таблица 3.4. Гипотетическая спецификация теста № п/п 1 2 3 4 5 Планируемые к проверке знания и умения А (10%) В (20%) С (30%) О (30%) Е (10%) Итого Содержательные линии (разделы) дисциплины I (20%) 1 2 4 4 1 12 11(10%) 1 1 2 2 6 III (30%) 2 4 5 5 2 18 IV (40%) 2 5 7 7 3 24 Суммарное число по каждому пункту 6 12 18 18 6 60 Несмотря на абстрактный характер и отсутствие явной связи с какой-либо дисциплиной, предлагаемый перечень вполне наглядно демонстрирует тот путь, которым обычно идет разработчик тестов. Подобного рода перечень знаний и умений, ориентированный на конкретную дисциплину, составляется всегда при планировании содержания теста. Естественно, что в приведенный перечень знаний и умений необходимо ввести некоторые пропорции сообразно тем акцентам, которые делаются преподавателем в учебном 4 Челышкова М В 97
процессе. Пусть, например, в предлагаемом гипотетическом перечне установлены следующие пропорции: А - 10%, В - 20%, С - 30%, Э - 30%, Е - 10%. Для подсчета количества заданий, отводимых на проверку каждого пункта перечня, необходимо задаться первоначальным общим числом заданий в тесте, т. е. выбрать длину теста. Вопрос оптимальной длины теста неоднократно будет рассматриваться в процессе изложения материала пособия, сейчас же, на этапе планирования, целесообразно задаться априорной первоначальной длиной теста. Она устанавливается с учетом цели создания теста, возраста тестируемых учеников и объема содержания проверки. Как уже указывалось ранее, нередко в качестве первоначальной длины выбирают 60—80 заданий. Особенно в тех случаях, когда речь идет об итоговом тестировании старшеклассников на протяжении 2 ч (120 мин) или трех—четырех уроков. Если при выборе первоначальной длины остановиться на 60 заданиях, то в табл. 3.4 можно заполнить последнюю графу, где проставлено число заданий, планируемое для проверки знаний и умений в тесте. В последней графе число заданий выбрано пропорционально весу каждого из пунктов А, В, С, Э, Е в общей раскладке 60 заданий теста. Затем для заполнения таблицы определяется об щее число заданий по каждому разделу дисциплины (последняя строка). В рассматриваемом примере спецификации таких разделов планируется четыре. Вес каждого из разделов в процентах указан в первой строке табл. 3.4. Конечно, при заполнении таблицы в распределении заданий удается лишь приближенно отобразить пропорции разделов. К тому же не во все ячейки должны быть вписаны числа (например, ячейка на пересечении второго столбца и пятой строки), поскольку некоторые умения могут оказаться несовместимыми с содержанием отдельных разделов. Однако даже в таком приближенном видении общей раскладки заданий есть огромная польза для планирования теста. Естественно, что в процессе работы над тестом первоначальная раскладка заданий будет претерпевать всяческие изменения. Это объясняется тем, что не все задания окажутся удачными и уместными в той мере, как это считается на этапе планирования теста. Поэтому с одной частью заданий разработчику приходится расстаться после экспертизы содержания, с другой — в процессе углубленного анализа результата статистической обработки эмпири- 98
ческих данных выполнения теста. В этой связи после коррекции теста необходима доработка спецификации для приведения ее в соответствие с окончательными пропорциями содержания теста. При другом подходе спецификация содержит процентное соотношение заданий, планируемое сообразно пропорциям разделов и видам предполагаемой деятельности испытуемого в процессе выполнения теста. Разработанный сотрудниками ИОСО РАО пример подобной спецификации итогового теста для проверки знаний и умений школьников по физике приводится в табл. 3.5. Таблица 3.5. Краткая спецификация итогового теста по физике Содержание предмета Общеобразовательная часть теста (40 заданий) Из них: Механика (10 заданий, 25%) Молекулярная физика и термодинамика (8 заданий, 20%) Электродинамика, СТО (16 заданий, 40%) Геометрическая оптика (2 задания, 5%) Квантовая физика (4 задания, 10%) Углубленная часть теста (20 заданий) Предполагаемая деятельность тестируемого Репродуктивный уровень Знание определений, фактологического материала и т.п. 8 заданий (20%) 2 задания 1 задание 3 задания 1 задание 1 задание Применение знаний основных законов в знакомой - ситуации по образцу, на основе обобщаемого алгоритма 24 задания (60%) 6 заданий 5 заданий . 10 заданий 1 задание 2 задания 4 задания (20%) Продуктивный уровень Применение знаний в незнакомой ситуации 8 заданий (20%) 2 задания 2 задания 3 задания 1 задание 16 заданий (80%) 3.3. Экспертиза качества содержания теста Успех создания теста во многом зависит от качества начального тестового материала, которое обеспечивается правильным пла- 4* 99
нированием содержания в спецификации теста и умением разработчика корректно реализовать этот план при разработке задании теста. Разработка заданий сопровождается отображением содержания дисциплины в содержании теста посредством выделения укрупненных единиц знаний. Обычно автор теста стремится, часто неосознанно, сделать это отображение глубже и полнее. Конечно, это естественно, так как все вопросы кажутся преподавателю важными и все хочется включить в тест. Расширение числа тем и разделов ведет к увеличению длины теста, что рационально только до определенных разумных пределов. Поэтому при создании теста ставится задача отобразить самое главное — то, без чего качественная проверка ито1 овых результатов обучения немыслима Повышению полноты отображения, а также достижению ряда других необходимых характеристик способствует в немалой степени экспертиза качества содержания теста. Оценка качества содержания теста обычно проводится по определенной методике независимыми экспертами, не участвовавшими в разработке теста. Как правило, число экспертов составляет не менее трех человек по каждому тесту. К экспертизе привлекаются наиболее опытные учителя, имеющие большой стаж работы с теми учащимися, для которых в конечном итоге предназначен тест. Методика экспертизы качества содержания теста обычно включает три раздела, которые выстраиваются сообразно трем направлениям работы экспертов. Перед началом работы каждый эксперт должен ознакомиться со спецификацией рецензируемого теста, содержащей пояснения по его структуре и планируемому к проверке содержанию. Один из вариантов подобных методик для оценки качества содержания аттестационного теста приводится далее. Первое направление работы эксперта Работа эксперта по первому направлению заключается в анализе содержания отдельных заданий теста. При работе по первому направлению эксперт должен заполнить таблицу (приложение 3.2). В таблице первая графа содержит номера заданий теста. Во второй графе приводятся номера выбранных экспертом правильных ответов в закрытых заданиях тестов. Ответы к открытым заданиям приводятся экспертом вне таблиц на отдельном листе. Форма представления ответа зависит от формы рецензируемого задания теста. При выполнении открытых заданий с кратким ответом эксперт приводит под номером задания полученный им краткий ответ (слово, 100
символ, число...). Здесь же необходимо обратить внимание авторов теста на возможные случаи появления неоднозначности, когда на месте планируемого единственного могут возникнуть дополнительные, частично правильные ответы. К открытым заданиям со свободно конструируемым ответом эксперт должен предложить в произвольной форме свой вариант оценки распространенного ответа, эссе или доказательства. В третьей графе таблицы располагаются результаты анализа содержания заданий в терминах требований к уровню подготовки выпускников. Для проведения анализа эксперту необходимо сопоставить содержание каждого задания теста и перечень пронумерованных требований, который входит в комплект материалов для экспертизы и выдается эксперту вместе с тестами. По результатам сопоставления эксперт выявляет номер требования, на которое преимущественно ориентировано содержание данного задания, и приводит этот номер в третьей графе для каждого задания теста. Здесь в процессе анализа возможны ситуации, когда в отдельных заданиях контролируется не одно, а два или более требований к уровню подготовки выпускников. В этом случае эксперт приводит только один номер того требования, которое в основном проверяется с помощью данного задания теста. В четвертой графе таблицы проставляется уровень базовости. Дифференциация заданий по уровням позволяет разделить их на три группы: Б, П, С. Дифференциация производится на основе сопоставления содержания заданий с требованиями к уровню подготовки выпускников. В том случае, когда задание проверяет степень достижения требований на минимальном уровне, достаточном для выставления оценки «удовлетворительно», оно считается соответствующим группе Б. К группе П относятся задания, правильное выполнение которых позволяет выставить ученику хорошие и отличные оценки. Таким образом, задания группы П по трудности превышают минимально достаточный уровень, но находятся в пределах минимума содержания образования поданному предмету. И наконец, в группу С включаются задания, выходящие за пределы минимума содержания и требований к уровню подготовки выпускников. В пятой графе таблицы эксперт оценивает уровень значимости содержания каждого задания теста. Оценка значимости связана с необходимостью включения в тест только тех элементов содержания, которые являются наиболее важными, ключевыми для освоения учебного курса в пределах требований к уровню подготовки. Оценку значимости предлагается проводить по отдельным заданиям без учета 101
того, что отдельные элементы содержания в заданиях могут пересекаться. При этом в центр внимания необходимо ставить то, что измеряет задание, не принимая в расчет промежуточные элементы знания, востребованные в процессе выполнения задания теста. Оценку значимости содержания заданий эксперты проставляют по четырехбалльной шкале. Балл 0 выставляется в том случае, когда эксперт считает неоправданным включение данного задания в тест. Балл 1 выставляется в том случае, если содержание задания представляется эксперту незначимым, 2 — значимым, а 3 — наиболее важным опорным элементом. Полученные оценки по отдельным заданиям теста необходимо усреднить. Для этого суммируются баллы по отдельным заданиям и найденное число делится на общее число заданий теста. Например, если всего было 30 заданий и первому заданию эксперт присвоил балл 2, второму — 3, третье- (2 + 3+1 + ...) му — 1 и т. д., то эта оценка будет гт; • Суммарная оценка приводится в конце столбца на месте пятой графы. Для заполнения шестой графы эксперту необходимо представить гипотетический случай, когда задания с выбором ответа выполняла представительная (репрезентативная) выборка удовлетворительно подготовленных учеников. Требование репрезентативности вполне оправдано с точки зрения теории, поскольку чем представительнее выборка, тем достовернее оценка эксперта. Однако на практике дело обстоит несколько иначе. Эксперту довольно трудно предположить, сколько учащихся, например, из 100 или 200 «троечников» в состоянии выполнить каждое задание теста. В этой связи в основу получения оценок по шестой графе лучше положить сравнительно небольшую выборку. К примеру, можно мысленно представить группу «троечников» всего из 10 человек и затем посчитать гипотетический процент учащихся, правильно выполнивших каждое задание теста. В седьмой графе эксперт также приводит предполагаемый процент испытуемых, правильно выполнивших каждое задание теста, однако ориентируется в своих гипотетических оценках не на группу «троечников», а на выборку, где равномерно представлены все категории отметок от двух до пяти. Следующая графа содержит ожидаемое время выполнения учеником каждого задания теста. При выборе времени эксперту следует ориентироваться на ученика со средней подготовкой. Первоначальное представление о времени выполнения заданий эксперт может составить в процессе своей работы над тестом. Поэтому, 102
приступая к выполнению заданий, эксперту нужно заготовить все необходимое: часы, бланк с номерами заданий — и строго фиксировать начало и конец работы над каждым заданием теста. Полученное время необходимо скорректировать с учетом того, что задание выполнял преподаватель, а не ученик. Для коррекции зафиксированное время выполнения каждого задания обычно увеличивают в 4-5 раз. Полученный результат (в минутах) следует записать в графу для ожидаемого времени выполнения учеником каж- юго задания теста. В девятой графе таблицы эксперт проставляет звездочки на местах, соответствующих номерам неудачных заданий теста. К неудачным в первую очередь следует отнести закрытые задания, где помимо правильного возникают частично правильные ответы. Здесь же очень важно отметить неудачные открытые задания с кратким ответом, в которых возможны случаи появления неоднозначности, когда на месте планируемого единственного ответа можно привести синонимы, различные числа либо более или менее правильные ответы. Все пояснения по выявленным неудачным заданиям эксперт должен привести в последней графе, которая оставлена для дополнительных замечаний по качеству содержания заданий теста. Если эксперт считает нужным дать развернутые рекомендации по улучшению содержания заданий, то их следует привести на отдельных листах как приложение к последней графе таблицы. Крайне важно в этой графе отметить случаи отсутствия четкого логического выделения одного предмета измерения в каждом задании теста. Для достижения логической четкости в каждом задании лучше спросить только о чем-либо одном. Часто встречающиеся попытки проверить сразу несколько знаний и ввести несколько величин в ответы, как правило, отрицательно сказываются на качестве заданий и всего теста. Другая причина некорректности может быть связана с двусмысленностью формулировок, порождающей несколько правильных ответов в тех случаях, когда планировался только один правильный ответ. В этой же последней графе эксперт характеризует качество формулировок содержательной основы заданий теста. В случае необходимости здесь следует отметить лексическую избыточность формулировок либо, наоборот, их ясность и краткость, охарактеризовать качество представления графической информации, если она есть в заданиях теста. При оценке качества формулировок эксперту следует помнить о том, что тестовые задания должны быть сформулированы предельно четко, точно, лаконично и корректно с точки зрения общепринятой в учебном предмете терминологии и символики 103
предмета. И наконец, здесь же, в последней графе, отмечаются случаи появления неправильных заданий теста. Второе направление работы эксперта Второе направление работы эксперта связано с анализом качества содержания всего теста, имеющего несколько параллельных вариантов. Анализ качества выполнения для каждого варианта в отдельности, а затем вся информация объединяется по группе вариантов в тех таблицах, которые предлагаются в методике эксперту. При выполнении работ по второму направлению следует иметь в виду, что содержание, например, аттестационного теста определяется как оптимальное отображение требований к уровню подготовки выпускников в системе заданий теста. Требование оптимальности выделяет определенные критерии качества отображения. Первый критерий — полнота охвата требований к уровню подготовки выпускников каждым вариантом теста и всеми вариантами вместе. Необходимость оценки полноты связанастем, что обычно не все требования удается отобразить в тесте. Чем полнее отображение, тем выше содержательная валидность теста, тем больше уверенность в обоснованности оценок, полученных учащимися поданному тесту. При оценке по первому критерию эксперт должен подтвердить либо опровергнуть процент охвата программы (требований стандартов), заявленный автором в спецификации теста. В основе получения экспертной оценки лежат результаты, помещенные в третьей графе таблицы из приложения 3.2. С помощью этих результатов эксперт подсчитывает число требований, охваченных по одному варианту, а затем делит это число на общее количество требований и приводит полученный таким образом результат (в процентах) по каждому варианту теста. Подсчет общего процента охвата требований к уровню подготовки выпускников всеми вариантами теста нельзя выполнить простым суммированием процентов, полученных по отдельным вариантам теста, так как отдельные требования могут быть представлены во многих, если не во всех вариантах теста. В этой связи для итогового вывода эксперту необходимо выбрать номер каждого требования из третьей графы только один раз по всем вариантам теста. Затем просуммировать полученную информацию, с тем чтобы получить общее число требований, охваченных всеми вариантами теста, и выразить это число в процентах. Полученный экспертом процент охвата сравнивается с приведенным в спецификации теста. Затем вычисляется мера отклонения в виде разности процентов. 104
Второй критерий качества — правильность пропорций содержания теста. При выделении критериев простой оценки полноты охвата требований недостаточно. Необходима также уверенность в том, что задания теста охватывают все важные аспекты предметной области и в правильной пропорции. Зачастую при разработке теста возможно смещение пропорций, так как тест легко перенасытить теми разделами содержания, по которым легче составить задания. Например, в рамках гуманитарного цикла дисциплин легко разрабатывать задания на выявление фактологических знаний, и потому эти задания нередко преобладают в отдельных тестах. Для оценки правильности пропорций теста эксперт подсчитывает процент заданий в тесте, ориентированных на материал каждого раздела (содержательной линии). Затем приводит свое видение оптимального соотношения разделов и вычисляет разность, характеризующую отклонение мнения разработчиков от своих оценок. Третий критерий — проверка соответствия содержания рецензируемой системы заданий спецификации теста. Несоответствие может возникать как при уменьшении, так и при увеличении планируемого числа заданий в тесте. Степень несоответствия определяется подсчетом процента заданий, не предусмотренных спецификацией по содержательным или по деятельностным аспектам, запланированным, но не попавшим в тест. Основания для выделения заданий в категорию непредусмотренных зависят от вида спецификации теста. Например, можно подсчитать число непредусмотренных спецификацией заданий по каждому разделу либо по каждому умению, запла нированному к проверке в тесте. Сопоставление планируемых в спецификации и реальных количеств заданий в тесте проводится путем вычисления разностей. Таким образом, подсчитывается общее число заданий, не соответствующих спецификации теста. Третье направление работы эксперта Третье направление работы эксперта рассчитано на подготовку обобщающих выводов и рекомендаций по улучшению содержания теста. В третьем разделе рецензии эксперт приводит свое общее впечатление о содержании теста. Здесь должны быть высказаны все сомнения и пожелания эксперта, его рекомендации по улучшению содержания. Возможна оценка соотношения заданий, проверяющих знание теории предмета и его практики. Желательно выявить задания, предназначенные для проверки системы понятий, а также задания интегрального характера, предназначенные для проверки умений учащихся обобщать знания по различным разделам предмета. 105
3.4. Обшие принципы отбора содержания теста Помимо критериев, есть общие принципы, способствующие в определенной степени правильному отбору содержания тестов [2]. Принцип репрезентативности регламентирует не только полноту отображения, но и Значимость содержательных элементов теста. Содержание заданий должно быть таким, чтобы по ответам на них можно было сделать вывод о знании или незнании всей программы проверяемого раздела или курса. Принцип системности предполагает подбор содержательных элементов, отвечающих требованиям системности и связанных между собой обшей структурой знаний. При соблюдении принципа системности тест можно использовать для выявления не только объема знаний, но и для оценки качества структуры знаний учеников. После отбора содержания теста начинается наиболее ответственный этап создания предтестовых заданий. Эта работа поручается обычно самым опытным преподавателям с большим стажем работы в школе. Однако для создания заданий одного опыта недостаточно. Необходимы также специальные знания по теории и методике разработки педагогических тестов, обеспечивающие профессиональный подход к созданию предтестовых заданий. Уровень профессионализма зависит прежде всего от того, насколько преподаватель-разработчик владеет формой, в какой мере он умеет подобрать оптимальную форму предтестового задания для проверяемого учебного материала. Иногда содержание задания адекватно выражается только в одной форме, а иногда для одного и того же содержания можно предложить сразу несколько форм. Создать задания, отвечающие всем требованиям формы, вовсе не так просто, как это иногда кажется с первого взгляда. Неопытного разработчика на этом пути ожидают многочисленные трудности и ошибки. Требования к формам предтестовых заданий из ложены в гл. 4. Выводы 1. Научно обоснованный отбор содержания является важнейшей предпосылкой достижения высокого качества педагогического теста. 2. Процесс научного обоснования предполагает планирование содержания теста. 3. Планирование начинается с этапа целеполагания, на котором результаты обучения сопрягаются с целями учебного процесса. 106
4. Для отечественных разработок таксономии целей обучения характерно в основном отсутствие операционального характера. Это обстоятельство не позволяет использовать их при создании те стов. 5. Зарубежные таксономии целей обучения обладают специфическими особенностями и требуют определенной переработки для использования при планировании содержания тестов. 6. Основным результатом планирования является создание спецификации теста. 7. Содержание разрабатываемого теста должно полностью соответствовать спецификации теста. 8. Правильно составленная спецификация является необходимым, но не достаточным условием высокой содержательной валидное™ создаваемого теста. 9. Экспертиза содержания необходима для достижения высокого качества педагогического теста. Вопросы и задания 1. Перечислите этапы в процедуре планирования теста. 2. Что, по вашему мнению, является первичным: выбор формы заданий, определение длины теста или разработка спецификации теста? 3. Существует ли различие в подходах к планированию содержания нормативно- и критериально-ориентированных тестов? 4. Возможны ли случаи несовпадения со спецификацией при отборе содержан ия теста? 5. Многие авторы полагают, что для правильного отбора содержания вполне достаточно их педагогического опыта, а разработка спецификации является излишней потерей времени при создании теста. Ваше мнение по этому вопросу? 6. Какой принцип ориентирует разработчика на Достижение полноты и значимости содержания теста?
Приложение 3.1. Таксономии когнитивных и аффективных учебных целей (по м.в. кларину) Основные категории учебных целей Примеры обобщенных типов учебных целей Категории учебных целей в когнитивной области 1. Знание. Эта категория обозначает запоминание и воспроизведение изученного материала. Речь может идти о различных видах содержания — от конкретных фактов до целостных теорий. Общая черта этой категории — припоминание соответствующих сведении 2. Понимание. Показателем способности понимать значение изученного может служить преобразование (трансляция) материала из одной формы выражения в другую, «перевод» его с одного «языка» на другой (например, из словесной формы в математическую). В качестве показателя понимания может также выступать интерпретация материала учеником (объяснение, краткое изложение) или же предположение о дальнейшем ходе явлений, событий (предсказание последствий, результатов). Такие учебные результаты превосходят простое запоминание материала 3. Применение. Эта категория обозначает умение использовать изученный материал в конкретных условиях и новых ситуациях. Сюда входит применение правил, методов, понятий, законов, принципов, теорий. Соответствующие результаты обучения требуют более высокого уровня владения материалом, чем понимание 4. Анализ. Эта категория обозначает умение разбить материал на составляющие так, чтобы ясно выступала его структура. Сюда относятся вычленение частей целого, выявление взаимосвязей между ними, осознание принципов организации целого. Учебные результаты характеризуются при этом более высоким интеллектуальным уровнем, чем понимание и применение, поскольку требуют осознания как содержания учебного материала, так и его внутреннего строения Ученик знает употребляемые термины, конкретные факты, методы и процедуры, основные понятия, правила и принципы Ученик понимает факты, правила и принципы, интерпретирует словесный материал, схемы, графики, диаграммы, преобразует словесный материал в математические выражения, предположительно описывает будущие последствия, вытекающие из имеющихся данных Ученик использует понятия и принципы в новых ситуациях, применяет законы, теории в конкретных практических ситуациях, демонстрирует правильное применение метода или процедуры Ученик выделяет скрытые (неявные) предположения, видит ошибки и упущения в логике рассуждения, проводит различия между фактами и следствиями, оценивает значимость данных 108
Продолжение прил. 3.1 Основные категории учебных целей 5. Синтез. Эта категория обозначает умение комбинировать элементы, чтобы получить целое, обладающее новизной. Таким новым продуктом может быть сообщение (выступление, доклад), план действий или совокупность обобщенных связей (схемы для упорядочения имеющихся сведений). Соответствующие учебные результаты предполагают деятельность творческого характера с акцентом на создание новых схем и структур 6. Оценка. Эта категория обозначает умение оценивать значение того или иного материала (утверждения, художественного произведения, исследовательских данных) для конкретной цели. Суждения ученика должны основываться на четких критериях. Критерии могут быть как внутренними (структурными, логическими), так и внешними (соответствие намеченной цели). Критерии могут определяться самим учащимся или же задаваться ему извне (например, учителем). Данная категория предполагает достижение учебных результатов по всем предшествующим категориям плюс оценочные суждения, основанные на ясно очерченных Примеры обобщенных типов учебных целей Ученик пишет небольшое творческое сочинение, предлагает план проведения эксперимента, использует знания из разных областей, чтобы составить план решения той или иной проблемы Ученик оценивает логику построения материала в виде письменного текста, соответствие выводов имеющимся данным, значимость того или иного продукта деятельности, исходя из внутренних критериев, оценивает значимость того или иного продукта деятельности, исходя из внешних критериев Категории учебных целей в аффективной области 1 . Восприятие. Эта категория обозначает готовность и способность ученика воспринимать те или иные явления, поступающие из окружающего мира стимулы. С позиции учителя путь к достижению таких целей состоит в том, чтобы привлечь, удержать и направить внимание ученика. Входящие сюда субкатегории (1.1— осознание, 1.2 - - готовность или желание воспринимать и 1.3 — избирательное — произвольное - - внимание) образуют диапазон восхождения от пассивной позиции ученика до более активного (хотя на этом уровне еще не полностью осознанного, целенаправленного) отношения к содержанию обучения Ученик проявляет осознание важности учения, внимательно слушает высказывания окружающих в классе, в беседе и т.п., проявляет осознание эстетических факторов в одежде, интерьере, архитектуре, живописи, проявляет восприимчивость к проблемам и потребностям других людей, к проблемам общественной жизни
Продолжение прил. 3 1 Основные категории учебных целей 2. Реагирование (отклик). Эта категория означает активные проявления, исходящие от самого ученика На данном уровне он не просто воспринима ет, но и откликается на то или иное явление или внешний стимул, проявляет интерес к предмету, явлению или деятельности. Субкатегории: (2.1) подчиненный отклик; (2.2) добровольный отклик; (2.3) удовлетворение от реагирования 3. Усвоение ценностной ориентации. В эту категорию входят различные уровни усвоения ценностных ориентации — отношения к тем или иным объектам, явлениям или видам деятельности (3.1) принятие ценностной ориентации (в обиходе это соответствует понятию «мнение»); (3.2) предпочтение ценностной ориентации; (3.3) приверженность, убежденность 4. Организация ценностных ориентации. Эта категория охватывает осмысление и соединение различных ценностных ориентации, разрешение возможных противоречий между ними и формирование системы ценностей на основе наиболее значимых и устойчивых. Сюда входят две субкатегории: (4.1) концептуализация ценностной ориентации, т.е. осмысление своего отношения; (4.2) организация системы ценностей Примеры обобщенных типов учебных целей Ученик выполняет заданную учителем домашнюю работу, подчиняется внутришкольному распорядку и правилам поведения, участвует в обсуждении вопросов в классе, самостоятельно знакомится с освещением общественно-политических и международных проблем, добровольно вызывается выполнять задание, проявляет интерес к учеб- Ученик проявляет устойчивое желание, например, овладеть навыками фамотной устной и письменной речи, целенаправленно изучает различные точки зрения, с тем чтобы вынести собственное суждение, проявляет убежденность, отстаивая тот или иной идеал Ученик пытается, например, определить основные черты своего любимого произведения искусства, принимает на себя ответственность за свое поведение, понимает свои возможности и ограничения, строит жизненные планы в соответствии с осознаваемыми им самим собственными способностя ми, интересами и убеждениями 110
Окончание прил. 3.1 Основные категории учебных целей 5. Распространение ценностной ориентации или их комплекса на деятельность. Эта категория означает такой уровень усвоения ценностей, на котором они устойчиво определяют поведение индивида, входят в привычный образ действий, или жизненный стиль. Обобщенный характер ценностных ориентации и их соединение в целостное мировоззрение отражены в субкатегориях: (5.1) обобщенная установка и (5.2) полная интернали- зация (усвоение) или распространение ценностных ориентации на деятельность Примеры обобщенных типов учебных целей Ученик устойчиво проявляет самостоятельность в учебной работе, проявляет стремление к сотрудничеству в групповой деятельности, готовность к пересмотру своих суждений и изменению образа действий в свете убедительных аргументов, постоянно проявляет навыки личной гигиены и здорового образа жизни, формулирует устойчивое и последовательное жизненное кредо Приложение 3.2. Результаты экспертизы содержания заданий № задания № правильного ответа № требования (одного или нескольких) Уровень базовости (Б/П/С) Значимость содержания задания (0, 1, 2, 3) Ожидаемый процент выполнения испытуемыми с удовлетворительной подготовкой Ожидаемый процент выполнения испытуемыми выборки Ожидаемое время выполнения задания, мин. Неудачные задания Комментарии о качестве задания 1 2 3 • • •
4 ФОРМЫ ПРЕДТЕСТОВЫХ ЗАДАНИЙ 4.1. Обшие требования По принятой в отечественной и зарубежной научной литературе [2, 33,43, 53] классификации предтестовых заданий выделяют: 1) задания закрытой формы (с множественным выбором), в которых учащиеся выбирают правильный ответ из данного набора ответов; 2) задания на дополнение (открытые задания), требующие при выполнении от ученика самостоятельного получения ответов; 3) задания на установление соответствия (с множественным выбором), выполнение которых связано с выявлением соответствия между элементами двух множеств; 4) задания на установление правильной последовательности, в которых от учащегося требуется указать порядок действий или процессов, перечисленных педагогом. Предложенные четыре формы тестовых заданий являются основными и наиболее распространенными, но абсолютизировать их нет никаких оснований. Часто специфика содержания контролируемого предмета требует поиска новых лучших форм, отличающихся от перечисленных основных. При этом важно соблюдать некоторые общие требования, позволяющие выделить предтестовые задания в специальную категорию, и после определенной дополнительной работы со временем включить их в тест. Эти требования можно сформулировать кратко в виде следующих утверждений: • каждое предтестовое задание имеет свой порядковый номер, который может изменяться после объективной оценки трудности задания и выбора стратегии предъявления заданий теста; • каждое предтестовое задание имеет эталон правильного ответа; • в предтестовом задании все элементы располагаются на четко определенных местах, фиксированных в рамках выбранной формы; • предтестовые задания одной формы сопровождаются стандартной инструкцией, предваряющей формулировку заданий в тесте; 112
• для каждого задания разрабатывается правило выставления дихотомической или политомической оценки; • предтестовое задание должно быть достаточно кратким по форме предъявления и по времени выполнения, которое обычно не превышает 3—5 мин. Однако последнее требование не категорично. Иногда встречаются задания, требующие распространенного ответа, на создание которого у ученика уходит более 5 мин. Процесс тестовых измерений предельно стандартизируется, если: • ни одному ученику не дается никаких преимуществ перед другими; • заранее разработанная система подсчета баллов применяется ко всем ответам учеников без исключения; • в тест включены задания одной формы либо разных форм с соответствующими весовыми коэффициентами, значения которых получены статистическим путем; • тестирование различных групп испытуемых проводится в одинаковое время, в сходных условиях; • группа тестируемых выравнена по мотивации; • все испытуемые выполняют одни и те же задания. Последнее условие не исключает возможности списывания, подсказки и других нарушений, наиболее часто встречающихся при использовании заданий в закрытой форме. Как только номера правильных ответов к заданиям становятся известными ученикам, тест необходимо менять. Столь быстрая рассекречиваемость, несомненно, является серьезным недостатком, затрудняющим использование закрытой формы заданий при создании тестов. В целом выбор формы зависит от содержания контролируемого курса и от целей контроля. Несмотря на отдельные недостатки, при итоговом контроле предпочтение обычно отдается заданиям в закрытой форме, получившим наибольшее распространение в практике массового тестирования за рубежом. В отечественной научной и методической литературе иногда эти задания имеют другие не очень удачные названия, например «задания с выборочными ответами» или «задания с множественным выбором». Дело в том, что отраженная в названиях идея выбора зачастую провоцирует необоснованную критику со стороны противников педагогических тестов. При этом критики ошибочно отождествляют действия по выбору ответа с уровнем деятельности, необходимой при выполнении заданий теста, хотя подобное отождествление здесь, как правило, просто неуместно. Действительно, 113
во многих закрытых заданиях, если речь не идет о проверке фактологического материала, ученику для получения ответа приходится задействовать цепочку знаний и умений как на репродуктивном, так и на продуктивном уровне, а лишь затем выбрать путем узнавания правильный ответ. Закрытые задания имеют ряд достоинств, которые делают их наиболее привлекательными при проведении итогового контроля. Их основные преимущества связаны с быстротой тестирования, с простотой подсчета итоговых баллов учеников. С их помощью можно более полно охватить содержание проверяемой учебной дисциплины и, следовательно, повысить обоснованность итоговых оценок учеников. Среди действительных, а не надуманных недостатков заданий в закрытой форме обычно отмечают эффект угадывания, характерный для слабо подготовленных учеников при ответах на наиболее трудные задания теста. Хотя возможность угадывания действительно существует, тестологи с ним научились бороться, используя различные методы для нивелирования эффекта угадывания в закрытых заданиях теста. С этой целью иногда вводят специальные инструкции, ориентирующие испытуемых на пропуск незнакомого задания вместо ответа путем догадки. В других случаях добавляют определенные весовые коэффициенты при подсчете баллов слабых учеников [47] либо применяют специальную формулу для коррекции индивидуальных баллов с поправкой на догадку [43]. Последний метод и поясняющая его формула приводятся далее по мере рассмотрения закрытой формы заданий с различным числом ответов. Иногда в порядке критики подчеркивают отрицательную роль неправильных ответов, способствующих, по мнению некоторых противников тестового контроля, запоминанию ошибочной информации наиболее слабыми учениками тестируемой группы. С этой критической точкой зрения можно не соглашаться, считая ее в полной мере не обоснованной в том случае, когда закрытые задания используются при итоговом контроле. Но эта же точка зрения трактуется не столь однозначно, если задания в закрытой форме пытаются применять в повседневной практике контроля при реализации обучающей функции контроля или для выявления пробелов в знаниях учеников. Скорее всего, здесь необходимы дополнительные исследования, подкрепляющие позиции сторонников либо противников использования закрытых заданий в текущем контроле. Пока эти исследования не проведены, вопрос остается открытым. Нередко это обстоятельство провоцирует необоснованную критику педагогических тестов особенно со стороны тех педа- 114
гогов, которые отождествляют возможности закрытой формы, а порой именно ее недостатки, со всеми возможностями тестов. При этом критики как-то забывают о том, что помимо закрытой формы есть другие формы, в чем-то более, а в чем-то менее удачные с точки зрения выполнения задач контроля. Часто, например, при создании контрольно-обучающих программ предпочтение отдается открытой форме, позволяющей в полной мере реализовать обучающий потенциал тестовых заданий и повысить таким путем качество усвоения новых тем курса. Как бы то ни было, закрытая форма заданий используется наиболее широко, особенно в условиях массового аттестационного тестирования, когда необходимо привлечь эффективные компьютеризованные технологии для подсчета баллов учеников и принятия определенных решений по результатам выполнения теста. Несомненным достоинством закрытой формы является ее универсальность — содержание практически любой дисциплины поддается трансформации в задания с выборочными ответами. Несомненно, в целом достоинства явно перевешивают недостатки, и потому закрытой форме чаще всего отдается предпочтение при разработке тестов. В этой связи в пособии максимально детализированы все аспекты проблем, относящихся к закрытой форме пред- тестовых заданий. 4.2. Закрытая форма преатестовых заданий В заданиях закрытой формы можно выделить основную часть, содержащую постановку проблемы, и готовые ответы, сформулированные преподавателем. Среди ответов правильным обычно бывает только один, хотя не исключаются и другие варианты. Неправильные, но похожие на правильные и потому правдоподобные ответы называются дистракторами [53] Число дистракторов редко бывает больше пяти, хотя в отдельных случаях, когда есть такая необходимость, может достигать шести—семи. При разработке закрытых заданий число дистракторов часто стараются увеличить, чтобы уменьшить вероятность угадывания правильного ответа. Многие разработчики напрямую связывают тенденцию к увеличению числа ответов с повышением качества заданий теста. Вообще говоря, предположение такого рода хотя и очень распространено, не всегда бывает верным. Во-первых, случайный выбор правильною ответа — это последнее средство, к которому прибегает далеко не каждый слабый ученик, даже если он 115
наверняка не знает правильного ответа. Во-вторых, хотя большинство разработчиков считает, что чем больше дистракторов, тем лучше задание, это верно только до известного предела. В погоне за увеличением числа ответов к заданию нередко теряется чувство меры, и дистракторы формируются некорректно, без малейшей привлекательности даже для самых слабых испытуемых группы Причина появления тенденции к снижению качества заложена в тех трудностях, которые неизменно испытывает любой даже опытный разработчик при подборе правдоподобных неправильных ответов к заданиям теста. Если эти трудности становятся непреодолимыми, а число ответов к заданию строго регламентировано и довольно велико, то разработчик нередко включает неправдоподобные дистракторы, наносящие явный ущерб качеству заданий теста. В идеале каждый дистрактор должен в равной мере использоваться всеми испытуемыми, выбирающими неправильный ответ Очевидно, что по мере того, как дистракторы становятся неправдоподобными, они перестают выполнять свою функцию, и наделе получается задание не с гипотетическим, а с реальным меньшим числом ответов. Дистрактор, который никто не выбирает в качестве правильного ответа, обычно называют неработающим. Если в задании имеется хотя бы один неработающий дистрактор, то для улучшения задания его необходимо удалить. Удаление позволит выявить не формальное, а реальное число ответов к заданию теста. В самом плохом случае, когда все дистракторы в задании не работают, все испытуемые выполнят даже очень трудное задание верно, выбрав единственный правдоподобный, правильный ответ. Тогда можно считать, что задание полностью не состоялось, и начинать работу сначала, с формулировки новых неправильных ответов. Как правило, преподавателю бывает трудно придумать правдоподобные неправильные ответы, и потому к процессу создания дистракторов нередко стараются привлечь учеников. Один из методов получения правдоподобных дистракторов — предъявление ученикам неоконченного списка вариантов выбора и последующее использование неправильных ответов, предложенных ученикам. Другой метод — предъявление группе испытуемых заданий в открытой форме и последующий анализ типичных ошибок учеников в составленных ими ответах. В последнем случае в работе над заданием в закрытой форме можно выделить следующие этапы: написание задания в открытой форме, экспериментальная проверка задания в нескольких клас- 116
сах в целях получения достаточного количества различных ответов учеников, анализ ответов и выделение типичных ошибок учеников, подбор дистракторов из числа выделенных типичных ошибок. В процессе анализа ошибок при отборе дистракторов разработчик должен проявить особую осторожность, так как наибольшую опасность представляют неправильные ответы, вводящие в заблуждение лучших, знающих учеников. Именно отсюда и появляются невалидные задания с инвертированными профилями ответов (см. разд. 2.3), в которых слабые ученики добиваются успеха, а сильные выбирают в качестве правильного не запланированный автором задания ответ. Таким образом, тестовое задание считается «хорошо работающим», если знающие ученики выполняют его правильно, а незнающие выбирают любой из ответов с равной вероятностью. В первую очередь это обеспечивается ясностью формулировок основной части задания, хотя не менее важна одинаковая правдоподобность дистракторов, которые должны быть равновероятно привлекательны для слабых учеников. Мера привлекательности оценивается после первой эмпирической проверки на любой репрезентативной выборке с помощью подсчета долей учеников, выбравших каждый из дистракторов в качестве правильного ответа. Например, если задание с четырьмя ди- стракторами и одним правильным ответом выполняли 25 учеников и 12 из них ответили на него неверно, то каждый из четырех дистракторов в качестве правильного ответа должны выбрать 3 ученика. Соответственно доля учащихся для каждого дистрактора будет 3/12, или 0,25. В этом случае все неправильные ответы к заданию равновероятно правдоподобны и, следовательно, сформулированы удачно. Конечно, точное равенство долей является определенной идеализацией, практически недостижимой при эмпирической проверке, но тем не менее, создавая задания, к этому равенству нужно стремиться. При существенном смещении одной из долей в сторону уменьшения или увеличения задание теста подлежит переработке. Возвращаясь к прежней теме обсуждения, хотелось бы отметить еще один негативный момент, связанный с излишним увеличением числа ответов к заданиям теста. Даже если дистракторы достаточно краткие, рост их числа сверх всякой меры неизбежно приведет к громоздкости заданий теста. В результате учащимся потребуется значительно больше времени для выполнения тех же заданий. Если время тестирования строго фиксировано, преподавателю придется уменьшить объем контролируемого материала, что, без сомнения, 117
негативно отразится на обоснованности оценок учеников по результатам выполнения теста. В этой связи напрашивается вывод: стойкая тенденция к увеличению числа дистракторов не всегда оправданна. К тому же при выполнении фомоздких заданий ухудшаются мотивация и внимание у тестируемых, что при прочих равных условиях отрицательно отражается на качестве оценок учеников. Говорить об оптимальном числе дистракторов не представляется возможным, так как оно зависит от различных условий и целей создания теста. Конечно, здесь важны талант и опыт разработчика, его умение подбирать дистракторы к заданиям теста. В общем случае задания с четырьмя—пятью дистракторами создавать гораздо труднее, чем с одним или двумя. Однако последние, помимо несомненных достоинств, состоящих в краткости формулировок и быстроте выполнения, обладают и существенным недостатком — высокой вероятностью угадывания правильного ответа, затрудняющей объективную оценку знаний учеников при выполнении теста. Поэтому задания с двумя ответами, один из которых дис- трактор, обычно используют для экспресс-диагностики, например в автоматизированных контрольно-обучающих профаммах для входа в обучающий модуль при адаптивном тестировании или для самоконтроля, когда испытуемому необходимо оперативно выявить пробелы в собственных знаниях по определенным разделам курса. В сфере итогового контроля задания с двумя и тремя ответами малоэффективны, и потому их никогда не включают в итоговые тесты. Если тестирование проводится с помощью бланков, то задания закрытой формы с одним правильным ответом сопровождаются инструкцией: ОБВЕДИТЕ НОМЕР (БУКВУ) ПРАВИЛЬНОГО ОТВЕТА При компьютерной выдаче заданий инструкция может иметь вид: для ответа нажмите клавишу с номером (буквой) правильного ответа Требования к заданиям в закрытой форме Дистракторы и основная часть заданий должны удовлетворять ряду требований, позволяющих правильно подойти к формулированию заданий теста. Часть требований носит достаточно общий характер и подходит для заданий всех форм, другая — крайне 118
специфична и годится только для заданий закрытой формы. В случае разработки предтестовых заданий с одним правильным ответом в отечественной и иностранной литературе [33,53] к таким требованиям обычно относят следующие: 1) в тексте задания должна быть устранена всякая двусмысленность или неясность формулировок; 2) основная часть задания формулируется предельно кратко, как правило, не более одного предложения из семи-восьми слов; 3) задание имеет предельно простую синтаксическую конструкцию, в основной текст задания вводится не более одного придаточного предложения; 4) в основную часть задания следует включать как можно больше слов, оставляя для ответа не более двух-трех наиболее важных, ключевых слов для данной проблемы; 5) все ответы к одному заданию должны быть приблизительно одной длины либо правильный ответ может быть короче других, но не во всех заданиях теста; 6) из текста задания необходимо исключить все вербальные ассоциации, способствующие выбору правильного ответа с помощью догадки; 7) частота выбора одного и того же номера места для правильного ответа в различных заданиях теста должна быть примерно одинакова либо номер места для правильного ответа выбирается в случайном порядке; 8) основная часть задания освобождается от всякого иррелеван- тного для данной проблемы материала; 9) из ответов обязательно исключаются все повторяющиеся слова путем ввода их в основной текст заданий; 10) в ответах не рекомендуется использовать слова «все», «ни одного», «никогда», «всегда» и т. п., так как в отдельных случаях они способствуют угадыванию правильного ответа; 11) из числа неправильных исключаются ответы, вытекающие один из другого; 12) при формулировке дистракторов не рекомендуется использовать выражения «ни один из перечисленных», «все перечисленные» и т.п., так как они способствуют угадыванию правильного ответа; 13) из числа тестовых исключаются задания, содержащие оценочные суждения и мнения ученика по какому-либо вопросу; 14) все дистракторы к каждому заданию должны быть равновероятно привлекательными для испытуемых, не знающих правильного ответа; 119
15) ни один из дистракторов не должен являться частично правильным ответом, превращающимся при определенных дополнительных условиях в правильный ответ; 16) основная часть задания формулируется в форме утверждения, которое обращается в истинное или ложное высказывание после подстановки одного из ответов; 17) ответ на одно задание не должен служить ключом к правильным ответам на другие задания теста, т.е. не следует использовать дистракторы из одного задания в качестве ответов к другим заданиям теста; 18) если задание имеет среди прочих альтернативные ответы, не следует сразу после правильного приводить альтернативный ответ, так как внимание отвечающего обычно сосредоточивается только на этих двух ответах; 19) все ответы должны быть параллельными по конструкции и грамматически согласованными с основной частью задания теста. Выполнить все эти требования для начинающего разработчика трудно, а иногда и попросту невозможно. Правда, часть требований носит рекомендательный характер, что несколько облегчает ситуацию с анализом отдельных недостатков формы. Например, вряд ли тест не удастся, если будет задействовано не семь—восемь, а десять, двенадцать или даже больше слов в формулировках основной части заданий либо задания будут сформулированы в виде вопроса. Другая часть требований обязательна к выполнению. Тест явно не годится, если в заданиях есть неработающие дистракторы либо в формулировках присутствуют скользкие места, порождающие при чтении двусмысленность. Конечно, здесь многое зависит от специфики контролируемого содержания. Математические упражнения — наиболее подходящий объект для разработки заданий теста, так как правильность ответа обычно не вызывает никаких сомнений или разночтений. Гораздо сложнее обстоит дело, например, с историей, где зачастую появляются ответы, вызывающие сомнения в правильности, а также явно неправдоподобные дистракторы. Задания с двумя ответами Проще всего подбирать дистракторы в заданиях с двумя ответами посредством отрицания того, что является верным, хогя и здесь есть свои проблемы. Довольно трудно сформулировать утверждения, на которые можно дать недвусмысленный ответ типа «да» или «нет». Например, в задании 120
Задание 1 Квадратное уравнение с отрицательным дискриминантом не имеет действительных корней а) да б) нет могут появиться двусмысленные ответы: «да» (не имеет), «нет» (у него нет действительных корней). Чаще всего для подобных заданий характерен несостоятельный профиль ответов, так как именно наиболее сообразительные испытуемые увидят противоречия или логические несообразности в формулировках и могут пропустить задания либо дать не запланированный автором задания ответ. В этой связи в ответах к заданиям закрытой формы с одним ди- страктором рекомендуется избегать слов «да/нет» или «верно/неверно». Лучше отдавать предпочтение содержательным ответам. Следуя рекомендации, приведенное выше задание можно изменить следующим образом: Задание 2 Квадратное уравнение с отрицательным дискриминантом действительные корни а) имеет б) не имеет Конечно, это делать не всегда необходимо, а иногда не так-то просто и даже опасно, поскольку без участия преподавателя-предметника можно нарушить смысл формулировок и внести непредвиденные изменения в содержание заданий теста. Задание 3 Верно ли утверждение, что современная окружающая среда возникла под влиянием антропогенного воздействия? а) да б) нет Задание 4 Функция 2л:2 имеет обратную? а) да б) нет Например, из заданий 3 и 4 легко переделывается только задание 4, которое в измененной форме примет вид: 121
Задание 5 Функция 2хг обратную а) имеет б) не имеет Аналогичным образом можно сформулировать содержательные ответы в следующих заданиях: Задание 6 Если вычитаемое увеличили на 12 единиц, а разность также увеличилась на 15 единиц, то уменьшаемое а) увеличилось б) уменьшилось Задание 7 Уравнение л/х-1 + VI-* = 1 действительные корни а) имеет б) не имеет Задание 8 Ядра изотопов имеют разное число 1) протонов 2)нейтронов Задание 9 Слова, противоположные по значению, называют 1) антонимами 2) синонимами Задание 10 Скорость химической реакции с увеличением температуры 1) увеличивается 2) уменьшается Наиболее удачными можно считать задания, выполнение которых, помимо традиционного длинного пути, предполагает возможность довольно быстрого (3—4 с) ответа. Разумеется, такой ответ сможет дать только учащийся, обладающий четкой структурой знаний и твердыми навыками по выполнению заданий проверяемого раздела. Слабо подготовленные ученики пойдут по традиционному пути и истратят на задание не 3—4 с, а 30 или 40. Например, в задании 122
Задание 11 Экстремум функции у = — х2 + 1 1) положителен 2) отрицателен для выбора правильного ответа можно находить производную, определять точку экстремума и затем вычислять экстремум функции. Хорошо подготовленному учащемуся достаточно нескольких секунд для того, чтобы представить график квадратичной функции и выбрать без всяких вычислений правильный ответ. Коррекция на аогааку тестовых баллов (зааания с двумя ответами) При подсчете результатов выполнения заданий испытуемыми обычно выбирают дихотомическую оценку. За правильное выполнение задания испытуемый получает один балл, а за неправильный ответ или пропуск — нуль. Суммирование всех единиц позволяет вычислить индивидуальный балл испытуемого, который в случае дихотомической оценки просто равен количеству правильно выполненных заданий в тесте. Если тест состоит из заданий с двумя ответами, то индивидуальные баллы испытуемых будут существенно искажены эффектом случайного угадывания ответов. Поэтому индивидуальные баллы необходимо скорректировать с поправкой на догадку. При выполнении заданий с двумя ответами коррекция баллов осуществляется довольно просто. Для каждого испытуемого вычисляется разность между числом правильно и неправильно выполненных им заданий теста. Например, если в тесте из 60 заданий испытуемый выполнил правильно 50, а неправильно — 10, то скорректированный балл будет 50 — 10 = 40. Для более слабого ученика, выполнившего правильно всего 30 заданий из 60, балл после коррекции станет равен 30 — 30 = 0. Таким образом, балл сильного ученика уменьшился в результате коррекции весьма незначительно, всего на 10 единиц. Совсем иначе обстоит дело с баллом того, кто выполнил правильно всего половину заданий теста. После коррекции он получит нуль баллов, так как в половине заданий он вполне мог угадать правильный ответ. Для теста из заданий с двумя ответами формулу коррекции индивидуальных баллов можно записать в виде [23] 123
где / — номер любого испытуемого группы; Х- — скорректированный балл /-го испытуемого; Х1 — тестовый балл до коррекции; \У1 — число неправильно выполненных или пропущенных заданий теста, а сумма X. + Неравна п — числу заданий в тесте: I I Формула коррекции обладает определенными недостатками, снижающими точность тестовых измерений. Это связано с тем, что в основу ее построения положен ряд довольно искусственных предположений, нередко не согласующихся с практикой выполнения теста. В частности, далеко не в полной мере выполняется предположение отом, что все неправильные ответы являются следствием случайного угадывания. Без сомнения, в практике контроля часть неправильных ответов основывается на ошибочном выполнении заданий теста. Столь же условно и предположение об одинаковой вероятности выбора каждого ответа задания теста. Вполне понятно, что с точки зрения привлекательности все ответы разные, и потому разной должна быть вероятность их выбора, если попытаться отразить реальную ситуацию выполнения теста. Правда, ряд специалистов в сфере разработки тестов полагает, что угадыванием можно пренебречь, если тест имеет достаточно большое количе ство заданий. Другой путь снижения эффекта угадывания — увеличение числа ответов к заданиям теста. Достоинства формулы коррекции связаны с явно выраженной в ней возможностью педагогической интерпретации разности между числом правильных и неправильных ответов. Анализ значений этой разности для слабых и сильных испытуемых показывает определенную закономерность. Для хороших учеников, получивших в процессе тестирования высокие индивидуальные баллы, число вычитаемых на догадку баллов уменьшается, для слабых, с низкими индивидуальными баллами, наоборот, увеличивается. Эта закономерность вполне согласуется с педагогической логикой: коррекция нужна в основном для тех, кто не знает и идет по этой причине к правильному ответу путем догадки. Задания с тремя ответами Для снижения вероятности угадывания правильного ответа слабыми испытуемыми число ответов стараются увеличить хотя бы до трех. Ниже приводится ряд заданий, достаточно удачных с точки зрения требований формы с тремя ответами, из которых необходимо выбрать один правильный. 124
Задание 12 Нервный импульс — это направленное движение 1) электронов 2) ионов 3) незаряженных частиц Задание 13 Импульс, поступающий по блуждающему нерву 1) учащает работу сердца 2) замедляет работу сердца 3) не влияет на деятельность сердца Задание 14 Высокие темпы урбанизации в Латинской Америке связаны с а) быстрым экономическим ростом б) усилением роли крупных городов в) массовой миграцией населения из деревень в города Задание 15 При условии экономического развития Эфиопии естественный прирост населения в ней а) повысится б) понизится в) останется без изменений Задание 16 Бледная окраска листьев, связанная с тем, что они покрыты густым слоем волосков, чешуек, воска, служит для а) отражения солнечной радиации и уменьшения испарения б) уменьшения фотосинтеза в) защиты от вредных насекомых Возможно, хотя и нежелательно, расположение ответов в строчку. Задание 17 Клубни картофеля образуются на концах 1) боковых корней 2) придаточных корней 3) подземных побе ЮВ Как правило, задания с тремя ответами появляются вследствие удаления неработающих дистракторов, поскольку в профессионально разработанном тесте нет места дистракторам, которые не 125
выбираются никем. Сами же разработчики к заданиям с тремя ответами обычно не стремятся, потому что в целом они довольно неудачны. Они недостаточно кратки, и вместе с тем в них высока вероятность угадывания правильного ответа. Коррекция на аогааку тестовых баллов (задания с тремя ответами) Формула коррекции индивидуальных баллов, полученных при выполнении заданий с тремя ответами, имеет вид [43] V/. где все обозначения прежние. Если первый, хорошо подготовленный испытуемый из 60 заданий теста выполнил 50, а второй, более слабый, — только 30, то их скорректированные баллы будут Хх =50-— = 45, Хх =30-—= 15. 1 2 ' 2 Также как и ранее, в случае коррекции баллов испытуемых при ответах на задания с двумя ответами, здесь намечается определенная закономерность: чем выше индивидуальный балл, тем меньше из него вычитается при коррекции на догадку. По этой причине баллы тех, кто знает, коррекция не уменьшает каким-либо заметным образом. Эта особенность имеет еще одно важное следствие, связанное с увеличением эффекта дифференциации испытуемых по результатам выполнения теста. Высказанное утверждение легко пояснить данными из приведенного ранее примера. Если разность нескорректированных баллов первого и второго испытуемых была равна 50 — -30 = 20, то разность скорректированных баллов станет45 — 15 = 30. В отличие от предыдущей формулы, где из числа правильных просто вычиталось число неправильных ответов, здесь число неправильных ответов делится на два. Соответственно меньше вычитается из индивидуального балла. Эта особенность формулы вполне согласуется с педагогической логикой: чем больше ответов предъявляется в задании, тем труднее угадать тем, кто не знает правильного ответа. Находящееся в знаменателе формулы коррекции число 2 указывает на количество дистракторов, уменьшенное на единицу. Таким образом, приведенная формула годится только для случая, ког- 126
да из трех ответов один правильный, а два — неправильных, выполняющих функции дистракторов в каждом задании теста. Задания с четырьмя и пятью ответами Как правило, число дистракторов к заданию стараются увеличить, но только до разумных пределов. Подобрать к заданию более четырех или пяти правдоподобных дистракторов обычно довольно трудно. К тому же задания с шестью и более ответами, за редким исключением, становятся излишне громоздкими. Поэтому далеко не случайно в большинстве тестов встречаются задания с четырь- мя-пятью ответами. Далее приводится ряд примеров таких заданий по некоторым дисциплинам. Задание 18 Кадеты считали главным методом решения основных проблем России 1) революционное восстание масс 2) политический террор 3) тактику давления на правительство через представительные органы, парламент 4) всеобщую политическую стачку Задание 19 При захвате нейтрона ядром образуется радиоактивный изотоп. При этом ядерном превращении испускается 1) нейтрон 2) ос-частица 3)электрон 4)протон 5) позитрон Задание 20 Кожное дыхание преобладает у 1) человека разумного 2) ящерицы прыткой 3) воробья домового 4) озерной лягушки Задание 21 Основная часть международной торговли осуществляется с помощью транспорта 127
1) железнодорожного 2) автомобильного 3)авиационного 4) морского Задание 22 Голосеменные растения существуют в форме 1) деревьев и кустарников 2) только деревьев 3) деревьев, кустарников и трав 4) деревьев и трав 5) только кустарников Задание 23 В группе развивающихся стран к ключевым относятся 1) Корея, Тайвань, Гонконг 2) Бангладеш, Мали, Гаити 3) Катар, Бахрейн, Саудовская Аравия 4) Индия, Бразилия, Мексика Задание 24 Древние люди не могли охотиться на 1) мамонта 2) морскую корову 3) эластомерия 4) иностранцевия 5) глиптодонта Задание 25 Какие компоненты входят в средства обучения 1) содержание, формы, методы 2) цель, содержание, результат 3) формы, методы, результат 4) цель, содержание, формы Особенностью последнего задания является сочетание в дист- ракторах правильных и неправильных элементов. Это удачный прием, который позволяет повысить привлекательность дистракторов за счет включения в их состав одного или нескольких элементов из правильного ответа. Иногда удобно использовать в ответах сочетание не трех, а всего двух элементов. Это способствует повышению краткости ответов. Задание в целом становится менее громоздким, что очень важ 128
но при дефиците времени, отводимого на выполнение теста. Сочетание двух элементов используется при подборе ответов к заданиям 26-29. Задание 26 Основными признаками понятия «международное географическое разделение труда» являются 1) специализация и концентрация 2) концентрация и кооперирование 3)кооперирование и обмен 4) обмен и специализация Задание 27 В рельефе европейской части России преобладают 1) горы и низменности 2) низменности и возвышенности 3) возвышенности и плоскогорья 4) плоскогорья и горы Задание 28 В основе высшей нервной деятельности лежат процессы 1) возбуждения и торможения 2) возбуждения и ощущения 3) ощущения и торможения 4) восприятия и отражения Задание 29 Преимущественно снеговое питание имеют реки 1) Амазонка и Конго 2) Амударья и Сырдарья 3) Янцзы и Хуанхэ 4) Енисей и Лена Другой достаточно удачный прием повышения правдоподобности дистракторов строится на сочетании двух альтернативных оснований выбора ответов. В приводимом далее примере задания используется сочетание двух противопоставлений: «зависимо — независимо» и «смешиваются — не смешиваются». Задание 30. Гены наследуются а) независимо друг от друга и не смешиваются у потомков 5 Челышкова М Б. 129
б) зависимо друг от друга и не смешиваются у потомков в) независимо друг от друга, но смешиваются у потомков г) зависимо друг от друга и смешиваются у потомков Аналогично построено задание: Задание 31 Для развитых стран характерны 1) низкая рождаемость и низкая смертность 2) высокая рождаемость и низкая смертность 3) высокая рождаемость и высокая смертность 4) низкая рождаемость и высокая смертность Обычно такие задания интересны и трудны. Их в состоянии выполнить только те испытуемые, которые обладают хорошими и прочными знаниями. Казалось бы, довольно привлекательно идти по пути увеличения числа объединяемых альтернатив в ответах, что сделает задание более интересным и трудным. Однако при этом важно соблюдать меру и не допускать, чтобы это число было более двух или трех, в противном случае ответы станут излишне громоздкими, на их чтение и сопоставление будет уходить слишком много времени. В большинстве приведенных примеров проскальзывает одна и та же тенденция — содержательная основа задания сформулирована в виде утверждения так, что предлагаемые к выбору ответы как бы замыкают задания, образуя завершенное истинное или ложное высказывание. Иногда встречаются случаи, когда ответы приходится ставить в середине или за одно—два слова от конца содержательной основы задания теста. Тогда можно использовать такой вариант Задание 32 Невская битва произошла в... году а) 1198 6)1240 в) 1242 г) 1245 или Задание 33 Теоретики КПСС сделали вывод о полной и окончательной победе социализма в СССР на... съезде КПСС а) XX б) XXI в) XXII г) XXIII 130
Конечно, лучше, когда пропуск на месте для ответа расположен ближе к концу. Так задания легче понимаются, и на их выполнение уходит меньше времени, поскольку ответ созревает у ученика по мере чтения содержательной основы. Правда, это не всегда возможно, как, например, в задании на проверку знаний по английскому языку, где особенности языка не позволяют сместить пропуск к концу предложения. Задание 34 ... §1ас1ег8 оГШе отогМ оссиру аЬои( 10 регсепС оНИе (о(а11апй агеа. А) А81Ье В)ТЬе С) к 18 Ше Э) ТЬеге аге Когда ответы к заданиям указывают на устойчивое нарастание или снижение какого-либо качества или свойства, то их лучше упорядочить. При поиске правильного ответа для испытуемых это удобнее. Примеры упорядочения ответов можно наблюдать в заданиях 35-39. Задание 35 - \х2+у = 5 и <^ Число решений системы уравнений < равно х+у2 =3 1) двум 2)трем 3) четырем Задание 36 Для появления меню N0 необходимо нажать функциональную клавишу 1)Р1 2)Р2 3)Р9 4)Р10 Задание 37 Шатровые покрытия применялись в русском зодчестве в... веках 1) Х1У-ХУН 2) ХУ-ХУИ 3) ХУ1-ХУ1Н 4) ХУИ-ХУ1И 5* 131
Задание 38 Каким числом необходимо ограничить цикл НЦ для Ъ := 1 до<...> 2:=2+1 КЦ 4:=2+1, чтобы X равнялось 10? а) 7 6)8 в) 9 г) 10 Задание 39 Из 64 дивизионных комиссаров Красной Армии в 1930 г. было репрессировано а) 24 6)37 в) 58 г) 62 При подборе заданий из банка в тест приходится обращать внимание не только на форму, но и на содержание. Возможны случаи, когда ответ на одно задание служит своеобразной подсказкой для выполнения другого задания теста. Как, например, в случае: Задание 40 Свойством алгоритма не является 1) дискретность 2) массовость 3) результативность 4) цикличность Задание 41 Не является свойством алгоритма 1) дискретность 2) понятность 3) дистрибутивность 4) результативность Очевидно, что оба эти задания из-за особенностей содержания не могут быть расположены в одном тесте. Они интересны тем, что имеют одинаковые содержательные основы и частично пересекающиеся множества ответов. При выполнении задания 40 знающий 132
ученик выберет правильный ответ, отметив попутно для себя, что два ответа принадлежат обоим заданиям теста. Поэтому при выполнении задания 41 ученик будет выбирать уже не из четырех, а только из двух ответов. Еще меньше оснований для размещения в одном тесте, к примеру, двух таких заданий: Задание 42 О каком городе писал Пушкин в стихах «Люблю тебя, Петра творенье, Люблю твой строгий, стройный вид, Невы державное теченье, Береговой ее гранит...» а) Москва б) Тверь в) Санкт-Петербург Задание 43 Многие русские поэты писали о Санкт-Петербурге. Кому принадлежат строки «Люблю тебя, Петра творенье, Люблю твой строгий, стройный вид, Невы державное теченье, Береговой ее гранит...» а) Пастернак б) Пушкин в) Ахматова г) Есенин Вполне очевидно, что правильный ответ на последнее задание вытекает из предыдущего, содержащего явную подсказку. Возможно, многим покажется, что приведенные примеры несколько утрируют ситуацию. Однако это сделано не случайно, а из дидактических соображений, чтобы яснее стали ошибки, допускаемые авторами в процессе разработки теста. Конечно, каждое из заданий 42 и 43 само по себе достаточно удачно, но размещать их следует не в одном, а в разных вариантах теста. Фасетные задания в тесте Идея многовариантности близка и понятна любому педагогу. Даже в условиях хорошо организованного процесса применения 133
тестов один вариант даст смещение оценки учеников из-за списывания, подсказок и других подобных нежелательных эффектов. К тому же единственный вариант легко рассекречивается. Как только тест выдается классу, часть правильных ответов становится известной ученикам, и потому задания приходится менять при очередном использовании теста. Одним из методов преодоления отмеченных проблем является разработка фасетных заданий. В ряде зарубежных работ под фасетом понимается форма, обеспечивающая представление нескольких вариантов одного и того же элемента содержания теста [51, 53]. Фасетные задания можно использовать как в закрытой, так и в открытой форме. Каждый испытуемый получает из фасета только один вариант задания. При этом все испытуемые группы выполняют однотипные задания, но с разными элементами фасета и соответственно с разными ответами. Таким образом решаются одновременно две задачи: устраняется возможность списывания и обеспечивается параллельность вариантов тестов, предлагаемых различным ученикам. Например, в приведенном далее фасетном задании Задание 44 {Москвы 1 Санкт - Петербурга] носятся 1) Павловск, Ораниенбаум 2) Архангельское, Царицыно 3) Петергоф, Гатчина 4) Царское село, Стрельна содержатся два варианта: Задание 45 К дворцовым комплексам окрестностей Москвы относятся 1) Павловск, Ораниенбаум 2) Архангельское, Царицыно 3) Петергоф, Гатчина 4) Царское село, Стрельна Задание 46 К дворцовым комплексам окрестностей Санкт-Петербурга относятся 134
1) Павловск, Ораниенбаум 2) Архангельское, Царицыно 3) Петергоф, Гатчина 4) Царское село, Стрельна В других фасетных заданиях заложена возможность получения целого ряда «параллельных» по содержанию и по форме заданий теста. Задание 47 Автор знаменитых картин Явление Христа народу Демон а) Репин б) Рублев в) Иванов г) Врубель Задание 48 По проекту архитектора Баженова был построен 1) дом Пашкова в Москве 2) Московский университет 3) Зимний дворец в Петербурге 4) Собор Петропавловской крепости Особенно легко и удобно создавать фасетные задания по естественному циклу дисциплин путем введения параметров в задания теста. Например, если нужно проверить умение решать квадратные уравнения, то, выбирая различные значения параметров — коэффициентов уравнения, можно получить множество вариантов фасета. Например, выбирая различные значения параметров а, Ь, с, обеспечивающие неотрицательность дискриминанта квадратного уравнения в задании, Задание 49 Корни квадратного уравнения {а}х2 + {Ь}х + {с} = 0 принадлежат интервалу 1)... 2)... 3)... и добавляя соответствующие ответы, можно разработать множество заданий для различных вариантов теста. 135
При этом все ученики выполняют однотипные задания, но с различными коэффициентами, что отчасти устраняет возможность списывания, подсказки и других нарушений. Одному ученику попадается уравнение х2 + 2х — 3 = 0 (а = 1, Ь = = 2, с- —3), другому х2 + 5х + 6 = 0 и т. д. Однако и здесь есть определенные осложнения, так как такого рода уравнения могут быть далеко не равноценными по трудности, поскольку гораздо удобнее делать вычисления при малых значениях коэффициентов, чем при больших. Поэтому говорить о полном устранении всех проблем разработки многовариантных тестов с помощью фасета, конечно, нельзя. Многие осложнения вполне преодолимы благодаря специальным методам, разрабатываемым для выравнивания результатов выполнения параллельных вариантов теста [47]. Коррекция тестовых баллов с поправкой на аогааку (залания с четырьмя и пятью ответами) Формула коррекции на возможную догадку для индивидуальных баллов, полученных в результате выполнения заданий с четырьмя ответами, из которых один верный, имеет вид [43] где все обозначения прежние. Для рассмотренного ранее примера выполнения заданий с тремя ответами Х-г- 50 и Ю^.= 10. Скорректированный балл, полученный учеником при правильном выполнении 50 из 60 заданий теста с четырьмя ответами, будет Х\ = 50 - — = 50 - 3,3 = 46,7 3 или округленно 47 баллов. Сопоставление с результатами коррекции для случая заданий с двумя и тремя ответами показывает, что испытуемому засчитывается 47 баллов из 50 правильных ответов, в то время как ранее засчитывалось 40 баллов (задание с двумя ответами) и 45 баллов (с тремя). Для заданий с пятью ответами коррекция будет еще меньше. В этом случае X, = Хг —, 136
а для рассматриваемого примера Х',= 50-— = 50-2,5-48 баллов. 4 Таким образом, с увеличением количества дистракторов к заданию число вычитаемых баллов уменьшается, что вполне естественно, так как чем больше дистракторов, тем труднее угадать правильный ответ. Следовательно, в заданиях с большим количеством дистракторов на первый план при выборе правильного ответа выходят знания, а не догадка. В целом же можно отметить, что формула коррекции индивидуальных баллов имеет довольно ограниченную сферу применения. Это связано с теми дополнительными трудностями, которые привносятся в процесс обработки скорректированных результатов тестирования, когда они после коррекции переносятся на область отрицательных и дробных чисел. Действительно, если учащийся выполнил лишь незначительное количество заданий, то после коррекции его балл может стать отрицательным числом. Например, если Х{= 10, а всего в тесте 60 заданий с 5 ответами, то после коррекции А"/ = 10-— = 10-12,5 = -2,5. 4 В этом случае приходится применять дополнительные преобразования скорректированных баллов, чтобы перевести их на область положительных целых чисел. Правда, как уже отмечалось ранее, коррекция нужна не всегда. Если в инструкции для испытуемых содержалось требование не угадывать ответы к заданиям и переходить в случае затруднений к выполнению других заданий теста, то эффектом угадывания можно пренебречь. Хотя следует помнить, что далеко не все ученики при затруднениях поступят согласно требованиям инструкции, поэтому без коррекции результаты отдельных слабых учащихся будут явно завышены. Задания с выбором нескольких правильных ответов Иногда важно учесть ситуацию, когда планируется несколько правильных ответов к одному и тому же заданию теста. Обычно эти задания используются в текущем тестовом контроле для проверки классификационных и фактуальных знаний, хотя встречаются слу- 137
чаи, когда специфика содержания дисциплины вынуждает включать их в итоговые тесты. В последнем случае эти задания должны быть выделены в отдельную группу, так как они сопровождаются специальной инструкцией, подчеркивающей необходимость выбора всех правильных ответов. Обычно эта инструкция имеет вид: ОБВЕДИТЕ НОМЕРА ВСЕХ ПРАВИЛЬНЫХ ОТВЕТОВ Например, несколько правильных ответов требуется выбрать в следующих заданиях: Задание 50 Удвоенная согласная пишется в словах 1) илюстрированный 2) жу_жание 3) режисерский 4) количестве_ный Задание 51 Буква «о» пишется в словах 1) пл_вец 2) пок_рить вершину 3) распол_гать 4) оснщенный 5) ум_лять значение Задание 52 Отметьте номера предложений, где слова, набранные курсивом, выделяются запятыми 1) В таких ситуациях следует поступать исходя из здравого смысла 2) В окно весело играя заглядывал солнечный луч 3) И день и ночь по снеговой пустыне спешу к вам голову сломя. 4) Отвернувшись он стал смотреть на другой берег 5) Князь говорил мне, что он тоже будет работать и что заработав денег мы поплывем до Батума Задание 53 В XVII веке Россия неоднократно воевала с 1) Османской империей 2) Польшей 3) Персией 4) Францией 5) Швецией 138
Задание 54 В 1848—1849 гг. революционными событиями были охвачены 1) Пруссия 2) Франция 3) Россия 4) Австрия 5) США Несмотря на то, что в тесте рекомендуется делать задания с одинаковым числом ответов, включая и правильные, если их несколько, у педагога-практика может возникнуть вполне обоснованный вопрос: а стоит ли добиваться одинакового числа правильных ответов на все задания теста? По-видимому, ответ на него далеко не столь однозначно положительный, как хотелось бы специалистам в области педагогических измерений. С точки зрения педагога, разное количество ответов является несомненным достоинством заданий, поскольку в них ученик должен не только найти правильные ответы, но и сам определить их число. Это последнее обстоятельство затрудняет выполнение заданий, делает их более интересными и привлекательными в глазах педагогов. Наметившееся противоречие между требованиями тестологов и потребностями практики легко снять, если соотнести задачу разработки заданий с целями создания теста. При разработке тестов для текущего контроля, активизирующего обучение, без сомнения, задания с различным числом правильных ответов нужны и важны. В тестах для итогового контроля, где на первый план выходят объективность оценок, их точность и сопоставимость, желательно создавать задания с одним и тем же числом правильных ответов. Конечно, на практике встречаются всякие отступления от этих рекомендаций. Но все же не стоит применять задания с несколькими правильными ответами там, где требуется высокая точность оценок, например в массовом аттестационном тестировании. Если эти рекомендации нарушаются, то возникают технологические трудности. Так как ответы испытуемых могут оказаться правильными и неправильными в различной степени, то требуется разработка дополнительных и усложненных правил оценки результатов, в то время как хорошо отработанная технология аттестационного тестирования предполагает четкую и быструю различимость правильного и неправильного ответов. Обычно при одновременном включении в тест заданий на выбор одного и нескольких правильных ответов возникают определенные трудности с оценкой вклада заданий в общую сумму 139
баллов. Дело в том, что оценка правильности выполнения заданий с несколькими правильными ответами бывает, как правило, поли- томическая. При этом она чаще всего равна числу правильно выбранных ответов в каждом задании теста, в то время как результаты выполнения заданий с одним правильным ответом оцениваются дихотомно. Таким образом, если не предпринимать специальных мер по выравниванию, вклад заданий с одним правильным ответом в общую оценку выполнения теста искусственно занижается, что в конечном счете не может не сказаться отрицательно на качестве оценок учеников. Если специфика содержания такова, что избежать заданий с несколькими правильными ответами нельзя, то в аттестационный тест или в отдельный раздел этого теста стараются включить такие задания. С целью улучшения технологических свойств заданий с несколькими правильными ответами нередко вводят определенное решающее правило при оценке результатов. Например, если испытуемый выбирает все правильные ответы, то он получает один балл, в случае хотя бы одного ошибочного выбора, равно как невыбора всех правильных ответов, — нуль баллов. Без сомнения, решение всех перечисленных проблем осложняется, когда к разработке теста приступают без четкой постановки цели его создания. В целом использование заданий с несколькими правильными ответами в итоговом тестировании сопряжено со снижением точ ности измерений. Есть определенные трудности и в разработке. В частности, затруднительно бывает подобрать достаточное количество правдоподобных дистракторов, которых должно быть не меньше, а желательно больше, чем правильных ответов. Задания на выбор неправильного ответа Когда дистракторов слишком мало, очень легко угадать пусть не все, но все же большинство правильных ответов. В качестве выхода из подобной ситуации можно включить в число ответов только один неправильный, а учеников попросить выбрать один ошибочный ответ. В этом случае инструкция имеет вид: ОБВЕДИТЕ НОМЕР НЕПРАВИЛЬНОГО ОТВЕТА Например, в задании Задание 55 Степенной является функция 1)у = л? 140
2)у=3х2 3)у = 3* 4)'=з7 неправильным является третий ответ, который выбирает знающий ученик, если от него требуется обвести номер неправильного ответа. Конечно, ориентация учащихся на выбор неправильного ответа не может не вызвать негативной реакции у многих педагогов. Особенно неуместны задания на выбор неправильного ответа в тестах по русскому языку или по истории. Одно дело, когда учащийся среди множества ответов выбирает то, что верно, и совсем другое дело, когда задание ориентирует ученика на неправильное написание слов или словоупотребление либо на неверную оценку исторических событий, как в примерах: Задание 56 Найдите ошибку в управлении а) директор магазина б) обвинять в растрате в) заведующий аптеки г) критиковать за ошибки Задание 57 УКАЖИТЕ НЕВЕРНОЕ УТВЕРЖДЕНИЕ Первая русская революция 1) нанесла удар по самодержавию 2) сохранила основы самодержавия 3) укрепила позиции царизма 4) ввела элементы буржуазной демократии Однако если нужно проверить знание учеником определенных правил по технике безопасности, например, во время проведения химических опытов, то такие задания становятся просто находкой. В заключение можно дать лишь общую рекомендацию: если большая часть заданий ориентирована на выбор правильного ответа, не стоит включать в тест более двух-трех заданий на выбор неправильного ответа [20]. Задания на выбор наиболее правильного ответа Иногда, по замыслу автора, при разработке задания закладываются несколько правильных ответов, среди которых есть более 141
правильный и менее предпочтительный. В этом случае задание сопровождается инструкцией: ОБВЕДИТЕ НОМЕР НАИБОЛЕЕ ПРАВИЛЬНОГО ОТВЕТА Необходимость использования подобной инструкции хорошо иллюстрирует следующее задание, которое предъявлялось учащимся в сочетании с прежней инструкцией, где требовалось выбрать просто правильный ответ. ОБВЕДИТЕ НОМЕР ПРАВИЛЬНОГО ОТВЕТА Задание 58 Функция, представленная на графике 1) на интервале [1; 2] возрастает, а на интервале [2; 3] убывает 2) на интервале [ 1; 3] сначала возрастает, затем убывает и имеет максимум в точке х = 2 3) на интервале [ 1; 3] сначала возрастает, затем убывает и имеет наибольшее значение в точке х = 2 4) на интервале [ 1; 3] сначала возрастает, затем убывает и имеет максимум в точке х = 2, совпадающий с наибольшим ее значением в этой точке В представленном выше задании первый ответ является правильным, так как функция, изображенная на графике, сначала возрастает, а затем убывает. Однако, помимо этого, она имеет максимум в точке х = 2, потому второй ответ более правильный, так как он более полный по сравнению с первым. По этим же причинам более правильным является по сравнению с первым и третий ответ: функция действительно имеет наибольшее значение в точке х- 2. И наконец, наиболее правильным будет четвертый ответ, поскольку он самый полный. По-видимому, по замыслу автора, первые три ответа следует считать дистракторами в рамках предложенной к заданию инструкции, а четвертый — наиболее полный — является планируемым к выбору правильным ответом. В том случае, когда от испытуемого требуется выбрать единственный правильный ответ, появление частично правильных ди- стракторов — следствие недостаточного опыта разработчиков за даний теста. Существование частично правильных из-за неполноты ответов затрудняет однозначность оценок ответов испытуемых в заданиях на выбор одного правильного ответа. Часть испытуемых, приученная давать более полные и правильные ответы, остановит- 142
ся в таком задании на четвертом ответе. Другая часть выберет второй и третий ответы одновременно либо один из них, а испытуемых, неправильно выполнивших задание, просто не будет. Это обстоятельство вовсе не означает того, что задание плохое и его следует удалить из теста. Если все подобранные ответы являются правильными, но частично или в разной степени, то возникает потребность в другом варианте инструкции, которая для данного примера должна иметь вид: ОБВЕДИТЕ НОМЕР НАИБОЛЕЕ ПРАВИЛЬНОГО ОТВЕТА Наиболее правильным в рассматриваемом задании будет считаться четвертый, самый полный, ответ. Задания на выбор наиболее правильного ответа разрабатывать довольно сложно: наиболее правильный ответ далеко не всегда должен быть самым полным. В противном случае учащийся при выполнении задания будет выбирать правильный ответ только по признаку полноты. Для устранения подобного недостатка в приведенном примере условие, инструкцию и ответы следует слегка изменить. Тогда задание приобретет вид: Задание 59 Функция, представленная на графике, на интервале [1; 2] 1) возрастает 2) возрастает и имеет наибольшее значение в точке х = 2 3) возрастает и имеет максимум в точке х = 2 4) возрастает, имеет максимум в точке х- 2, совпадающей с ее наибольшим значением в этой точке После изменений правильным станет второй ответ, далеко не самый полный. Следующее задание Задание 60 К основным видам деятельности ученика относятся 1) общение, игра, учение, труд 2) учение и труд 3) восприятие, общение, учение, труд 4) игра, учение, труд хотя и не имеет ответов, построенных по принципу частичного вложения предыдущего в последующий, но все же требует инструкции, нацеливающей на выбор наиболее правильного ответа. В противном случае частично правильные в силу недостаточной полноты 143
ответы испытуемых придется отнести к категории неправильных и оценить нулем баллов. Еще одна особенность заданий на выбор наиболее правильного ответа состоит в том, что при подсчете баллов испытуемых дихотомической оценки оказывается явно недостаточно. Если есть более и менее правильные ответы, то необходимы полито- мические оценки. Например, для рассмотренного примера 58 за выбор первого ответа учащемуся можно выставить 1 балл, за выбор равноценных по правильности второго и третьего ответов — 2 балла, а за выбор четвертого, самого правильного и самого полного, — 3 балла. Обычно если все задания сформулированы в одной форме, то инструкция приводится в начале теста. В противном случае, когда в тест включены задания разных форм, инструкция меняется при каждом изменении формы. Легко представить, насколько осложнит выполнение теста чередование инструкций на выбор правильного и неправильного ответов. Невнимательные ученики, не умеющие концентрировать внимание на изменяющейся инструкции, неизбежно запутаются и выполнят часть заданий неправильно даже в том случае, когда они наверняка знают правильный ответ. Поэтому в тесте рекомендуется менять инструкцию как можно реже — ровно столько раз, сколько требует специфика содержания отдельных заданий теста. В целом закрытые задания имеют ряд достоинств, которые делают их наиболее привлекательными при проведении массовой аттестации с помощью тестов. В частности, они удобны своей уни версальностью. Содержание практически любой дисциплины легко поддается представлению в закрытой форме. Однако эта легкость часто оборачивается заблуждениями разработчиков о простоте процесса создания заданий, что в конечном счете отрицательно отражается на качестве теста. Типичные недостатки преатестовых заданий с выбором ответов Нередко в процессе создания заданий отдельные требования к форме неосознанно нарушаются. Как правило, это бывает связано с тем, что все внимание разработчика поглощено содержанием, а не формой. В некоторых случаях разработчик осознанно идет на ряд нарушений, объясняя их спецификой содержания дисциплины. Эти объяснения вряд ли можно считать обоснованными, хотя действительно не всякое содержание поддается представлению в 144
форме тестового задания, а иногда поддается, но с большим трудом. Тем не менее многолетний опыт работы авторов пособия с различными коллективами разработчиков заданий говорит о том, что большинство нарушений требований формы может быть устранено. Всегда можно создать задания, комплексно отражающие основные, если не все, требования формы и получить корректные во всех отношениях задания теста. Нарушение отдельных требований порождает ряд характерных недостатков, затрагивающих не только форму, но и содержание заданий и возникающих даже у опытных авторов в процессе работы над заданиями теста. Такие ситуации рассматриваются далее для случая, когда в заданиях планируется только один правильный ответ. Первый наиболее существенный недостаток связан с отсутствием логической корректности в формулировках заданий теста. Обычно ситуация неопределенности возникает из-за некорректно сформулированной основной части задания, порождающей несколько правильных ответов, в то время как, по замыслу автора, этот ответ должен быть только один. Например, в задании Задание 61 Какие системы вы знаете 1) биологические, логические, общественные 2) механические, картографические, пунктуации 3) магистральные, связи, блокировки 4) учебные, пенитенциарные автор, преподаватель естествознания, ожидал получить один правильный ответ, непосредственно ориентированный на содержание преподаваемой им дисциплины. В действительности же сложилось несколько иначе, поскольку в задании наряду с планируемым возможны и другие правильные ответы, все элементы которых по разным основаниям тоже характеризуют системы. Легко наметить направление коррекции. Для этого в основную часть задания необходимо внести уточнение, сужающее круг поисков ученика в процессе выбора правильного ответа. Что касается приведенной постановки проблемы, то она не годится, поскольку создает ситуацию полной неопределенности при подведении итогов: любой ответ из четырех предлагаемых к выбору нельзя оценить как неправильный, в равной степени как и трудно приравнять его к планируемому правильному ответу. 145
Определенные отступления от логической определенности, но уже по другим причинам, наблюдаются в следующем задании: Задание 62 Если — > 0, то положительно выражение \)ХУ 2)Х+У Ъ)Х-У Здесь второй и третий ответы можно считать частично верными, так как X— У> 0 и Х+ У> (? при определенных дополнительных условиях, накладываемых на величину Хи У. Опыт тестирования показывает, что в каждой группе находятся ученики с высоким уровнем развития интеллекта, которые хорошо схватывают логически четкие формулировки и проявляют нестандартность мышления, если этой четкости нет. Нередко этим ученикам планируемый правильный ответ кажется тривиальным, поэтому они стараются подкоррек тировать неудачное задание и ввести дополнительные условия на X и У, что неизбежно нарушает замысел преподавателя и порождает несколько правильных ответов. Приведенное в качестве примера задание легко подправить, слегка изменив формулировку основной части для придания ей должной четкости. В исправленном виде задание имеет вид: Задание 63 Если — > 0, то при всех ЛГи У положительно выражение \)ХУ 2)Х+ У Ъ)Х- У Вообще двусмысленность формулировок — наиболее распространенный недостаток при создании заданий теста. Это в какой-то мере естественно, так как разработчик задания замкнут на контекст, в котором это задание, как ему кажется, должно восприниматься, и ему трудно заметить другой смысл своих формулировок. Обычно этот недостаток легко устранить, прочитав написанное задание по прошествии некоторого времени. В противном случае он снимается после первой же эмпирической проверки, так как всегда нахо- 146
дятся наиболее способные ученики, которые сразу же начнут сомневаться в том, что они правильно поняли некорректные задания теста. И, как показывает практика, о сомнениях такого рода они сразу же сообщают педагогу. Нередко логическая некорректность заданий бывает следствием попытки авторов оценить сразу несколько знаний и сформулировать несколько вопросов к одному заданию теста. Например, в задании на выбор одного правильного ответа Задание 64 Изменится ли температура кипения в открытом сосуде при повышении атмосферного давления? Если изменится, то как? 1) повышается 2) понижается 3) остается неизменной 4) может повыситься 5) может понизиться 6)изменится испытуемому необходимо ответить на два вопроса. Во-первых, зафиксировать сам факт наличия или отсутствия процесса изменений. Во-вторых, если изменения есть, выбрать направление процесса. Именно таков, по-видимому, был замысел автора, если судить по основной части задания теста. К сожалению, сам по себе замысел оказался довольно неудачен, и потому вполне естественно, что автор не сумел корректно реализовать его при подборе ответов к рассматриваемому заданию теста. Действительно, первый и второй ответы, из которых второй правильный, нацелены исключительно на выявление характера изменений и предполагают существование только одного, второго, вопроса. Следующий по порядку ответ, наоборот, соответствует первому вопросу, он просто фиксирует отсутствие изменений температуры и ничего не говорит об их характере. Четвертый и пятый варианты для выбора, наверное, были вынужденными. Скорее всего, они включены автором из-за регламентированного числа ответов к разрабатываемому заданию теста и ориентированы на другую инструкцию, требующую выбора наиболее правильного ответа. И наконец, последний, шестой, вариант утверждает наличие изменений и включает в себя как частный случай правильный ответ. Любому читателю, даже не знающему физики, вполне понятна ошибка разработчика — задание допускает существование двух в 147
разной степени правильных ответов. Конечно, легко наметить направление коррекции. В рассматриваемой ситуации необходимо оставить только второй вопрос и к нему предложить ученику три корректных с точки зрения логики ответа: повышается, понижается, остается неизменной. Еще более неудачным является следующее задание: Задание 65 Найдите ошибку в определении частей речи в предложении: «Какой (то) зверь бежал мне (на) встречу. Кто (бы) это мог быть?» 1) какой-то — неопределенное местоимение 2) на встречу — предлог и существительное 3) кто, это — местоимения 4) бы — частица в составе формы сослагательного наклонения глагола где, по замыслу автора, перед определением частей речи ученик должен мысленно раскрыть скобки, проставленные в основной части. Правда, непонятно, каким путем автор задания планировал проверить результат раскрытия скобок учеником. По-видимому, это непонятно и автору, который формулировкой основной части задания загнал себя в тупиковую ситуацию. Для выхода из подобной ситуации автору приходится самому раскрыть скобки и привести в одном из вариантов им же полученный неправильный ответ. Примечательная особенность задания состоит в том, что ошибку совершает сам педагог, а не ученик. Недостатки приема, использованного в задании, вполне очевидны всем тем, кто занимается педагогической работой. Одно дело, когда ошибки принадлежат ученику, и совсем другое дело, когда за создание ошибок берется педагог. По сходным причинам, связанным с попытками оценить несколько знаний или умений с помощью одной содержательной основы, крайне неудачно следующее задание, предполагающее выбор одного правильного ответа. Задание 66 По дороге навстречу друг другу равномерно движутся два автомобиля, один со скоростью 60 км/ч, а другой — 90 км/ч. В начальный момент времени расстояние между автомобилями было 150 км. Определите графически место и время встречи автомобилей. Варианты ответов: 1) 60 км от начала движения 1 -го автомобиля через 1 час 148
2) 90 км от начала движения 2-го автомобиля через 1 час 3) 90 км от начала движения 1-го автомобиля через 1 час 4) 60 км от начала движения 2-го автомобиля через 1 час 5) среди указанных ответов нет верного Без всякого преувеличения можно считать, что задание полностью не состоялось. В нем неудачно все, начиная от постановки задачи и кончая формулировкой ответов. Основная часть имеет тот же, характерный для предыдущих примеров недостаток, порождаемый желанием автора проверить с помощью одного задания как можно больше умений учеников: определить место и время встречи и использовать графический метод решения задач. Правда, попытки ученика полностью выполнить задание мало что дадут, поскольку одинаковое время встречи автомобилей приведено автором в каждом из четырех ответов. Что касается указания метода решения, то, наверное, это имеет педагогическую целесообразность. Но как проверить факт применения рекомендуемого метода с помощью теста? Одно дело, когда проверка проводится традиционным путем и ученик объясняет преподавателю метод решения задачи. Совсем другое дело на тестировании, где отслеживается не метод получения результата, а сам результат и есть заранее разработанное правило получения баллов без участия педагога. Поэтому рассматриваемое задание в плане проверки метода решения не только не состоялось, но и не могло состояться. Естественно, что в нем нет никаких характерных особенностей, указывающих на специфику использованного учеником метода выбора правильного ответа. Еще один просчет разработчиков в рассматриваемом задании связан с включением двух правильных ответов. Особенность подоб ных заданий состоит в том, что в них ответы учеников оказываются правильными в разной степени, так как кто-то из испытуемых может выбрать только один, а кто-то и оба правильных ответа. Отсюда возникает необходимость введения дополнительных правил при выборе шкалы оценки результатов, в противном случае баллы испытуемых будут получены с большой погрешностью измерения. В целом из приведенных примеров можно вывести общую рекомендацию: для достижения логической определенности, обеспечивающей продуцирование у знающих учеников бесспорно правильного ответа, каждое задание должно быть нацелено на проверку одного знания или умения, которое закладывается в правильный ответ. Приведенное утверждение не стоит отождествлять с идеей примитивизма, которая нередко обсуждается противниками примене ния тестов в учебном процессе. Ориентация задания на проверку 149
одного умения вовсе не исключает применения цепочки умений в процессе выполнения задания, а лишь регламентирует единственность того, что выносится в ответы к данному заданию теста. Отсутствие логической корректности условия задания бывает вызвано частично правильными ответами, которые для увеличения числа дистракторов авторы включают в отдельные задания теста. Например, в задании на выбор одного правильного ответа Задание 67 Из вегетативной почки вырастает 1) ветка 2) ветка с листьями 3) ветка с листьями и почками 4) цветок 5) цветок и листья правильным является третий ответ, содержащий два элемента: ветку с листьями и почки. В этом случае первые два ответа — ветка и ветка с листьями — частично правильные, так как они являются элементами нужного ответа. При подведении результатов у педагога неизбежны затруднения с оценкой тех, кто остановился на первом и втором ответах. Их выбор трудно отнести к категории неправильных, равно как и посчитать планируемым правильным ответом. Нередко ситуацию неопределенности порождают просчеты разработчика при подборе ответов. Особые трудности при формулиро вании возникают из-за ряда требований, налагаемых правилами логики. Необходимо, чтобы правильный ответ предполагал знание наиболее существенных элементов, входящих в рассматриваемое понятие, и не был нацелен на проверку второстепенных элементов [11]. С большой осторожностью следует относиться к попыткам сформулировать один из дистракторов в виде объединения двух множеств, где элементы первого множества являются правильными ответами к заданию, а элементы второго множества превращают задание в ложное высказывание. Здесь возникают определенные логические трудности, которые в ряде случаев могут привести к нескольким правильным ответам. Например, в задании Задание 68 Если скалярное произведение векторов отрицательно, то угол между векторами 1) острый 150
2) тупой 3) или острый, или тупой на первый взгляд правильным является только второй ответ. Введение третьего ответа, объединяющего множество острых и тупых углов, казалось бы, вполне оправдано желанием разработчиков увеличить число дистракторов и снизить тем самым вероятность догадки. Однако при ближайшем рассмотрении третий ответ, сформулированный в логической форме объединения, необходимо отбросить как несостоятельный. Действительно, с одной стороны, согласно правилам логики событие в основной части высказывания наступит, т. е. скалярное произведение будет отрицательным, если угол между векторами будет принадлежать хотя бы одному из множеств, входящих в объединение. С другой стороны, третий ответ является частично правильным и потому нарушает замысел разработчика, стремящегося к единственно правильному ответу во всех заданиях теста. Ситуацию неопределенности при формулировке двух следующих заданий с инструкцией порождает попытка автора использовать оценочные понятия, не имеющие количественных показателей с четкими границами значений для выделения правильного ответа. ОБВЕСТИ НОМЕР ПРАВИЛЬНОГО ОТВЕТА Задание 69 Американская история в значительной степени была обусловлена 1) колонизацией Великого Запада 2) мировыми войнами 3) отношениями с Японией 4) эпохой Возрождения Задание 70 Крупнейшим представителем реализма в оперном искусстве был а) Джузеппе Верди б) Гектор Берлиоз в) Фредерик Шопен г) Рихард Вагнер Как правило, подобные оценочные суждения, не подкрепленные ссылками на представителей той или иной точки зрения, вызывают у испытуемых разночтение. При оценке результатов выполнения таких заданий всегда возникают трудности, поскольку 151
появляются более и менее предпочтительные ответы. Последнее соображение наводит на мысль о том, что в сочетании с приведенным примером необходима другая инструкция на выбор наиболее правильного ответа. Столь же опасна с точки зрения нарушения идеи однозначности оценок попытка автора использовать в тесте привычные для беседы на экзамене вопросы типа «Как вы думаете? Что, по вашему мнению..?», как, например, в заданиях 71 и 72. Задание 71 Согласны ли вы с утверждением «Научный продукт не имеет потребительской стоимости»? А. Нет, как всякий продукт целесообразной деятельности, научный продукт имеет определенную потребительскую стоимость Б. Да, потребительскую стоимость научный продукт приобретает лишь после внедрения в промышленность В. Да, потребительскую стоимость имеет лишь конкурентоспособная технология Задание 72 Как бы вы сформулировали три главных направления развития естественных наук на сегодня? А. Изучение очень большого (мегамира), изучение очень малого (микромира) и изучение очень сложного Б. Исследования в области молекулярной биологии, химии, полимеров В. Исследования в области физики, общей биологии, естествознания Г. На сегодня важно развитие только экологии Задавая подобные вопросы на экзамене, преподаватель предполагает выслушать определенные аргументы ученика, что-то принять, а что-то опровергнуть в процессе обсуждения и по результатам обсуждения поставить ученику оценку. В отличие от экзамена тесты возможность диалога с учеником полностью исключают, и об этом должен помнить постоянно автор теста. В этой связи напрашивается простое и полезное правило, способствующее созданию корректных заданий теста: в заданиях следует спрашивать не о мнении учеников, а о том, что является признанным, объективно истинным и поддается общепринятой рациональной аргументации. Все спорные точки зрения, вполне до пустимые к обсуждению на экзамене, нельзя включать в тест. 152
Интересным в содержательном плане, но, к сожалению, логически некорректным является следующее задание Задание 73 Имеет отличную от всех других область определения функция 1) у = х2-1 2) у = у1х2-\ 3) у = —2— 4) у = л/*2+1 где предлагается сравнить ответы между собой и выбрать один правильный ответ. При этом за гранью внимания автора остается тот факт, что в корректно сформулированном задании ответы сравниваются не между собой, а с утверждением основной части, обращая ее при мысленной подстановке каждого ответа в ложное или истинное высказывание. Конечно, приведенное задание легко переделать даже тем, кто по роду своей деятельности далек от математики. Для этого достаточно поместить одну из функций в основную часть задания и дальше действовать по правильной схеме, сопоставляя область определения функций в условиях новой формулировки. К числу логически некорректных можно отнести задания, где один или несколько ответов противоречат условию основной части. Например, в задании Задание 74 Если первое тело движется прямолинейно по закону 5 = Зг2 — 1, закон движения второго тела 5 = 2г3 — 3, а третьего — 5= 6г — 5, то через одну секунду наибольшую скорость имеет 1) первое тело 2)второе тело 3) третье тело 4) все три скорости одинаковы четвертый ответ явно не согласуется с условием основной части, утверждающим существование наибольшей скорости у одного из тел. Рассуждать здесь можно по-разному, но вывод все равно один — четвертый ответ необходимо переделать либо удалить из теста. Действительно, если условие таково, что четвертый ответ — дистрактор, то в качестве правдоподобного ответа его вряд ли вы- 153
берет хотя бы один даже самый слабый ученик. Тогда четвертый ответ как неработающий дистрактор необходимо удалить из теста. Если законы движения таковы, что именно четвертый ответ является верным, задание будет невалидным, так как большинство сильных учеников увидят логическую несообразность формулировок и просто пропустят задание, посчитав его ошибкой разработчика теста. В последнем случае, когда четвертый ответ как раз и является верным, задание лучше привести к следующему виду Задание 75 Если первое тело движется по закону 5= Ъг1 — 1, второе — по закону 5= 2г3 — 3, а для третьего закон движения 5= 6г — 5, то скорости трех тел через одну секунду 1) одинаковы 2)неодинаковы И наконец, если при создании задания нужны все 4 ответа, то можно ввести обозначения: у1 — скорость первого тела, у2 — второго, у3 —третьего, и записать ответы и задание в виде: Задание 76 Если первое тело движется по закону 5= Зг2 — 1 и его скорость ур второе — по закону 5= 1гъ — 3 со скоростью у2, а третье — по закону 5*= 6г — 5 со скоростью 1>3, то через одну секунду 1) V, > У2, У{> У3 2)V2>VVV2> У3 3)у3>у1,у3>у1 4)у1 = у2=у3 Следующее задание Задание^ 77 Как изменится сила трения скольжения при движении бруска по горизонтальной плоскости, если силу нормального давления увеличить в 2 раза 1) увеличится в 2 раза 2) уменьшится в 2 раза 3) не изменится 4) увеличится в 4 раза неудачно по сходным причинам. В нем заложено явное противоречие. Сам факт изменения силы трения не подлежит обсуждению, поскольку наличие изменений утверждается в основной части задания. От испытуемого требуется лишь охарактеризовать этот процесс измене- 154
ний, на что и рассчитаны первый, второй и четвертый ответы. Противоречия порождает третий ответ, где отрицается наличие каких-либо изменений силы трения скольжения. По этим причинам вероятность выбора его в качестве правильного ответа очень мала, так же как мала вероятность того, что ученик допустит существование противоречий в вопросе педагога. Скорее всего, третий ответ не выдержит первой же эмпирической проверки, по результатам которой он будет удален из теста как неработающий дистрактор. В следующем примере отмеченный недостаток усугубляется тем, что этот противоречащий основной части задания ответ как раз и является правильным. Задание 78 В трубке, из которой откачан воздух, на одной и той же высоте находятся дробинка, пробка и птичье перо. Какое из этих тел позже всех достигнет дна трубки при их свободном падении? 1) дробинка 2)пробка 3) птичье перо 4) все тела достигнут дна трубки одновременно В приведенном задании правильным является четвертый ответ, полностью отрицающий содержание вопроса основной части. Выбор правильного ответа для учащегося здесь явно осложнен, что связано не с повышенной трудностью содержания задания, а с логическими просчетами разработчика при формулировке задания теста. Особенно трудно выбрать нелогичный ответ, как не следующий из постановки проблемы, думающим ученикам, с высоким уровнем развития логического мышления, тем, кто привык тщательно анализировать каждое слово педагога. В данном случае попытки вникнуть в смысл последнего ответа им мало что дадут, и потому часть лучших учеников просто пропустит это задание в тесте, вследствие чего задание начнет плохо отличать хороших учеников от слабо подготовленных и обретет инвертированный профиль ответов по результатам эмпирической проверки теста. Аналогичный недостаток, связанный с нарушением логической связи между содержанием заданий и содержанием ответов, встречается в следующих примерах. Задание 79 На космонавта, находящегося на спутнике, действует 1) сила притяжения к Земле 155
2) сила трения 3) сила реакции опоры 4) не действуют никакие силы Задание 80 Если сравнить всех нелетающих жуков и всех нелетающих насекомых, то больше окажется 1) нелетающих жуков 2) нелетающих насекомых 3) летающих жуков 4) летающих насекомых 5) вопрос задан неверно В последнем примере алогичный ответ отрицает не содержание остальных ответов, а смысл самого задания, что является недопустимым при формулировании заданий теста. В хороших заданиях подбираются такие ответы, каждый из которых, будучи ан- тонимичным по смыслу всем остальным, допускает в принципе существование содержательной основы задания теста. В неявной форме выражено противоречие между третьим ответом и смысловой основой в следующем задании. Задание 81 В предложении «Он просил на праздник оставить его дома — не оставили» тире разделяет 1) подлежащее и сказуемое 2) обобщающее слово и однородные члены 3) знаком «тире» обозначен пропуск члена предложения 4) части сложного бессоюзного предложения Здесь третий ответ не согласуется с постановкой проблемы в основной части, хотя и не отрицает ее, как в предыдущих примерах, и появляется возможность для выделения второго довольно распространенного недостатка, когда ответы к заданию неоднородны в силу того, что подбираются по разным основаниям. Так, в примере Задание 82 Электропроводность собственного проводника 1)равна О 2) больше О 3) меньше О 4) переменная 156
последний ответ выходит из ряда однородных, подобранных по одному основанию трех предыдущих, и потому он кажется неправдоподобным для ученика, имеющего достаточный опыт выполнения тестов. Задание 83 В первые годы после Великой Отечественной войны 1) И. В. Сталин отказался от практики проведения массовых репрессий 2) осторожно обсуждались возможности некоторой децентрализации экономики 3) был начат демонтаж административно-командной системы 4) в целях оживления сельского хозяйства было разрешено развитие частного сектора В этом задании все ответы характеризуют выбранный исторический период совершенно с разных сторон. Возможно, такое со держание оправдано спецификой предмета, однако недопустимо с точки зрения требований тестовой технологии, предполагающей четкое выделение переменной измерения. Для коррекции условия в нем необходимо сузить объем определяемого понятия, сосредоточившись либо на экономической, либо на политической, либо на какой-нибудь другой характеристике периода, рассматриваемого в приведенном задании теста. В отдельных случаях отсутствие общего основания по выбору ответов может служить своеобразной подсказкой и помочь незнающему, но привыкшему угадывать ученику выбрать правильный ответ. Например, в задании Задание 84 Можно ли компенсировать недостаток витамина С другими витаминами? 1. Витамином А 2. Витаминами группы О 3. Витаминами группы В 4. Нельзя правильным является четвертый ответ, но, даже не зная этого, первые три ответа выбрать практически невозможно. Формулировка содержательной основы задания требует только двух ответов «можно» или «нельзя». Таким образом, все задание рассчитано на оценку в номинальной шкале. Первые три ответа никак не связаны с 157
постановкой вопроса в основной части, и потому учащиеся с высоким уровнем развития логического мышления сразу же исключат их из рассмотрения, с необходимостью остановив свой выбор на четвертом — правильном ответе. По разному основанию выбраны ответы в примерах 85—87. Задание 85 Телейтоспоры возникают 1) изуредоспор 2) из эцидиоспор 3) поздней осенью образуются на том же мицелии, на котором летом формировались уредоспоры 4) весной в результате слияния дикариона и последующего мей- оза Задание 86 Каково соотношение содержания воспитания и содержания самовоспитания? А. Содержание воспитания и содержание самовоспитания совпадают Б. Содержание воспитания шире содержания самовоспитания В. Содержание самовоспитания шире содержания воспитания Г. Зависит от конкретной ситуации Задание 87 Когда появились первые труды по науковедению? А. В 20-х годах Б. Еще во время Птолемея В. Автор первого труда по науковедению — Галилеи Г. В середине XVIII века В полной мере свободны от этого недостатка рядоположенные в классификационном отношении ответы. Рядоположенность имеет особое значение для повышения качества задания, так как способствует равновероятной привлекательности ответов и однозначной трактовке результатов выполнения каждого задания теста [ 11,43]. Причина появления в заданиях нерядоположенных ответов понятна: когда по одному основанию не удается подобрать нужное число дистракторов, то разработчик прибегает к увеличению их числа путем включения дополнительных, неправильных, выбранных по другому основанию ответов. Для выявления случаев неоднородности в каждом задании к ответам необходимо поставить вопросы, 158
а уж потом, если вопросы получились одинаковые, автору можно сделать первые обнадеживающие выводы о результатах своей работы. Например, в задании 85 по биологии два первых ответа выбраны по одному основанию, так как оба отвечают на вопрос из чего? и характеризуют то, из чего возникают телейтоспоры. Третий ответ подобран по другому основанию, поскольку соответствует вопросам: когда? и где? И наконец, последний не совпадает по основанию выбора ни с одним из предыдущих, он отвечает на вопросы: когда? в результате чего? Аналогичным недостатком обладает задание 88. Задание 88 Условные рефлексы 1) наследуются потомством от родителей 2) приобретаются организмом в течение жизни 3) сохраняются всю жизнь 4) свойственны всем особям данного вида одного пола и возраста В нем первый и второй ответы выявляют характер приобретения рефлексов, третий характеризует длительность их сохранения, а четвертый ответ и вовсе нацелен на другое основание — в нем фиксируется принадлежность рефлексов определенным видам. Во всех четырех ответах очевидно отсутствие общей содержательной основы, которой, видимо, по замыслу авторов, должно было стать выявление характера приобретения условных рефлексов. Впрочем, замысел автора могбыть и другим. Возможно, он рассуждал скорее как педагог, чем как тестолог, и потому хотел охарактеризовать в задании различные аспекты знаний, связанных с понятием «условный рефлекс». В пользу последнего предположе ния свидетельствуют пропорции задания, имеющего краткую основную часть и довольно длинные, даже немного громоздкие ответы. Хотя задание возможно удачно в содержательном плане, на те- стологических характеристиках замысел педагога отразился отрицательно: в основной части полностью отсутствует постановка про блемы. Центр тяжести в формулировке перенесен на ответы, которые намного длиннее, чем содержательная часть. При нарушении правильных пропорций задании ответы становятся громоздкими и трудночитаемыми. Ясно, что даже несколько таких заданий значительно удлинят тест, повысят утом- 159
ляемость учеников и снизят тем самым мотивацию к выполнению теста. Поэтому нарушение правильных пропорций можно считать третьим недостатком, приводящим к созданию неудачных заданий теста. Еще ярче, чем в предыдущем примере, просматривается нарушение правильных пропорций между содержательной частью и ответами в задании 89. Задание 89 «Пораженцы» — это 1) люди, лишенные права голосовать на выборах в Думу 2) русские войска, потерпевшие поражение на полях первой мировой 3) меньшевики, часть членов РСДРП, потерпевшие поражение в голосовании по вопросу Устава партии на III съезде 4) российские социал-демократы, поддержавшие лозунг поражения своего правительства на войне Здесь правильным является четвертый ответ. В приведенном виде задание выглядит крайне громоздко и, несомненно, нуждается в переделке. Направление коррекции выбрать достаточно просто: необходимо перейти к правильным пропорциям путем переноса смысловой нагрузки в основную часть и одновременно придания ответам должной краткости. С этой целью можно содержание четвертого ответа перенести в основную часть, а в ответы поместить лишь по одному слову: пораженцы, оборонцы, меньшевики... После переделки ответы становятся простыми и доходчивыми, а потому все задание легче воспринимается и лучше выполняется знающими учениками. В целом же можно сделать вполне определенный вывод: в хороших заданиях основная часть обязательно содержит постановку проблемы, которая должна быть понятна знающим ученикам без чтения ответов. Обнаружить неудачные задания, не отвечающие сделанному выводу, довольно просто. Для этого достаточно в каждом задании закрыть все ответы и посмотреть, продуцирует ли содержательная основа задания планируемый правильный ответ. Нарушение требования краткости — четвертый распространенный недостаток из числа тех, что встречаются при разработке заданий теста. Нередко автору трудно самому увидеть лишние ело ва, поскольку все в задании ему кажется важным, помогающим ученикам быстрее и глубже проникнуть в смысл проблемы. На деле 160
эти ожидания сбываются далеко не в полной мере либо не сбываются совсем. Громоздкие задания плохо воспринимаются учениками даже в том случае, когда тестируемые ученики хорошо подготовлены и наверняка знают правильный ответ. Лишние слова запутывают учеников, рассеивают их внимание, способствуют накоплению усталости по мере выполнения теста. Для разработки хороших заданий необходимо стремиться к максимальной краткости, которая обеспечивается тщательным подбором слов, грамматических конструкций, символов, графиков, словом — всего того, что позволяет минимумом средств добиться максимальной ясности смысла [ 11,43]. Нарушение требования краткости может проявляться в избыточном словесном составе основной части задания, тавтологии или в излишней многословности ответов. Например, случай тавтологии характерен для задания Задание 90 Основная земледельческая зона нашей страны расположена 1) в зоне тамги 2) в лесостепной зоне 3) в зоне смешанных лесов 4) в степной зоне В ответах часто встречаются повторяющиеся слова или размерность оцениваемой величины, которые для минимизации словесного состава следует включить в основную часть. Подобного рода переделки необходимы в заданиях 91—93. Задание 91 Заштрихованная территория на карте России показывает районы 1) газовых месторождений 2) нефтяных месторождений 3) месторождений каменного угля 4) месторождений калийной соли Задание 92 Климат юга европейской территории России летом формируется под действием 1) морского умеренного воздуха 2) морского тропического воздуха 3) континентального умеренного воздуха 4) континентального тропического воздуха 6 Мельникова М.Б. 161
Задание 93 Сельскохозяйственными угодьями называют а) земли, используемые под пастбища б) земли, используемые под пашни в) земли, используемые в садово-огороднических товариществах г) земли, используемые в сельскохозяйственном производстве Обычно подобные задания легко корректируются. Для этого достаточно перенести повторяющиеся (в приведенных примерах выделенные) слова в основную часть. Например, эти же задания после коррекции и сокращения благодаря этому лексического состава примут вид: Задание 94 Заштрихованная территория на карте России показывает районы месторождений 1) газовых 2) нефтяных 3) каменного угля 4) калийной соли Задание 95 Климат юга европейской части России летом формируется под воздействием воздуха 1) морского умеренного 2) морского тропического 3) континентального умеренного 4) континентального тропического Задание 96 Сельскохозяйственными угодьями называют земли, используемые а) под пастбища б) под пашни в) в садово-огороднических товариществах г) в сельскохозяйственном производстве Задание считается неудачным, если в нем используются усложненные грамматические конструкции, затрудняющие понимание смысла содержательной основы. Отрицательно сказываются на качестве задания часто встречающиеся случаи утяжеления текста основы несколькими придаточными предложениями. 162
Как правило, негативно отражается на краткости заданий неудачная попытка использования вопросов. Это связано с тем, что форма вопроса сама по себе требует не только вопросительного слова, но и ряда дополнительных слов для выражения требуемого смысла. Количество лишних слов, порождаемых вопросной формой, обычно колеблется в пределах двух-трех, а в отдельных случаях достигает пяти—шести и даже семи. Например, задания 97 и 98 в воп росительной форме имеют вид: Задание 97 С помощью каких органов лягушка дышит под водой? 1) только легкими 2) легкими и кожей 3) жабрами 4) только кожей Задание 98 Для каких из перечисленных животных характерен наиболее интенсивный уровень обмена веществ и энергии? 1) для рыб 2) для пресмыкающихся 3) для птиц 4) для земноводных Переход к утвердительной форме автоматически влечет за собой сокращение словесного состава задания, причем без всяких потерь для смысла. Эти же задания в утвердительной форме могут иметь вид: Задание 99 Лягушка дышит под водой 1) только легкими 2) легкими и кожей 3) жабрам и 4) тол ько коже й Задание 100 Наиболее интенсивный уровень обмена веществ характерен для 1) рыб 2) пресмыкающихся 3) птиц 4) земноводных Иногда авторы пытаются минимизировать количество слов в вопросе, отступая при этом от правильных конструкций русского языка, как, например, в заданиях 101 и 102. Задание 101 Стремление заниматься определенной деятельностью А. Склонность б* 163
Б. Влечение В. Желание Г. Хотение Задание 102 Относительно законченный элемент деятельности А. Действие Б. Движение В Мимика Г. Перемещение Реализация семантических преимуществ логической формы высказывания позволяет достичь оптимальной краткости в следующих двух заданиях. Задание 103 Какой из перечисленных наборов сельскохозяйственных культур можно выращивать в черноземной полосе России? А. Рожь — лен — овес — картофель Б. Пшеница — сахарная свекла — подсолнечник 8. Пшеница — кукуруза — рис — виноград Г. Чай — цитрусовые — бахчевые Задание 104 Какие из перечисленных ниже народов относятся к индоевропейской языковой семье? 1. Русские 2. Удмурты 3. Буряты 4. Осетины 5. Якуты 6. Ингуши 7. Адыгейцы 8. Башкиры 9. Украинцы После перехода к утвердительной форме задания обретут должную краткость. Задание 105 В черноземной полосе России можно выращивать а) рожь — лен — овес — картофель б) пшеницу — сахарную свеклу — подсолнечник в) пшеницу — кукурузу — рис — виноград г) чай — цитрусовые — бахчевые 164
Задание 106 К индоевропейской языковой семье относятся 1) русские 2) удмурты 3) буряты 4) осетины 5) якуты 6) ингуши 7) адыгейцы 8) башкиры 9) украинцы Аналогичной переработке для приобретения краткости можно подвергнуть большую часть сформулированных в виде вопроса заданий теста. Преимущества утвердительной формы заданий неоднократно показаны в специальной методической литературе. В частности, они подробно обсуждаются в работе [43]. Н. Гронлунд рекомендует переходить к утвердительной форме во всех заданиях, где только можно, решительно отдавая ей предпочтение при создании теста. Конечно, это утверждение не категорично. Оно может показаться спорным тем педагогам, кто привык в процессе проверки знаний пользоваться исключительно вопросной формой. К тому же в практике создания тестов довольно редко, но все же встречаются задания, когда вопросительная форма выглядит удобнее и короче. Например, основная часть заданий 107 и 108 Задание 107 Каково соотношение содержания воспитания и самовоспитания? А. Содержания воспитания и самовоспитания совпадают Б. Содержание воспитания шире содержания самовоспитания В. Содержание самовоспитания шире содержания воспитания Задание 108 Какой контроль содействия называется сенсорным? А. Чувственный Б. Мыслительный В. Эмоциональный Г. Волевой гораздо короче формулируется в виде вопроса. Поэтому за разработчиком следует признать право формировать задания в виде вопроса, по крайней мере в том случае, когда использование привычной вопросительной формы облегчает учащимся работу над тестом. Однако при этом желательно выбрать одну логическую структуру, отдав предпочтение только утверждению или только вопросу, поскольку 165
с точки зрения требований стандартизации не рекомендуется применять в тесте сочетание двух различных логических структур. Поясняющие, дополнительные слова, привычные для педагогов в традиционном контрольном материале, но лишние в тестовых заданиях, могут появляться и в высказываниях. Например, словесный состав основной части задания Задание 109 Выберите группу стран с формой правления «Конституционная монархия» а) Великобритания, Греция, Польша б) Великобритания, Норвегия, Испания в) Финляндия, Германия, Швеция г) Франция, Италия, Испания можно сократить без всякой потери смысла: Задание 110 Конституционная монархия существует в а) Великобритании, Греции, Польше б) Великобритании, Норвегии, Испании в) Финляндии, Германии, Швеции г) Франции, Италии, Испании В следующем задании лишним является ряд слов, поясняющий формулировку вопроса. Задание 111 Важнейшими органами государственной власти в Древних Афинах были совет, народное собрание и выборные должностные лица. Как назывался совет? А. Буле Б. Ареопаг В. Базилевс Г. Понтификат Избыточная информация присутствует в задании 112. Задание 112 Создателем (одной из важнейших для культуры Древнего Китая) философско-религиозной системы даосизма был 1. Лао-Цзы 2. Конфуций 3. Гаутама 166
Побудительные причины добавления в условие лишней информации вполне понятны. Автор хотел активизировать в памяти тестируемых отдельные аспекты рассматриваемых проблем и с помощью дополнительных пояснений облегчить испытуемым выполнение задания теста. Однако если подобные пояснения оправданы в педагогическом смысле, то тестологи на это смотрят иначе. Любая дополнительная информация утяжеляет формулировки и приводит к потере времени при выполнении теста. Правда, не всегда тенденция к краткости формулировок ведет к положительным эффектам. Иногда неправильное понимание задания учеником бывает следствием именно той краткости, к которой постоянно должен стремиться разработчик теста. Это естественно, так как единичное предложение трудно сделадъ ясным и четким. Для этого нужны особые навыки и большой опыт по разработке заданий теста. Часто можно достичь оптимальной краткости в формулировке без потери ее четкости и ясности с помощью чертежа. Например, в задании по геометрии Задание 113 Если в треугольнике ЛВС углы аир — острые, то справедливо соотношение 1)сс+р>у 2)сс+р = у З)сс+Р<у чертеж помогает избежать многословного объяснения процесса построения угла у, но одновременно облегчает выполнение задания теста. Поэтому готовый чертеж часто отвергается авторами, особенно в том случае, если ставится задача проверки не только знания ряда теорем, но и умения делать чертеж по данному условию геометрической задачи. В некоторых случаях нежелательная громоздкость формулировок возникает вследствие использования одного и того же словесного состава в ответах. Для достижения краткости условия задания полезно введение дополнительных символов. Например, в задании Задание 114 Сумма кубов катетов прямоугольного треугольника 1) меньше куба гипотенузы 2) равна кубу гипотенузы 3) больше куба гипотенузы 167
с помощью введения буквенных обозначений для катетов и гипотенузы можно существенно улучшить условие, сделав его кратким и исключив повторяющиеся слова в предложенных готовых ответах. Тогда это же задание может иметь вид: Задание 115 Если а и Ь — катеты прямоугольного треугольника, а с — его гипотенуза, то 1)а3 + &з<сз 2) аъ + Ьъ = с3 3) аъ + & > с3 К распространенным просчетам авторов можно отнести случаи введения инструкции в содержательную основу, как, например, в задании Задание 116 Укажите образования, которые могут быть отнесены к одной системе органов 1) костные клетки, кости, скелет 2) легкие, сердце, диафрагма 3) ротовая полость, пищевод, желудок, кишечник, печень 4) кости и мышцы руки, нервы, обеспечивающие движение Здесь заметный изъян возникает из-за неправильного расположения инструкции, которую авторы включили в текст задания теста. После коррекции задание примет вид: Задание 117 К одной системе органов относятся 1) костные клетки, кости, скелет 2) легкие, сердце, диафрагма 3) ротовая полость, пищевод, желудок, кишечник, печень 4) кости и мышцы руки, нервы, обеспечивающие движение Простое сокращение словесного состава позволило существенно улучшить приведенное задание, исключив не один, а целых два недостатка. Во-первых, минимизируется лексический состав задания, текст которого утратил свою многословность. Во-вторых, инструкция исключается из содержательной основы задания теста. Еще серьезнее просчет разработчика в задании 168
Задание 118 В ходе первой русской революции представители либерального лагеря выступали за... УКАЖИТЕ НЕВЕРНОЕ 1) гражданские права и свободу 2) парламент 3) сохранение существующих порядков 4) представительные органы где инструкция помещена между содержательной основой и ответами. Из-за этого ученик вынужден прочесть условие несколько раз, прежде чем ему станет понятным замысел, заложенный автором в формулировку на момент создания теста. Нередко преподаватели вполне осознанно идут на нарушение требований стандартизации и в содержательную основу заданий теста включают подменяющие рекомендованную стандартную инструкцию слова: «сравните, оцените, найдите, определите...», как, например, в задании Задание 119 Определите вид придаточного предложения «Он сидел, уткнувшись в скрипучем кресле, и ждал, куда повернется разговор» 1) места 2) времени 3) условия 4) изъяснительное Тенденция эта далеко не случайна, она диктуется педагогической логикой: привычные, перенесенные из сферы традиционного контроля слова, как ошибочно полагают некоторые авторы заданий, сильнее мотивируют учеников к выполнению теста. Появление подобной тенденции — следствие недостаточного опыта раз работчиков. Вопреки их ожиданиям включение инструкции в текст заданий, равно как и другие отступления от требований краткости и стандартизации формулировок, ведет к снижению точности оценок учеников по результатам выполнения теста. Пятый недостаток формулировок можно соотнести с просчетами, способствующими угадыванию правильного ответа в отдельных заданиях теста. Своеобразной подсказкой ученику могут служить некоторые грамматические признаки, такие, как число, время глагола, род существительных или их падежные окончания, в том случае, когда наблюдается рассогласование 169
между основной частью и одним или несколькими ответами. Например, в задании Задание 120 О разнообразии природных условий России свидетельствует 1) равнинный рельеф 2) различные формы рельефа 3) различные типы климата 4) многообразие ландшафтов единственное число глагола основной части ограничивает выбор ученика первым или четвертым ответом. Таким образом, наделе в задании работают только два ответа, хотя автор полагает, что их четыре. Аналогичная ситуация складывается в примере Задание 121 Особенностью экономического развития России начала XX века было 1) наличие огромного государственного сектора экономики 2) незначительная доля государственного сектора 3) отсутствие государственного сектора экономики 4) резкое сокращение государственного сектора экономики где ученик будет выбирать правильный ответ не из четырех, а только из трех ответов, исключив из рассмотрения тот, который не со гласуется с глаголом основной части. Еще проще выбрать правильный ответ в примерах 122 и 123 Задание 122 Одним из приоритетных направлений интеграции стала 1) научно-техническая сфера 2)сельское хозяйство 3) производство товаров роскоши 4) некоординированное развитие внешней торговой политики Задание 123 Субъектами переговорного процесса при коллективно-договорном регулировании трудовых отношений являются 1) объединения работодателей, профсоюзы, органы исполнительной власти 2) Государственная Дума 3) Совет Федерации 170
где в обоих случаях внимание ученика неизбежно останавливается на первом ответе. Казалось бы, по сходной причине неудачно задание 124. Задание 124 Корни уравнения 1о$» х _ г(2х — 3) = 1 будут 1)х= 1,х=2 2)х=2 3) хе0 В нем наблюдается рассогласование между глаголом основной части и правильным ответом. Однако это кажущееся сходство недостатков приводит к несколько иным последствиям. В задании правильным является третий ответ, а первый и второй — дистракторы. В процессе выполнения задания для исключения второго ответа из рассмотрения достаточно одной наблюдательности и вовсе не требуется умение ученика решать логарифмические уравнения, так как множественное число в основной постановочной части помогает ученику сразу же отбросить второй ответ. Причем, что интересно, о просчетах такого рода ученики никогда не со общают преподавателю, а просто пользуются недосмотром разработчика теста. Помимо неработающего дистрактора в примере есть другой более серьезный недостаток, указывающий на необходимость переделки задания или удаления его из теста. Легко предсказать несостоятельность профиля ответов на задание еще до момента апробации теста. Причина несостоятельности — рассогласование между содержательной основой задания и правильным третьим ответом. В то время как основная часть предполагает существование корней, уравнение их не имеет, и потому в случае правильного решения ученик должен выбрать третий, противоречащий условию ответ. В процессе коррекции задание можно изменить и сформулировать в другом виде: Задание 125 Уравнение 1о$» х_ г (2х — 3) — 1 корни 1) имеет 2) не имеет Правда, такое изменение на первый взгляд сопровождается некоторой потерей качества задания, поскольку уменьшение числа дистракторов увеличивает вероятность угадывания правильного от- 171
вета, но первое впечатление отчасти ошибочно, так как на самом деле в результате изменения задание даже улучшится. Если в первом случае учащемуся было достаточно поставить данные корни в уравнение и отбросить первый и второй ответы на основании определения логарифмической функции, то во втором случае ему необходимо решить уравнение и только тогда выбрать правильный ответ. В следующем примере для устранения случаев рассогласования автор попытался предложить набор различных окончаний, что только отчасти улучшило формулировку, а может, наоборот, ухудшило ее. Задание 126 Создателями крупного индустриального производства России начала XX века был(о, а, и) 1) государство 2) иностранный капитал 3) русская буржуазия 4) русские помещики Прием, конечно, довольно неудачный, и потому его лучше избегать при разработке заданий теста. Для исключения случаев рассогласования обычно достаточно слегка переформулировать условие, введя слова: «считают, относят, полагают...». Например, задание 122 можно сформулировать в виде: Задание 127 К приоритетным направлениям интеграции относят 1) научно-техническую сферу 2) сельское хозяйство 3) производство товаров роскоши 4) некоординированное развитие внешней торговой политики или в виде: Задание 128 Приоритетное направление интеграции — это 1) научно-техническая сфера 2) сельское хозяйство 3) производство товаров роскоши 4) некоординированное развитие внешней торговой политики 172
Часто выбору правильного ответа с помощью догадки способствуют вербальные ассоциации, которые случайно могут встретиться в тексте заданий теста. Например, в задании 129 вполне явно просматривается правильный первый ответ. Задание 129 Знаменитая икона «Троица» была написана Андреем Рублевым для 1) Троицкого собора в Троице-Сергиевой лавре 2) Андроникова монастыря 3) Благовещенского собора в Московском Кремле 4) Успенского собора во Владимире В задании 130 успех ученика менее очевиден, поскольку при выборе ему придется принимать во внимание первый и третий ответы, из которых как раз первый является верным. Задание 130 Один из первых древнерусских монастырей, основанных братьями Антонием и Феодосией Печерскими,— это А. Киево-Печерская лавра Б. Ильинский монастырь В. Псково-Печорский монастырь Г. Троице-Сергиева лавра Зато в следующих трех примерах, где правильный ответ вынесен на первое место, успех ученика, обладающего сообразительностью, вполне закономерен. Задание 131 Относительно законченный элемент деятельности! А. Действие Б. Движение В. Мимика Г. Перемещение Задание 132 Политика «открытых дверей» японского менеджмента — это прежде всего А. Открытые каналы общения с сотрудниками Б. Свобода инвестирования капитала В. Создание новых филиалов и набор новых сотрудников Г. Лояльность и преданность всех сотрудников 173
Задание 133 Анализ религии как любой научной дисциплины требует подхода А. #яу«шо-исследовательского Б. Атеистического В. Богооткровеиного Г. Идеологического В отдельных ситуациях вербальные ассоциации могут быть не вредны, а, наоборот, полезны. Одно дело, когда они способствуют угадыванию правильного ответа, и совсем другое дело, когда они привлекают внимание незнающих испытуемых к дистракторам, затрудняя угадывание правильного ответа, как, например, в задании 134. Задание 134 Первые остатки австралопитеков были найдены в 1) Африке 2) Азии 3) Австралии Здесь вопреки ожиданиям незнающих учеников правильным является не третий, а первый ответ. Удачно составлено задание 135. Задание 135 «Приказами» называли 1) органы центрального управления 2) рассылаемые царем указы 3) документы, в которых записывались решения Земского собора 4) распоряжения Боярской думы Здесь правильным является первый ответ, а вербальная ассоциация просматривается со вторым, неправильным ответом. Конечно, в формулировках заданий встречаются и другие, менее типичные ошибки. Иногда попадаются случаи неудачного подбора дистракторов, как в задании 136. Задание 136 Чтобы вскипятить чай, в электрический чайник налили 2 кг воды при температуре 20 °С Сколько времени потребуется для этого, если сопротивление нагревательного элемента чайникав 100 Ом, а напря- 174
жение в сети 220 В? (Потерями энергии пренебречь.) Варианты ответов 1) 140с 2) 1400с 3)25 мин. 4) 30 мин. 5) 0,5 ч В нем четвертый и пятый ответы задают одно и то же время, выраженное в различных единицах измерения. Здесь намечается явное противоречие, поскольку с точки зрения требований формы не допускаются дистракторы, вытекающие один из другого и тем более совпадающие, как в данном примере. Улучшить задание довольно просто: достаточно исключить один из совпадающих дист- ракторов либо заменить его на другое значение ответа. Задание 137 Кто является правопреемницей ГАТТ А. ВТО Б. ЮНКТАД В. ООН Г. МВФ Недостаток этого задания вполне очевиден: оно трудночитаемо. Благодаря сокращениям задание обрело краткость, но утратило валидность. Практический опыт применения подобных заданий говорит о том, что часть знающих правильный ответ испытуемых не справится с заданием из-за сокращений в формулировке условия и ответов. Таким образом, корректная постановка задания предполагает исключение условных сокращений, малопонятных и редко употребляемых слов, неизвестных ученикам символов — словом, всего того, что может затруднить восприятие смысла. В целом восприятие заданий и понимание их смысла осложняется рядом недоработок, связанных с нечеткостью инструкций, отсутствием разнообразия шрифтов, неумелым расположением ответов. В приведенном выше задании 136 совершенно лишними являются слова «Варианты ответов». Подобные недоработки приводят к так называемым технологическим ошибкам, смещающим реальные оценки знаний учеников. Во избежание искусственного запутывания испытуемых в тех случаях, когда есть опасность смешения номера ответа и численного значения ответа, номер ответа лучше заменить буквой. Например, в задании 175
Задание 138 Относительная молекулярная масса оксида меди (II) равна 1.16, 2.64, 3.80, 4.96. для упорядочения ответов необходимо использовать буквы: Задание 139 Относительная молекулярная масса оксида меди (II) равна а) 16, 6)64, в) 80, г) 96. Буквам вообще нередко отдают предпочтение при упорядочении ответов к заданиям теста, так как они помогают четче и быстрее в условиях дефицита времени отделить метку ответа от содержания ответа. При расположении номеров ответов в следующем примере автором сделана недопустимая ошибка. Задание 140 УКАЖИТЕ ОШИБКУ В ДАННЫХ Средняя плотность населения Россия: 8,7 чел. на 1 кв. км (1) Европейская территория России: 29 чел. на 1 кв. км (2) Сибирь: 2,5 чел. на 1 кв. км. (3) Московская область: 35 чел. на 1 кв. км. (4) Эвенкийский автономный округ: 0,03 чел. на 1 кв. км (5) Несомненно, задание нуждается в коррекции. Номера ответов необходимо перенести в начало, на привычное место. Довольно сложно воспринимается формулировка задания 141, где как раз номера ответов использованы удачно. Здесь для упорядочения ответов буквы явно непригодны: они сольются при чтении задания с самими ответами. Задание 141 В пищевой цепи, состоящей из организмов: а) горностай, б) слизень, в) обыкновенный уж, г) лягушка, д) листья — консументом первого порядка является 1)а, 2)6, 3)в, 4) г, 5) д. Несмотря на правильную нумерацию, ответы трудно читаемы, поскольку в процессе выполнения задания приходится неоднократно мысленно возвращаться к условию, чтобы установить организмы, 176
соответствующие различным буквам ответа. Для облегчения процесса чтения задания формулировку его ответов лучше слегка изменить: Задание 142 В пищевой цепи, состоящей из организмов: горностай, слизень, обыкновенный уж, лягушка, листья — консументом первого порядка является 1)горностай 2) слизень 3) обыкновенный уж 4) лягушка 5) листья При разработке любого тестового задания всегда заранее определяется то, что однозначно считается правильным ответом, и выбирается степень полноты ответов. Стремясь улучшить задание, неопытный разработчик часто делает правильный ответ более длинным или описывает его более полно. Причем эта тенденция к полноте правильных ответов, как правило, носит не единичный, случайный характер, а встречается в большинстве заданий теста. Есть и другая крайность: разработчик делает правильные ответы предельно краткими, а в дистракторы добавляет дополнительную, часто избыточную информацию с целью затруднить испытуемому выбор и увести его в сторону от правильного ответа. Если эти тенденции носят стойкий характер, то они становятся понятны испытуемому после выполнения нескольких первых заданий теста. Как правило, ученики очень быстро улавливают разницу и выбирают правильный ответ с помощью догадки по признаку его полноты или краткости. Если трудно написать все варианты ответов одинаковой длины, то лучше верный вариант сделать короче других, как, например, в задании 143, где правильным является достаточно короткий первый ответ. Явно выделяется четвертый вариант ответа, который приблизительно в пять раз длиннее остальных. В задании он выполняет функцию дистрактора, хотя, по-видимому, довольно неудачно, поскольку и по длине, и по конструкции существенно отличается от правильного первого ответа. Задание 143 Сверхпроводящее состояние при данной температуре можно разрушить А. Сильным магнитным полем 177
Б. Ударом в вертикальном положении В. Воздействием ультразвука Г. Сверхпроводящее состояние, так же как и радиоактивность, от внешних условий не зависит, оно зависит лишь от вещества Особого внимания заслуживают случаи, когда один из ответов сформулирован в виде «все перечисленные выше», или «все утверждения верны», или «ни один из перечисленных ответов», как, например, в задании 144, где неудачная формулировка предваряет ответы, хотя, по замыслу автора, должна была бы завершать. Задание 144 Человек представляет собой А. Все утверждения верны Б. Субъект управленческой деятельности В. Один из объектов исследования систем управления Г. Один из возможных элементов исследования Источник появления подобных формулировок вполне понятен — это затруднения разработчиков с подбором нужного числа дистракторов к заданиям теста. И, как во всех остальных случаях, где дистракторы носят явно надуманный характер, подобные формулировки ухудшают качество заданий теста. Причины снижения эффективности заданий становятся вполне понятными, если проанализировать возможный ход рассуждений учеников, выполняющих задания теста, подобные приведенному выше. При выполнении такого задания на выбор одного правильного ответа сообразительному ученику достаточно проанализировать лишь часть информации. Как только два правильных ответа найдены, остальные можно не читать и смело выбирать опцию «все ответы верны». Возможна другая ситуация, когда ученик увидел в задании хотя бы один неправильный ответ. Тогда опция «все ответы верны» просто исключается из рассмотрения, и задание работает не с гипотетическим, а с меньшим числом ответов. Аналогичные проблемы возникают при использовании в заданиях ответа «ни один из перечисленных». В этом случае возможны две ситуации, когда это словосочетание выполняет функции либо правильного, либо неправильного ответа. В первой ситуации, когда это правильный, искомый ответ, задание крайне неинформативно. Оно ничего не говорит о знаниях ученика, а лишь характеризует его способность исключить из рассмотрения заведомо неправильные 178
ответы. Во второй ситуации, когда словосочетание играет роль дис- трактора, оно, как правило, никем не выбирается, поскольку обычно любому ученику достаточно заметить в задании правильный или хотя бы похожий на правильный ответ. В целом, конечно, тестовое задание не должно быть тривиальным, хотя, как показывает опыт общения с авторами заданий, некоторые считают тривиальность неотъемлемой чертой заданий в тесте. Как правило, эта точка зрения принадлежит противникам тестовых методов, которые в большинстве своем просто не знакомы со всеми возможностями тестов. По-видимому, к их числу принадлежал автор следующего задания. Задание 145 Для болта с резьбой М20 нужна гайка 1)М24 2)М20 3)М18 Хотя пример может показаться невероятным, но он взят из жизни, такое задание действительно имело место у одного из авторов при создании теста. Есть и другая крайность, когда задание чрезмерно усложняется. При этом теряются явные технологические преимущества тестового задания, и оно превращается в громоздкое контрольное задание без четко определенных эталонов правильного ответа. Именно по этому пути пошел автор теста по истории, фрагмент из которого — одно задание — приводится далее. При ближайшем рассмотрении каждому становится понятно, что задание не состоялось, хотя разрабатывалось, по замыслу автора, в форме закрытого задания теста. Задание 146 Определите период, в котором имели место следующие исторические события: 1) 1917-1920 гг. 5) 1953-1964 гг. 2) 1921 -1929 гг. 4) 1940-1952 гг. 3) 1930-1939 гг. А. Корниловский мятеж с целью свержения Временного правительства А.Ф. Керенского. Б. Провозглашение Н.С. Хрущевым лозунга «Догнать и перегнать Америку по производству мяса и молока». В. Расстрел большевиками мирной народной демонстрации в поддержку Учредительного собрания. 179
Г. Смерть Сталина и арест Берии. Д. Образование СССР. Е. Дело «кремлевских врачей». Ж. Введение продналога и начало НЭПа. 3. Строительство завода «Уралмаш». И. Капитуляция Франции перед армией Гитлера. К. Введение продразверстки и политики «военного коммунизма». И наконец, к неудачным можно отнести закрытые задания, для правильного ответа на которые требуется слишком много времени, хотя они, казалось бы, являются вполне тестовыми с точки зрения правильности формы. Эти, образно говоря, тестоподобные задания могут существенно усложнить работу ученика и не потому, что они слишком трудны, просто их выполнение либо требует обширных вычислений, либо связано с дополнительными выводами формул или доказательствами. Если в тесте оказались такие задания и нет никаких временных ограничений на выполнение каждого задания теста, то вряд ли можно надеяться на то, что индивидуальные баллы учеников будут отражать их действительный уровень знаний. Это объясняется тем, что время, отпущенное на выполнение теста, обычно очень невелико, поэтому к выполнению части заданий ученики просто не успеют приступить, хотя вполне возможно, что в других условиях они успешно бы справились с пропущенной частью заданий теста. Создание тестоподобных заданий, как правило, вызвано ошибочными представлениями разработчика о том, что любые фрагменты содержания учебной дисциплины можно отобразить в закрытой форме, хотя абсолютизировать возможности любой тестовой формы, в том числе и закрытой, нет никаких оснований. Например, не поддаются трансформации в форму тестовых задания, требующие обширных вычислений, доказательств, многословных описаний. В некоторых случаях громоздкие традиционные контрольные задания до преобразования в тестовую форму необходимо предварительно упростить. Работа по упрощению обычно предполагает разукрупнение заданий с сохранением основных знаний и умений, необходимых для выполнения задания в его традиционной постановке. Разукрупнение часто отождествляют с неким примитивизмом, не позволяющим, по мнению противников тестового контроля, осуществить углубленную проверку знаний и умений испытуемых, выявить знание причинно-следственных связей и проверить ряд 180
сложных умений. На самом деле это не так. Если тестовое задание примитивно, то это следует отнести не к недостаткам тестового контроля, а к отсутствию должного уровня профессионализма у разработчика теста. Когда разработчик обладает достаточным опытом, в его заданиях проверяются различные умения. Нередко в хороших тестах с помощью нескольких слов формулируются вопросы, для ответа на которые ученику приходится задействовать нестандартное мышление и осуществлять перенос знаний в незнакомую ситуацию, работать на продуктивном уровне и давать нестандартные ответы. 4.3. Задания на дополнение В заданиях на дополнение готовые ответы не даются: их должен придумать или получить сам ученик. Как и в случае закрытой формы, здесьтакже встречается разночтение при выборе названия. Иногда вместо термина «задания на дополнение» используют термины: «открытые задания» или «задания с конструируемым ответом», правда, последние два варианта, пожалуй, менее удачны. Задания на дополнение бывают двух заметно отличающихся видов. Первый — с ограничениями, налагаемыми на ответы, возможности получения которых соответствующим образом определены по содержанию и форме представления. Второй — задания со свободно конструируемыми ответами, в которых учащиеся должны составить развернутый ответ в виде полного решения задачи с пояснениями или дать ответ в виде микросочинения — эссе. В заданиях с ограничениями заранее определяется, что однозначно считается правильным ответом, и задается степень полноты представления ответа. Обычно он бывает достаточно кратким — одно слово, число, символ и т.д. Иногда — более длинным, но не превышающим двух-трех слов. Естественно, что регламентированная краткость ответов выдвигает определенные требования к сфере применения, поэтому задания первого вида в основном ис пользуются для оценки достаточно узкого круга умений учеников. Обычно с их помощью проверяют умения воспроизводить и применять знания в знакомой ситуации, а также выявляют уровень понимания изученного материала. В принципе, они годятся для оценки интеллектуальных умений учеников, хотя в последнем случае возникает ряд проблем в процессе разработки таких заданий теста. Отличительная особенность заданий с ограничениями на дополняемые ответы заключается в том, что они должны порождать 181
только один, запланированный разработчиком правильный ответ. Добиться этого зачастую трудно даже опытным разработчикам открытых заданий теста, хотя внешне создание заданий этой формы теста выглядит достаточно просто [11,43]. Автор мысленно формулирует вопрос, затем записывает четкий и краткий ответ, в котором на месте ключевого слова, символа или числа ставится прочерк. В силу однозначности правильного ответа, по крайней мере в тех случаях, когда ее удается реализовать, проверка результатов выполнения носит довольно объективный характер. Однако одно дело — теория, а совсем другое дело — практика. На практике неоднозначность ответов нередко затрудняет проверку результатов выполнения заданий на дополнение с ограничениями, налагаемыми на ответы. Задания на дополнение кажутся ученикам более трудными, так как в них исключается догадка. Действительно, легче выбрать правильный ответ из предложенных, основываясь не столько на знаниях, сколько на интуиции, чем самому его сформулировать или найти в процессе решения поставленных проблем. Но именно это свойство делает задания на дополнение исключительно привлекательными для педагогов, особенно для тех, кто привык в своей работе опираться на традиционные средства контроля и не доверяет тестам. Есть и недостатки. Они особенно заметны тем, кто занимается массовым тестированием в режиме компьютерной выдачи или проверки результатов выполнения теста. Эти недостатки связаны с трудностями, возникающими при оценке ответов учеников. Дописывая ответ на месте прочерка, ученик может выбрать синонимы пропущенного запланированного разработчиком слова или изменить порядок следования элементов в пропущенной формуле, что значительно затрудняет проверку и оценку результатов учеников. При выполнении открытых заданий часто появляются частично правильные и правильные в разной степени ответы, поэтому к проверке приходится привлекать педагогов вместо использования технических средств и разрабатывать специальные соглашения об оценках. Задания второго вида со свободно конструируемым ответом не имеют никаких ограничений на содержание и форму представления ответов. За отпущенное время ученик может писать что угодно и как угодно. Однако тщательная формулировка подобных заданий предполагает наличие эталона, в качестве которого обычно выступает наиболее правильный ответ с описывающими его характеристиками и признаками качества. 182
Несомненно, задания со свободным ответом во многом близки к традиционным контрольным заданиям и потому воспринимаются положительно абсолютным большинством педагогов. Они интересны и разнообразны в содержательном плане. С их помощью можно оценить умения, характеризующие познавательную деятельность учащихся разного уровня, выявить способы решения учебных задач, вычленить этапы мыслительного процесса и подвести итоги отдельных этапов, что особенно важно для анализа типичных ошибок учеников. Характерные отличия двух видов открытой формы хорошо просматриваются на примере, где в форму заданий со свободным и ограниченным ответами закладывается один и тот же содержательный элемент. Задание с ограниченным ответом: Задание 1 Процесс, для которого теплоемкость постоянна, называется (ответ— политропическим). Задание со свободным ответом: Задание 2 Какой процесс можно считать политропическим? Хотя желательным ответом на вопрос задания 2 является формулировка задания 1, вполне возможно, что некоторые испытуемые опишут политропический процесс более длинным и пространным предложением, поскольку в задании 2 нет никаких ограничении на ответ. Что касается данного примера, то для пользователя выглядит более привлекательным задание 1 в силу единственности слова, которое предложит знающий ученик в качестве правильного ответа. Задания на дополнение со свободно конструируемым ответом Задания со свободными ответами требуют значительных затрат преподавательского труда при проверке, и потому они менее предпочтительны. Преподавателю приходится анализировать множество правильных в разной степени ответов и выбирать один в качестве эталона. Конечно, по этой причине задания второго типа крайне нетехнологичны. Проверка результатов их выполнения субъективна, а интерпретация результатов значительно затруднена. 183
Обычно выполнение заданий со свободными ответами требует от учеников различных знаний и умений, а потому результаты трудно интерпретируемы. Бывает и так, что из-за многообразия умений результаты проверки становятся несоизмеримыми, и их нельзя отложить на одной шкале. Помимо этого, в силу многообразия ответов неизбежно появление элементов субъективизма, которые вносят в оценку педагога многочисленные факторы. На оценки результатов учеников влияют полнота их ответов, объем представленной информации, внешнее оформление ответов, орфографические ошибки и т.д. Легко представить, как по-разному можно, например, ответить на задание со свободным ответом: Задание 3 Оформите цитату разными способами и запишите получившиеся предложения «Для всего в русском языке есть великое множество хороших слов». К.Г. Паустовский или на другое, тоже со свободно конструируемым ответом: Задание 4 Продолжите формулировку правила Вводными называются слова Еще значительнее разброс в ответах будет при выполнении задания Задание 5 Продолжите утверждение Значение водорослей в эволюции в том, что они И наконец, совсем в произвольной форме эссе следует давать ответ на задание 6, где следует ожидать различных не только по длине, но и по содержанию ответов. Задание 6 Укажите причины, по которым в 1920—1930 годах в нашей стране очень слабым было сопротивление режиму массовых репрессий. Сделайте вывод. Несомненно, что ни разработка специальной методики проверки, ни создание групп экспертов, ни введение элементов стандартизации не могут решить всех проблем, порождаемых субъек- 184
тивностью оценок при подсчете баллов учеников в заданиях со свободно конструируемыми ответами. Поэтому при массовом тестировании учеников эти задания стараются не применять либо применять в крайне незначительной степени. По этим же причинам в пособии все внимание сосредоточено на обсуждении заданий на дополнение с ограниченными ответами. Задания на дополнение с ограничениями на ответы При ответе на открытое задание с ограниченным ответом ученик дописывает пропущенное слово, формулу, символ или число на месте прочерка. Разработка заданий на дополнение с ограничениями подчиняется ряду общепринятых правил. 1. Каждое задание должно быть нацелено только на одно дополнение, место для которого обозначается прочерком или точками. 2. Прочерк ставится на месте ключевого элемента, знание которого является наиболее существенным для контролируемого материала. 3. Все прочерки в открытых заданиях для одного теста рекомендуется делать равной длины. 4. Дополнения лучше ставить в конце задания или как можно ближе к концу. 5. После прочерка, если это возможно, указываются единицы измерения. 6. Текст задания должен обладать предельно простой синтаксической конструкцией и содержать минимальное количество информации, необходимое для правильного выполнения задания. 7. В тексте задания нет повторы и двойное отрицание. Как уже отмечалось ранее, схема разработки заданий на дополнение с ограничениями на ответы достаточно проста [23]. Сначала рекомендуется сформулировать вопрос, содержащий не более семи-восьми слов, затем на поставленный вопрос записать ответ, представляющий некоторое высказывание примерно той же длины. Далее из полученного высказывания исключить ключевое слово (число, символ и т.п.) и на его месте поставить прочерк. Затем необходимо изменить порядок слов в высказывании, так чтобы прочерк переместился в конец предложения. Для открытой формы используют инструкцию, состоящую из одного слова: дополните. Например: 185
ДОПОЛНИТЕ Задание 7 Половодье на большинстве рек Восточно-Европейской равнины наступает Задание 8 Операция вычисления производной называется Задание 9 Соединение с преимущественно ионной связью — это Задание 10 Если считать Землю однородным шаром, то ускорение свободного падения в центре Земли равно м/с2 Задание 11 Крещение Руси произошло при князе Задание 12 Длина ребра куба с площадью поверхности 242 м2 равна м Задание 13 Самое глубокое озеро земного шара Задание 14 Главой Революционного военного совета Советской Республики в годы гражданской войны стал Задание 15 В педагогическом тесте задания располагаются в порядке возрастания Задание 16 Средством педагогического измерения является Задание 17 Доля правильных ответов на тестовое задание выражает меру Удачными выглядят случаи создания фасетных заданий, когда разные ученики получают различные варианты одного и того же задания. Например, идея фасета отражена в заданиях: Задание 18 186
Теплоемкость моля идеального одноатомного газа при изотермическом 1 - \ процессе равна адиабатическом Задание 19 Прилагательное красивый жесткий единственного множественного I Задание 20 в именительном родительном дательном числе имеет окончание падеже Я Личное местоимение ^ Ты он V ^ В единственного м ножественного числа имеет форму Задание 21 Роман «Война и мир» > написал именительном родительном падеже Задание 22 Приращение энтропии моля одноатомного газа при нагревании от Тх до Т2 при постоянном давлении > равно объеме ] Менее удачной представляется формулировка, где место для прочерка оставлено ближе к концу, но все же не в самом конце предложения, как, например, в задании 23. Задание 23 Железная дорога Петербург—Царское Село построена в году. 187
Значительно труднее воспринимается текст задания, когда прочерк смещается к началу предложения, как в заданиях 24 и 25. Задание 24 Апйге^ ТУ еуегу ёау Задание 25 Если все добрые люди смешливы, то смешливые добры И уж совсем неудачно, когда прочерк находится в самом начале высказывания, и чтение задания начинается с искомого элемента, как в заданиях 26 и 27. Задание 26 уоиг НапёкегсЫеГ. Уои' уе ДгорреЛ к. Задание 27 осуществляют перенос аминокислот к месту синтеза белка. В них любому испытуемому достаточно сложно сообразить, что от него требуется. Для ответа он должен прочесть все задание и, возможно, не один раз, осмыслить текст, затем вернуться к началу и уж потом задуматься над содержанием дополняемого элемента. Знание этих же содержательных элементов лучше проверить, изменив порядок слов, конечно, если это возможно, как, например, в следующем задании. Задание 28 Перенос аминокислот осуществляют Еще труднее улавливается смысл задания, если в нем предполагается поиск двух и более дополнительных слов и имеются прочерки в различных местах утверждения. Если этих прочерков два, осмысление содержания задания и поиск пропущенных слов становится довольно трудным даже для знающего ученика. Например: Задание 29 Спорангии со спорами у папоротников расположены на листа. В случае пропуска трех и более слов задание, скорее всего, значительно потеряет в валидности. Вполне возможно, что сильные 188
ученики просто не сообразят, чего же хотел от них преподаватель, и потому не справятся с заданием, хотя в другой постановке они могли бы дать на него правильный ответ. Задание 30 Автором памятника К. Минину и на Красной площади в является Задание 31 Результатом процесса приобретения образования является . Оно может быть или Пропуск нескольких слов, как в заданиях 30 и 31, всегда вызывает у испытуемых большие затруднения, обусловленные не содержанием, а формой представления. К тому же применение таких заданий требует заранее установленных соглашений об оценке, предусматривающих все возможные варианты более или менее полных ответов. Ведь вполне возможно, что отдельные учащиеся подставят не все слова на месте пропусков и потому частично выполнят задание теста. Если дополняемые слова следуют одно за другим, как в задании Задание 32 СНГ образовано в где на месте прочерка следует добавить словосочетание из двух слов, то смысл задания улавливается еще труднее, особенно в течение короткого времени, отпущенного на выполнение теста. В подобных заданиях встречаются, как правило, различный порядок следования слов и различная степень распространенности ответов, что, несомненно, привносит дополнительные трудности в оценку результатов учеников и лишает ее однозначности. Отмеченные трудности хорошо просматриваются на примере 32, где некоторые ученики при ответе, конечно, ограничатся только указанием года образования СНГ, другие добавят еще месяц, а третьи могут указать дополнительно место заключения соглашения. В следующем задании Задание 33 Растения называются продуцентами потому, что они на месте прочерков следует добавить не менее трех слов, поэтому, так же как и в предыдущем задании, возможны различный поря- 189
док следования слов и различная степень распространенности ответов. Еще более неопределенна постановка следующего задания Задание 34 Последовательность отделов тонкой кишки Последнее задание скорее похоже на вариант со свободно конструируемым ответом, чем на задание с ограничениями, в котором невозможны различные продолжения, приводящие к логически несоразмерным, подобранным по разным основаниям ответам. Конечно, при использовании подобного задания в тесте у преподавателей всегда возникают проблемы с оценкой результатов учеников. Возможны ситуации, когда ответы в большинстве своем будут отличаться от планируемого эталона, но незначительно, поэтому их нельзя оценить как полностью неправильные. К тому же в ситуации неопределенности здесь виноват разработчик, а неконтролируемый ученик. Для коррекции задания в его текст необходимо внести уточнения, связанные с сужением объема проверяемого понятия и уменьшением за счет этого количества дополняемых слов в ответе. В результате подобных уточнений разработчик, несомненно, добьется ясности смыслового содержания заданий, но проиграет в краткости. Однако это неизбежно, поскольку каждое задание на дополнение с ограничениями с необходимостью должно порождать единственный правильный ответ. Несмотря на видимые преимущества по сравнению с закрытой формой, основной сферой применения заданий на дополнение остается текущий контроль. Реже они используются в итоговом контроле из-за трудностей с проверкой, которая становится крайне трудоемкой, довольно субъективной и требует привлечения большого количества педагогов в случаях массового тестирования учеников. 4.4. Задания на установление соответствия В заданиях на соответствие преподаватель проверяет знание связей между элементами двух множеств. Слева обычно приводятся элементы задающего множества, содержащие постановку проблемы. Справа — элементы, подлежащие выбору, хотя возможно и иное расположение, как, например, в книге [43]. К заданиям прилагается стандартная инструкция, состоящая из двух слов: установите соответствие. 190
Например: УСТАНОВИТЕ СООТВЕТСТВИЕ Задание 1 Название 1. Простая функция аргументах 2. Сложная функция аргументах Функция А. Зх2 + у2=1 Ъ.у=2х2 + Зу[х-\ 3. Неявная функция 4. Параметрически заданная функция Ответы: 1 , 2 , 3 , 4 Задание 2 Функция \)у =81П2хСО&Х 2)^=С082Л31ПХ 3) у - 2(8Й1 Ъс — 81ШС) 4) у = 2(со82х - со&г) Ответы: 1) _, 2)_, 3)_, 4) в.Н2г у = 31 Г. у = 2х2 +з4х2+\ Производная а) у'— С082Х — 581П2ХС08Х б) у'= 4С08Х — 6С083ЛС В) у'= 2С083Х — 481П2Л:С08Х Г) у'- 281ПХ — 6С082Х81ШС Д) у'- 6 81П2ХС08А- — 2 С08Х е) у'= 681П3Л + 2 81ШС Задание 3 Для случая, если радиус-вектор частицы определяется выражением г = 3г2ёх+4(2ёх + 2е2 Характеристики 1) путь частицы за первые 2 с, м 2) модуль перемещения за первые Юс, м 3) модуль скорости частицы в момент времени /= 1 с, м/с Ответы: 1) , 2) , 3) Их числовое значение а) 20 6)500 в) 10 г) 40 д)300 191
Задание 4 Моменты инерции относительно оси, проходящей через центр масс 1) однородного шара радиуса Я 2) однородного шара радиуса Я (ось перпендикулярна плоскости диска) 3) обруча радиуса Я (ось перпендикулярна плоскости обруча) Ответы: 1) , 2) , 3) Их числовые значения а)тЯ2 б) тЯУ2 в) тЯ2/3 г) 2тЯ2/5 д) тЯ2/2 е) тЯ*/5 Каждое задание завершается строкой ответов, в которой испытуемый проставляет на месте прочерков буквы, соответствующие выбранным элементам из правого множества. Как правило, одному элементу левого множества соответствует только один элемент правого, хотя возможны и другие варианты. Иногда специфика содержания дисциплины приводит к соответствию, когда на один элемент левого множества приходится два, три и более правильных ответов из правого столбца. Например, в задании Задание 5 Орган 1. Воздухоносные пути 2. Легкие 3. Воздухоносные околоносные пути Ответы: 1 , 2 , 3 Функция А. Звуковой резонатор Б. Газообмен В. Голосообразование Г. Очищение воздуха Д. Проведение воздуха Е. Увлажнение воздуха Ж. Согревание воздуха один и тот же орган может выполнять несколько функций, поэтому на каждую позицию в строке ответов можно вписать несколько букв. Иногда встречаются попытки расширения соответствия натри и большее число множеств, как, например, в задании 192
Задание 6 Вид Среда Назначение термообработки охлаждения I. Отжиг А. Вода 1. Снижение хрупкости II. Нормализация Б. Воздух закаливанием стали III. Отпуск В. Масло 2. Увеличение прочности Г. Печь 3. Увеличение твердости Д. Раствор 4. Снижение твердости соли 5. Увеличение пластичности Ответы: I и , II и , III и С одной стороны, приведенное выше задание ценно тем, что позволяет проверить умение испытуемого устанавливать связи между тремя множествами элементов. С другой стороны, задание довольно громоздко. Для его выполнения необходимо не только умение устанавливать связи, но и простая внимательность, которой так часто недостает даже знающим ученикам. В определенном смысле задания на установление соответствия довольно близки к заданиям в закрытой форме И в том, и в другом случае при их выполнении ученик совершает одно и то же действие — выбирает из числа предложенных преподавателем правильный ответ. Не случайно задания на соответствие легко переделы ваются в ряд заданий закрытой формы, а закрытые задания в том случае, когда они имеют к нескольким содержательным основам одно и то же множество ответов, можно трансформировать в два множества для установления соответствия. Например, в задании на соответствие можно преобразовать закрытую форму фасетного задания 47 из разд. 4.1. Задание 7 Картина Автор картины 1) «Явление Христа народу» А) И. Репин 2) «Демон» Б) А. Рублев 3) «Отказ от исповеди» В) А. Иванов Г) М. Врубель Ответы: 1 , 2 , 3 Интересен пример из англоязычной тестовой литературы [23], где ряд закрытых заданий 8—11 (правильный ответ отмечен звездочкой) преобразуется в задания на установление соответствия между двумя множествами. 7 Чсчышкона VI.П. 193
Задание 8 Какой тест наиболее полезен для целей педагогической экспресс- диагностики? А*.Тест, состоящий из закрытых заданий с четырьмя—пятью ответами Б. Тест, состоящий из закрытых заданий с альтернативными ответами В. Тест, состоящий из заданий на дополнение с ограничениями на ответы Задание 9 С помощью какой формы тестовых заданий можно проверить наиболее широкий спектр учебных достижений? А. Задания с выбором из четырех—пяти ответов Б*. Задания с альтернативными ответами В. Задания на дополнение с ограничениями на ответ Задание 10 В каких тестовых заданиях трудно объективно оценить результаты выполнения? А. В заданиях с выбором из четырех-пяти ответов Б. В заданиях с альтернативным выбором В*. В заданиях на дополнение с ограничениями на ответ Задание 11 В каких заданиях наиболее высока вероятность угадывания правильного ответа? А. В заданиях на выбор из четырех-пяти ответов Б*. В заданиях с альтернативным выбором В. В заданиях на дополнение с ограничениями на ответ Приведенные выше четыре задания интересны тем, что имеют одинаковое множество ответов, поэтому их можно свернуть в более компактную форму одного задания на установление соответствия: УСТАНОВИТЕ СООТВЕТСТВИЕ Задание 12 Вид задания Характеристика вида 1. С выбором из А. Эффективность при четырех—пяти использовании в педагогической ответов экспресс-диагностике 194
2. С выбором Б. Проверка широкого альтернативных спектра учебных умений ответов В. Трудность объективной 3. На дополнение оценки результатов с ограничениями выполнения на ответ Г. Высокая вероятность угадывания правильного ответа Ответы: 1 _ и _, 2 _ и _, 3 _ и _ При разработке заданий на соответствие следует руководствоваться следующими правилами: 1) задание формулируется так, чтобы все содержание можно было выразить в виде двух множеств с соответствующими названиями; 2) элементы задающего столбца располагаются слева, а элементы для выбора справа; 3) желательно, чтобы каждый столбец имел определенное название, обобщающее все элементы столбца; 4) необходимо, чтобы правый столбец содержал хотя бы несколько дистракторов. Еще лучше, когда число элементов правого множества примерно в два раза больше числа элементов левого столбца; 5) необходимо, чтобы все дистракторы в одном задании были равновероятно правдоподобны; 6) элементы столбцов должны быть выбраны по одному основанию для включения только гомогенного материала в каждое задание теста; 7) в дополнительной инструкции к заданию необходимо сообщить ученику о наличии дистракторов в правом столбце, а также о том, используется ли каждый элемент правого столбца только один раз или более одного раза; 8) все задания необходимо располагать на одной странице, не допуская переноса отдельных элементов. Как и в заданиях закрытой формы, наибольшие трудности при разработке связаны с подбором правдоподобных избыточных элементов в правом множестве. Мера правдоподобности каждого избыточного элемента устанавливается эмпирически. Эффективность задания будет существенно снижена, если неправдоподобные элементы легко различаются даже незнающими учениками при выборе ответов Иногда в задании содержится подсказка, облегчающая угадывание правильных ответов. Например, 7* 195
Задание 13 Орган 1. Гортань 2. Легкие 3. Плевра 4. Бронхи 5. Глотка Название воспаления органа А. Фронтит Б. Фарингит В. Ларингит Г. Ринит Д. Гайморит Е. Бронхит Ж. Трахеит 3. Плеврит И. Пневмония Ответы: 1 , 2 , 3 , 4 , 5 благодаря вербальным ассоциациям можно легко угадать правильное соответствие для третьего и четвертого элементов левого множества Задание 14 Функция 2) у 3)У созЗл: 81П 2х 1&5х Производная 1 Ответы: 1 2_Л а) у -- б)у'=—3 81П Зх в) у'= 2со8 2х г) у= 3 со8 Зх Д) V = ~2 С08 5х е) у = —2 со8 2х В задании круг поисков ученика при выборе правильного ответа существенно ограничен видом аргументов функции левой и правой части. Понятно, что для функции у = со83х отвечающий на задание будет выбирать правильный только из второго и четвертою ответов, а для функции у=1%5хтолько из первого и предпоследнего ответов. Эффективность задания также снижается в тех случаях, когда число элементов в левом и правом множестве одинаково и при установлении соответствия для последнего элемента слева просто не из чего выбирать. Последнее правильное или неправильное соответствие устанавливается автоматически благодаря последователь- 196
ному исключению элементов для предыдущих соответствии, как, например, в задании Задание 15 Пример части речи 1. Кто-нибудь 2. Аккуратность 3. Чувствовать 4. Нежданно 5. Из-за Ответы: 1 ,2 . Часть речи А. Глагол Б. Предлог В. Местоимение Г. Имя существительное Д. Наречие 3__, 4_, 5. Основной педагогический смысл применения заданий на соответствие заключается в стремлении преподавателя реализовать обучающий потенциал тестовых заданий. В этой связи задания на соответствие ценны тем, что позволяют многократно активизировать одну и ту же единицу содержания в процессе отработки умений и доведения их до уровня навыков. Например, при выполне нии задания 2 ученику приходится искать четыре производных от тригонометрических функций и таким образом неоднократно задействовать одно и то же умение. Интересны задания на соответствие в содержательном плане. При определенном искусстве разработчика с их помощью можно выявить знание причинно-следственных связей и осуществить таким путем углубленную проверку результатов учебной деятельно сти школьников в процессе текущего контроля. Важная сфера применения заданий на соответствие — проверка знаний о взаимосвязи определений и фактов, форм и содержания, посылок и выводов и т.п. Например, в задании Задание 16 Посылки 1. Все лисы лают 2. Некоторые не лисы лают 3. Все лисы не лают 4. Все не лисы не лают Ответы: 1 , 2 , 3 , 4 Вывод А. Некоторые нелающие — лисы Б. Все зверски лающие — лисы В. Некоторые лающие — лисы Г. Некоторые лающие — не лисы Д. Все лающие — лисы требуется восстановить нарушенные логические связи. 197
В задании 17 и в большинстве следующих примеров необходимо установить взаимосвязь фактов. Задание 17 Фамилия композитора 1) Римский- Корсаков 2) Прокофьев 3) Шостакович 4) Чайковский Ответы: 1 , 2_ Название произведения а) «Ромео и Джульетта» б) «Царская невеста» в) «Ленинградская симфония» г) «Лебединое озеро» д) «Жизнь за царя» ,3. Задание 18 Фамилия кинорежиссера 1) Тарковский 2) Эйзенштейн 3) Калатозов Ответы: 1 , 2 , 3 Задание 19 Фамилия известного деятеля русской культуры 1) Пастернак 2) Шостакович 3) Левитан Ответы: 1 , 2 , 3 Задание 20 Фамилия 1) Гоголь 2) Толстой 3) Достоевский 4) Булгаков 5) Пастернак Ответы: 1 , 2_ , 3_, 4_, 5. Задание 21 Собор 1) Исаакиевский собор 2) Собор Василия Блаженного Название фильма а) «Иван Грозный» б) «Ностальгия» в) «Летят журавли» Профессия а) художник б) писатель в) композитор Имя а) Лев б) Николай в) Борис г) Федор д) Михаил Город а) Москва б) Киев в) Санкт-Петербург 198
3) Владимирский собор Ответы: 1 , 2 , 3 Задание 22 Автор 1. Толстой 2. Достоевский 3. Чехов г) Владимир д) Суздаль Ответы: 1 , 2 , 3 Задание 23 Фамилия 1. Пастернак 2. Ахматова 3. Есенин Ответы: 1 , 2 , 3 Высказывание А. Красота спасет мир Б. В человеке все должно быть прекрасно: и лицо, и одежда, и душа, и мысли В. Все счастливые семьи похожи друг на друга, каждая семья несчастлива по-своему Область искусства А. Музыка Б. Поэзия В. Живопись В итоговом контроле задания на соответствие малоэффективны в силу их громоздкости, не позволяющей охватить большой объем содержания в процессе проверки знаний учеников. Отчасти их низкая эффективность обусловлена определенными трудностями, которые возникают при оценке вклада заданий на соответствие в общую сумму баллов в том случае, если в тесте есть задания другой формы. Дело в том, что оценка правильности выполнения за даний на соответствие бывает, как правило, политомической. При этом чаще всего количество баллов равно числу правильно установленных соответствий в рамках одного задания. К тому же результаты выполнения открытых и закрытых заданий обычно оцениваются дихотомно. Таким образом искусственно снижается вклад открытых и закрытых заданий в общий балл по тесту, что в конечном итоге снижает и качество тестовых оценок. Даже если тест моноформен и содержит только задания на установление соответствия, то возникают и другие трудности, связанные с сопоставимостью оценок испытуемых при подведении итогов выполнения теста. В случае политомических оценок лучшими могут оказаться испытуемые, выполнившие правильно задания с максимальным количеством соответствий, в то время как 199
другие испытуемые, знающие гораздо больше и выполнившие большее количество заданий, но с меньшим числом элементов слева, окажутся в худшем положении и получат более низкий балл. Дополнительные трудности при оценке возникают вследствие появления более и менее правильных ответов, требующих дополнительных решающих правил при выставлении баллов. Самый простой способ преодоления отмеченных трудностей связан с введением дихотомической оценки для заданий на соответствие. В этом случае ученик, допустивший хотя бы одну ошибку в ответе, получает нуль баллов, как не выполнивший задание в целом. При условии всех правильно установленных соответствий испытуемому за задание дается один балл. Есть и другой способ, основанный на введении сквозной нумерации для всех элементов слева, при этом каждый элемент ле вого множества получает свой порядковый номер, изменяющийся не внутри заданий, а по всему тесту. Например, в тесте из 30 заданий на установление соответствия с четырьмя элементами слева в каждом задании номер последнего элемента в 30-м задании будет 120, номер предпоследнего элемента слева в 30-м задании — 119 и т.д. В целом все трудности с оценкой результатов и громоздкостью формулировок в значительной мере усложняют процесс применения заданий на соответствие в итоговом контроле, когда требуется быстрота выполнения, точность оценок и охват большого объема содержания дисциплин. Поэтому обычно, но не всегда задания на соответствие используют в текущем контроле знаний учеников. 4.5. Задания на установление правильной последовательности Тестовые задания четвертой формы предназначены для оценки уровня владения последовательностью действий, процессов и т.п. В заданиях приводятся в произвольном, случайном порядке действия, процессы, элементы, связанные с определенной задачей. Ученик должен установить правильный порядок предложенных действий и указать его с помощью цифр в специально отведенном для этого месте. Стандартная инструкция к заданиям четвертой формы имеет вид: УСТАНОВИТЕ ПРАВИЛЬНУЮ ПОСЛЕДОВАТЕЛЬНОСТЬ 200
Например: Задание I Установите правильную последовательность механизма выдоха — спадение легких — торможение центра дыхательных мышц в спинном мозге — возбуждение центра выдоха в продолговатом мозге — расслабление диафрагмы и вспомогательных мышц — уменьшение грудной полости Задание 2 Установите правильную последовательность животных в порядке усложнения в процессе эволюции их кровеносной системы — кобра — крокодил — ланцетник — лошадь — лягушка — щука Задание 3 Установите правильную последовательность в схеме рефлекторной дуги поднимания стопы — головной мозг — двигательный нерв — мышцы, поднимающие стопу — продолговатый мозг — рецепторы подошвы стопы — спинной мозг — чувствительный нерв Задание 4 Установите правильную последовательность оказания помощи при ожоге щелочью — промыть кожу струей воды — наложить повязку — смазать жиром — обработать место ожога слабым раствором уксусной кислоты — наложить на ожог холод Задание 5 Установите правильную последовательность событий, которые привели к началу Первой мировой войны 201
— Германия объявила войну Франции — Россия начала всеобщую мобилизацию — убийство в Сараево — Англия объявила войну Германии — Германия вторглась на территорию Бельгии — Австро-Венгрия предъявила ультиматум Сербии — Германия объявила войну России Задание 6 Установите правильную последовательность в общей схеме исследования функции — определить корни функции и точки пересечения графика с осью ОУ — вычислить первую производную и найти абсциссы критических точек первого рода — найти уравнения асимптот — найти область изменения функции — определить интервалы выпуклости и вогнутости и координаты точек перегиба — найти область определения функции — построить график функции — вычислить вторую производную и найти абсциссы критических точек второго рода — определить интервалы возрастания и убывания и абсциссы точек экстремума, вычислить экстремумы функции Понятно, что во многих случаях задания на установление правильной последовательности крайне нетехнологичны. Они громоздки и нередко допускают варьирующую по порядку последовательность ответов. Например, в задании 6 последовательность действий при исследовании функции носит далеко не однозначный характер, а потому задание имеет довольно много вариантов правильных ответов. Задания на установление правильной последовательности довольно специфичны — содержание большинства дисциплин поддается с трудом, а то и не поддается вовсе трансформации в четвертую форму. 202
4.6. Сравнительная характеристика форм предтестовых заданий В заключение хотелось бы поставить вопрос о сравнительной ценности всех четырех форм предтестовых заданий, чтобы облегчить авторам выбор формы при разработке теста. В процессе разработки у автора всегда возникает вопрос: остановиться ли на какой-нибудь одной форме заданий либо принять решение о совмещении различных форм в одном тесте? А если остановиться на одной, то какой из четырех форм отдать предпочтение? Выбор автора во многом определяется спецификой содержания учебной дисциплины, целями создания и применения теста. Немало здесь зависит от технологии проверки, сбора и обработки эмпирических данных, от технического и материального обеспечения процесса применения теста. Легко организовать компьютеризованный сбор и анализ результатов выполнения теста в том случае, когда все задания имеют закрытую форму. Результаты выполнения заданий на дополнение с ограниченным, а тем более с открытым ответом требуют ручной обработки. Как правило, для оценки результатов их выполнения приходится привлекать экспертов, а это требует дополнительных материальных затрат и времени на проверку. Конечно, в каждом тесте можно использовать несколько форм, однако желательно, чтобы этих форм было как можно меньше. Более того, при создании теста имеет смысл выбрать одну наиболее подходящую форму и выдерживать ее от первого до последнего задания. Требование единства формы соблюдается, как правило, в профессионально сделанных тестах. Особенно важно это требование при создании тестов для итоговой аттестации, когда ученику необходимо выполнить задания по большому объему содержания, а преподавателю обработать результаты тестирования по большой выборке учеников. Обилие форм в тесте затрудняет работу ученика и значительно усложняет статистическую обработку эмпирических результатов выполнения теста. К сожалению, требование мо- ноформности не всегда выполнимо, поскольку не все знания и умения ученика можно проверить с помощью моноформного теста. Поэтому часто приходится идти на совмещение форм, что при прочих равных условиях всегда негативно отражается на точности измерений, обеспечиваемой тестом. При создании теста правильный выбор формы не менее важен, чем продуманный отбор содержания теста. Если форма выбрана 203
неудачно, то в некоторых заданиях учащийся может найти не предусмотренный преподавателем более легкий путь решения поставленной задачи. Ошибки такого рода устранить наиболее трудно, поскольку даже после многократного использования теста в группе учащиеся вряд ли станут сообщать об этих ошибках преподавателю и, конечно, воспользуются недосмотром разработчика теста. Для отдельных заданий вопрос правильного выбора формы приобретает особую сложность, так как часто случается, что ни одна из форм не является в полной мере удачной для создаваемого задания теста. Например, определенные трудности встречаются при выборе удачной тестовой формы для такого, казалось бы, тривиального задания, как решение уравнения. Задание 1 Найти корень уравнения х — V* — 6 = 0. При выполнении задания в его традиционной постановке необходимо сделать замену переменных, решить квадратное уравнение относительно новой переменной и, отбросив посторонний корень х = 4, найти единственное решением х = 9. Проверка этих же умений учащегося становится довольно затруднительной, а иногда и попросту невозможной, если при создании тестового задания форма выбрана неудачно. Например, в закрытой форме задание может иметь вид: Задание 2 Корень уравнения х — у[х — 6 = 0 будет 1)х = 4 2)х = 9 3)х = 4,х = 9 Для выполнения задания в закрытой форме учащемуся не нужно делать замену переменных, решать квадратное уравнение и отбрасывать посторонний корень. Хотя проверку именно этих уме ний, скорее всего, планировал преподаватель при разработке данного задания теста. Ученику достаточно подставить каждое из предложенных значений х в уравнение и выбрать то из них, которое обращает данное уравнение в верное числовое тождество. Конечно, большинство тестируемых пойдет именно по такому пути и не будет решать уравнение с помощью замены переменных. 204
Неудачный выбор формы отражается негативно и на мере правдоподобности дистракторов, снижая ее в отдельных случаях до нуля. Например, в приведенном задании бесполезно ожидать, что учащиеся выберут посторонний корень в качестве правильного ответа к уравнению. Действительно, простая подстановка значения х = 4 в уравнение обратит его в неверное числовое тождество. Таким образом, в данном примере неудачный выбор формы не позволяет выявить наиболее распространенные, типичные ошибки, встречающиеся при решении уравнения, а, скорее, помогает учащемуся избежать их и отбросить неправильный ответ. Неудачен не только выбор формы, но и формулировка третьего ответа. Единственное число в основной части задания исключает из рассмотрения третий ответ, содержащий два возможных корня уравнения. По-видимому, наилучшей для данного задания будет открытая форма, хотя и в этом случае задание может иметь определенные недостатки. Например, при формулировании задания в виде ДОПОЛНИТЕ Задание 3 Корень уравнения х — V* — 6 = 0 равен единственное число значительно облегчает задачу и практически полностью исключает посторонний корень х=4 из ответов учащегося. Поэтому более удачным будет задание Задание 4 В уравнении х — л[х — 6 = 0 х равен Здесь для выполнения задания ученик вынужден будет сделать замену, решить квадратное уравнение и отбросить посторонний корень, записав единственно правильный ответ на месте прочерка. Причем нередко на месте прочерка ученики записывают два значения х, включая в число правильных ответов и посторонний ко рень уравнения. При выборе формы тестового задания необходимо помнить о том, что каждой дисциплине присуще свое собственное содержание, отличное от других, поэтому здесь нет и не может быть единых рекомендаций. Многое здесь зависит от искусства преподавателя, от его опыта и умения разрабатывать задания теста, от тех технологических задач, которые стоят перед автором на момент на- 205
чала работы над тестом. Поэтому приводимые далее выводы носят исключительно рекомендательный характер. Их следует принимать во внимание при выборе формы заданий теста, но ни в коем случае не сводить к ним весь анализ ситуации целеполагания, не ограничиваться ими при вынесении окончательного решения о выборе основополагающей формы заданий теста. Без сомнения, на этапе выбора формы контролирующих заданий в центре внимания находятся оцениваемые умения ученика. Определив круг оцениваемых умений, следует отдать предпочтение той форме, которая напрямую позволяет оценить уровень учебных достижений по каждому из запланированных к проверке умений. Если оценка умений носит опосредованный характер, то это необходимо принимать во внимание при интерпретации результатов выполнения теста. Например, при проверке умения фамотно писать лучше всего попросить ученика самостоятельно написать что-либо. Если такой возможности нет, то проверка грамотности приобретает опосредованный характер. Скажем, ее можно облечь в форму заданий с выбором правильного ответа. В таком случае при интерпретации результатов учащихся педагогу необходимо помнить о том, что умение грамотно писать самому не идентично умению находить сделанные кем-то ошибки. В целом же можно отметить, что ряд фрагментов содержания либо ряд знаний и умений можно отобразить в различных формах заданий теста. Часто предпочтение одной какой-либо форме отдать довольно трудно, так как каждая обладает своими достоинствами и недостатками. Для облегчения проблемы выбора результаты сопоставительного анализа различных форм сведены в табл. 4.1. Конечно, как уже отмечалось ранее, с точки зрения тестолога, лучше, когда тест моноформен. Хотя можно встретить противоположное суждение, рекомендующее авторам использовать как можно больше форм при разработке теста. Сторонники последней точки зрения полагают, что изменение формы способствует повышению мотивации учеников при выполнении заданий теста. По их мнению, разнообразные формы заданий делают выполнение теста менее утомительным и монотонным для учеников, способствуя тем самым повышению интереса к работе над тестом. Это утверждение выглядит вполне убедительно. Оно действительно правомерно в процессе повседневной коррекции знаний учеников и их обучения с помощью тестов. Однако при итоговом контроле, когда на первый план выходят вопросы достижения точности и сопоставимости оценок, желательно делать тест из заданий одной формы. В противном случае приходится использовать 206
Таблица 4.1. Сравнительная характеристика технологических свойств различных тестовых форм Технологические характеристики форм Проверка знания фактологического материала Проверка умений применения знаний по образцу (репродуктивный уровень) Проверка умений применения знаний в незнакомой ситуации (продуктивный уровень) Простота в конструировании Исключение ЭцЬ- цЬекта угадывания Простота при оценке результата выполнения Объективность в оценке результата выполнения Исключение цЬакто- ра ошибок испытуемых при написании ответов Возможность оригинального ответа Задания с выбором ответов (закрытые, на соответствие) Годятся Годятся Не годятся Нет Нет Есть Есть Есть Нет Задания на дополнение с ограничением ответа Годятся Годятся, но обладают ограниченными возможностями по охвату умений Не годятся Есть Есть Нет Иногда есть, иногда нет (в зависимости от качества разработанного задания) Нет Нет Задания на дополнение со свободным ответом Годятся, но обычно не используются из-за трудностей оценки результата Годятся Годятся Есть Есть Нет (оценка крайне сложна) Нет (оценка результатов крайне субъективна) Нет (на оценку результата всегда влияет умение испытуемого правильно выразить в письменной цЬорме свой ответ) Есть 207
специальные методы выравнивания вкладов заданий разных форм в итоговый балл учеников при подведении итогов по тесту. Какую бы форму ни выбрал разработчик, всегда следует помнить, что первоначальное число заданий должно в полтора—два раза превышать планируемое, так как часть заданий после первой же эмпирической проверки приходится удалить. Удаление может быть вызвано самыми различными причинами. Некоторые задания неудачно сформулированы и потому допускают двусмысленное толкование либо просто не понятны для учеников. Другие задания оказываются плохо «работающими»: сильные ученики выполняют их неправильно, а слабо подготовленные добиваются в них успеха. Третьи задания не устраивают разработчика по трудности, нарушают выбранную стратегию расположения заданий в тесте. И наконец, удаление заданий может быть вызвано желанием разработчика повысить эффективность теста. В том случае, когда подбор заданий по трудности не соответствует особенностям подготовки тестируемой выборки учеников, появляется много заданий, которые делают все либо не делает никто из испытуемых группы. Оставшиеся после предварительной чистки задания собирают в тест, который предъявляют в очередной раз репрезентативной группе учеников для сбора эмпирических данных, вопросы обработки которых рассматриваются далее в гл. 5. Выводы 1. Выбор формы предтестовых заданий определяется спецификой контролируемого содержания и целями создания теста. 2. Каждая форма заданий имеет свои достоинства и недостатки, свою сферу применения. 3. Разработка предтестовых заданий проводится сообразно стандартизованным требованиям, содержание которых зависит от специфики тестовой формы. 4. Задания с выбором ответов наиболее удобны при итоговом контроле в силу ряда технологических преимуществ, повышающих эффективность процессов применения итогового теста и оценки результатов учеников. 5. Задания на дополнение предпочтительны при обучающем контроле. 6. Современные тенденции в разработке итоговых тестов связаны с отходом от моноформности и широким использованием зада- 208
ний на дополнение, поскольку многообразие проверяемых знаний и умений требует введения различных форм в тесте. Совмещение различных форм в одном тесте значительно затрудняет подведение итоговых результатов тестирования. Приходится применять дополнительные меры для достижения объективности и сопоставимости тестовых баллов учащихся. Вопросы и задания ОБВЕДИТЕ НОМЕР ПРАВИЛЬНОГО ОТВЕТА 1. Тестовые задания с двумя ответами эффективнее использовать в контроле: 1) текущем 2) тематическом 3) итоговом 4) входном 2. Тестовые задания с пятью ответами эффективнее использовать в контроле: 1) текущем 2) тематическом 3) итоговом 4) входном 3. Открытая форма заданий рекомендуется для контроля 1) текущего 2) итогового 3)входного 4. Вероятность угадывания номера места правильного ответа в задании с пятью дистракторами будет 1)0,2 2)0,166666 3)0,5 4) 0,666666 5. Среди требований разд. 4.2 выделите те, выполнение которых обязательно при разработке заданий в закрытой форме. 6. Найдите два существенных недостатка в задании, переформулируйте задание для устранения недостатков. 209
Для какого класса животных характерны признаки: хладнокровные, обитающие в воде и на суше, размножаются в воде? 1) класс рыб 2) класс пресмыкающихся 3) класс земноводных 4) класс млекопитающих 7. Найдите наиболее существенные недостатки в формулировке задания. Как изменится жизненная емкость легких у курильщиков? 1) не изменится 2) увеличивается 3) уменьшается 4) может уменьшиться и увеличиться 8. Переформулируйте задание. В предлагаемом перечне русских художников укажите лишнее имя 1) К. П. Брюллов 2) П. А. Федотов 3) П. П. Семенов 4) А. Г. Венецианов 5) А. А. Иванов 9. Укажите недостаток в формулировке задания С увеличением высоты доля углекислого газа в воздухе 1) уменьшится 2) увеличится 3) не изменится 4) изменяется немонотонно 10. Переформулируйте задание так, чтобы в основной части осталось пять слов. Недостаток каких органических соединений является наиболее опасным для детей? 1) углеводов 2) растительных жиров 3) животных жиров 4)белков 11. Переформулируйте задания для реализации семантических преимуществ логической формы высказывания. С помощью каких органов лягушка дышит под водой? 210
1) только легкими 2) легкими и кожей 3) жабрами 4) только кожей Для каких из перечисленных животных характерен наиболее интенсивный уровень обмена вещества и энергии? 1) для рыб 2) для пресмыкающихся 3) для птиц 4) для земноводных 12. Предложите метод улучшения формулировки заданий: Что из нижеперечисленного было ликвидировано реформами 60-х годов XIX века в России? 1) самодержавие 2) крепостничество 3) сословность 4) помещичья собственность на землю 5) национальный гнет Какие из перечисленных ниже стран были охвачены в 1848— 1849 гг. революционными событиями? 1) Пруссия 4) Австрия 2) Франция 5) США 3) Россия 13. Найдите два существенных недостатка в формулировке за дания Для экономического развития России начала XX века было характерно преобладание 1) доли промышленной продукции в национальном доходе 2) городского населения над сельским 3) доли вывоза готовой продукции над вывозом сырья 4) сельского населения над городским 14. Какую инструкцию следует предложить к заданию, где правильным является первый ответ? Физиологическое отражение — это свойство а) только живой материи 6) только неживой материи в) и живой и неживой материи 211
г) только высокоорганизованной живой материи 15. Предложите правильную инструкцию для задания. Функция Г(х) гладкая в интервале, если непрерывны 1)Л*) 2)/(х)9/(х) 3)/<*),/(*),/'(*) 16. Укажите недостатки в заданиях: При выстреле из автомата вылетает пуля массой т со скоростью у. Какую по модулю скорость приобретает автомат, если его масса в 500 раз больше массы пули? Варианты ответов: 1)у, 2)500 V, 3) у/500, 4)0. 5) среди указанных ответов 1—4 нет верного. Для экономического развития России начала XX века было характерно преобладание 1) доли промышленной продукции в национальном доходе 2) городского населения над сельским 3) доли вывоза готовой продукции над вывозом сырья 4) сельского населения над городским 17. Переформулируйте задание так, чтобы в основной части остались два слова. Укажите, кто из названных ниже лиц был декабристом 1) Н. И. Новиков 2) К. Ф. Рылеев 3) И. И. Пущин 4) С. П. Трубецкой 5) М. В. Петрашевский 18. Найдите наиболее существенный недостаток в формулировке задания. Как изменится запас потенциальной энергии пружины, если ее сжатие возрастет в 2 раза? 1) не изменится 2) увеличится в 2 раза 3) увеличится в 4 раза 4) увеличится в 8 раз 212
19. Найдите наиболее существенный недостаток в формулировке задания. Для условного рефлекса характерно то, что он... 1) передается по наследству 2) приобретается в течение жизни 3) характерен для всех особей вида 4) является врожденным 20. Найдите наиболее существенный недостаток в формулировке задания Россия начала XX века была страной с... 1) низкой плотностью населения 2) высокой грамотностью населения 3) преобладанием городского населения 4) преобладанием доли промышленной продукции в национальном доходе 21. Постарайтесь угадать правильный ответ. Аргументируйте свой выбор, исходя из недостатков в авторской версии формулировки. Можно ли компенсировать недостаток витамина С другими витаминами? 1) витамином А 2) витаминами группы О 3) витаминами группы В 4)нельзя 22. Постарайтесь угадать правильный ответ, исходя из недостатков в формулировке задания с одним правильным ответом. Рациональное природопользование в добывающей промышленности характеризуют 1) комплексное использование полезных ископаемых 2) рекультивация 3) увеличение объемов добычи минерального сырья 4) очистные сооружения 23. Укажите недостаток в формулировке задания. Транслятор — это 1) программа-переводчик с английского языка на русский 2) основной модуль М5-005 3) специальная программа для перевода программы с высокого уровня в машинные коды 213
4) текстовый редактор 24. Переформулируйте задание так, чтобы оно утратило свою многословность. Что является движущей силой педагогического процесса? А. Противоречия между требованиями и возможностями Б. Противоречия между обучением и воспитанием В. Противоречия между требованиями и воспитанием Г. Противоречия между воспитанием и возможностями 25. Что неудачно в задании? УКАЖИТЕ НЕВЕРНОЕ УТВЕРЖДЕНИЕ Превращению российского пролетариата в мощную революционную силу способствовали 1) высокая концентрация рабочих на крупных промышленных предприятиях 2) худшие по сравнению с западными рабочими условия труда 3) отсутствие гражданских прав (до первой русской революции) 4) внедрение либеральных идей в рабочее движение 26. Переформулируйте задание для сокращения основной части. У каких из перечисленных существ преобладает кожное дыхание? 1) человек разумный 2) ящерица прыткая 3) воробей домовой 4) озерная лягушка 27. Найдите недостаток в формулировке задания. Новым для русской деревни начала XX века было 1) возникновение избыточного населения 2) экономическая дифференциация (расслоение) 3) большое влияние общины 4) бедственное положение большинства крестьянских хозяйств 28. Найдите недостаток в формулировке задания. Для лет первой мировой войны не были характерны 1) повышение цен 2) инфляция 3) повышение выпуска товаров народного потребления 4) «Товарные пробки» на железнодорожном транспорте 214
29. Переформулируйте задание для сокращения лексического состава основной части. С какими из перечисленных стран Россия неоднократно воевала в XVII веке? 1) Османская империя 2) Польша 3) Персия 4) Франция 5) Швеция 30. Найдите наиболее существенный недостаток в формулировке задания Температура кипения воды в открытом сосуде равна 100 °С. Изменится ли температура кипения воды, если ее нагревать в герметически закрытом сосуде? 1) не изменится 2) повысится 3) понизится 4) может увеличиться 5) может уменьшиться 31. Сколько дистракторов, по вашему мнению, содержит задание? Принцип доступности обучения состоит в том, что содержание 1) соответствует возможностям (равновесие) 2) превышает возможность (трудность) 3) ниже возможного (легкость) 4) сильно превышает возможность (перегрузка)
51 СТАТИСТИЧЕСКОЕ ОБОСНОВАНИЕ I КАЧЕСТВА ТЕСТА 5.1. СБОР ЭМПИРИЧЕСКИХ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ Процесс научного обоснования качества теста, его переработки, улучшения можно разбить на три этапа. Этап сбора эмпирических результатов тестирования является первым, начальным шагом. Второй этап — обработка эмпирических данных и третий — интерпретация результатов обработки с целью доведения теста до уровня соответствия определенным критериям качества. На этапе сбора данных необходимо принять специальные меры, обеспечивающие единообразие процедуры выполнения теста. Стандартизация этой процедуры затрагивает вопросы формирования репрезентативной выборки испытуемых, правильного инструктирования, выбора оптимального времени тестирования, качественных материалов, подходящей окружающей обстановки. Определенное внимание следует уделить подготовке преподавателей, проводящих тестирование, принять меры по предотвращению списывания в процессе выполнения теста. Малейшее отступление от требований стандартизации повлечет за собой снижение достоверности эмпирических результатов выполнения теста. Помимо перечисленных, на результаты выполнения теста может повлиять множество других, менее очевидных факторов. В целом же для обеспечения сбора достоверных эмпирических данных необходимо: • точно следовать процедурам стандартизации при сборе эмпирических данных, выполняя самые незначительные требования стандартизации; • регистрировать любые нестандартные условия, приводящие к отступлениям от требований стандартизации; • учитывать нестандартные условия тестирования при интерпретации результатов выполнения теста. Большое значение имеет разработка правильных инструкций по выполнению теста, которые следует подготовить как для педагога, руководящего процессом применения теста, так и для учеников, выполняющих тест. В инструкции для педагога содержатся рекомендации по подготовке группы учащихся к выполнению теста, примерные обязан- 216
ности педагога на этапе проведения тестирования, рекомендации по подготовке краткого отчета о выполненной процедуре предъявления теста. В целом перед тестированием педагогу необходимо: 1. Объяснить, зачем нужен тест, сообщить, какие результаты ожидаются. 2. Объяснить, почему испытуемые должны приложить максимум усилий для его выполнения, акцентировать внимание испытуемых на возможности проверки своих сил и подчеркнуть соревновательный мотив. При этом педагогу следует иметь в виду, что слишком сильная мотивация, как излишне слабая, в одинаковой степени негативно сказываются на результативности выполнения заданий теста. 3. Медленно, четко, естественным голосом прочесть инструкцию к тесту с примерами, если они имеются. Возможна ситуация, когда испытуемые самостоятельно следят по своим вариантам теста за инструкцией, а педагог зачитывает ее или воспроизводит по памяти. 4. Дать возможность испытуемым потренироваться, решив самостоятельно одну или более задач-образцов, если такие имеются. Проверить, правильно ли понята инструкция по результатам выполнения образцов заданий теста. 5. Сообщить о временном ресурсе, о правилах исправления допущенных ошибок, рассказать о том, чего не рекомендуется делать при выполнении задач и к кому обращаться в случае возникновения вопросов. 6. Вместе с испытуемыми записать, если требуется, паспортные и биографические данные в регистрационных бланках, проследить за правильностью их заполнения. 7. Ответить на имеющиеся вопросы до начала выполнения теста. 8. Раздать тест. 9. Дать команду начать выполнение заданий. Время начала записать самому или попросить сделать это испытуемых на регистрационном бланке. 10. Во время выполнения заданий следить: • за временем выполнения отдельных субтестов, если это необходимо, как, например, при выполнении скоростных тестов; • за наличием отточенных карандашей и других материалов; • за правильностью заполнения паспортной части регистрационных бланков (если замечена ошибка, своевременно ее устранить); • затем, чтобы испытуемые не писали на тестовых брошюрах, если иное не предусмотрено; • за тем, чтобы соседи не общались между собой, не мешали друг другу, не подглядывали друг у друга; 217
• за состоянием испытуемых; • за тем, чтобы испытуемые своевременно получили разрешенные инструкцией ответы на вопросы в ситуациях, связанных с процедурой проведения (ответы не должны служить подсказкой для решения или нарушать указания руководства, возможные варианты ответов должны быть предусмотрены в руководстве). 11. После сигнала к окончанию выполнения заданий теста при групповом проведении дать команду сложить брошюры и бланки для ответов в исходное положение или самому собрать (если участвуют не более 30 человек). Если участников тестирования больше 30 человек, то рекомендуется попросить всех остаться на своих местах и передать в начало ряда тестовые материалы в следующем порядке: бланки для ответов, брошюры, черновики. После этого пересчитать количество бланков и брошюр, проверить, чтобы их количество совпадало с числом испытуемых. 12. По окончании тестирования просмотреть все брошюры и стереть отметки в них. Пример подобной инструкции, используемой сотрудниками Центра оценки качества образования Института общего среднего образования РАО в рамках проводимых ими международных исследований, приводится в приложении 5.1. Хорошо подготовленный педагог-пользователь выбирает тесты, которые подходят для поставленных целей контроля. Он знаком с научной литературой по тестовой проблематике, способен оценить такие характеристики, как надежность и валидность теста. Он делает выводы и дает рекомендации, только связав тестовые результаты с другой имеющей отношение к цели тестирования информацией об индивиде, что позволяет избежать неоправданных заключений при интерпретации тестовых результатов. Инструкции для учеников могут иметь различный вид, зависящий от цели создания теста. Они бывают довольно длинными и подробными в том случае, когда выдаются ученикам при подготовке к тестированию или при самостоятельной работе дома. Пример подобной распространенной инструкции, взятой из рекомендаций по самостоятельному выполнению тестов СКЕ (Сгас1иа1е Кесогй Ехаттайоп), приводится в приложении 5.2. Краткая инструкция для испытуемого может иметь следующий вид. Инструкция экзаменующемуся Тест «...» продолжается... часа... минут. 218
1. На тестирование следует прийти не позднее, чем за 5 минут до начала. Опоздавшие не допускаются. 2. Перед началом тестирования вы обязаны зарегистрироваться у экзаменатора. 3. На тестирование необходимо принести ручку, карандаш и ластик. 4. Перед началом работы над тестом вы заполняете контрольный лист: пишите свои имя, фамилию, дату. Заполняется контрольный лист только ручкой. 5. Перед началом тестирования есть организационный момент (5 минут), во время которого экзаменатор объясняет, что вам предстоит сделать, и указывает время, которое дается на выполнение теста. 6. Работайте точно по инструкции экзаменатора. Начинайте выполнение теста сразу после того, как экзаменатор укажет время начала работы. За 5 минут до окончания выполнения экзаменатор предупредит вас. 7. Во время тестирования не разрешается пользоваться словарями, справочниками и разговаривать. 8. Если при выполнении задания вы совершили ошибку, сотрите ошибочную метку на номере (букве) ластиком и отметьте заново правильный ответ. 9. Работайте внимательно и быстро. Если вы не уверены в правильности ответа, лучше пропустите задание и выполняйте следующее. У вас будет возможность вернуться к нему, если останется время в конце работы. 10. Тест содержит избыточное количество заданий, поэтому не огорчайтесь, если в отпущенное время вы выполнили не все задания и не дошли до конца. 11. Задания в тесте расположены в порядке нарастания трудности, поэтому их следует выполнять в предложенном порядке и переходить к следующему, более трудному только после работы над предыдущим, более легким заданием теста. 5.2. Математико-статистическая обработка эмпирических данных. интерпретация результатов обработки После сбора эмпирических данных начинается этап математике статистической обработки, которая проводится, как правило, с 219
помощью специального программного обеспечения. В практическом плане применение программного обеспечения сопряжено с некоторыми трудностями. В частности, необходимо использование компьютерной техники, приобретение программных продуктов, создание специальной группы технического сопровождения. Однако, как показывает опыт, все эти трудности могут быть преодолены даже силами небольшого преподавательского коллектива, особенно в тех случаях, когда подсчет статистики осуществляется на небольших выборках в 50—100 человек. Этап математико-статистической обработки можно разбить на ряд шагов. Первый шаг. Первый шаг связан с формированием матрицы тестовых результатов (разд. 3.3), в которой количественные данные представляются в систематизированной и сжатой форме, чтобы обеспечить их дальнейшую обработку и интерпретацию. Формирование матрицы начинается с выбора определенного правила для оценки ответов учеников на задания теста. Обычно результаты ответов оцениваются дихотомически, а именно за каждый правильный ответ учащийся получает один балл, а за неправильный ответ или за пропуск задания — нуль баллов. Если символом ^.обозначить результат выполнения /-м испы- туемыму-го задания теста, то в сокращенной форме приведенное выше правило можно записать в виде: [1, если ответ /-го испытуемого нау'-е задание верный; у [0, если ответ/-го испытуемого нау-е задание неверный. После выбора оценочного правила эмпирические данные сводятся в матрицу. Строки матрицы, состоящие из нулей и единиц, соответствуют ответам учеников на различные задания теста. По столбцам располагаются профили ответов испытуемых на каждое задание теста. Из дидактических соображений для иллюстрации математико- статистических методов выбрана небольшая матрица, когда 12 учеников отвечали всего на 10 заданий теста (табл. 5.1). Однако все формулы и подсчеты, обсуждаемые в разделе, могут быть распространены на любые выборки испытуемых и применимы к тестам любой длины. Второй шаг. На втором шаге из матрицы тестовых результатов устраняются строки и столбцы, состоящие только из нулей или только из единиц. В приведенном выше примере таких столбцов нет, а строк только две, последние в матрице тестовых результатов. Одна 220
Габлица 5.1. Матрица результатов тестирования Номер испытуемого / 1 2 3 4 5 6 7 8 9 10 11 12 Номер задания/' 1 0 0 1 2 1 1 0 1 0 1 1 1 1 1 0 1 3 1 0 0 0 0 1 4 1 0 0 1 0 0 1 1 1 1 0 1 5 1 0 0 1 1 0 0 0 1 1 0 1 6 1 0 0 1 1 0 1 0 1 0 0 1 7 0 0 0 1 0 0 0 0 1 1 0 1 8 0 0 1 1 0 1 0 0 1 0 0 1 9 0 0 0 1 0 0 0 0 1 0 0 1 10 0 0 0 1 0 0 0 0 0 0 0 1 из них, нулевая строка, соответствует ответам 11-го испытуемого, который не смог выполнить правильно ни одного задания в тесте. В этом случае вывод довольно однозначен. Если сложилась такая ситуация, то тест непригоден для оценки знаний 11-го ученика. Для выявления его уровня знаний тест необходимо облегчить, добавив несколько очень легких заданий, которые, скорее всего, большинство остальных испытуемых группы выполнит правильно. Столь же непригоден, но уже по другой причине тест для оценки знаний 12-го ученика, который выполнил правильно все без исключения задания теста. Причина неириюдности теста — его излишняя легкость, не позволяющая выявить истинный уровень подготовки 12-го ученика. Его результаты указывают л ишь на знание предложенного в тесте материала, но не позволяют установить границу между освоенным и неосвоенным содержанием курса. Возможно, 12-й ученик знает много чего другого и в состоянии выполнить по контролируемым разделам содержания гораздо более трудные задания, которые просто не были включены в тест. В 221
эту, казалось бы, привычную для традиционного контроля и желаемую для педагога ситуацию, когда испытуемый справился со всем объемом контролируемого материала, необходимо привнести элементы тестовой науки. Хотя традиционный и тестовый контроль служат одной и той же цели — оценке знаний испытуемых, между ними есть существенные различия не только по форме проведения, но и по качеству получаемых оценок. В отличие от традиционных тестовые методы контроля позволяют ответить на наиболее важный вопрос: насколько точна оценка знаний каждого испытуемого и следует ли ей вообще доверять? Сама по себе постановка вопроса никак не связана с недостатками тестовых методов, поскольку ошибка (погрешность) измерения существует всегда и везде. В том числе и в процессе тестовых измерений возникает ряд погрешностей, мешающих получить истинные баллы учеников. Существование погрешностей приводит к мысли об относительной точности оценок, которая варьирует и которую можно счесть как достаточной, так и не позволяющей доверять полученным оценкам. Обычно, если нормативно-ориентированный тест сделан хорошо, то достаточной точностью обладают примерно 70% результатов, находящихся в центре распределения, а примерно 5% самых слабых и 5% самых сильных результатов вообще нельзя доверять, так как они отражают истинный уровень знаний учеников с очень большой ошибкой измерения. Именно по этим соображениям профессионально организованные тестовые службы при обработке отбрасывают не менее 3 или 5% результатов на концах распределения. К сожалению, в нашей стране зачастую тестовые оценки испытуемых выставляются без учета теоретических ограничений на возможные диапазоны их применения. Причина такого положения — практическое незнакомство большинства преподавателей с основами тестовой теории, незнание основных ее положений. Особенно пагубно это незнание ска зывается на качестве тестов, разрабатываемых в нашей стране. Нередко автор теста, если его выполнили все или почти все испытуемые группы, расценивает свою работу как успех. У этой тенденции есть свои печальные следствия. Тестовые оценки, полученные со значительной ошибкой измерения, порождают у преподавателей многочисленные сомнения в возможностях педагогических тестов. В сущности, здесь виноваты не тесты, а отсутствие должного профессионализма их разработчиков, но об этом почему-то никто не думает, особенно в тех случаях, когда ругают педагогические тесты. 222
При правильном положении вещей последние две строки матрицы должны быть удалены, и матрица тестовых результатов примет вид, приведенный в табл. 5.2. Таблица 5.2. Матрица результатов после удаления строк Номер испытуемого / 1 2 3 4 5 6 7 8 9 10 Номер задания./ 1 0 2 1 1 0 1 0 1 1 1 1 1 3 1 0 0 0 4 1 0 0 1 0 0 1 1 1 1 5 1 0 0 1 1 0 0 0 1 1 6 1 0 0 1 1 0 1 0 1 0 7 0 0 0 1 0 0 0 0 1 1 8 0 0 1 1 0 1 0 0 1 0 9 0 0 0 1 0 0 0 0 1 0 10 0 0 0 1 0 0 0 0 0 0 Третий шаг. Третий шаг связан с подсчетом индивидуальных баллов испытуемых и количеством правильных ответов испытуемых на каждое задание теста. Индивидуальный балл испытуемого получается суммированием всех единиц, полученных им за правильно выполненные задания теста. Например, 4-й испытуемый выполнил правильно 9 заданий, поэтому его индивидуальный балл равен 9. В строке ответов 2-го испытуемого стоят всего две единицы — его индивидуальный балл Х2 - 2. Для удобства полученные индивидуальные баллы Х1 (/ = 1, 2,..., 10) приводятся в последнем столбце матрицы результатов (табл. 5.3). Число правильных ответов на задания К также получается суммированием единиц, но уже расположенных по столбцам. Например, в 1-м столбце стоят 9 единиц — число испытуемых, правильно ответивших на 1-е задание, равно 9. На последнее, 10-е задание ответил правильно только один ученик, поэтому К10= 1. Число правильных ответов на каждое задание также помещается в матрицу 223
Таблица 5.3. Матрица результатов с индивидуальными баллами испытуемых и количеством правильных ответов на задания теста Номер испытуемого / 1 2 3 4 5 6 7 8 9 10 Число правильных ответов (множество К) Номер задания у 1 0 9 2 1 1 0 1 0 1 1 1 1 1 8 3 1 0 0 0 7 4 1 0 0 1 0 0 1 1 1 1 6 5 1 0 0 1 1 0 0 0 1 1 5 6 1 0 0 1 1 0 1 0 1 0 5 7 0 0 0 1 0 0 0 0 1 1 3 8 0 0 1 1 0 1 0 0 1 0 4 9 0 0 0 1 0 0 0 0 1 0 2 10 0 0 0 1 0 0 0 0 0 0 1 Индивидуальный балл (множество Я)) 6 2 1 9 4 4 5 4 9 6 50 результатов, обычно оно располагается в последней строке под номером соответствующего задания теста (см. табл. 5.3). Четвертый шаг. На четвертом шаге осуществляется упорядочение матрицы результатов тестирования. Для этого производят перестановку столбцов, располагая числа К. в порядке убывания. Затем меняют местами строки матрицы так, чтобы верхняя строка соответствовала обучаемому с минимальным индивидуальным баллом. Значения X располагают сверху вниз в порядке возрастания. Упорядоченная матрица данных тестирования приведена в табл. 5.4. Пятый шаг. На пятом шаге производится графическая интерпретация эмпирических данных. Эмпирические результаты тестирования можно представить в виде полигона, гистограммы, сглаженной кривой (процентилей, огивы) или машинописного графика. Для построения кривых необходимо упорядочить результаты эксперимента. Их можно записать в виде несгруппированного ряда 224
Таблица 5.4. Упорядоченная матрица данных тестирования Номер испытуемого / 3 2 5 6 8 7 1 10 9 4 Число правильных ответов (множество К,) Номер задания/ 1 0 9 2 0 1 0 8 3 0 0 0 7 4 0 0 0 0 1 6 5 0 0 1 0 0 0 1 1 1 1 5 6 0 0 1 0 0 1 1 0 1 1 5 8 1 0 0 1 0 0 0 0 1 1 4 7 0 0 0 0 0 0 0 1 1 1 3 9 0 0 0 0 0 0 0 0 1 1 2 10 0 0 0 0 0 0 0 0 0 1 1 Индивидуальный балл (множество Х^ 1 2 4 4 4 5 6 6 9 9 50 произвольной формы (табл. 5.5), ранжированного ряда (табл. 5.6), частотного распределения (табл. 5.7) или распределения сгруппированных частот (табл. 5.8). Таблица 5.5. Несгруппированный ряд Номер Балл 1 6 2 2 3 1 4 9 5 4 6 4 7 5 8 4 9 9 10 6 Таблица 5.6. Ранжированный ряд Ранг Номер Балл 1 3 1 2 2 2 3 5 4 3 6 4 3 8 4 4 7 5 5 1 6 5 10 6 6 4 9 6 9 9 Таблица 5.7. Частотное распределение Балл Частота 1 1 2 1 4 3 5 1 6 2 9 2 8 Челышкова М.Б. 225
Интервал баллов 1-3 4-6 7-9 Частота 2 6 2 Таблица 5.8. Сгруппированное Втабл. 5.5 Содержатся ИНДИВИДу- частотиое распределение альные баллы испытуемых, взятые из последнего столбца матрицы эмпирических результатов выполнения теста (табл. 5.3). В табл. 5.6 эти же баллы расположены в порядке возрастания слева направо и приводятся места (ранги) испытуемых, соответствующие их индивидуальным баллам. Таблица 5.6 удобна для подведения итогов тестирования в повседневной работе педагога, поскольку в небольшом классе такого распределения вполне достаточно для сообщения тестовых результатов ученикам. Балл 6 обеспечивает 1-му испытуемому ранг 5 в группе из 10 учеников. Аналогичным образом можно интерпретировать любую оценку ученика в терминах рангов. Очевидно, что равным баллам приписываются равные ранги. Если список учеников является длинным, то для определения рангов требуется много времени и сил. Список учеников с полученными тестовыми баллами можно сократить, классифицируя оценки по распределению частот, как, например, в табл. 5.7. В этом случае в верхней строке размещаются только различные оценки, а внизу под каждой оценкой — число ее повторений, которое называется частотой и обычно обозначается символом/ Сумма всех частот для данного примера #=1 + 1+3+1+2 + 2=10, т.е. равна числу учеников в тестируемой группе. Для большой группы — скажем, в 100 или более учеников — используют сгруппированное частотное распределение (табл. 5.8). Для построения распределения оценки объединяют в группы. Каждая такая группа называется разрядом оценок. В случае полного размещения оценок по разрядам говорят о распределении сгруппированных частот баллов учеников. Например, для матрицы изтабл. 5.4 об разовано 3 разряда, представленных в табл. 5.8. Хотя четкого правила выбора количества разрядов нет, но все же обычно их число стараются варьировать в пределах от 12 до 15. Занижение числа разрядов (менее 12) может существенно исказить результаты тестирования, а его завышение (более 15) затрудняет работу с таблицей. Полигон частот. По ряду частотного распределения можно осуществить графическое представление результатов тестирования в виде полигона частот, построенного (рис. 5.1). Для построения полигона частот по горизонтальной оси откладываются тестовые 226
баллы, а по вертикальной — частота появления каждого балла у те стируемой выборки учеников. 2 3 4 5 6 7 8 Тестовые баллы Рис. 5. /. Полигон для распределения табл. 5.7 Гистограмма представляет собой последовательность столбцов, каждый из которых опирается на единичный (разрядный) интервал, а высота его пропорциональна частоте наблюдаемых баллов [9]. Например, для рассматриваемого примера табл. 5.7 гистограмма приведена на рис. 5.2. Середина столбца совмещается с серединой интервала разряда, который выбран длиной в один балл. 4 5 6 7 Наблюдаемые баллы Рис. 5.2. Столбиковая гистограмма 8* 227
В данном случае в качестве разрядного выбран единичный интервал. Эта же гистофамма, построенная с помощью программных средств обработки эмпирических данных тестирования, имеет вид рис. 5.3. Рис. 5.3. Гистограмма распределения индивидуальных баллов Несгруппированный балл Сгруппированный балл Рис 5.4. Гистограммы распределения несгруппированных и сгруппированных данных 228
Фигура не получится столь вытянутой, как на рис. 5.3, если горизонтальную и вертикальную оси выбрать с расчетом, чтобы ширина гистограммы составляла около одной и двух третей ее высоты, т.е. чтобы отношение высоты к ширине было приблизительно 3:5. Гистограмма может быть построена и для сгруппированных данных. В этом случае она выглядит так, как на рис. 5.4 (нижняя гистограмма для гипотетического набора данных), где для сравнения вверху приведена гистограмма для несгруппированных данных. Машинописный график. Интересный ступенчатый график можно получить на компьютере в другом виде, для данных табл. 5.7: Балл Частота 1 X 2 X 3 4 XXX 5 X 6 XX 7 8 9 XX Выбор графического представления. Конечно, для интерпретации распределения результатов выполнения теста следует выбрать один какой-нибудь график. Часто предпочтение отдают гистограмме, поскольку это наиболее подходящее для визуального восприятия представление в том случае, когда изображается не более одного распределения. К тому же гистограмма довольно удобна для визуального сравнения эмпирического распределения с теоретическим нормальным, как, например, на рис. 5.5 для произвольного набора данных. Количество выполненных заданий Рис. 5.5. Гистограмма эмпирического распределения 229
Для сравнения двух или более распределений обычно используют полигоны частот, так как при наложении гистограмм получается довольно запутанная картина. Например, с помощью полигонов можно сравнить результаты выполнения теста учащимися различных, в данном случае трех, классов, имеющих одинаковое количество учеников (рис. 5.6). Обозначения ■ ' ■ 1-й класс 2-й класс _ — «.«» 3-й класс 5 10 15 20 25 30 35 40 45 Наблюдаемые баллы Рис. 5.6. Гистограмма эмпирического распределения На рис. 5.6 отчетливо проглядывает значительное сходство в результатах тестирования у первых двух классов, имеющих довольно похожие полигоны распределения оценок. Шестой шаг. На шестом шаге оцениваются меры центральной тенденции совокупности результатов, полученные при выполнении теста. Меры центральной тенденции предназначены для вы явления «центрального положения», вокруг которого в основном группируется множество значений рассматриваемого распределе ния данных. Если предположить, что множество результатов рас положено на прямой, то «центральное положение» имеет точка, вокруг которой по тому или иному признаку группируются все результаты выполнения теста. При анализе результатов тестирования можно использовать разные подходы к определению центра распределения. Наиболее простой способ основан на выявлении моды распределения. Мода — это такое значение, которое встречается наиболее часто среди результатов выполнения теста. Например, для данных табл. 5.7 модой является балл 4, потому что он встречается чаще (3 раза) любого другого значения балла. Конечно, не всякое распределение имеет единственную моду. Например, в распределении баллов табл. 230
5.9 есть две моды, одна из которых — 13, а другая — 19. По этой причине последнее распределение называется бимодальным. В том случае, когда все значения баллов учеников встречаются одинаково часто, принято считать, что моды у распределения нет. Таблица 5.9. Бимодальное распределение баллов Балл Частота 10 2 11 3 13 5 15 4 16 2 19 5 21 2 22 1 Среднее выборочное (среднее арифметическое) определяется суммированием всех значений совокупности и последующим делением на их число. Для совокупности индивидуальных баллов Х}, Х2, ...,Хц группы N испытуемых среднее значение X будет N ~ Л. 1 "г Л -) т ... "г Л Л — N I* N или X /=1 N (5.1) Среднее арифметическое индивидуальных баллов испытуемых для рассматриваемого выше примера матрицы (табл. 5.3 или 5.4) будет - _ 6 + 2 + 1+9+4 + 4 + 5 + 4+9 + 6 10 Вычисление среднего значения легко произвести на любом калькуляторе или ПЭВМ. Процесс вычисления значительно упрощается, если отдельные значения в совокупности повторяются, как, например, в табл. 5.7. Для данных таблицы сумма всех результатов определяется умножением каждого значения балла на его частоту и последующим суммированием полученных произведений. Тогда среднее значение будет У_11 + 21 + 4-3 + 51 + 6 2 + 9-2 50_5 1+1+3+1+2+2 ~10 В отличие от моды на величину среднего влияют значения всех результатов. Таким образом, среднее арифметическое характери 231
зует всю совокупность значений. Оно обобщает индивидуальные особенности составляющих распределения, в нем уравниваются отдельные значения рассматриваемой величины. С другими свойствами среднего выборочного можно познакомиться в учебнике по статистике. Вообще говоря, вычисление мер центральной тенденции — это механическая процедура, которую легко и быстро выполнит любая ПЭВМ. Однако получаемые результаты в процессе разработки теста требуют специальной интерпретации и размышления. Интерпретация мер центральной тенденции. Меры центральной тенденции в определенной степени помогают при оценке качества теста в том случае, когда она проводится по результатам апробации теста на репрезентативной выборке учеников. Обычно считают, что хороший нормативно-ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки учеников, когда среднее значение баллов находится в центре распределения, а остальные значения концентрируются вокруг среднего по нормальному закону, т.е. примерно 70% значений в центре, а остальные сходят на нет к краям распределения, как на рис. 5.7. Рис. 5.7. Нормальная кривая распределения индивидуальных баллов Если тест обеспечивает близкое к нормальному распределение баллов, то это означает, что на его основе можно определить устойчивое среднее значение баллов, которое принимается в качестве одной из репрезентативных норм выполнения теста. Обратный вывод, вообще говоря, неверен: устойчивость тестовых норм вовсе не предполагает обязательного нормального распределения эмпирических результатов выполнения теста. У читателя может сложиться неправильное представление о том, что существует жесткая связь между нормальным распределением частот и практически любыми эмпирическими данными по тесту. 232
На самом деле это не так, поскольку нормальная кривая — это изобретение математиков, которое в сглаженном, идеальном виде описывает реальный полигон частот. На практике никогда не была и не будет получена совокупность данных, распределенных точно по нормальному закону. Просто иногда полезно, допуская определенную ошибку, утверждать, что эмпирические данные распределены по нормальному закону, и описывать полигон частот сглаженной кривой. Нормальное распределение унимодально и симметрично, т.е. половина результатов, расположенная ниже моды, в точности совпадает с другой половиной, расположенной выше, а мода и среднее значение равны. Отсутствие полной симметрии в полигоне частот на практике приводит к смещению моды относительно среднего значения. В малых выборках мода, как и среднее значение, теряет свою стабильность, хотя причиной нестабильности может служить и неправильный подбор по трудности заданий в тесте. Например, если по репрезентативной выборке получилась гистограмма с бимодальным распределением (рис. 5.8), то среднее значение распределе- 4 5 6 Наблюдаемые баллы Рис. 5.8. Гистограмма бимодального распределения ния, находящееся в центре, никак не может служить нормой выполнения теста. Скорее всего, тест был сконструирован неудачно, что послужило причиной отсутствия нормального распределения эмпирических результатов выполнения теста. Смещение среднего значения влево или вправо, как на рис. 5.9 и 5.10, говорит о слишком трудной либо соответственно слишком лег кой подборке заданий теста. Таким образом, правильно сконструированный нормативно- ориентированный тест на репрезентативной выборке учеников 233
3 4 5 6 7 8 9 Наблюдаемые баллы Рис. 5.9. Гистограмма распределения баллов по трудному тесту 15- 3 ею- 5- 0 44 45 46 47 48 49 50 51 52 Наблюдаемые баллы Рис. 5.10. Гистограмма распределения баллов по легкому тесту должен обеспечивать близкое к симметричному распределению индивидуальных баллов, когда мода и среднее значение примерно равны, а остальные результаты расположены вокруг среднего по нормальному закону. Седьмой шаг. На седьмом шаге определяются описательные характеристики, служащие мерами изменчивости в группе данных по тесту. Введение характеристик связано с необходимостью выявления дополнительных оснований для обоснованного сравнения различных распределений по тестам. При сравнении нескольких распределений с одинаковыми средними с помощью дополнительных характеристик можно выявить существенные различия в структуре, указывающие на значительные отличия в качестве тестов. Наиболее важная характеристика указывает на особенности разброса эмпирических данных вокруг среднего значения баллов по тесту. Отдельные значения индивидуальных баллов могут быть тесно сгруппированы вокруг своего среднего балла либо, наоборот, 234
сильно удалены от него. Поэтому необходимы оценки характеристик распределения, отражающие вариацию, или, как говорят иначе, изменчивость баллов по тесту. Для характеристик степени рассеяния отдельных значений вокруг среднего используются различные меры: размах, дисперсия, стандартное отклонение. Размах измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Например, распределения индивидуальных баллов табл. 5.6 размах равен 9 — -1=8. Вариационный размах легко вычисляется, но используется крайне редко при характеристике распределения баллов по тесту. И для этого есть веские основания. Во-первых, размах является весьма приближенным показателем, так как не зависит от степени изменчивости промежуточных значений, расположенных между крайними значениями в распределении баллов по тесту. Во-вторых, крайние значения индивидуальных баллов, как правило, ненадежны, поскольку содержат в себе значительную ошибку измерения. В этой связи более удачной мерой считается дисперсия. Дисперсия. Подсчет дисперсии основан на вычислении отклонений каждого значения показателя от среднего арифметического в распределении. Для индивидуальных баллов значения отклонений X,-X (/= 1, 2,..., ЛО несут информацию о вариации совокупности значений баллов N учеников, т. е. отражают меру неоднородности результатов по тесту. Совокупность с большей неоднородностью будет иметь большие по модулю отклонения, наоборот, для однородных распределений отклонения должны быть близки к нулю. Знак отклонения указывает место результата ученика по отношению к среднему арифметическому по тесту. Для ученика с индивидуальным баллом выше среднего значение разности Х{ - X будет положительно, а для тех, у кого результат ниже X , отклонение Хк-Х меньше нуля. Например, в распределении баллов со средним значением X - 5 из табл. 5.6 отклонения будут: • для 3-гоученика йъ-Хх-Х-\-Ъ--А\ • для2-го <12 =Х2-Х = 2-5 = -3; • для 5-, 6- и 8-го с15 6 8 =4-5 = -1; 235
• для 7-го «7 =5-5 = 0; • для 1- и 10-го (1\ч ю =6-5 = 1 ; • для 4- и 9-го ^/4,9 =9-5 = 4. Если просуммировать все отклонения, взятые со своим знаком, то для симметричных распределений сумма будет равна нулю. В рассматриваемом примере сумма отклонений ]ЗД-ЛГ) = -4-3-1+0 + 1 + 4 = -3, 1=1 что, конечно, не позволяет оценить меру неоднородности распределения, поскольку отрицательные и положительные слагаемые уничтожают друг друга. Для преодоления этого эффекта каждое отклонение возводят в квадрат и находят сумму квадратов отклонений: Тогда сумма вида N _ _ _ _ Х(*/ -х)2 =(ху -х)2 +(*2 -х)2 +...+{хм-х)2=с11 +4 +...+4 1=1 будет большой, если результаты тестирования отличаются существенной неоднородностью, и малой — в случае близких результатов испытуемых по тесту. Для рассматриваемого примера Х(*|-Х) = (-4)2 +(-3)2 +(-1)2 +(-1)2 +02 + 12 + 12 + 42 + 42 = 62. 1=1 Величина суммы зависит также от размера выборки учеников, выполнявших тест. Зависимость здесь вполне очевидна: чем больше учеников, тем больше положительных слагаемых в сумме, характе ризующей вариацию баллов по тесту. Поэтому при сравнении мер изменчивости распределений, отличающихся по объему, возникает препятствие, которое снимается путем деления каждой суммы на УУ— 1, где ТУ— число учеников, выполнявших тест. Определяемая таким образом мера изменчивости называется дисперсией. Она обычно обозначается символом 5^ и вычисляется по формуле 52=^ . (5.2) N-1 236
Для рассматриваемого примера х 10-1 9 В примере ^ вычислялась просто в силу того, что среднее арифметическое было целым числом. На практике, как правило, приходится иметь дело с дробными значениями X ,что делает использование формулы (5.2) крайне утомительным. Поэтому нередко для подсчета дисперсии применяются другие формулы, приведенные в приложении 5.3. Стандартное отклонение. Кроме дисперсии, для характеристики меры изменчивости распределения удобно использовать еще один показатель вариации, который называется стандартным отклонением. Стандартное отклонение равно корню квадратному из дисперсии: *х=№- (5-3) Для рассматриваемого примера 5Л-7М9^2,62. Свойства дисперсии и стандартного отклонения рассматриваются подробно в учебниках по статистике. Заинтересованному читателю можно порекомендовать, например, книгу Дж. Гласе, Дж. Стенли «Статистические методы в педагогике и психологии» [9]. Стандартное отклонение не следует путать со средним отклонением, последнее находится по формуле МО = ^— (5.4) и является средним значением суммы отклонений, взятых по модулю. Интерпретация. Дисперсия играет важную роль в оценке качества нормативно-ориентированных тестов. Слабая вариация ре- 237
зультатов испытуемых указывает на низкое качество теста. Основания для подобного вывода вполне прозрачны. Низкая дисперсия индивидуальных баллов говорит о слабой дифференциации испытуемых по уровню подготовки в тестируемой группе, т.е. о той ситуации, которая диаметрально противоположна основной цели создания нормативно-ориентированного теста. Излишне высокая дисперсия, характерная для случая, когда все учащиеся отличаются по числу выполненных заданий, также грозит неприятными последствиями и требует переработки теста. Превышение разумных пределов величины дисперсии приводит к искажению вида распределения, которое начинает существенно отличаться от планируемой теоретической нормальной кривой. При переработке теста следует руководствоваться простым правилом: если проверка согласованности эмпирического распределения с нормальным дает положительные результаты, а дисперсия растет, то это означает, что происходит повышение дифференцирующей способности теста и процесс улучшения теста. Конечно, использовать какой-либо из существующих критериев для проверки нормальности распределения в практике довольно неудобно. Поэтому зачастую непрофессионалы в оценке характера распределения руководствуются простым соотношением. Для этого величину X сравнивают с утроенным стандартным отклонением. Если это равенство выполняется, т.е. если то дисперсия оптимально высока и можно принять гипотезу о нормальности распределения. Стандартное отклонение является крайне полезной мерой вариации для случая нормального распределения баллов испытуемых, так как заранее приблизительно известно, какой процент данных лежит внутри одного, двух и трех стандартных отклонений, откладываемых от центра распределения. Наиболее удобна нормированная нормальная кривая, площадь под которой равна 1 (рис. 5.11). Для нее среднее значение г =0, а стандартное отклонение аг = 1. Для совмещения любой нормальной кривой с единичной достаточно выполнить простое преобразование исходного распределения путем вычитания среднего значения X из каждого индивидуального балла Х-х и деления полученной разности на 5Х (подробнее см. гл. 7): 238
99,72% о 0) (О У > с; и х ф & С - +3^\ Рис. 5. / /. Нормальное распределение для г = 0 и ъ? = 1
^=-^—, г=0,о<=1. Вообще существует бесконечное множество нормальных кривых, отличающихся друг от друга значениями X и 5Х, но все они объединяются общими свойствами, которые связаны с долями площади под кривой, в пределах определенного числа отклонений. А именно, в любом нормальном распределении приблизительно: 1) 68% площади под кривой лежит в пределах одного стандартного отклонения, откладываемого влево и вправо от среднего (т.е. Х±\5Х)\ 2) 95% площади под кривой лежит в пределах двух 5,х, откладываемых слева и справа от среднего (Х±25^); 3) 99,7% площади под кривой лежит в пределах трех 5* влево и вправо от X ( Х±Ъ8Х). Что касается нормативно-ориентированного теста, то при его разработке необходимо помнить о том, что кривая распределения индивидуальных баллов, получаемых на репрезентативной выборке, является следствием кривой распределения трудности заданий теста. Этот факт удачно иллюстрируется рис. 5.12. Для первого распределения слева характерно явное смещение в тесте в сторону легких заданий, что, несомненно, приведет к появлению большого числа завышенных баллов у репрезентативной выборки учеников. Большая часть учеников выполнит почти все задания теста. Второй случай (слева) отражает существенное смещение в сторону трудных заданий при разработке теста, что не может не сказаться на снижении результатов учеников, поэтому распределение индивидуальных баллов имеет явно выраженный всплеск вблизи начала горизонтальной оси. Основная часть учеников выполнит незначительное число наиболее легких заданий теста. В третьем случае задания теста обладают оптимальной трудностью, поскольку распределение имеет вид нормальной кривой. Отсюда автоматически возникает нормальность распределения индивидуальных баллов репрезентативной выборки учеников, что в свою очередь позволяет считать полученное распределение устойчивым по отношению к генеральной совокупности. Следова- 240
СО ь о ь о га га ь о О га Трудность заданий теста Индивидуальные баллы Трудность заданий теста Индивидуальные баллы га ь о ь о га Трудность заданий теста Индивидуальные баллы Рис. 5.12. Связь распределения индивидуальных баллов и трудности заданий теста тельно, именно в третьем случае можно определить репрезентативные нормы выполнения теста. Таким образом, возникает нетривиальный вывод для тех, кто привык к традиционным контрольным работам, когда результаты по классу считаются вполне достоверными и хорошими, если контрольную работу выполняет основная масса учеников. В тесте все обстоит несколько иначе. Если нормального распределения нет, то нет никакого основания доверять полученным результатам учеников. Поэтому в профессионально разработанных нормативно-ориентированных тестах типичным является результат, когда приблизительно 70% учеников выполняют правильно от 30 до 70% заданий теста, а наиболее часто встречается результат в 50%. Восьмой шаг. На следующем шаге оцениваются меры симметрии и островершинности кривых распределений. Асимметрия. Степень отклонения распределения наблюдаемых частот выборки от симметричного распределения, характерного для 241
нормальной кривой, оценивается с помощью асимметрии. Наличие асимметрии легко установить визуально, анализируя полигон частот или гистограмму. Более тщательный анализ можно провести с помощью обобщенных статистических характеристик, предназначенных для оценки асимметрии в распределении. На рис. 5.13 представлены кривые распределения с отрицательной, нулевой и положительной асимметрией (слева направо) соответственно ■»> * Рис. 5.13. Отрицательная, нулевая, положительная асимметрия Наиболее удачная формула для подсчета асимметрии имеет вид N Асимметрия=-,=| 51N (5.5) где Х1 — индивидуальный балл/-го ученика; X — среднее значение баллов по тестируемой группе; 53 — куб стандартного отклонения; N— число учеников. После подстановки данных из рассматриваемого выше примера (табл. 5.3) величина асимметрии будет равна (1-5)3+(2-5)3+3(4-5)3+(5-5)3+2-(6-5)3+2(9-5): 10-2,63 0,1991-0,2. Интерпретация. При интерпретации полученного значения асимметриии 0,2 необходимо обратить внимание на то, что вклад 242
положительных значений кубов разностей Х1 - X будет больше кубов отрицательных значений, но ненамного, поэтому величина асимметрии получилась положительной и небольшой. Таким образом, асимметрия распределения положительна, если основная часть значений индивидуальных баллов лежит справа от среднего значения, что обычно характерно для излишне легких тестов. Асимметрия распределения баллов отрицательна, если большинство учеников получили оценки ниже среднего балла. Эффект отрицательной асимметрии встречается в излишне трудных тестах, не сбалансированных правильно по трудности при отборе заданий в тест. В хорошо сбалансированном по трудности тесте, как уже отмечалось ранее, распределение баллов имеет вид нормальной кривой. Для нормального распределения характерна нулевая асимметрия, что вполне естественно, так как при полной симметрии каждое значение балла, меньшее X уравновешивается другим симметричным, большим, чем X . Эксцесс. С помощью эксцесса можно получить представление о том, являются ли полигон частот или гистограмма островершинными или плоский. На рис. 5.14 изображены три кривые, отличающиеся по эксцессу. А и ». ^ Рис. 5.14. Островершинная, ^00**0^ ~ ^*>ч*%^ средневершинная и плоская п *. кривые Первая кривая (А) — островершинная, имеет явно выраженный положительный эксцесс, вторая кривая (В) — средневершинная, имеет нулевой эксцесс, характерный для нормальной кривой, третья кривая (С) — плосковершинная, кривые такого типа имеют эксцесс меньше нуля. В 243
Обычно эксцесс вычисляется по формуле Эксцесс = —— , (5.6) где все обозначения остались прежними. Для рассматриваемого примера (см. табл. 5.6) эксцесс будет (1-5)4+(2-5)4+3-(4-5)4+(5-5)4+2-(6-5)4+2-(9-5)4 ^ 10 2,64 »1,8-3«-1,2. Интерпретация. При интерпретации полученных оценок эксцесса необходимо помнить о том, что понятие «эксцесс» применимо лишь к унимодальным распределениям. Более того, интерпретация результата, указывающего на крутизну кривой распределения, возможна в сравнительно небольшой окрестности моды и теряет свой смысл по мере удаления вдоль кривой. В том случае, когда распределение данных бимодально (имеет две моды), необходимо говорить об эксцессе в окрестности каждой моды. Бимодальная конфигурация указывает на то, что по результатам выполнения теста выборка учеников разделилась на две группы. Одна фуппа справилась с большинством легких, а другая с большинством трудных заданий теста. Один из наиболее важных выводов в случае бимодального распределения нацелен на коррекцию трудности заданий теста. По-видимому, в тесте недостаточно представлены задания средней трудности, позволяющие выровнять распределение баллов, приблизив его к нормальной кривой. В заключение необходимо провести проверку значимости наиденных значений асимметрии и эксцесса. Для этого необходимо добавить информацию о принимаемом уровне риска допустить ошибку в статистическом выводе. Наиболее приемлемым для педагогических измерений является уровень в 5%, который допускает ошибку в пяти случаях из ста. После выбора степени риска проверка значимости проводится одним из описанных в литературе методов [36]. Девятый шаг. Девятый шаг предназначен для вычисления показателей связи между результатами учеников по отдельным зада- 244
ниям теста. При оценке качества заданий важно понять, существует ли тенденция, когда одни и те же ученики добиваются успеха в какой-либо паре заданий теста. Л ибо, наоборот, такой тенденции, указывающей на связь результатов, нет, и состав учеников, добивающихся успеха, полностью меняется при переходе от одного задания к другому в тесте. Очевидно, для ответа на поставленные вопросы необходимо провести анализ данных, собрав их в таблицу. Однако такой визуальный анализ данных — дело достаточно утомительное, а для больших выборок и просто невозможное. Поэтому обычно ответ на вопрос о существовании связи между двумя наборами данных получают с помощью корреляции. Корреляция. Корреляция в широком смысле слова означает связь между явлениями и процессами, Однако для исследования связи установить ее наличие недостаточно, необходимо также правильно выбрать ее вид и форму показателя, предназначенного для оценки меры связи между явлениями. Связь между двумя наборами данных Хи Уможно выразить графически с помощью диаграммы рассеяния (рис. 5.15). Г зике ас япоф 5 X гирова о О) 3 1- ьта' >> СП Он , к • • 1 • • • • • • • •• • • + • • ф • • • • • г • • •• • • т ф Ф • • ф ф ф ф Ф ф ф ф ф ф ф Ф • • • # • • • • •• • • • • ••• • • • —► Результаты тестирования по математике X Рис. 5.15. Диаграмма рассеяния, показывающая связь результатов тестирования группы школьников по математике (X) с результатами тестирования по физике ( У). Диаграмма указывает на наличие слабой положительной связи, однако не позволяет ввести обобщенную ее меру Примеры различного вида диаграмм, позволяющих графически интерпретировать характер связи между наборами данных X и У, приведены на рис. 5.16. 245
Прямая связь Нет связи • • • • * « Обратная связь Рис. 5.16. Графическая ^ интерпретация видов связи Ковариация. Без сомнения, необходимо поставить вопрос о введении определенной меры для выражения степени соответствия между наборами данных Х\\У. Точнее сказать, той меры, которая позволит выявить степень соответствия больших значений из множества X большим же значением из множества У (прямая связь) либо, наоборот, больших значений изЛ'малым из К(обратная связь). Подобная мера связи называется ковариацией. Для выявления смысла понятия «ковариация» удобно рассмотреть результаты выполнения группой испытуемых двух тестов Хи К, образующих два множества. Пусть результаты по первому тесту X— это множество X. (/ = 1, 2,..., Л/), а по второму тесту— У.(Ы 1,2,..., ЛО. Тогда для установления меры связи между результатами тестирования необходимо сравнить положение каждого тестируемого в выборках относительно данных по тесту Хи по тесту У. Обычно это положение устанавливают по отношению к среднему, тогда степень соответствия результатов /-го испытуемого в первом (А) и во втором (У) тестированиях будет проявляться в величине и знаке произведения отклонений (*,.-ВД.-Г), 246
где л/5 У( — результаты /-го испытуемого в первом и во втором тестированиях соответственно (/= 1, 2,..., IV); Х,У — средние значения результатов по тестам; N — число учеников тестируемой группы. При подсчете произведений для различных результатов учеников тестируемой группы выявляется интересная закономерность. Если результат /-го ученика выше среднего балла по обоим тестам, то произведение (Х>■- Х)(У1■- У) будет большим и положительным. Аналогично выглядит произведение отклонений для случая, когда результаты ученика намного ниже средних баллов по обоим тестам, поскольку произведение двух отрицательных чисел {Хкг - X < 0 и У1;- У < 0) также больше нуля. Таким образом, при прямой связи значений Х{и У1.(/= 1, 2,..., IV) по тестам Хи У большие значения Х1 соотносятся с большими значениями К., а малые значения Л^.с малыми Уг Тогда произведение (Х1-Х){У^ -У) будет положительным для всех или почти всех результатов учеников тестируемой группы. Соответственно большой и положительной получится сумма всех произведений, т.е. /=1 будет намного больше нуля для случая, когда результаты по тестам Х\\ Ксвязаны прямой зависимостью. При обратной связи результатов тестирования значения Х1 выше (ниже) среднего X по тесту Л" сменяются на значения У. ниже (выше) среднего У по тесту У, а сумма /=1 будет велика по модулю и меньше нуля в силу отрицательного знака всех или почти всех произведений (Х1 - Х){У1 - У) Наконец, в том случае, когда систематической связи между результатами учеников по тестам Хи Кне наблюдается, знак произведения (Х;-Х)(У;-У) будет хаотически меняться. Скорее всего, в сумме произведений, подсчитанных по достаточно большой вы- 247
борке учеников, положительные слагаемые будут уравновешиваться отрицательными и потому сумма произведений N К*/ 1=1 ХЩ-У) получится близкой к нулю. Таким образом, произведение (X, - Х)(У1 - У) по знаку и абсолютной величине отражает характер связи между наборами данных, что является ее несомненным достоинством. Однако выбору этой суммы в качестве обобщенной меры связи препятствует ее зависимость от объема выборки объектов, участвующих в измерении, в то время как для сравнения мер связи между результатами тестовых измерений по выборкам разного объема необходимо иметь показатель, не зависящий от размеров выборок. Такой показатель позволяет получить операция усреднения, осуществляемая путем деления суммы произведений отклонений на число испытуемых в выборке. Поэтому в качестве меры связи выбирается величина N ЪЩ-ХУЩ-У) 1=1 'ху N-1 (5.7) которая называется ковариацией и обозначается символом 5\ . лу Коэффициент корреляции Пирсона, Для повышения сопоставимости оценок показателей связи по выборкам с различной дисперсией ковариацию делят на стандартные отклонения. Таким образом, б* необходимо разделить на 5„ и 5*, где 5„ и 5., — стандартные отклонения по множествам Х\\ ^соответственно. В результате получается величина, которая называется коэффициентом корреляции Пирсона г: ху 'ху °х°у N /=1 ( N V N Л ' ЕС*,-*)2 М--г)2 (5.8) V /=1 /=1 У 248
Переход к другой, не содержащей X и У формуле показан в приложении 5.4. Коэффициент <р. Для оценки связи между результатами выполнения двух заданий теста коэффициент корреляции Пирсона г ху необходимо преобразовать, поскольку результаты выполнения заданий представляются в дихотомической шкале (см. табл. 5.3). Действительно, в матрице содержатся столбцы из нулей и единиц. Каждая единица и каждый нуль соответствуют результатам ответов учеников на задания теста. Преобразованный коэффициент Пирсона, вычисляемый по дихотомическим данным, называется коэффициентом «фи». (Переход от г к ф-коэффиценту показан в приложении 5.5.) После пе- ху рехода формула для вычисления коэффициента корреляции ср^результатов по двум заданиям теста с номерами./ и / имеет вид 4Р]Я]'РЛ где р{ — доля испытуемых, выполнивших правильно оба задания теста, т.е. доля тех, кто получил 1 по обоим заданиям; р. — доля испытуемых, правильно выполнивших/-е задание; ц.. = 1; р{ — доля испытуемых, правильно выполнивших /-е задание теста, <7/= 1 — рг Далее для данных матрицы табл. 5.3 подсчитывается корреляция между результатами по пятому (у = 5) и шестому (/= 6) заданиям теста: 1 + 1 + 1 + 1 Л л 5 п . 5 п . ы=—ю-=0'4; Л=Тб ' ' Л=Тб " <75 = 1-0,5 = 0,5; ^ = 1-0,5 = 0,5; 0,4-0,50,5 0,15 3 Л, у10,520,52 °>25 5 Результаты подсчета значений коэффициента корреляции между результатами по отдельным заданиям теста сводятся в матрицу, которая для данных табл. 5.3 имеет вид табл. 5.10. Интерпретация. Анализ значений коэффициента корреляции в табл. 5.10 позволяет выделить задания 3 и 8 теста. Поданным таблицы, задание 3 отрицательно коррелирует с заданиями 7,8,9 и 10 теста. О том, что «виновато» третье, а не другие задания теста, свиде- 249
СП ю н « 5 X Л ч го 5 5 =Г К О. О. о Ю о 5 •е- •е- о 5 О. Н О ел Г^ ОО ЧО т т1- ГО ГЧ — 0,1111 0,1667 0,2182 -0,4082 ееее'о ееее'о 0,4082 0,5092 0,6667 1,0000 1—* 0,1667 0,2500 0,3273 -0,1021 ОООО'О 0,0000 0,6124 0,2182 1,0000 0,6667 гч -0,5092 -0,2182 -0,476 -0,3563 0,2182 0,2182 0,3563 1,0000 0,2182 0,5092 го 0,2722 0,4082 0,5345 -0,1667 0,4082 0,4082 1,0000 0,3563 0,6124 0,4082 т1- 0,3333 0,5000 0,6547 ОООО'О 0,6000 1,0000 0,4082 0,2182 0,0000 ееее'о */-> 0,3333 0,5000 0,2182 0,0000 1,0000 0,6000 0,4082 0,2182 0,0000 0,3333 ЧО 0,4082 0,6124 0,3563 1,0000 ОООО'О 0,0000 -0,1667 -0,3563 -0,1021 -0,4082 оо 0,5092 0,7638 1,0000 0,3563 0,2182 0,6547 0,5345 -0,476 0,3273 0,2182 г- 0,6667 1,0000 0,7638 0,6124 0,5000 0,5000 0,4082 -0,2182 0,2500 0,1667 о> 1,0000 0,6667 0,5092 0,4082 ееее'о ееее'о 0,2722 -0,5092 0,1667 0,1111 о 3,2915 4,6495 4,5346 1,3436 3,6114 4,0478 4,2417 1,3888 3,1392 3,3385 Суммы 250
тельствует анализ значений коэффициента корреляции в столбцах с номерами семь, девять и десять. В них просматривается только один минус на месте, соответствующем заданию теста 3, которое в свою очередь отрицательно коррелирует с четырьмя заданиями теста. Аналогичная ситуация наблюдается в столбце, соответствующем заданию 8 теста. Отрицательные значения коэффициента корреляции указывают на определенный просчет разработчиков в содержании заданий 3 и 8 теста. Наиболее распространенная причина — отсутствие предметной чистоты содержания — нередко встречается при разработке самых разных тестов. Понятно, что предметная чистота — скорее идеализируемое, чем реальное требование к содержанию любого теста. Например, в тесте по физике всегда встречаются задания с большим количеством математических преобразований, в тесте по биологии — задания, требующие серьезных знаний по химии, в тесте по истории — задания, рассчитанные на выявление культурологических знаний, и т. п. Поэтому говорить об отсутствии пересечения содержания заданий одной учебной дисциплины с содержанием другой в чистом виде не приходится. Можно лишь стремиться к тому, чтобы при выполнении каждого задания доминировали знания по проверяемому предмету. По-видимому, противоположная ситуация наблюдалась в заданиях 3 и 8, отрицательные значения корреляции по которым указывают на отсутствие связи их содержания с содержанием других заданий теста. Таким образом, задания 3 и 8 для повышения гомогенности содержания необходимо удалить из теста. Конечно, окончательное решение остается за автором, поскольку оно бессмысленно без тщательного анализа содержания заданий теста. Правда, подобное решение об удалении заданий может быть принято в том случае, когда эмпирические результаты собраны по репрезентативной выборке учеников. Если представительность выборки не достигнута, то появление минусов может не отражать ни в коей мере реальную ситуацию с содержанием заданий теста. Анализ 9-го столбца с максимальной суммой 4,6495, приведенной в конце, указывает на наличие ряда довольно высоких значе ний коэффициента корреляции (ср9 8= 0,6124; ср9 7 = 0,7638; ср9 10= 0,6667), каждое из которых может получить различную трактовку в зависимости от вида разрабатываемого теста. Для тематических тестов высокая корреляция между заданиями неизбежна, так как задания отражают слабо варьирующее, исходное содержание, что вполне оправдано назначением теста. 251
Однако для итоговых тестов высокой корреляции между заданиями по возможности стараются избегать тестов, оценивающих одинаковые содержательные элементы, поскольку вряд ли имеет смысл включать в итоговый тест несколько заданий. Поэтому в итоговых тестах обычно стремятся к невысокой положительной корреляции, когда значения коэффициента варьируют в интервале (0; 0,3) и каждое задание привносит свой специфический вклад в общее содержание теста. Десятый шаг. На десятом шаге с помощью подсчета значений коэффициента бисериальной корреляции оценивается валидность отдельных заданий теста. Коэффициент бисериальной корреляции используется в том случае, когда один набор значений распределения задается в дихотомической шкале, а другой — в интервальной (подробнее см. гл. 7). Тогда в качестве показателя связи между распределениями выбирают бисериальный коэффициент. Под эту ситуацию подпадает подсчет корреляции между результатами выполнения каждого задания (дихотомическая шкала) и суммой баллов испытуемых (интервальная или квазиинтервальная шкала) по заданиям теста. Объяснение, на котором основан вывод формулы для подсчета бисериального коэффициента корреляции приводится в книге [9] и ряде других изданий. Формула для подсчета, полученная по результатам вывода, имеет вид _й,)у-(*0)у(Ц)у-(Ц,); $х иNу|N2 - /V где (Х\ )^ — среднее значение индивидуальных баллов испытуемых, выполнивших верноу-е задание теста; (X0)^ — среднее значение индивидуальных баллов испытуемых, выполнивших неверноу-е задание теста; 5 — стандартное отклонение по множеству значе- ний индивидуальных баллов; (МЛ.— число испытуемых, выполнивших верноу-е задание теста; (Лу.— число испытуемых, выполнивших неверноу-е задание теста; /V — общее число испытуемых, /У= УУ1 + /У0; и — ордината нормированного нормального распределения в точке, за которой лежит 100 ■ (Л^,/УУ) процентов площади под нормальной кривой. Вычисление по формуле (5.9) требует использования специальных таблиц для нахождения ординат стандартной нормальной кривой и определенной математической подготовки. Поэтому неред- 252
ко используют другой коэффициент корреляции, получивший название точечно-бисериального коэффициента — /• ы§. Основания для подобной замены вполне понятны, поскольку и точечно-бисе- риальный и бисериальный коэффициенты очень похожи и вычисляются по сходным наборам данных. Однако формула для г Ы5 намного проще, поэтому именно ему часто отдают предпочтение в практической работе. Помимо простоты в вычислении, точечно- бисериальный коэффициент по сравнению с бисериальным обладает еще одним важным преимуществом. Для подсчета значения /• Ы5 не нужны те гипотезы, которые выдвигаются в силу необходимости относительно нормального характера распределения дихотомических данных при определении меры связи по формуле (5.9). Предположение о нормальном распределении весьма существенно для вычисления гЫ5. В том случае, когда гипотеза о нормальности нарушается, значения г могут выходить за границы интервала [— 1; +11, смещаясь в ту или иную сторону вдоль числовой прямой. В отличие от бисериального точечно-бисериальный коэффициент не бывает больше +1 или меньше — 1. Формула для вычисления значения грЫ5, имеет вид (г , (М-(М- <ЦУ("о)у (5.10) ^ръЦ 8Х \ N(N-1) 9 где все обозначения те же, что и в формуле (5.9). Формула (5.10) может быть представлена в виде одного из двух вариантов, эквивалентных исходному выражению: или _Х-{Х,)] (УУоуТУ где все обозначения прежние и X - среднее значение всех индивидуальных баллов по выборке учеников. С точки зрения интерпретации удобнее всего первая формула (5.10), которая используется ниже для данных матрицы в табл. 5.3. Например, для результатов по заданию 5 253
/Рч 6+9+4+9 + 6 34 ,0 (л,)5 = = у = 6,8 , так как 1,4, 5, 9 и 10-й испытуемые выполнили задание 5 верно; у. _2+1 + 4+5 + 4_16_ 0 Ио'5 з ""Т ' так как 2, 3, 6, 7 и 8-й испытуемые выполнили задание 5 неверно. Стандартное отклонение, подсчитанное для рассматриваемого примера ранее, 5Х~2,6; (^,)5=(^о)5=5; 7У = 10; _ 6,8-3,2 5-5 3,6 /5 П7 Более точные значения гЫ5, рассчитанные с помощью компьютерных программ для данных матрицы в табл. (5.3), приводятся в табл. 5.11. Интерпретация. Анализ значений коэффициента бисериальной корреляции в табл. 5.11 указывает на два довольно неудачных задания теста. Это те же самые третье [(^Ы5)з~ 0,26] и восьмое [(гК5)8- - 0,26] задания. Полученный вывод дает ценную информацию о низкой валидности заданий 3 и 8 теста. Эти задания следует признать неудачными и для улучшения теста их необходимо удалить. В целом задание можно считать валидным, когда значение (/*ы§)~ 0,5. Под этот критерий подпадают все, кроме двух заданий (третьего и восьмого) рассматриваемого примера матрицы теста. Оценка валидности задания позволяет судить о том, насколько задание пригодно для работы в соответствии с общей целью создания теста. Если эта цель — дифференциация учеников по уровню подготовки, то валидные задания должны четко отделять хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Решающую роль в оценке валидности задания играет разность (Х{ )^ -(X0)^, находящаяся в числителе дроби формулы (5.10). Чем выше значение этой разности, тем лучше работает задание на общую цель дифференциации испытуемых, выполняющих тест. Зна- 254
Таблица 5.11. Значение коэффициента бисериальной корреляции десяти заданий теста (табл. 5.3) с суммой баллов № Задание ('ьи)у 1 9 0,8032 2 7 0,7887 3 4 0,7378 4 5 0,7229 5 6 0,6426 6 1 0,5355 7 10 0,5355 8 2 0,5020 9 3 0,2629 10 8 0,2459
чения, близкие к нулю, указывают на низкую дифференцирующую способность задания теста. В том случае, когда в разности доминирует вклад (Х0), а не (Х{), задание следует просто удалить из теста. В нем побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Таким образом, подлежат выбросу все задания, у которых гЬк< 0. 5.3. Методы обработки данных в рамках современной теории создания тестов Под современной теорией понимается существующая на Западе Нет Кезроше ТЬеогу (1КТ), предназначенная для оценки латентных параметров испытуемых и параметров заданий теста посредством применения математико-статистических моделей измерения [31, 46, 47, 50 и др.]. 1КТ является частью более общей теории латентно-структурного анализа, хотя каждое из этих направлений имеет свои особенности. В частности, в теории латентно-структурного анализа оцениваемые значения параметров рассматриваются как некоторые дискретные точки на оси латентной переменной, в то время как в 1КТ распределения переменных предполагаются непрерывными. В отличие от классической теории тестов, для 1КТ характерно стремление к фундаментальному теоретическому подходу и вместе с тем к корректному решению целого ряда практических задач педагогического измерения. В практическом плане это стремление неизбежно сопряжено с некоторыми трудностями, которые, кстати, не всегда осознаются ведущими тестологами — создателями современной теории тестов. В частности, необходимо привлечение довольно сложного математико-статистического аппарата, использование дорогостоящей компьютерной техники, нужна разработка специальных программных продуктов. Эти трудности иногда кажутся непреодолимыми неопытным создателям, а тем более пользователям педагогических тестов, по этому и первые и вторые иногда приходят к неверному выводу и полностью отказываются от 1КТ в пользу классической теории. Это решение, без сомнения, ошибочно. В конечном счете оно обязательно приводит к неполному извлечению информации из эмпи рических результатов тестирования, к созданию неэффективных новых тестов или к неэффективным оценкам испытуемых при использовании общепринятых старых. Окончательное решение в 256
пользу того или иного подхода лучше все же оставить до полного ознакомления со всеми преимуществами и возможностями, которые дает 1КТ. Другой, более гибкий подход основан на взаимодействии этих теорий. Такое взаимодействие означает, что разработку теста следует разбить на два этапа. На первом этапе создания теста из набора предтестовых заданий эмпирические данные лучше обрабатывать с помощью более простого, но и менее эффективного математико-статистического аппарата классической теории тестов. На втором этапе, в процессе углубленного анализа качества заданий, для объективной оценки их параметров необходимо привлекать аппарат 1КТ. К наиболее значимым преимуществам 1КТ обычно относят следующие. • Устойчивость и объективность оценок параметра, характеризующего уровень подготовки испытуемых. Устойчивость можно считать наиболее важным преимуществом 1КТ. Источником ее является относительная инвариантность оценок параметра испытуемых от трудности заданий теста. • Устойчивость и объективность оценок параметра трудности заданий, их независимость от свойств выборки испытуемых, выполняющих тест. • Возможность измерения значений параметров испытуемых и заданий теста в одной и той же шкале, имеющей свойства интервальной. Последнее преимущество крайне важно, поскольку преобразование исходных величин разного происхождения в одну стандартную шкалу позволяет соотнести уровень знаний любого испытуемого с мерой трудности каждого задания теста. Практическое значение введения единой шкалы трудно переоценить. Особенную важность она приобретает в последние годы, поскольку на ней основана организация современного адаптивного автоматизированного контроля знаний, который на сегодняшний день является наиболее эффективной формой оценки знаний школьников или студентов. С помощью 1КТ можно предсказать вероятность правильного выполнения заданий теста любым испытуемым в выборке до предъявления теста группе учеников, выявить эффективность различных по трудности заданий, используемых для оценки знаний, отличающихся по подготовке учеников тестируемой группы. Вообще говоря, даже одного из перечисленных преимуществ было бы достаточно для того, чтобы отдать предпочтение 1КТ при создании теста. Однако эти преимущества не случайны. Они под- 9 Мельникова М.Б. 257
креплены соответствующим научным аппаратом, для которого характерно стремление к строгому формализованному представлению и анализу эмпирических данных. Соответственно, в 1КТ исходят из ряда строгих предположений как о характере оцениваемых параметров, так и о характере процессов, протекающих при выполнении заданий теста группой испытуемых. Первоначально в 1КТ вводится основное предположение о существовании некоторой взаимосвязи между наблюдаемыми результатами тестирования и латентными (скрытыми от непосредственного наблюдения) качествами испытуемых, выполняющих тест. Обычно эти латентные качества трактуются как способности испытуемых или как уровни подготовки по предмету в зависимости от целей измерения, которые выдвигаются при создании педагогического теста. Предполагается, что каждому испытуемому ставится в соответствие только одно значение латентного параметра, определяющего наблюдаемые результаты выполнения теста. Требование одномерности не носит, как правило, противоречивого характера, так как логика разработчика теста часто следует этому образцу. Он выдвигает гипотезу о том, что, скажем, создаваемый тест призван измерить уровень подготовки по предмету или по другому, меньшему объему содержания курса. Однако это требование существенно снижает возможности 1КТ в той ситуации, когда создается тест не по одной конкретной учебной дисциплине и не все задания в нем связаны с определенной областью знаний. В последнем случае на первом этапе формирования теста необходимо удалить задания, не удовлетворяющие требованию одномерности. Затем из удаленных заданий сформировать субтесты, отбирая задания по признаку одномерности оцениваемого латентного параметра испытуемых. Разумеется, можно пойти и по другому пути и использовать тест с неудаленными заданиями. Тогда при обработке эмпирических результатов тестирования лучше обратиться к классической теории тестов. Правда, интерпретация полученных индивидуальных баллов требует соблюдения определенных мер предосторожности. Неопытный пользователь теста, плохо понимающий, каким путем был получен тот или иной индивидуальный балл, легко может прийти к его неверной интерпретации. Скорее всего, следует отдать предпочтение созданию гомогенных тестов, допускающих корректную обработку эмпирических результатов тестирования, а затем разрабатывать методы объединения отдельных оценок в одну общую, как это необходимо, например, при оценке достижений в обучении с помощью гетерогенных полидисциплинарных тестов. 258
Другие предположения носят специальный характер и связаны с математико-статистическим аппаратом, используемым в 1КТ для обработки эмпирических данных тестирования. Среди них можно выделить одно наиболее важное для понимания существенного различия между 1КТ и классической теорией тестов. Это предположение о характере измеряемых параметров испытуемых и заданий теста. В отличие от классической теории, где индивидуальный балл тестируемого рассматривается как постоянное число, в 1КТ латентный параметр трактуется как некоторая переменная. Начальное значение параметра получается непосредственно из эмпирических данных тестирования. Переменный характер измеряемой величины указывает на возможность последовательного приближения к объективным оценкам параметра с помощью тех или иных итерационных методов. Математические модели современной теории тестов. В рамках основного предположения 1КТ устанавливается связь между латентными параметрами испытуемых и наблюдаемыми результатами выполнения теста. При установлении связи важно понимать, что первопричиной являются латентные параметры. Если говорить точнее, то взаимодействие двух множеств значений латентных параметров порождает наблюдаемые результаты выполнения теста. Элементы первого множества — это значения латентного параметра, определяющего уровень подготовки N испытуемых в/5 (/ = 1, 2, ..., ЛО. Второе множество образуют значения латентного параметра р ., (/= 1, 2,..., п), равные трудностям п заданий теста. Идея взаимодействия двух множеств отражена на рис. 5.17. Однако на практике всегда ставится обратная задача: по ответам испытуемых на задания теста оценить значения латентных параметров вир. Для ее решения нужно ответить по меньшей мере на два вопроса. Первый связан с выбором вида соотношения между латентными параметрами вир. Идея установления соотношения принадлежит датскому математику Г.Рашу, который предложил ввести его в виде разности в - Р, предполагая, что параметры в и р оцениваются в одной и той же шкале [52]. Значение параметра в.можно рассматривать как положение /-го испытуемого, а значение Р, — как положение/-го задания на одной и той же оси переменных в и р. В таком случае идея Трудность заданий Р/ X X * Я » 2 н » о с с и л * со ° о о. I в р л >Ч Рис. 5.17. Взаимодействие множеств латентных параметров 9* 259
введения разности параметров получает интересную геометрическую интерпретацию. Абсолютная величина разности 6, -ру — это расстояние, на котором находится испытуемый с уровнем подготовки 6,, от задания с трудностью р.. Если эта разность велика по модулю и отрицательна, то задание бесполезно для измерения уровня знаний /-го ученика. Ученик наверняка не может выполнить его верно. Большие положительные значения этой разности тоже не представляют интереса ни для процесса контроля, ни для обучения /-го испытуемого. Задание такой трудности давно им освоено, и он наверняка справится с ним успешно при выполнении теста. С точки зрения подхода, предлагаемого в 1КЛГ, такие задания неэффективны для оценивания данного значения 6. Конечно, в том случае, когда 6 незначительно больше ср, испытуемый может ошибиться в задании, хотя, скорее всего, выполнит его верно. При отрицательных значениях разности 6 — Р испытуемого, вероятнее всего, ждет неуспех, кроме исключительных ситуаций, когда возможно угадывание правильного ответа. Ответ на второй вопрос, который является центральным в 1КТ, связан с выбором математической модели для описания рассматриваемой связи между латентными параметрами и наблюдаемыми результатами выполнения теста. Следуя основному предположению 1КТ, можно утверждать, что есть некоторая математическая модель взаимосвязи между эмпирическими результатами тестирования и значениями латентных переменных Вир. При выборе модели следует учитывать, что в реальных условиях на наблюдаемые результаты оказывают влияние как случайные, так и неслучайные факторы. Несмотря на всю «случайность» отдельных результатов тестирования, проявляется относительная инвариантность значений латентных переменных от конкретного испытания или от ряда испытаний. Например, определенная устойчивость частот появлений значений переменных 6Р 62, ..., буу наблюдается при многократном тестировании группы N обучаемых параллельными тестами. Эта устойчивость является основанием для использования понятия вероятности события как меры возможности его появления. В качестве такого события обычно выбирается правильный ответ /-го испытуемого нау-е задание теста. Условную вероятность правильного выполнения обучаемыми заданий теста выражают с помощью различных математических моделей, кото рые записываются как функции одной переменной. В частности, можно рассматривать условную вероятность правильного выполнения /-м испытуемым с уровнем подготовки 67 260
различных по трудности задании теста, считая 6. параметром /-го ученика, а (3 — независимой переменной. В этом случае условная вероятность будет функцией латентной переменной (3: ^{** = 1|е,}=/(6,-45) , 1 = 1, 2,..., N. (5.11) Аналогично вводится условная вероятность правильного выполнения у-го задания трудностью р. различными испытуемыми группы. Здесь независимой переменной является 6, а р.— параметр, определяющий трудностьу'-го задания теста: РЛХ9 =МРу}=Ф(в-Ру) , У = 1 2,..., п, (5.12) Г1, если ответ /-го испытуемого нау-е задание верный; где хи =<^ 3 [О, если ответ/-го испытуемого нау-е задание неверный; N — число испытуемых; п — количество заданий в тесте. Если подставить в функцию Р.(6) значение переменной 6 = 6/ или в функцию Р;ф) значение р = р/? то получится выражение для вероятности />.., значения которой можно охарактеризовать следующим образом: р. -»1, когда 0,- ~Ру намного больше нуля, р. -» 0, когда 9,- — Ру < 0 и велико по модулю, р.. = 1/2 при в/ = Ру. Связь между значениями разности в,- ~Ру и вероятностью правильного ответа /-го испытуемого нау-е задание теста показана на рис. 5.18. Прибор, Р/ в/ 0.-р/>О,^/>1/2 • ■ ► Привхр 6/ Р/ 0.-р/<О,/>/<1/2 При0/=р/ §( > 0.-р.= О,/>г1/2 е, А/с. 5. /Ж. Соотношение между значениями разности в, -ру и вероятностью правильного ответа 261
В теории 1КТ функции др) и <р(6) получили название пет Кезроте РипсИопз (1КР). Специальное название имеют и их графики. График функции Р. — это характеристическая кривая у-го задания (1СС), а график функции Р.— индивидуальная кривая /-го испытуемого (РСС). При выборе вида функций Р. и /^.учитываются обстоятельства как эмпирического, так и математического характера. Подробный анализ оснований для такого выбора можно найти, например, в работе [50]. В предположении нормального распределения значений латентных переменных 0 и р таких функций предлагаются две. Одна из них, обычно обозначаемая \|/(х), относится к семейству логистических кривых, другая Ф(х) является интегральной функцией нормированного нормального распределения. Поскольку для одних и тех же значений х ординаты точек графиков функций Ф(х) и \|/(1,7х) отличаются друг от друга достаточно мало, то в том, что их две, нет ни ошибки, ни противоречия. А именно для всех х, принадлежащих области определения этих функций, |Ф(х)-\|/(1,7х)|<0,01. (5.13) Наиболее сильный аргумент в пользу логистической функции связан не с качеством измерений, а с относительной простотой ее аналитического задания, выгодной при оценивании параметров 6 и р. Поэтому в практических приложениях предпочтение обычно отдают функции \|/( 1,7х). Число параметров, входящих в аналитическое задание функций, является основанием для подразделения семейства 1КР на классы. Среди логистических функций различают: • однопараметрическую модель Г. Раша 1,7<е-Ру) РШ = — • (5.14) _1,7(в/-Р) Р(й) = — (5.15) 1+е1,7(в/"р) ' где 6 и р — независимые переменные для первой и второй функций соответственно; • двухпараметрическую модель А. Бирнбаума 262
1,7а,-(6-Р,) />.(е)=-г_ • (5.16) 1+е,,7в'(в~р>) 1,7а,(в,-Р) »=тЬ»н»' <517) Кроме прежних обозначений в формулах (5.16) и (5.17) появляются параметры а. и аг Параметр а. был введен А. Бирнбаумом (А. ЕИгпЬаигт) [50] для характеристики дифференцирующей способности задания при измерении различных значений 0; параметр ^указывает на меру структурированности знаний ученика; • трехпараметрическую модель А. Бирнбаума 1,7лу(в-Ру) рАх9=Щ}=с1+Ъ-Ъ\\иЛ^ > (5Л8) 1 + е 7 ■* где с. является третьим параметром модели, характеризующим вероятность правильного ответа на задание./ в том случае, если этот ответ угадан, а не основан на знаниях ученика. В каждой из представленных моделей параметры вир выражаются как шкалированные показатели единой для всех моделей шкалы логитов. Введение единой шкалы для элементов двух различных множеств — значений 0 и значений р — позволяет решить ряд вопросов, как теоретических, так и практических. В частности, благодаря единой шкале можно ввести взаимосвязь между переменными в виде разности 0 — р, корректно сравнить результаты учеников, полученные с помощью различных тестов, подобрать оптимальные значения р, позволяющие измерить искомое 0 с минимальной ошибкой измерения. В целом эти важные преимущества позволяют преодолеть ряд существенных недостатков классической теории тестов и значительно повысить эффекгивность тестовых измерений. Перевод значений 0 и р в общую шкалу логитов с помощью специальных преобразований рассмотрен в следующем разделе для модели Г. Раша. Однопараметрическая модель Г. Раша. Однопараметрическая модель, которая часто называется простой логистической моделью, является одной из семейства логистических кривых, описанных Г. Рашем. Аналитическое задание однопараметрической модели представлено формулами (5.14) и (5.15). 263
Вид аналитического задания можно несколько изменить, записав функции РДб) и РДР) следующим образом: />у(е) = {1 + ехр[-1,7(в-ру)]}'1; -1 /}(Р) = {1 + ехр[-1,7(в/-р)]}"; (5.19) (5.20) В первом случае вероятность правильного выполненияу-го задания теста является возрастающей функцией от переменной. Это свойство функции легко интерпретируется и согласуется с практическим опытом педагога. Естественно ожидать, что чем больше уровень подготовки испытуемого, тем больше вероятность правильного выполнения им/-го задания теста. На рис. 5.19 изображена характеристическая кривая у-го задания теста, показывающая взаимосвязь между значениями независимой переменной 0 и величиной Р.(0) приведена на рис. 5.19. Точке перегиба характеристической кривой соответствует значение 0 = р, а А в этой точке равно 0,5. Я, > 1/2« 1/2 Р/<1/2« 0<ру. е = ру е>ру Рис. 5.19. Характеристическая криваяу-го задания теста Таким образом, испытуемый с уровнем подготовки, равным трудности у-го задания теста, ответит на него правильно с вероятностью 0,5. Для испытуемых с уровнями знаний намного больши- 264
ми р., вероятность правильного ответа стремится к единице. Если же 0 расположено достаточно далеко от значения 0 = р. и слева от точки перегиба кривой, то вероятность правильного выполнения у-го задания теста стремится к нулю. Разность 0 — р.обладает интересным свойством, позволяющим на репрезентативной выборке испытуемых реализовать идею инвариантности параметров 0 и р. Для иллюстрации свойства достаточно рассмотреть ситуацию, когда испытуемый или группа испытуемых с уровнем подготовки 01 ответит на задание./ с вероятностью Рх (рис. 5.20). Рис. 5.20. Иллюстрация инвариантности оценок уровня подготовки испытуемых от трудности заданий теста Увеличение трудности у-го задания теста на константу с (с > 0) вызовет смещение характеристической кривой вправо. С прежней вероятностью на это более трудное задание будет отвечать испытуемый с уровнем подготовки 01 + с. Так как е-ру=(в+с)-(ру+с), значения функции />.(0) не изменятся, что дает основание для вывода об относительной инвариантности уровня подготовки испытуемых от трудности заданий теста. Вероятность правильного выполнения /-м испытуемым различных по трудности заданий /^является убывающей функцией пере- 265
менной р. Это означает, что с ростом трудности заданий значения вероятности ЯДР) будут уменьшаться. График функции Р{ф) называется индивидуальной кривой /-го испытуемого (рис. 5.21). 0 е,.= р Р Рис. 5.21. Индивидуальная кривая 1-го испытуемого В точке перегиба кривой, соответствующей значению независимой переменной 07 = р, функция РДР) принимает значение Р.- 0,5. В процессе обучения по мере накопления знаний индивидуальная кривая испытуемого смещается вправо. Если /-й ученик выполняет задание трудностью Р1 с вероятностью Р{ (рис. 5.22), то задание трудностью Р1 + с (с > 0) с прежней вероятностью будет выполнять более подготовленный ученик: 0;.+ с (с > 0). Как и ранее, это соображение дает основание для вывода об инвариантности оценок параметров 0 и р. Эффект инвариантности оценок параметра трудности заданий от характера распределения испытуемых по уровню подготовки в тестируемой выборке учеников отражен на рис. 5.23. Поскольку вдоль кривой откладываются доли правильных ответов на задания, которые не зависят от характера распределения группы тестируемых учеников, то форма характеристической кривой задания и ее положение получатся одними и теми же при шкалировании задания в первой слабой и во второй сильной группах. Конечно, практика свидетельствует о том, что эффект инвариантности наблюдается далеко не всегда, а только в тех случаях, когда реальная статистика — доли правильных ответов учащихся на зада- 266
0 Р = 6/ Р! в,+ С Р1 + ^ Рис. 5.22. Иллюстрация инвариантности оценок параметра О О \ Группа 1 е = Ру %. "•— е -::":Ч / \ Группа 2 / Рис. 5.23. Иллюстрация инвариантности оценок параметра трудности от уровня подготовленности тестируемой группы учеников ния — лежит достаточно близко к теоретической кривой. Причем чем ближе подходят точки распределения долей к кривой — графика функции Р., тем ярче проявляется инвариантность при шкалировании заданий теста, тем больше оснований для получения устойчивых значений параметра р. (/' = 1,2,..., п) при создании теста. 267
Алгоритмы расчета оценок параметра испытуемых и трудности заданий теста. Для построения характеристических кривых заданий теста и индивидуальных кривых испытуемых необходимо знать значения параметров 0 и (3. Оценка параметров проводится в предположении нормальности распределений эмпирических данных тестирования по множеству как испытуемых, так и заданий теста. Нормально распределенными считаются и значения латентных переменных. Обычно в процессе разработки теста приходится оценивать оба параметра 0 и (3. В случае использования готового теста с известными устойчивыми значениями параметра трудности, выраженными в логитах, задача сводится к оценке только значений параметра 0 [31]. Алгоритм расчета значений параметров 0 и р можно разбить на ряд этапов. Первый этап. На первом этапе производится подсчет долей правильных и неправильных ответов каждого испытуемого на все задания теста. Доля правильных ответов /-го ученика находится по формуле Л=-^; (5.21) где /= 1, 2, ..., ТУ; п — число заданий в тесте. Доля неправильных ответов ^=1-р/5 / = 1, 2,...,#. (5.22) Например, для 1-го ученика из примера матрицы результатов тестирования в разд. 5.2 (см. табл. 5.3) А =— = 0,6, а я =1-0,6=0,4, для второго р2 = 0,2, а #2 = 0,8 и т. д. Результаты подсчета долей для всех учеников выборки приводятся в табл. 5.12 совместно с данными по второму этапу. Второй этап. Производится предварительная оценка значений параметра, характеризующего уровень подготовки учеников тести- 268
Таблица 5.12. Начальные значения логитов уровня подготовки испытуемых 1 1 2 3 4 5 6 7 8 9 10 х§ 6 2 1 9 4 4 5 4 9 6 Доля правильных ответов 1-го испытуемого р,- 0,6 0,2 0,1 0,9 0,4 0,4 0,5 0,4 0,9 0,6 Доля неправильных ответов /-го испытуемого Ц1 0,4 0,8 0,9 0,1 0,6 0,6 0,5 0,6 0,1 0,4 Начальные опенки уровня подготовки в логитах 0? 0,4055 -1,3863 -2,1972 2,1972 -0,4055 -0,4055 0,0000 -0,4055 2,1972 0,4055 руемой группы. Начальные значения параметра оцениваются в логитах. Логит уровня подготовки /-го ученика 6? находят по формуле где р. и д. — доли правильных и неправильных соответственно ответов /-го ученика на задания теста. Например, для 1-го ученика начальное значение логита уровня подготовки будет 0° = 1П— « 0,4055 (логита уровня подготовки). ' 0,4 Доли правильных и неправильных ответов учеников, а также начальные значения параметра 9^ (/=1,2,..., ТУ) приведены в табл. 5.12. 269
Третий этап. На третьем этапе подсчитываются доли правильных р. и неправильных д. ответов на каждое задание теста: Ъ=^> Ъ=1-Р;> (5-24) где К. — количество правильных ответов нау-е задание теста,у= 1, 2,..., п, и п — число заданий в тесте. Например, для 1-го задания из матрицы в табл. 5.3 Л=ТГ°'9; ^1=1-°'9=0'1' для 2-го/72=0,8,а<72= 0,2 и т. д. Доли правильных и неправильных ответов для всех заданий приводятся в табл. 5.13, где задания ранжированы по убыванию чисел К.. Четвертый этап. Производится предварительная оценка значений параметра р, характеризующего трудность заданий теста. В качестве меры трудности заданий выбирается единица измерения, называемая логитом. По определению, логит трудностиу-го задания равен Таблица 5.13. Начальные значения логитов трудности заданий • 1 2 3 4 5 6 8 7 9 10 *У 9 8 7 6 5 5 4 3 2 1 Доля правильных ответов нау-е задание 0,9 0,8 0,7 0,6 0,5 0,5 0,4 0,3 0,2 0,1 Доля неправильных ответов на/'-е задание 0,1 0,2 0,3 0,4 0,5 0,5 0,6 0,7 0,8 0,9 Начальные оценки трудности заданий в логитах р°у -2,1072 -1,3863 -0,8473 -0,4055 0,0000 0,0000 0,4055 0,8473 1,3863 2,1972 270
Р5 = 1п^- , (5.25) Р ] где р. и д. — доли правильных и неправильных ответов нау-е задание теста; й? = 1П-1- « -2,1972 логита трудности заданий. 1 0,9 Начальные значения логитов трудности приводятся в табл. 5.13. Теоретически начальные значения параметров 8 и р могут меняться в интервале (-°°, +°о): -оо < 0 < +оо 9 -оо < Р < +оо. Но практически при 0, — Ру < —5 значения Р.. близки к нулю. Аналогичная пограничная ситуация наблюдается, когда 8, -Ру- > 5, тогда Р.. очень близка к единице. Для иллюстрации утверждения соотношение между разностью 8 — Р и соответствующим значением вероятности правильного ответа по однопараметрической модели (5.14) приводится в табл. 5.14. Пятый этап. На пятом этапе подсчитываются средние значения логитов уровня подготовки и логитов трудности заданий теста. Среднее значение в для множества 0? (/= 1, 2,..., ТУ) подсчитывают по формуле ТУ где 8? — начальные значения уровня подготовки /-го ученика; ТУ— число учеников в группе. Среднее значение р для множества Ру (/= 1» 2,..., п) будет Р=^!—, (5.27) п 271
Таблица 5.14. Соотношение между значениями разности и вероятностью правильного ответа Оценка уровня подготовки в, 5 4 3 2 1 0 0 0 0 0 0 Оценка трудности заданий теста р, 0 0 0 0 0 0 1 2 3 4 5 Разность в,-Ру 5 4 3 2 1 0 -1 -2 -3 4 -5 Вероятность правильного ответа Рц 0,99 0,98 0,95 0,88 0,73 0,50 0,27 0,12 0,05 0,02 0,01 где Ру — начальные значения логитов трудности заданий; п — число заданий теста. Для рассматриваемого примера матрицы в = (0,4055 - 1,3863 - 2,1972 + 2,1972 - 0,4055 ~ 0,4055 + 0,000 - — 0,4055 4- 2,1972 4- 0,4055)/10 = 0,0405 логитов уровня подготовки, р = (-2,1972 - 1,3862 - 0,8473 - 0,4054 + 0,0000 + 0,0000 + + 0,4054 + 0,8473 + 1,3862 + 2,1972)/10 = 0 логитов трудности. Шестой этап. После завершения пятого этапа оценки каждого из параметров 8 и р будут выражены в интервальной шкале, но с разными значениями средних и разными стандартными отклонениями. На шестом этапе начальные значения логитов уровней подготовки и трудности заданий теста переводятся в единую интервальную шкалу стандартных оценок. Стандартизация достигается с помощью ряда специальных преобразований [6], для осуществления которых вычисляются: 272
— дисперсия по множеству значений 6, (/= 1,2,..., Л/) Е(е°)2-лг(ё)2 у=^Г[ ; (5-28) — дисперсия по множеству р^. (у'= 1, 2,..., л) Хф2-"(Р)2 Ц=М ; (5.29) — поправочные коэффициенты ! 1^/2,89 (530) 1-{/К/8,35' | 1 + К/2.89 (5-31) Оценки параметров 6 и р в единой интервальной шкале находятся по формулам [6] 6,=р + Хе°, (5.32) ру=ё+Гр°, (5.33) где все обозначения прежние, а параметры 8 и р имеют оценки 8/ (/=1,2,..., 1\1) и Р,(/= Ь 2,..., п) в стандартной интервальной шкале. Роль двух последних формул в развитии современной теории тестов трудно переоценить, хотя на первый взгляд они имеют узкую практическую направленность. Эти формулы позволяют преодолеть ряд существенных недостатков классической теории тестов, поскольку с их помощью можно получить объективные оценки параметров испытуемых и заданий, не зависящие друг от друга и выраженные в единой интервальной шкале. Для рассматриваемого примера по данным табл. 5.12 У= ((0,4055)2 + (-1,3863)2 + (-2,1972)2 + (2,1972)2 + (-0,4055)2 + + (-0,4055)2+ 02+ (-0,4055)2+ (2,1972)2+ (0.4055)2- 10(0,0405)2)/9 = = 1,9123. 273
По данным табл. 5.13 (/= ((-2,1972)2 + (-1,3863)2 + (-0,8473)2 + (-0,4055)2 + О2 + О2 + + (0,4055)2+ (0,8473)2+ (1,3863)2 + (2,1972)2- 100)/9 = 1,6959; Х = 1 + 1,6959/2,89 У = 1 - (1,6959 1,9123/8,35) 1 + 1,9123/2,89 1-(1,6959-1,9123)/8,35 = 1,6108; = 1,6483 Тогда для рассматриваемого примера 9, =0,000+1,61089? , /= 1,2,..., #; Ру =0,0405+1,6483р°- ,]= 1, 2,..., п. Логит уровня подготовки 1-го испытуемого в стандартной шкале будет 0, = 1,6108 • 0,4055 = 0,6531 логита. Оценки уровня подготовки группы испытуемых для данных рассматриваемого примера матрицы (см. табл. 5.3) помещены в табл. 5.15. Оценка трудности 1-го задания в стандартной шкале р. = 0,0405 + 1,6483(-2,1972) = -3,5811 логита. Таблица 5.15. Стандартные оценки уровня подготовки испытуемых • 1 1 2 3 4 5 6 7 8 9 10 Вектор уровня подготовки испытуемых 6, (в логитах) 0,6531 -2,2329 -3,5392 3,5392 -0,6531 -0,6531 0 -0,6531 3,5392 0,6531 Стандартные оценки параметра трудности заданий для рассматриваемого примера матрицы приводятся в табл. 5.16. Обращает на себя внимание тот факт, что рассматриваемый тест первоначально казался на редкость удачно сбалансированным по трудности, поскольку п 7=1 Как раз к этому эффекту обычно и стремятся разработчики нор 274
мативно-ориентированных тестов. Однако после перехода в интервальную шкалу логитов это соотношение изменилось, и Таблица 5.16. Стандартные оценки трудности заданий теста п ХР, =0,405*0. Таким образом, в тесте наблюдается избыточное количество трудных заданий, так как 1Ру>о- У=1 Седьмой этап. На седьмом этапе оценивается стандартная ошибка измерения 5Д0,), которая вычисляется для каждого значения в/(/= 1, 2,..., ТУ): * ^ 1 2 3 4 5 6 7 8 9 10 Вектор уровня трудности заданий ру, логитов -3,5811 -2,2445 -1,3561 -0,6279 0,0405 0,0405 0,7089 1,4371 2,3255 3,6621 5,(6,.)= X X X ^р,{п-Х,) ^пр^Х-р,) ^прд, ' (5.34) Например, для 1-го испытуемого с уровнем подготовки в,= = 0,6531 ,? (9.)= , 1>6108 =1,0398. г ' ^0-6(10 -6) Результаты подсчета ошибок измерения 0,- (/= 1, 2,..., Л^ для рассматриваемого примера приведены в табл. 5.17. Восьмой этап. На восьмом этапе оценивается стандартная ошибка измерения 5,(Р;), которая вычисляется для каждого значения р: 3, (Р/) ^.(лг-л,.) рР]{\-Р)) у[йр~д~' (5.35) Для 1-го задания ^(3,) = 1,6483 70,9(10-9) = 1,7375 275
Таблица 5.17. Ошибки измерения параметра 6, • 1 3 2 5 6 8 7 1 10 9 4 Вектор уровня подготовки испытуемых 6,- (в логитах) -3,5392 -2,2329 -0,6531 -0,6531 -0,6531 0 0,6531 0,6531 3,5392 3,5392 Стандартная ошибка оценки уровня подготовки 1,6979 1,2734 1,0398 1,0398 1,0398 1,0188 1,0398 1,0398 1,6979 1,6979 Для 10 заданий рассматриваемого примера матрицы стандартные ошибки оценок трудности заданий приводятся в табл. 5.18. Анализ значений ошибок в табл. 5.17 и 5.18 указывает на нарастание ошибочного компонента в оценках параметров 0 и р к концам распределения. Хотелось бы напомнить еще раз о важном преимуществе полученных оценок параметров 0 и р. Благодаря особенностям математического аппарата IКТ проведенные расчеты обеспечивают объективные оценки уровня подготовки каждого испытуемого, не зависящие от трудности заданий теста. Отмеченное свойство инвариантности позволяет провести корректное сравнение результатов испытуемых, выполнивших различные по трудности задания теста и даже разные тесты. Аналогичное преимущество существует в 1КТ и для оценок трудности заданий теста. Получаемые по алгоритмам значения параметра р инвариантны относительно уровня подготовки испытуемых в тестируемой группе. Построение характеристических кривых заданий теста для одно- параметрической модели. После подсчета значений параметров 0 и Р в шкале логитов приступают к построению характеристических кривых заданий теста. Анализ их взаимного расположения позволяет наметить пути дальнейшего совершенствования теста и сформировать систему заданий, наиболее эффективных для оценки уровня подготовки каждого испытуемого выборки. 276
Таблица 5.18. Стандартные ошибки оценок параметра трудности заданий • ] 1 2 3 4 5 6 8 7 9 10 Вектор уровня трудности заданий Р,- (в логитах) -3,5811 -2,2445 -1,3561 -0,6279 0,0405 0,0405 0,7089 1,4371 2,3255 3,6621 Стандартная ошибка оценки трудности заданий 1,7375 1,3031 1,1375 1,0640 1,0425 1,0425 1,0640 1,1375 1,3031 1,7375 Процесс совершенствования теста начинается с удаления лишних заданий, нарушающих нормальный характер распределения значений р. Далее разработчику необходимо обратить внимание на случаи наложения характеристических кривых и избавиться от лишних заданий, которые ничего не дают для теста как совокупности работающих заданий возрастающей трудности. Следующий важный шаг при коррекции теста связан с выделением «пустых» интервалов оси 8, где нет характеристических кривых. В тест необходимо добавить задания, соответствующие по трудности выделенным интервалам на оси латентной переменной 6. В идеале характеристические кривые должны заполнять более или менее равномерно практически весь интервал (—5; +5) шкалы логитов. Причем заданий средней трудности должно быть намного больше, чем на краях распределения. Заполнение всех «пустых» интервалов может привести к неоправданному увеличению длины теста, что в конечном счете сделает тестирование неэффективным и приведет к ухудшению, а не к улучшению теста. Поэтому решение о добавлении недостающих заданий, равно как и об устранении лишних, пока не является окончательным. Его можно рассматривать лишь как предварительный этап в создании теста, разумный после первоначального сбора эмпирических данных, когда число заданий в тесте намного превышает планируемое и рассчитано именно на такую предварительную работу. Для более обоснованного решения необходим дополнительный анализ тестируемого контингента. Если группа гомогенна по уров- 277
ню подготовки и большинство значений 0 расположено на небольшом интервале оси латентной переменной, то основную часть заданий следует сгруппировать на этом интервале, расположив характеристические кривые достаточно плотно. В случае гетерогенной по подготовке выборки испытуемых значения параметра трудности должны охватывать больший интервал оси 0, а характеристические кривые заданий могут быть расположены довольно далеко друг от друга. При построении характеристической кривой задания его трудность считается параметром, а 0 — независимой переменной, значения которой выбираются произвольно. Ординаты характеристических кривых — значения функции Р. — подсчитываются по формуле (5.14). Например, для 1-го задания с трудностью Р1 = = —3,5811 логита характеристическая функция имеет вид: 1,7(в-(-3,5811)) 1,7(6+3,5811) />(0)=— или />(е)=— 1+е^7(в-(-3,58П)) Г^> 1 + ^1,7(е+3,5811) " Таблица 5.19. Значения Для построения графика функции функции рх (в) р^(0) необходимо выбрать несколько значений независимой переменной 0, а затем вычислить значения функции Р{(д). Эти значения приводятся в табл. 5.19. После нанесения значений функции на координатной плоскости и соединения полученных точек график функции Р{(в) имеет вид (рис. 5.24). Характеристические кривые 10 заданий для данных табл. 5.3 приведены на рис. 5.25. Как правило, для полного решения задачи отбора наиболее эффективных заданий при конструировании теста однопараметрической модели Г. Раша оказывается недостаточно. Это связано с определенными ограничениями, накладываемыми на крутизну кривых заданий в рамках данной модели. В частности, она считается одинаковой у всех кривых, что, конечно, обеспечивает определенную простоту в практических приложениях модели Г. Раша, но вместе с тем является и недостатком. Этот недостаток особенно заметен, когда нужно отдать предпочтение одному из заданий равной трудности. Если анализ проводится без привлечения двухпараметрической модели, то можно легко 6 -5,0 -4,5 -4,0 -3,5 -3,0 -2,5 -2,0 ^,(6) 0,0000«0 0,1733«0,2 0,3291«0,3 0,5344«0,5 0,7287«0,7 0,8627«0,9 0,9363«0,9 278
Рис. 5.24. Характеристическая кривая 1-го задания теста прийти к неверному решению и существенно снизить надежность и валидность теста, удалив задания с более крутыми характеристическими кривыми, а оставив с более пологой. Двухпараметрическая модель А. Бирнбаума. Формулу (5.16) для условной вероятности правильного выполнения./-го задания теста испытуемыми с различными значениями 0 в случае двухпарамет- рической модели А. Бирнбаума можно переписать в виде Ру{х| = 1|ру} = {1+ехрН,7ву(в-Ру)]} -1 (5.36) где кроме прежних обозначений вводится новое а. для 2-го пара- метрау-го задания теста. При геометрической интерпретации 1 -й параметр В. можно рассматривать как характеристику положения кривой/-го задания относительно оси 0. Второй параметр а. связан с крутизной кривой задания в точке ее перегиба. А именно значение а. прямо пропорционально тангенсу угла наклона касательной к характеристической кривой задания теста в точке 0= р. (рис. 5.26). Это означает, что более крутые кривые соответствуют большим значениям а., соответственно для пологих кривых а.-> 0. На рис. 5.27 приведены характеристические кривые трех заданий одинаковой трудности (р = р1 = р2= рз), но разной крутизны. Для сравнительной характеристики качества заданий при диффе- 279
082 З3 К) "в о о X ев о н о н 50
Рис. 5.26. Характеристическая кривая/-го задания теста ренциации знаний испытуемых группы лучше рассмотреть заметно различающиеся по крутизне кривые 1-го (кривая 1) и 3-го (кривая 3) заданий теста. Кривая / очень крутая, что соответствует большому значению <з,, а кривая 3 очень пологая: аг -> 0. Для испытуемых с уровнем под- Л(в.) - Р.(е,)< \\"г> 1 ад 0,5 /ДО,) О е,е,.=р е2 Рис. 5.27. Характеристические кривые трех заданий равной трудности 281
готовки 61 и 62, расположенными на оси 6 по разные стороны от точки перегиба кривых (61 < (3; 62 > (3), вероятности правильного выполнения 1-го задания теста существенно различаются />1(62) >>/>1(61). Для 3-го задания, как видно из рис. 5.27, эти вероятности примерно одинаковы: Таким образом, значения а» близкие к нулю, соответствуют случаю, когда испытуемые с разными уровнями подготовки правильно отвечают нау-е задание с приблизительно равной вероятностью, что, естественно, противоречит ожидаемым прогнозам разработчика теста. Эти задания оказываются бесполезными при дифференциации испытуемых группы по оцениваемому параметру, так как они не несут информации об индивидуальных различиях учеников. Еще более бесполезны задания с отрицательными значениями а: на них отвечают правильно с большой вероятностью испытуемые с низким уровнем подготовки, а для знающих учеников с большими значениями 6 вероятность правильного ответа стремится к нулю. Число заданий в тесте должно сокращаться в первую очередь за счет устранения таких неудачных заданий даже в том случае, когда другие их характеристики устраивают разработчика теста. Как правило, такое сокращение приводит к повышению надежности и валидности теста. Проведенный анализ выявляет роль параметра а. при дифференциации испытуемых. Соответственно параметр а. получил название дифференцирующей способности у'-го задания теста. Формула для оценки параметра дифференцирующей способности заданий приведена, например, в работе [50]. Она достаточно проста и имеет вид а. = . 3 (5.37) 1 71-к,,1*)у]2' Теоретически значения параметра а. могут изменяться в интервале (-оо, +оо), но практически далеко не все эти задания можно включать в тест. Анализ характеристических кривых заданий одинаковой трудности, но разной крутизны позволяет отобрать лучшие задания и определить разумные границы интервала для значений параметра а.. Отбор заданий с большими значениями а. является одним из важных принципов при конструировании нормативно-ориентиро- 282
ванного теста. Минимизация длины теста за счет удаления части лишних заданий равной трудности строится на сравнительном анализе крутизны характеристических кривых с одинаковой точкой перегиба. Процесс минимизации позволяет выделить одно наиболее эффективное задание с наибольшим значением параметра а.. На практике рекомендуется, как правило, оставлять задания со значениями я., лежащими в интервале (0,5; 2,5). Значение а.= 1 соответствует однопараметрической модели Г. Раша. Как и модель Г. Раша, двухпараметрическая логистическая модель А. Бирнбаума имеет определенные недостатки, несколько сужающие область ее применения. Описанные модели не рекомендуется использовать в том случае, когда в тесте отдано предпочтение заданиям в закрытой форме. Для теста, содержащего задания с выборочными ответами, лучше обратиться к трехпараметрической модели. Трехпараметрическая логистическая модель А. Бирнбаума. При анализе результатов выполнения теста с закрытыми заданиями исследователями было отмечено существенное отклонение эмпирических данных от характеристических кривых заданий теста. Эффект отклонения оказался наиболее характерным при анализе ответов испытуемых с низкими значениями 6 на самые трудные задания теста. Попытки выяснить причины такого отклонения привели Ф. Лорда, А. Бирнбаума и других создателей теории 1КТ к выводу о влиянии эффекта угадывания правильного ответа на достоверность эмпирических результатов выполнения теста. Возможно, что испытуемые с различным уровнем знаний пользуются различными методами при выборе правильного ответа. Вернее, методом пользуются только те, кто обладает достаточными знаниями для правильного выбора. Другие же, знания которых характеризуются низкими значениями параметра 0, просто угадывают правильный ответ. И чем труднее задание, тем вероятнее, что ответ получен именно путем догадки. Для того чтобы учесть фактор угадывания, А. Бирнбаум предложил трехпараметрическую логистическую модель. В случае использования трехпараметрической модели вероятность правильного ответа испытуемых нау-е задание теста находят по формуле (5.18). Ее можно переписать в более удобном виде: ^{^ = 1|ру} = су+(1-су){1+ехр[-1,7ау(в-ру.)]Г1, (5.38) где кроме прежних обозначений введен третий параметр е., характеризующий вероятность правильного ответа испытуемых нау-е 283
задание теста при полном отсутствии знании у тестируемых учеников (6-> —©о). Величина параметрам е.. Определяется количеством ответов к закрытым заданиям теста. Например, для задания с пятью ответами по классическому определению вероятности е.- 0,2, при четырех предложенных ответах с = 0,25 и т. д. Характеристическая криваяу'-го задания теста в случае трехпа- раметрической модели приведена на рис. 5.28. Интересно сравнить крутизну кривой на рисунке с воображаемой характеристической кривой задания, имеющей ту же точку перегиба, но нижней асимптотой которой является ось 6 (с = 0). На основании такого сравнения нетрудно заметить, что наличие третьего параметра с. превращает характеристическую кривую в более пологую. Таким образом, эффект угадывания снижает дифференцирующую способность заданий теста. Применение трехпараметрической модели значительно осложняет анализ и обработку статистических данных в процессе конструирования теста. Введение третьего параметра с. не только существенно снижает точность оценок параметров 0 и р, но и ухудшает сходимость итерационных методов, используемых для повышения точности оценок латентных переменных 0 и р. Один из наиболее распространенных итерационных методов строится на подсчете оценок Рис. 5.28. Характеристическая кривая у-го задания теста (трехпараметрическая модель) 284
наибольшего правдоподобия. Он описан в следующем разделе для модели Г. Раша. Метод наибольшего правдоподобия. Хотя теория обещает инвариантность, в силу действия различных случайных факторов оценки параметров вир, полученные на нескольких выборках, будут, конечно, различаться. Если объем выборки достаточно велик, то можно ставить вопрос о вычислении устойчивых значений параметров вир, которые будут наиболее эффективными оценками и могут быть приняты в качестве объективных значений параметров вир. Существуют различные методы вычисления эффективных оценок параметров распределения. Одним из них является метод наибольшего правдоподобия, предложенный Р. Фишером [36]. Пусть вектор *,- = {^ ,*/2 ,-•• ,\} — дискретная случайная величина, характеризующая результат выполнения /-м испытуемым п заданий теста. Вероятностную модель выполнения п заданий для /- го испытуемого можно записать в виде А№1в/} = П/?*0{"1*, (5.39) где Р.. — вероятность правильного выполнения /-м испытуемыму- го задания теста; ()-— вероятность неправильного выполнения /-м испытуемыму-го задания: (?..= 1 — /> С учетом этого равенства и формулы (5.19) вероятности Р.. и (?.. можно записать е,-Ру ^тЧ^' (5'40) 1 + е ' ] ^=тЧн7' (5'41) 1 + е ' } где в/ — уровень знаний тестируемого; р. — трудностьу-го задания. Для дальнейших рассуждений важно ввести предположение о локальной независимости заданий теста. Наделе оно означает, что при данном значении 0 ответ на каждое задание теста не зависит от результатов выполнения остальных его заданий. Введенную в рассмотрение функцию Ь{ называют функцией правдоподобия дискретной случайной величины х(. Значение 6,, 285
при котором функция правдоподобия достигает максимума, принимают в качестве объективной оценки 6,. и называют оценкой наибольшего правдоподобия. Так как функции Ь. и \пЬ( достигают максимума при одном и том же значении в,, то удобно ввести в рассмотрение логарифмическую функцию правдоподобия п 1пА№|в/} = Х{^1п/^+(1-^)1пф. (5.42) Неизвестные оценки наибольшего правдоподобия параметров испытуемых находятся из необходимого условия экстремума функции \пЬ. по каждой из переменных 0Г Система уравнений для оп- ре деления значений 6, в группе из УУ испытуемых имеет вид Э1пМ*/|е,}=0 / = 12, дг (5.43) Для матрицы данных из табл. 5.3 процесс получения системы правдоподобия для оценок 6, (/= 1, 2,..., 10) показан в приложении 5.6. Как видно из приведенного в приложении примера, уравнения системы являются нелинейными и их решение сопряжено с определенными вычислительными трудностями. Аналогичная функция ы составляется для вычисления оценок наибольшего правдоподобия Л Р, параметра Р,(/=1> 2,..., /V). Общая функция правдоподобия имеет вид Решение систем правдоподобия проводится по очереди. Сначала полагают известными значения параметра р., а 6/ (/= 1,2,..., /V) рассматривают как переменную. Затем значения 6.переопределя- ют, принимая за новые 0,, и находят оценки Ру, доставляющие 286
максимум функции Ь.. На втором этапе переопределяют значения Ру. Процесс продолжается до тех пор, пока абсолютные значения разностей в результате итераций станут меньше 0,01: (в/Хы -(в/)* 1<0,01; (Ру)л,+1 -(Ру)« <0,01. (5.46) Оценки наибольшего правдоподобия, полученные путем решения системы правдоподобия методом Ньютона для рассматриваемого примера данных (матрица в табл. 5.3), приводятся в табл. 5.20 и 5.21. Сравнение данных этих таблиц с предыдущими результатами (табл. 5.17 и 5.18) указывает на весьма незначительное изменение чисел. Вообще говоря, такой результат вполне предсказуем, поскольку система правдоподобия содержит производные, введение которых основано на предельных процессах. Поэтому метод правдоподобия имеет смысл исключительно для больших выборок испытуемых (не менее 200—300 испытуемых) и достаточно длинных тестов (не менее 30 заданий), в то время как рассматриваемый пример матрицы описывает результаты ответов всего 10 испытуемых на 10 заданий теста. В целом же с точки зрения теории оценки (6|)А:+1 и (Ру)ш+1 являются наиболее эффективными и могут быть приняты за истинные значения латентных переменных 6,. и р.. Конечно, для реализации метода правдоподобия нужны специальные программы. Важным предварительным моментом является выбор хорошего на- Таблица 5.20. Оценки наибольшего правдоподобия трудности заданий У 1 2 3 4 5 6 8 7 9 10 Л Оценка р -3,62177 -2,28508 -1,39663 -0,66834 0 0 0,66834 1,39663 2,28508 3,62177 Таблица 5.21. Оценки наибольшего правдоподобия параметра испытуемых / 3 2 5 6 8 7 1 10 9 4 Л. Оценка 0. -3,60457 -2,29834 -0,71843 -0,71843 -0,71843 -0,06531 0,58781 0,58781 3,47395 3,47395 287
чального приближения, поэтому желательно при оценивании 09 и р9 даже в самых незначительных подробностях следовать формулам, приведенным в данном разделе. Хотя, вообще говоря, возможно использование и других методов, приводящих к другим, отличающимся начальным значениям 09 и ДО. Если 09 и рР выбраны неудачно, довольно далеко от оценок наибольшего правдоподобия, то число итераций увеличится. Соответственно возрастут и затраты машинного времени. Кроме других, менее очевидных условий, на удачный выбор начального приближения для 0 оказывает решающее влияние наличие банка тестовых заданий, шкалированных по нарастанию трудности, с известными устойчивыми значениями р. Такой банк дает возможность преподавателю предложить /-му ученику оптимальные по трудности задания, обеспечивающие оценку в. с минимальной стандартной ошибкой измерения. На идее минимизации ошибки измерения строится понятие информационной функции, введенное А. Бирнбаумом в 1968 г. для оценки эффективности каждого задания и всего теста при измерении значений переменной 0. Информационные функции. Наиболее сильный аргумент в пользу современной теории создания тестов (1КТ) связан с введением информационной функции, которая используется для оценки эффективности теста. В отличие от классической теории, не позволяющей повысить эффективность тестовых измерений, в 1КТ можно ставить вопрос о дифференцированной оценке эффективностиу-го задания теста для оценки каждого значения 0. Это преимущество связано с возможностями математического аппарата 1КТ, позволяющего вычислить дифференцированную стандартную ошибку измерения. Процесс повышения эффективности теста связан с подбором наиболее пригодных заданий, обеспечивающих минимальное отклонение начальной оценки 09 от истинного значения 9Г Степень пригодности принято характеризовать с помощью относительной величины, называемой информацией. По одному из определений, предложенных А. Бирнбаумом [50], количество информации, обес- печенноеу-м заданием теста в данной точке 9., — это величина, обратно пропорциональная стандартной ошибке измерения данного значения 0,-с помощью задания/ Так как каждому значению 0;.ставится в соответствие некоторое количество информации, получаемой при оценивании параметра с помощью задания у, то можно ввести в рассмотрение специальную функцию. Значения этой функции являются своеобразной характе- 288
ристикоиу-го задания в каждой точке оси латентной переменной 6. Чем больше количество информации, тем лучше, образно говоря, работает задание на рассматриваемом интервале оси 6. На введенном определении основан вывод формулы для подсчета значений информационной функции у-го задания при различных значениях независимой переменной 6. Вне зависимости от используемой модели информационную функциюу-го задания теста /(в) можно записать как в [31,46]. /■(0)= [^(6)]2 , (5.47) '1 />,(6)-<2у(6)' где все обозначения прежние, а функции Р. и р. зависят от переменной 6. Для однопараметрической модели (5.14) Р^-1,7/^Оу (см. вывод в приложении 5.7), и поэтому /у(в) = 2,89Ру(в)0у(в), (5.48) где Су = 1 - Р} является вероятностью неправильного ответа учеников нау-е задание теста. Для двухпараметрической модели (5.16) /у(е)=2,89«у2ру(е)Су(е), (5.49) где а. — дифференцирующая способность у-го задания теста и Вывод формулы (5.49) аналогичен приведенному в приложении 5.7. Для трехпараметрической модели информационная функция у-го задания имеет вид /,(в) 2,89а,2 (1-е,.) ■ 1.7ву(в-ру) 1 + ^-|,70,.(в-Р,.) -.2 • (5.50) Вывод этой формулы в силу сложности в работе не приводится. И) Чслышкова М.Б. 289
Можно отметить ряд свойств информационной функции у-го задания теста, основанных на формуле (5.47). Прежде всего следует обратить внимание на производную в числителе дроби, где дифференцирование ведется по переменной 9. Очевидно, что при увеличении числителя значение дроби увеличивается. Максимальное значение производной Р^(в) достигается в точке перегиба характеристической кривойу-го задания теста, там, где касательная образует с осью 6 наибольший угол. Так как точке перегиба графика функции Р.(в) соответствует значение Э = р., то первое наиболее важное свойство можно сформулировать так: для измерения данного значения латентной переменной 97 наиболее информативны задания с трудностью р ~ 9Л Существенно, что применяемый в этом случае математический аппарат позволяет определить, насколько информативно задание, какова мера его эффективности при измерении данного 6 по сравнению со стопроцентным уровнем, достигаемым при Э = р. Геометрическая интерпретация позволяет выделить в качестве наиболее эффективных задания со значениями р в окрестности точки 9, оси 6. Удобнее всего рассмотреть разность 97 — р. Чем ближе значение разности к нулю, чем меньше расстояние, на котором находятся задания от значения 9/? тем эффективнее подобрано задание, тем меньше стандартная ошибка измерения данного значения 9Л Второе свойство связано с особенностями введенного понятия информации, позволяющего в отличие от классической теории тестов оценивать независимые вклады каждого задания в общую оценку 9. Благодаря свойству независимости можно сделать вывод, что для оценки тестируемого порядок расположения заданий в тесте не играет роли. Но это вовсе не означает, что задания могут предлагаться тестируемому в случайном порядке и принцип нарастания трудности не должен соблюдаться. Разумеется, это свойство имеет более теоретическое, чем практическое значение. Как правило, тесты с различным порядком предъявления заданий дают различные эмпирические результаты. Значение параметра р — не единственный критерий, учитываемый при выборе оптимальных заданий для тестирования каждого испытуемого. Следующее важное свойство связано со вторым па- раметрому-го задания — параметром а.. Так как значение а. прямо пропорционально /^ , то третье свойство вносит дополнительную информацию в критерий отбора оптимальных заданий для эффективного измерения данного значения 9у. 290
Основываясь на третьем свойстве, можно предположить, что наиболее информативны задания с более крутыми характеристическими кривыми. Чем круче кривая, тем больше вклад задания в измерение данного значения 6;.. Однако, стремясь включить в тест задания с наиболее крутыми характеристическими кривыми, можно совершить ошибку и прийти к снижению эффективности измерения в отдельных точках оси 6 за счет неоправданного ее увеличения в других точках этой же оси. Дело в том, что рост крутизны характеристической кривой помимо положительных эффектов сопровождается и отрицательными. Последние связаны с уменьшением длины интервала оси 6, обеспечивающей хорошую дифференциацию индивидуальных различий испытуемых. Этот отрицательный эффект характерен для значений 6, лежащих по одну сторону от точки перегиба кривой. Чем круче кривая задания, тем меньше различаются значения вероятностей правильного выполнения задания в таких точках. Поэтому при отборе заданий для теста нужен дополнительный анализ, учитывающий характер распределения значений латентной переменной 6 и вклад всех заданий в суммарную информацию для каждой точки оси 6. Благодаря свойству аддитивности информация, полученная при измерении данного 6 с помощью всего теста, складывается из отдельных составляющих 7(9) (/=!> 2,..., п). Тогда для всего теста п /(е)=Х/,(е), (5.51) где /(0) — информационная функция теста, состоящего из п зада ний. С учетом формулы (5.47) можно записать /(6) = У * АИ (5.52) Знак производной в числителе дроби подразумевает наличие предельного перехода, поэтому число заданий в тесте должно быть достаточно большим. Количество заданий влияет и на форму графика функции /(6). Если количество заданий меньше 25 [50], то график информационной функции теста не имеет одного четко выраженного максимума. В этом случае можно говорить о снижении эффективности всего теста в целом. Например, наличие двух точек максимума указывает на необходимость дальнейшей работы с тестом. ю* 291
На рис. 5.29 приведен график функции /(6), имеющей две точки максимума (кривая /). Анализ формы информационной кривой указывает по меньшей мере на два возможных направления дальнейшей работы с тестом. Если число заданий невелико, то необходимо добавлять задания со значениями параметра трудности в интервале 61 < (3 < 62, изменяя форму кривой в сторону увеличения ее выпуклости с четко выраженным максимумом в одной из точек оси 6. Если число заданий достаточно велико (п > 100), то исходный тест лучше разбить на два, один из которых будет эффективен для выборки со средним значением 6 вблизи точки 6Р а другой — для выборки испытуемых с 6 ~ 62. При выборе заданий определенной трудности из банка следует ориентироваться на среднее значение 6, вокруг которого распределятся наибольшее число значений латентного параметра тестируемых учеников; формирование четко выраженного максимума на информационной кривой должно идти в основном за счет добавления заданий со значениями параметра в окрестности точки 6. Это повысит эффективность вновь созданного теста на выбранном интервале оси латентной переменной. Кривая 2 на том же рисунке принадлежит менее информативному тесту, проигрывающему по сравнению с первым при оценке выборки учеников, расположенных вблизи точки 62. Однако у вторые. 5.29. Информационные кривые трех тестов 292
рой кривой есть и явное преимущество. Она имеет один четко выраженный максимум, что и позволяет отдать ей предпочтение при сравнительном анализе качества первого и второго тестов. Третья пологая кривая принадлежит явно неудачному тесту, который является малоинформативным на всем протяжении оси в. Для однопараметрической модели построение информационной функции у-го задания осуществляется путем подсчета значений функции /.(6) по формуле (5.48), которую следует переписать в более удобном для вычислений виде: /у №) = 2,89 е1,7ву(е-ру) [1 + е1^^^]2" Меняя различные значения независимой переменной 6, можно получить различные точки графика /(6). Графики информационных функции 10 заданий рассматриваемого примера матрицы из табл. 5.3 приведены на рис. 5.30. После суммирования отдельных ординат кривых получится график, изображенный на рис. 5.31. Для двухпараметрической модели функция теста имеет вид [46] /(0) = 2,89Х^2Ру(е)(2у(е), (5.53) где Р] =^-^^(в), а /^(9) представлена формулой (5.16). Информационные функции заданий в случае, когда Р^(^) имеет только один илидва параметра (выражения (5.14) и (5.16)), имеют максимум при 6 = р.. Несложный анализ формулы для подсчета значения 0тах, соответствующего точке максимума информационной функции в случае трехпараметрической модели (5.18), помогает убедительно обосновать практические преимущества тестовых заданий в открытой форме. Согласно этой формуле [46] 1 (\ 1 л ^=Ь+-б^1+ъ№*>} (5-54) где />= 1,7 и все обозначения прежние. 293
■6-5-4-3-2-10 1 2 3 4 5 Рис. 5.30. Графики информационных функций десяти заданий теста
/(в) 2,5- 0.5- / \. О * | | 1 1 1 1 1 I I 1 1 I -5-4-3-2-1012345 6 Рис. 5.31. График информационной функции теста Вычисление значений Д6тах) для различных ^указывает на рост количества информации при убывании с: максимального значения /(Этах) достигает при е.- 0. Таким образом, включение в тест заданий в открытой форме повышает информативность теста в каждой точке оси латентной переменной 6. Закрытые задания с двумя ответами (с.= 0,5), наоборот, сильно снижают эффективность тестовых оценок. Конечно, аппарат 1КТ довольно сложен, и поэтому начинать разработку теста следует, основываясь на классической теории, несмотря на ее низкую эффективность и существенные недостатки. Если же при разработке теста намечается провести более точное и эффективное измерение значений 0, требующее предварительного создания банка тестовых заданий с известными устойчивыми зна- чениями параметра трудности, то привлекается специальный математический аппарат, рассмотренный в следующем разделе. В этом случае тест моделируется для эффективного оценивания каждого значения 0. Одно и то же задание может оказаться как эффективным, так и неэффективным при измерении различных значений 0. Поэтому не существует единой оптимальной модели при отборе заданий в тест. Предлагаемое моделирование позволяет целенаправленным подбором заданий для оценивания данного 07 лишь минимизировать стандартную ошибку измерения его значения. Конструирование тестов на продвинутом этапе. Продвинутый этап разработки тестов в отличие от начального предполагает наличие банка тестовых заданий с известными значениями параметра р. 295
Предварительно разработчик, ориентируясь на свойства выборки испытуемых, задается желательной формой информационной кривой вновь создаваемого теста. Дальнейший процесс формирования теста можно разбить на ряд шагов: • построение гипотетической информационной кривой теста, обеспечивающей заданную стандартную ошибку измерения в нужном интервале оси 6; • построение графиков информационных кривых заданий из банка тестовых заданий, имеющегося в распоряжении разработчика; • выбор заданий с информационными кривыми, удовлетворительно заполняющими пространство под планируемой информационной кривой теста; • сложение ординат кривых тестовых заданий в каждой точке оси латентной переменной 6; • продолжение процесса выбора заданий до тех пор, пока площадь под гипотетической кривой не будет заполнена с заданной степенью точности; • проверка абсолютного значения разности между максимальной суммой ординат кривых заданий и планируемым максимумом на гипотетической кривой в точке втах. Если в результате выполнения всех этапов заданная степень точности не достигнута, следует добавить задания из банка и повторно оценить достигнутую степень точности для точки максимума на гипотетической кривой. Вычислив значения информационных функций, можно сравнить эффективность различных вновь созданных тестов с исходным без предварительного сбора эмпирических данных. Предположим, что два теста X и У оценивают одно и то же скрытое качество — латентную переменную 6. Сравнительную эффективность теста Упо отношению к тесту Л'можно охарактеризовать специальной функцией Е( У, X), значения которой равны отношению значений информационных функций тестов У и Хв соответствующих точках оси 6 [31,47]: Е{у Х)=ЖЛ (5.55) тх) Функция Е(У, X) получила название функции сравнительной эффективности. Особый интерес представляет свойство инвариантности функции Е (У, X) относительно метрики, выбранной для измерения 6 в первом и втором тестах. 296
Вычисление значений Е (У, X) позволяет оценить эффект при удалении из теста заданий определенной трудности, при замене заданий средней трудности на легкие или более трудные, а также решить ряд других вопросов, возникающих у опытного создателя тестов. Практическое применение функции сравнительной эффективности иллюстрирует рис 5.32, на котором представлены три функции Е{,Е2, Е3 для трех различных тестов, два из которых (кривые / и 2) образованы из начального теста (50 заданий), а третий получен путем добавления дополнительных заданий из банка (кривая 3). По горизонтальной оси откладываются индивидуальные баллы испытуемых группы, по вертикальной — значения функции сравнительной эффективности для данного теста и трех вновь созданных. Горизонтальная прямая Е - 1 соответствует начальному тесту из 50 заданий. В первый тест вошли 25 наиболее трудных заданий из 50, данных вначале. Кривая / функции Ех расположена всюду ниже горизонтальной прямой, соответствующей начальному тесту. Следовательно, первый тест половинной длины из наиболее трудных заданий оказался менее эффективным, чем начальный для всех испытуемых со значениями латентного параметра в любой точке оси 6. Кривая 2, соответствующая функции Е2, позволяет сравнить эффективность второго теста, составленного из 25 наиболее легких заданий, с эффективностью данного из 50 заданий. Анализ формы кривой 2 выявляет снижение эффективности при тестировании Рис. 5.32. Графики функций сравнительной эффективности 297
хорошо подготовленных испытуемых в группе по сравнению с начальным полным набором заданий. Наоборот, для испытуемых с низкими индивидуальными баллами второй тест более эффективен. Этого, вообще говоря, следовало ожидать, так как эффект угадывания ответов на наиболее трудные задания снижает информативность второго теста. Кривая 3 соответствует тесту, составленному из 50 заданий, но не данных, а дополнительно привлеченных из банка, большая часть которых имеет приблизительно среднюю трудность. Этот тест гораздо эффективнее, чем данный, для испытуемых со средними значениями индивидуальных баллов. При моделировании теста обычно задаются гипотетической желаемой областью, обеспечивающей высокую информативность оценок 6 на том участке, где расположена тестируемая выборка учеников, как, например, на рис. 5.33. Затем начинают подбирать задания из банка, используя функцию из формулы (5.55) для оценки сравнительной эффективности моделируемого теста. Таким образом, рассмотренная функция сравнительной эффективности позволяет моделировать тест без сбора дополнительной эмпирической информации. Предоставленный аппарат для конструирования эффективных тестов призван помочь преподавателям в их практической работе и научиться оценивать эффективно знания учеников любой выборки. 1Ш Планируемая область -4-3-2-10 1 2 3 4 Рис. 5.33. Информационные кривые моделируемых тестов 298
5.4. Характеристики тестовых задании После обработки тестовых данных и интерпретации результатов обработки предтестовые задания обретают статус тестовых. Правда, в категорию тестовых попадают не все, а только те, которые обладают хорошими статистическими характеристиками. Процедура выявления характеристик получила название анализа заданий (Нет Апа1у$18) [59]. В общем случае она включает оценку трудности задания, его корреляции с другими заданиями и общим показателем по тесту, факторный анализ, шкалирование заданий с помощью аппарата 1КТ и определение некоторых других характеристик. Первая, наиболее важная характеристика — это трудность заданий теста. Трудность тестовых заданий. Оценка трудности тестовых заданий проводится по-разному в зависимости от выбранной теории методов обработки эмпирических результатов выполнения теста. В классической теории оценка трудностиу-го задания получается по формуле к, где р — доля правильных ответов нау-е задание; К. — количество учеников, выполнившиху-е задание верно; N — число учеников в тестируемой группе;./ — номер задания теста. В тесте из п заданий./ принимает значенияу = 1, 2,..., п. Трудность задания нередко выражают в процентах, тогда формула для оценки трудности имеет вид />,=-М00%, (5.57) где Р. — трудность в процентах. Без сомнения, долю правильных ответов на задание/^.естественно интерпретировать как легкость задания. В то время как трудность скорее ассоциируется с долей неправильных ответов я., которая находится путем вычитания р. из единицы: 0у=1-Ру. (5.58) 299
Однако по сложившейся традиции в рамках классической теории тестов за трудность задания принимается именно доля р. Для примера матрицы из табл. 5.3 доля правильных ответов на первое задание А -15-0,9, а доля неправильных ответов ^ =1-0,9 = 0,1 и т. д. После перевода доли рх в проценты 0,9 • 100% = 90% первое задание следует отнести к категории крайне легких: его выполнили примерно 90% тестируемой выборки учеников. В рамках 1КТ трудность задания р. выражают в виде натурального логарифма дроби ^ ■ р =1п—,./= 1,2, ...,/7 (5.59) (подробнее см. в разд. 5.3). Представление о трудности заданий теста легко получить путем анализа гистограммы, такой, как, например, на рис. 5.34. В рассматриваемом примере (не относящемся к матрице из табл. 5.3) гистограммы явно просматриваются недостатки в подборе 5 10 15 Порядковые номера заданий Рис. 5.34. Гистограмма трудности заданий теста 20 300
по трудности заданий теста. Первый недостаток связан с тем, что за дания не ранжированы по нарастанию трудности так, как обычно рекомендуется располагать задания в итоговых тестах. Тест начинается с трудного первого задания, которое смогли выполнить всего 10% учеников. Затем идет второе, тоже довольно трудное задание (р2- 20%). Третье задание — слишком легкое: с ним справились все без исключения, и четвертое — тоже довольно легкое: его выполнили верно 90% учеников и т.д. Второй недостаток—отсутствие заданий средней трудности с р=0,5. Конечно, при отборе предтестовых заданий в процессе формирования теста разработчик вовсе не планировал такую гистограмму, как на рис. 5.34. Он думал, что располагает задания по нарастанию трудности, которая для большинства заданий, по его мнению, была близка к 50%. Тем не менее наделе, как этого и следовало ожидать, предполагаемые начальные оценки трудности заданий, основанные на субъективных суждениях автора теста, оказал ись далеки от ста тистических, полученных на выборке учеников. Конечно, рассматриваемый пример носит чисто гипотетический характер, однако все положения, развиваемые на нем, применимы к реальной ситуации разработки теста. Такая ситуация, как на рис. 5.34, в практике создания тестов наблюдается довольно редко. Обычно после первой эмпирической проверки автор получает распределение заданий по трудности, подобное приведенному на рис. 5.35, где встречаются задания самой разной трудности, в том числе и с р = 0,5. Хорошо сбалансированный по трудности тест показан на рис. 5.36. 1001 5 10 15 20 Порядковые номера заданий Рис. 5.35. Типичная гистограмма трудности заданий теста в начале работы
5 10 15 20 Порядковые номера заданий Рис. 5.36. Гистограмма хорошо сбалансированного по трудности теста Таким образом, правильно сконструированный тест не может состоять только из легких или только из трудных заданий. Он включает всякие, самые различные по трудности задания. Хотя это правило нужно учитывать уже на начальном этапе создания теста, полагаться следует только на эмпирические оценки, а не на свое видение трудности заданий теста. В хорошо сбалансированном по трудности тесте есть несколько самых трудных заданий со значениями р -» 0. Есть несколько самых легких с р —> 1. Остальные задания по значениям р занимают промежуточное положение между этими крайними ситуациями и имеют в основном трудность 60—70%. Таким образом, основная масса заданий по трудности приближается к середине распределения, как на рис. 5.37, отражающем нормальный закон. Еще один аргумент в пользу преимущественного включения заданий средней трудности ср = 0,5 связан с подсчетом дисперсии по каждому заданию теста °] = Р^]> 0 = 1, 2,...,«). (5.60) Так как произведение рд. достигает максимального значения (0,5 • 0,5 = 0,25) при р.- 0,5 = я., то в рамках нормативно-ориентированного подхода наиболее удачными считаются задания средней трудности р = #=0,5, обеспечивающие максимальный вклад в общую дисперсию теста. И наконец, в пользу преимущественного выбора заданий средней трудности свидетельствует подсчет ошибки измерения, кото 302
03 н о со 3* о 1 ! 1 1—+ 0,1 0,5 0,9 Р Рис. 5.37. Типичное распределение по трудности заданий теста рая уменьшается по мере продвижения к центру распределения, где расположены задания средней трудности, и увеличивается на концах. Правдоподобность дистракторов (для закрытых заданий). Оценка правдоподобности дистракторов основана на подсчете долей испытуемых, выбравших каждый неправильный ответ. Например, если группа из 100 испытуемых выполняла у-е задание теста с пятью от ветами, из которых один верный, и 60 испытуемых выполнили задание верно, то/?.= 0,6. Оставшиеся 40 испытуемых должны были равномерно распределиться между четырьмя дистракторами. Тогда распределение долей ответов на задание должно выглядеть следующим образом (табл. 5.22) (звездочкой отмечен верный ответ). Таблица 5.22. Распределение долей испытуемых между ответами на задание теста Номер задания • } 1-й ответ 0,1 2-й ответ 0,1 3-й ответ* 0,6 4-й ответ 0,1 5-й ответ 0,1 Конечно, реальные результаты на практике редко совпадают с описанной гипотетической, идеализированной ситуацией. Даже у опытных авторов в заданиях сплошь и рядом встречаются неправдоподобные дистракторы, которые по результатам эмпирической проверки приходится менять. Анализ правдоподобности дистракторов, проведенный в реальной ситуации по результатам выполнения 42 заданий теста выборкой из 100 испытуемых, показан в табл. 5.23. В первом столбце табл. 5.23 помещены номера заданий 303
Габшца 5.23. Анализ правдоподобности дистракторов Номер задания 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 Всего 96 96 97 97 95 97 97 95 97 96 97 93 96 95 94 97 96 95 95 95 92 89 90 85 90 97 93 97 89 91 90 90 91 87 93 90 92 86 92 92 86 88 Распределение ответов тестируемых 1-й ответ тест. 8 4 13 19 20 0 5 16 18 13 3 18 47 41 9 2 32 17 2 26 11 18 60 26 19 35 3 36 4 68 3 12 8 29 8 13 35 31 71 32 39 3 % 8,2 4,1 13,0 20,0 21,0* 0,0 5?2 16,0 19,0 13,0 3,1 19,0 48,0 42,0 9,3 2,1 33,0 18,0 2,1 27,0* 11,0 19,0 62,0* 27,0 20,0 36,0 3,1 37,0 4,1 70,0* 3,1 12,0 8,2 30,0* 8,2 13,0 36,0 32,0 73,0* 33,0 40,0* 3,1 2-й ответ тест. 1 20 73 29 42 6 80 28 2 12 62 10 33 37 3 2 59 11 4 12 11 22 9 19 24 23 11 18 21 7 3 17 63 24 11 68 38 1 5 45 35 9 % 1,0 21,0 75,0* 30,0 43,0 6,2 82,0* 29,0 2,1 12,0 64,0* 10,0 34,0* 38,0* 3,1 2,1 61,0* 11,0 4,1 12,0 11,0 23,0 9,3 20,0* 25,0 24,0 11,0 19,0 22,0* 7,2 3,1 18,0 65,0* 25,0 11,0* 70,0* 39,0 1,0 5,2 46,0* 36,0 9,3 3-й ответ тест. 65 2 6 24 22 91 4 25 71 64 17 59 9 10 25 11 2 20 85 43 49 15 15 13 40 39 2 36 61 5 25 20 6 23 50 6 7 22 8 9 5 27 % 67,0* 2,1 6,2 25,0* 23,0 94,0* 4,1 26,0 73,0* 66,0* 18,0 61,0* 9,3 10,0 26,0 11,0 2,1 21,0 83,0* 44,0 51,0* 15,0 15,0 13,0 41,0* 40,0* 2,1 37,0* 63,0 5,2 26,0* 21,0 6,2 24,0 52,0 6,2 7,2 23,0 8,2 9,3 5,2 28,0 4-й ответ тест. 22 70 5 25 11 0 8 26 6 7 15 6 7 7 57 82 3 47 4 14 21 34 6 27 7 0 77 7 3 11 59 41 14 11 24 3 12 32 8 6 7 49 % 23,0 72,0* 5,2 26,0 11,0 0,0 8,2 27,0* 6,2 7,2 15,0 6,2 7,2 7,2 59,0* 85,0* 3,1 48,0* 4,1 14,0 22,0 35,0* 6,2 28,0 7,2 0,0 79,0* 7,2 3,1 11,0 61,0 42,0* 14,0 11,0 25,0 3,1 12,0* 33,0* 8,2 6,2 7,2 51,0* 304
Таблица 5.24. Значения коэффициента точечно-бисериальнои корреляции Задание 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 1-й ответ -0.1 -0,2 -0,3 -0,2 0,3* -0,2 -0,1 -0,2 -0,1 0,0 -0,2 -0,3 -0,4 0,1 -0,1 0,1 -0,3 -0,1 0,1* -0,3 0,2 0,6* 0,0 -0,2 -0,4 -0,1 -0,4 -0,2 0,6* 0,0 -0,1 -0,3 0,3* -0,2 -0,1 0,2 0,1 0,5* 2-й ответ -0,2 -0,3 0,4* 0,3 0,0 -0,1 0,2* 0,2 0,0 -0,3 0,4* 0,0 0,2* 0,5* -0,2 -0,2 -0,1* 0,0 -0,2 -0,1 -0,2 -0,1 -0,2 0,3* 0,1 0,0 -0,3 -0,1 0,2* -0,2 0,0 -0,1 0,6* 0,0 -0,1* 0,5* -0,2 -0,1 -0,3 3-й ответ 0,3* -0,2 -о,з 0,1* -0,1 0,1* 0,1 -0,1 0,3* 0,3* -о,з 0,3* 0,0 0,0 0,1 -0,3 0,0 -0,0 0,4* 0,1 0,4* 0,0 -0,2 -0,1 0,2* 0,3* -0,1 0,5* 0,2 -о,з -0,1* 0,1 -0,1 0,0 0,1 -0,2 0,0 -0,1 0,0 4-й ответ -0,2 0,4* -0,1 -0,2 -0,2 -0,2 0,0* -0,2 -0,1 -0,2 0,0 0,3 0,0 0,0* 0,4* 0,1 0,2* -0,2 -0,2 0,0 0,2* -0,1 ОД 0,1 0,5* -0,2 0,0 -0,2 0,3 0,4* -0,2 -0,1 0,3 -0,1 0,2* 0,3* -0,3 305
Окончание табл. 5.24 Задание 40 41 42 1-й ответ 0,2 0,3* 0,1 2-й ответ 0,2* 0,0 -0,1 3-й ответ -0,4 0,1 -0,1 4-й ответ -0,2 -0,1 0,4* теста. Второй столбец указывает на число испытуемых, выполнявших каждое из заданий первого столбца, все последующие столбцы содержат число и процент испытуемых, выбравших каждый из ответов к заданиям теста. Звездочкой отмечен процент, соответствующий правильному ответу к заданиям. Анализ первой строки позволяет собрать полезную информацию о качестве задания 1 теста. В нем правильным является 3-й ответ, и поэтому число Рх = 67% в столбце, соответствующем 3- му ответу, указывает на трудность задания 1 теста. Из 96 испытуемых, выполнивших задание, 65 справились с ним успешно, а остальные (96 — 65 = 31) распределились между дистракторами к заданию 1 теста. Среди неправильно выполнивших это задание 8 тестируемых выбрали 1-й дистрактор, один тестируемый выбрал 2-й дистрак тор и 22 испытуемых остановились при выполнении задания на 4-м, неправильном ответе. Проведенный анализ позволяет сделать выводы о качестве разработанных дистракторов к заданию 1 с точки зрения их привлекательности для незнающих учеников. Очень похож на правильный 4-й ответ: его выбрали 22 из 31 ученика. Второй ответ, выполняющий функцию дистрактора, явно непривлекательный: его выбрал всего один ученик, и потому этот ответ как неработающий дистрактор подлежит изменению либо удалению из теста. Несомненно, нуждаются в переработке 1-й и 4-й ответы из задания 6, поскольку их не выбрал ни один человек из шести (97 — 91 = = 6), неправильно выполнивших это задание теста. Оба дистрактора ничего не дают для задания. Они просто создают иллюзию существования задания с четырьмя ответами. Необходимо также изменить 4-й ответ в задании 26, 2-й ответ в 38 и т д. Таким образом, в хороших заданиях с выбором ответов неверно ответившие ученики должны распределяться почти равномерно между всеми предложенными дистракторами. Дистракторы, которые выбирают менее 5% неверно ответивших испытуемых, должны быть удалены из теста. 306
Углубленный вариант дистракторного анализа построен на подсчете значения точечно-бисериального коэффициента корреляции для каждого дистрактора в заданиях теста. Формула для подсчета значений коэффициента и методика расчета приведены в разд. 5.2 (5.10). Отрицательные значения коэффициента корреляции указывают на ситуацию, когда хорошо выполнившие тест испытуемые не будут выбирать данный дистрактор в качестве правильного ответа. Значения коэффициента точечно-бисериальной корреляции для примера из табл. 5.23 приводятся в табл. 5.24 (звездочка соответствует правильному ответу). Выделенные положительные значения коэффициента точечно- бисериальной корреляции для дистракторов (например 2-й ответ в задании 4, 2-й ответ в задании 8, 4-й в 13 и т. д.) указывают на то, что эти неверные ответы выбирают в качестве правильных сильные ученики, что явно противоречит представлению преподавателя о хороших заданиях теста. Поэтому подобные задания, несомненно, следует проанализировать, и, если просчет в содержании не поддается коррекции, то просто удалить из теста. При правильном положении вещей значения коэффициента точечно-бисериальной корреляции для дистракторов должны быть отрицательными и превышающими по модулю 0,2. Положительные или близкие к нулю значения коэффициента для дистракторов говорят о необходимости их исключения либо переделки неправильных ответов. В отличие от дистракторов в хороших заданиях правильные ответы выбираются сильными учениками. Поэтому значения коэффициента точечно-бисериальной корреляции на месте ответов со звездочкой не могут быть отрицательными. Правильным ответам должны соответствовать значения коэффициента корреляции, превышающие 0,5. Для случая, когда правильный ответ не выбирают сильные ученики (например в задании 31 или в заданиях 17, 35 из табл. 5.24), коэффициент корреляции бывает близким к нулю или даже меньше нуля. Отрицательная или нулевая корреляция для верного ответа может отражать случайный характер ответов учеников, наличие систематических проблем в усвоении проверяемого материала, вызванных дефектами преподавания либо некорректную формулировку задания теста. АИСКРИМИНАТИВНОСТЬ ТЕСТОВОГО ЗАДАНИЯ Дискриминативностью (сН8сптта1огу ро^ег) называется способность задания дифференцировать учеников на лучших и худших. Высокая дискриминативность- - важная характеристика удач- 307
ного тестового задания. Это утверждение становится вполне понятным, если вспомнить, что достижение дифференцирующего эффекта — главная цель создания нормативно-ориентированных тестов. Поэтому хороший нормативно-ориентированный тест должен быть составлен из заданий с высокой дискриминативной способностью. Конечно, дискриминативность не единственный показатель качества тестовых заданий в нормативно-ориентированных тестах. В целом дифференцирующий эффект зависит от многих составляющих: корреляции между заданиями, числа заданий и от других характеристик, среди которых все же наиболее важное место отводится показателю дискриминативности каждого задания теста. Для оценки дискриминативности задания применяются различные формулы. Наиболее простым является расчет по формуле (гдис)у=(л)уЧЛ))у> (5.61) где (гпиг). — индекс дискриминативности дляу-го задания теста; (р{) — доля учеников, правильно выполнившиху-е задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (/?0). — доля учеников, правильно выполнившиху-е задание в подгруппе из 27% худших учеников по результатам выполнения теста. Значения индекса гдис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [-1 ;1 ]. Максимального значения 1,00 индекс г п достигнет в том случае, когда все ученики из подгруппы лучших верно выполняту-е задание теста, а из подгруппы худших это задание не выполнит верно ни один ученик. В этом случае задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения индекса а* достигнет в том случае, когда в обеих подгруппах будут равны доли учеников, правильно выполнившиху-е задание теста. И наконец минимальное значение г - -1 будет в ситуации, когда данное задание теста все сильные ученики сделали неверно, а все слабые — верно. Естественно, что задания второго и третьего типа с г = 0 или г < 0 из теста следует удалить. Значения гдис для 42 заданий теста, полученные на выборке из 100 испытуемых, приведены в табл. 5.25. По результатам анализа данных правого столбца ясно, что задания 6,8,15,17,31,35 и 37 должны быть удалены из теста. Оценки г для заданий 4, 20 и 29 очень близки к критическому значению 308
Таблица 5.25. Значения а\ис для теста из 42 заданий Номер задания 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Все 67,0 72,0 75,0 25,0 21,0 94,0 82,0 27,0 73,0 66,0 64,0 61,0 34,0 38,0 59,0 85,0 61,0 48,0 88,0 27,0 51,0 35,0 62,0 20,0 41,0 40,0 79,0 37,0 22,0 70,0 26,0 42,0 Группа слабая 48,0 48,0 55,0 16,0 6,5 90,0 74,0 26,0 58,0 55,0 42,0 45,0 9,7 16,0 68,0 65,0 71,0 42,0 71,0 16,0 26,0 16,0 29,0 9,7 23,0 23,0 55,0 6,5 13,0 29,0 32,0 19,0 сильная 87,0 94,0 90,0 32,0 32,0 97,0 94,0 29,0 94,0 87,0 97,0 74,0 42,0 71,0 58,0 97,0 61,0 68,0 94,0 29,0 65,0 42,0 87,0 39,0 42,0 65,0 100,0 61,0 29,0 94,0 19,0 71,0 Индекс 0,39 0,45 0,35 0,16 0,26 0,065 0,19 0,032 0,35 0,32 0,55 0,29 0,32 0,55 -0,097 0,32 -0,097 0,26 0,23 0,13 0,39 0,26 0,58 0,29 0,19 0,42 0,45 0,55 0,16 0,65 -0,13 0,52
Окончание табл. 5.25 Номер задания 33 34 35 36 37 38 39 40 41 42 Все 65,0 30,0 11,0 70,0 12,0 33,0 73,0 46,0 40,0 51,0 Группа слабая 26,0 13,0 16,0 42,0 9,7 16,0 42,0 29,0 32,0 29,0 сильная 90,0 42,0 0,0 94,0 16,0 52,0 90,0 58,0 58,0 74,0 Индекс 0,65 0,29 -0,16 0,52 0,065 0,35 0,48 0,29 0,26 0,45 (близки к нулю). Поэтому для заданий последней группы необходим тщательный анализ содержания. Правда, возможно, что виновато не содержание, а полученные низкие значения отражают случайный характер ответов учащихся или появление при изучении проверяемого материала в тесте каких-либо проблем, наличествовавших ранее. Более точное представление о дискриминативной способности задания можно составить, подсчитав коэффициент (гЫ5) бисериаль- ной корреляции, процесс вычисления значений которого подробно рассмотрен в разд. 5.2. Помимо приведенной в разд. 5.2 формулы для грЫзможно использовать другие, дающие близкие значения: (ГрЫ$)./ _(ХХ);~Х /,,. (5.62) V рЫз )} (х,),.-(М- 4рл/> (5.63) где (а"рЫ5), — коэффициент точечно-бисериальной корреляции для /-го задания; (X^)^ — среднее значение индивидуальных баллов учеников, выполнивших верноу'-е задание; (X0)^■ — среднее значение индивидуальных баллов учеников, выполнивших у'-е задание не- 310
верно; X — среднее значение баллов по всей выборке учеников; 5Г — стандартное отклонение по множеству индивидуальных бал- х ЛОВ. Логика рассуждения при оценке результатов, полученных по формулам (5.62) или (5.63), остается та же, что раньше: чем выше корреляция, тем лучше задание теста. Задания с близкими к нулю и отрицательными значениями г Ы8 должны быть удалены из теста. Однако в реальной ситуации создания теста встречаются случаи, когда задание кажется разработчику крайне удачным по содержанию, однако наряду с этим имеет близкую к нулю корреляцию с суммой баллов по тесту. В этой связи возникает вопрос о выборе критического числа, ниже которого не могут спускаться значения гЫ5 при отборе заданий теста. По мнению многих специалистов (ь. Сгоскег,}. А1§1па, Р. КИпе и др.) [11,41 и др.], в качестве такого критического числа следует выбрать 0,2, и потому все задания со значением г Ы5 <0,2 должны быть удалены из теста. Вместо г Ы8 можно использовать гЫ8, который труднее вычислять для тех желанных по заданиям теста. Правда, в силу того, что значения гЫх несколько выше значений г. по одному и тому же заданию, критическим числом для гЫ8 следует считать 0,3. Таким образом, все адания со значением гЫ5 < 0,3 должны быть удалены из теста. Еще более точные представления одискриминативности заданий дает подсчет в рамках 1КТ дифференцирующей способности заданий теста (разд. 5.З.). Оценка параметра дифференцирующей способности у-го задания теста производится по формуле, которая для удобства читателей приводится еще раз: (>Ык)у *■■= (5.64) у1~(/Ь1$)/ где (гЬ[У — коэффициент бисериальной корреляции дляу-го задания теста. В отличие от грЫ5 бисериальный коэффициент корреляции гЫ5 может принимать значения, выходящие за пределы интервала [—1, 11. Обычно это происходит в том случае, когда распределение результатов по заданию отличается от нормального, и потому гЫя может быть найден не всегда и не для всех заданий теста. В тех случаях, когда |гЫ5|< 1, а принимает значения в интервале (—оо; +оо). Однако этот интервал имеет чисто теоретическое значение, реальные значения а обычно лежат в интервале от 0,5 до 2,5 Правда, задания с а< 1 считаются неудачными, поскольку их дифференцирующая способность при делении группы на слабых и 311
сильных крайне слаба. Обычно при конструировании теста отдают предпочтение заданиям со значениями в интервале 1 < а.< 2,5. Задания с я>2,5 обладают крайне высокой дифференцирующей способностью, однако захватывают весьма небольшой участок оси латентной переменной 0 (разд. 5.3), поэтому их обычно используют только в тех случаях, когда необходимо достичь максимальной дискриминативности (например вблизи критерия выполнения теста) для небольшой окрестности вблизи критического значения 0 на оси измеряемой переменной. Во всех остальных случаях используют умеренно крутые задания со значениями а. немногим больше единицы. Не следует считать, что предложенные оценки дискриминативности заданий (гдис)у, (грЫ5)у, (гы&). и яу каким-то образом конкурируют друг с другом в процессе анализа качества заданий теста. Все они описывают одну и ту же характеристику задания, но на различных уровнях с точки зрения точности описания и задействованного математического аппарата. Конечно, самым простым, но самым примитивным способом характеризует дискриминативность задания гдис, который легко вычислить для группы тестируемых в 100—200 человек с помощью обычного калькулятора. Более точную характеристику дискриминативности задания обеспечивает г Ы5, для вычисления которого на сравнительно больших выборках необходимы специальное программное обеспечение и компьютер. Еще лучше в процессе анализа использовать гЫ5. Однако здесь разработчику понадобятся статистические таблицы для ординаты нормированной нормальной кривой либо довольно сложное программное обеспечение, реализующее методы подсчета одного из пределов несобственного интеграла. Несомненно, оптимальной характеристикой с точки зрения качества описания является дифференцирующая способность задания — параметра я., оценка которого сопряжена с использованием сложного математического аппарата, программного обеспечения и ПЭВМ. Процедура вычисления значений я. (/=1, 2, ..., п) довольно длинна, поэтому на практике разработчики нередко ограничиваются подсчетом гдис. Показатель дискриминативности обычно отождествляют с характеристикой валидности задания теста, т.е. с его пригодностью задания служить поставленной цели измерения. Для нормативно-ориентированных итоговых тестов такая трактовка представляется вполне закономерной, так как основная цель их создания — дифференциация учеников по уровню подготовки. Таким образом, чем выше дискриминативность задания, тем выше его валидность в тесте. 312
Интересна взаимосвязь показателей трудности и дискриминатив- ности заданий теста. Задания с высокой дискриминативностью обычно имеют среднюю трудность, поскольку именно для них характерен в первую очередь высокий дифференцирующий эффект. Однако обратное заключение, вообще говоря, неверно. Задания с р= 0,5 могут иметь как высокий, так и низкий дифференцирующий эффект. Гомогенность (оанороаность) При конструировании теста необходимо иметь четкое представление о содержании заданий, которые предполагается включить в окончательную версию теста. Содержание заданий должно отвечать свойству гомогенности, указывающему на степень его однородности с точки зрения оцениваемого качества ученика. Таким образом, гомогенность (однородность) — это характеристика задания, отражающая степень соответствия его содержания измеряемому свойству ученика. В педагогических итоговых тестах роль оцениваемого свойства отводится уровню подготовки по предмету. Конечно, на свете нет таких разработчиков, которым удалось бы создать полностью гомогенные тесты, в равной степени как и нет таких тестов. И это вполне понятно, так как при выполнении теста по любой дисциплине всегда приходится задействовать более или менее широкий круг знаний и умений по другим предметам. Например, при выполнении теста по физике необходимо проявить знания и умения по математике, в тесте по биологии — знания и умения по химии, в тесте по истории — знания по культурологии и т.д. Поэтому говорить о полностью гомогенном содержании заданий не представляется возможным. Степень гомогенности содержания обычно оценивают с помощью факторного анализа. Для вывода о приемлемой степени гомогенности достаточно лишь того, чтобы доминирующий фактор, в основном определяющий результаты выполнения задания, был ориентирован на проверяемый предмет. Представление о степени гомогенности задания как составляющей системы заданий в тесте можно получить с помощью анализа парных корреляций (см. разд. 5.2). Если какое-либо задание отрицательно коррелирует с остальными, то есть веские основания для сомнений в его гомогенности. Наоборот, значимые, высокие оценки корреляции указывают на высокую степень однородности содержания заданий теста. Правда, при увеличении интеркорреляции заданий сужается содержательная область, отраженная в тесте, что желательно в 313
тематических, но недопустимо в итоговых тестах для оценки уровня подготовки по предмету. Поэтому при создании итоговых нормативно-ориентированных тестов стараются отобрать задания с положительными, но невысокими значениями коэффициентов парной корреляции в пределах интервала (0; 0,3) (см. подробнее разд. 5.2). После отбора в тест гомогенных заданий можно сделать вывод о том, что полученная система заданий измеряет одно и тоже свойство ученика. Таким образом, включение в тест гомогенных заданий обеспечивает одномерность оцениваемого свойства ученика, которым в случае конструирования итогового педагогического теста является уровень подготовки по предмету. Термин «одномерность» нередко используют для обозначения гомогенного задания теста. Со свойством одномерности задания непосредственно связана его локальная независимость. Локальная независимость тестового задания Свойство локальной независимости означает, что при любом фиксированном уровне подготовки ответы учеников на каждую группу заданий являются статистически независимыми. Другими словами, при фиксированном значении параметра ученика (или группы учеников) 0 (см. разд. 5.3) нет никакой связи между вероятностями правильных ответов на различные задания теста. Конечно, предположение о локальной независимости носит скорее формальный, нежели реальный характер, поскольку на деле ответы ученика на задания связаны между собой, причем эта связь тем больше, чем выше корреляция между заданиями и чем больше пересечение содержательных элементов в различных заданиях теста. Однако, несмотря на формальный характер, предположение о локальной независимости задания крайне существенно для использования соответствующего математического аппарата 1КТ. Оно позволяет рассматривать вероятность выполнения совокупности заданий как произведение вероятностей выполнения от дельных заданий теста и реализовать на основе теоремы об умножении вероятностей определенные возможности аппарата 1КТдля получения оценок наибольшего правдоподобия параметров 0 и р (см. разд. 5.3). В этой связи разработчики стараются включать в тест задания с невысокими значениями коэффициента интеркорреляции, обеспечивающие хотя бы приближенное отражение идеи локальной независимости в практике создания теста. Без сомнения, требование локальной независимости полностью исключает 314
возможность включения в тест цепочных заданий, когда ответ предыдущего задания входит в набор данных к последующему заданию теста. Весовой коэффициент задания Вопрос об оптимальных весовых коэффициентах при определении вклада каждого задания в итоговый балл ученика решается по- разному. Большинство специалистов склоняются к выводу о преимуществе дихотомической оценки по результатам выполнения каждого задания теста. При этом ученик получает 1 за правильное выполнение задания и 0 за пропуск либо неверный ответ. Сторонники дихотомической оценки руководствуются весьма простым соображением, подкрепленным соответствующими математическими выкладками [45]. Проигрыш в точности измерений будет существенно меньше, если ограничиться дихотомической оценкой, а весовыми коэффициентами, выбранными на основе субъективных суждений экспертов либо субъективных представлениях автора. Распространенный в нашей стране подход к выбору весовых коэффициентов основан на подсчете числа шагов, необходимых для выполнения задания теста. Логика сторонников этого подхода примерно такова: чем больше шагов требуется для выполнения задания, тем больше должен быть вклад задания в общую оценку по тесту. Вполне понятны основания для критики, поскольку налицо явный формализм в оценке вклада в итоговый балл каждого задания теста. При такой постановке вопроса сумма большого количества простых шагов при выполнении задания, требующего репродуктивного уровня деятельности, может давать больший вклад, чем один довольно трудный шаг, предполагающий элементы творческой деятельности при выполнении задания теста. Еще один тупиковый путь основан на выборе весовых коэффициентов, пропорциональных определенной статистическим путем трудности заданий теста. Эти весовые коэффициенты ничего не дают для повышения эффективности тестовых оценок сильных учеников, но могут привести к значительному росту ошибки измерения при оценке наиболее слабых учеников в тестируемой группе. Слабый ученик, угадавший правильный ответ к нескольким наиболее трудным заданиям, может по результатам тестирования выглядеть значительно лучше, чем другие, более сильные, не использующие угадывания при выполнении заданий теста. В этой связи в исследованиях Ф. Лорда предполагается присваивать ну- 315
левые или близкие к нулевым весовые коэффициенты для наиболее трудных заданий при подсчете баллов слабых учеников по результатам выполнения теста. В результате многолетней работы ряда зарубежных исследователей удалось в рамках 1КТ создать специальное обоснование проблемы выбора оптимальных весовых коэффициентов к заданиям теста. Достаточно подробно это обоснование изложено в [46]. Обоснование построено на определении весовых коэффициентов из условия максимизации значений информационной функции теста (см. разд. 5.3). В результате сложных выкладок Р.К. Хэм- блтон приходит к интересному результату. Оптимальные весовые коэффициенты должны находиться по формуле Щ' (5.65) где о,— весовой коэффициенту-го задания; Р — производная по переменной 0 от функции А, задающей вероятность правильного ответа нау-е задание теста; (Л= 1 — Р.— вероятность неправильного ответа нау-е задание теста. В зависимости от выбранной математической модели, аппроксимирующей Р. и О., весовые коэффициенты имеют вид, представленный в табл. 5.2о. Таким образом, исходя из результатов табл. 5.26, можно сделать вывод, что при использовании однопараметрической модели и описанных в разд. 5.3 алгоритмов для оценки значений 07 (/= 1,2,..., IV) лучше всего применять невзвешенные оценки и считать сырой балл каждого ученика по формуле Таблица 5.26. Оптимальные весовые коэффициенты для логических моделей ДОТ Модель Однопараметрическая модель Г. Раша Д вухпараметричес кая модель А. Бирнбаума Трехпараметрическая модель А. Бирнбаума ю, ю, ю7 1 Ш: — } РО = # = 1,7 = /)я,- = 1,7а ,• 1,7«, РГС1 (1-е,) Р} Комментарий 0)у не зависит от 0 0)у не зависит от 0 соу является функцией от переменной 0, так как />=де-р7) 316
п Х{ = 1,75>*' х&= {О, 1} и /= 1,2,..., УУ, (5.66) а затем вычислять 07 по описанным в разд. 5.3 алгоритмам. Для двухпараметрической модели вклад каждого задания в итоговый сырой балл должен быть пропорционален а: Х^П^-х^ / = 1,2,..„ТУ, (5.67) где параметр «.—дифференцирующая способностьу-го задания теста. Для трехпараметрической модели оптимальные весовые коэффициенты должны зависеть не только от параметров заданий, но и от уровня подготовки оцениваемого ученика. В соответствии с рекомендациями Ф. Лорда [50] для сильных учеников весовые коэффициенты стремятся к а.. Этот вывод легко получить из последней формулы для весовых коэффициентов в табл. 5.26: со,= 1 1—3- . (5.68) 3 Р-с Р Однако для сильного ученика вероятность правильного ответа нау-е задание стремится к единице (Л-> 1), поэтому формулу (5.68) можно переписать в виде Оа, 1-е, со,= 3- 3- = Оа,. 3 \-с] 1 3 Для слабого ученика, наоборот, при выполнении трудных заданий Я.-> е., поэтому со. —> 0, так как Оа, С: -С: ю..= 3—±—^- = 0. 1 — с ■ с■ Идеи Лорда были развиты А. Бирнбаумом, который построил специальные кривые для выбора оптимальных весовых коэффициентов (рис. 5.38). На рис. 5.38 по горизонтальной оси откладываются значения 6, по вертикальной — значения со.. Кривая / соответствует заданию с низким значением параметра дифференцирующей способности 317
(а, < 0,5). Поэтому вклад этого задания в общую оценку невелик как для сильных, так и для слабых учеников. Кривые 2 и 4 соответствуют довольно трудным заданиям (я4 > #2), поэтому при низких значениях 0 вклад заданий 2 и 4 в итоговый балл слабых учеников близок к нулю. По мере роста значений 0 на первый план выходит величина а.. Задание 4 с большим значением я4при подсчете баллов сильных учеников будет иметь больший весовой коэффициент. И наконец, заданию 3 соответствует умеренно пологая кривая (а3~ 1), но оно имеет небольшую трудность, поэтому весовые коэффициенты для этого задания отличны от нуля даже для самых слабых учеников. Таким образом, вопрос выбора оптимальных весовых коэффициентов достаточно сложен. Для его научного решения необходимо использование математического аппарата 1КТ и специальных математических теорий. При больших значениях 0 оптимальные весовые коэффициенты пропорциональны дифференцирующей способности заданий. Для малых 0 и больших р оптимальные весовые коэффициенты близки к нулю. В заключение уместно привести некоторые рекомендации по отбору заданий в тест. Конечно, такие рекомендации могут носить самый общий характер, поскольку при отборе заданий есть довольно много разнообразных факторов, а при окончательном решении их следует разумно уравновесить. Несомненно, наиболее эффективны задания со значениями параметра трудности/? в интервале (0,20; 0,80), поэтому именно их в первую очередь следует включать з ' н ж о» ■е- •& т о а: й> а СО О о О) л о х л со X н с о 0 Уровень подготовки Рис 5.38. Кривые оптимальных весовых коэффициентов е 318
в тест. Однако, если в этот интервал попадают задания с низкой дискриминативностью, а другие, с высокой дискриминативнои способностью, имеют трудность 0,18, то именно последним заданиям следует отдать предпочтение при отборе заданий в тест. 5.5. Надежность и валианость гомогенного теста Процесс научного обоснования качества теста предполагает оценку его надежности и валидности. Прогресс, достигнутый в зарубежных исследованиях критериев качества тестов, привел к многочисленным методам и подходам, которые не конкурируют между собой, а взаимно дополняют друг друга. Каждый из методов имеет свои достоинства и недостатки, свою область применения и свои особенности в интерпретации оценок качества тестов. Кроме того, необходимо также добавить информацию о принимаемом риске допустить в выводах ошибки, которые неизбежны при переходе от теоретических понятий о надежности и валидности к их статистическим оценкам, основанным на эмпирических результатах выполнения теста. В связи с этим можно сделать два важных вывода. Первый — при оценке надежности и валидности не следует полагаться на единственную формулу, а надо пользоваться совокупностью методов, ориентированных на особенности разрабатываемого теста. Второй — любые оценки надежности и валидности выступают не как истина в последней инстанции, а лишь как правдоподобные утверждения, имеющие ту или иную степень достоверности. Надежность гомогенных тестов Надежностью (геНаЪПку) называется характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов. Следовательно, термин «надежность» имеет два значения. Во-первых, тест считается надежным, если он обеспечивает высокую точность измерений. И во-вторых, тест считается надежным, если он дает при повторном выполнении близкие результаты при условии, что подготовка ученика не изменилась за время до повторного выполнения теста. В требовании проверки теста на надежность реализуется важная идея методологического характера, связанная с необходимостью обоснования качества тестовых измерений. Таким образом, качество тестовых измерений оказывается научно обоснованным 319
в отличие от результатов традиционного контроля, обеспечивающего, как правило, довольно грубые, слабо дифференцированные оценки. Постановка задачи, нацеленной на повышение точности измерений, предполагает существование истинного балла ученика и некоторой ошибки, неизбежно возникающей в процессе любых, в том числе и тестовых, измерений. Поэтому перед обсуждением методов подсчета надежности теста необходимо рассмотреть концептуальные подходы к определению истинного балла и стандартной ошибки измерения. Концепция истинного балла Оценка истинных баллов (1ше $соге$) испытуемых — главная цель любого создателя педагогического теста. Однако наивно и даже нелепо спрашивать, как достичь этой цели, поскольку любые результаты всегда содержат в себе ошибочные компоненты измерения. Так как преподаватель имеет дело только с фактически полученными результатами измерения, то в процессе создания и применения тестов всегда стоит задача не получить истинные баллы, а лишь как-то приблизиться к их наиболее достоверным оценкам. Что касается определений самого понятия «истинный балл», то их несколько. Нередко истинным баллом называют параметр ученика, предполагая тем самым, что каждому ученику можно поставить в соответствие единственное на момент измерения значение параметра. Иногда истинный балл трактуют как предел среднего значения наблюдаемых баллов, достигаемый при бесконечном увеличении числа выполнения учеником одного и того же теста. В целом же можно считать, что истинный балл — это показатель испытуемого в гипотетической генеральной совокупности заданий бесконечного теста. Понятно, что предлагаемые определения носят исключительно концептуальный характер, и поэтому возникают вполне естественные трудности, как всегда, при переходе от концептуальных понятий к их эмпирическим референтам. Сама идея перехода выглядит по-разному в классической и в современной теории тестов. Переход в 1КТ обеспечивается целой цепочкой алгоритмов и итерационных методов, в результате которых получаются оценки наибольшего правдоподобия, выполняющие функцию истинных баллов учеников. В классической теории тестов идея перехода много проще, она построена на уравнении линейной регрессии и приво дится в конце данной главы. 320
Ошибка измерения В теории педагогических измерений ошибка трактуется как статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла ученика. Ошибки измерения происходят по различным как контролируемым, так и неконтролируемым причинам и дифференцируются в зависимости от источника происхождения. Среди различного рода ошибок можно выделить два наиболее важных типа: систематические и случайные. К систематическим относятся ошибки, порождаемые недостаточным качеством теста. Это те пофешности, которые неизбежно привносит любой разработчик теста в процесс создания и применения средства измерения. Случайные ошибки происходят от особенностей поведения испытуемых, а не от заданий теста. Испытуемый может плохо себя почувствовать в процессе выполнения теста. Для некоторых в помещении слишком жарко или холодно. На результаты тестирования влияют скука, усталость либо волнение. Ученик может ошибаться при осмыслении формы задания или неверно понять инструкцию и по этим причинам указать неправильный ответ. В целом ошибки измерения влияют в ту или иную сторону на результаты тестирования, снижая надежность теста, которую рассматривают всегда исключительно в контексте случайных ошибок измерения. Постулаты классической теории тестов Теория надежности строится на базе ряда постулатов, закладывающих основополагающие идеи классической теории тестов [44,481. Согласно первому постулату где Х.г— наблюдаемый результат /-го испытуемого выборки по тестовой форме/; Т{— его истинный балл; Е~— суммарная ошибка измерения при оценке Т. с помощью теста/ Второй постулат связан с понятием «параллельные формы теста». Формы/, #, А... считаются параллельными, если они разработаны на основе одной спецификации, имеют одинаковое количество заданий попарно равной трудности с совпадающими характеристиками, в том числе и с совпадающими коэффициентами интеркорреляции, и порождают на одной и той же выборке идентичные рас- I I Мельникова М Б. 321
пределения наблюдаемых баллов (распределения с одинаковыми средними, дисперсией и т.д.)- Согласно второму постулату ковариа- ции результатов тестирования по параллельным формам должны быть одинаковы: ^О'^я Х/Хп х%хп ***' где ах х , сХгх > ••• — ковариации между тестовыми баллами по параллельным формам теста. Третий постулат строится на гипотетическом предположении о существовании результатов бесконечного числа тестирований одного и того же испытуемого с помощью параллельных форм теста. Согласно третьему постулату среднее значение ошибок измерения истинного балла испытуемого стремится к нулю при числе тестирований, стремящемся к бесконечности. Четвертый постулат основан на идее тестирования бесконечной популяции испытуемых, осуществляемого с помощью дан ного набора параллельных форм теста. Согласно этому постулату среднее значение ошибок измерения баллов в популяции будет стремиться к нулю при бесконечном увеличении ее размеров. И наконец, по пятому постулату истинный балл испытуемого не изменяется при использовании различных параллельных форм теста. Использование указанных постулатов приводит к фундаментальному соотношению классической теории тестов. Согласно соотношению дисперсия наблюдаемых баллов а^ дисперсия истинных баллов а\ и дисперсия ошибок измерения <з2Е связаны равенством* о2х=с2т+с2Е. (5.69) Таким образом, дисперсия наблюдаемых баллов равна сумме дисперсий истинных и ошибочных составляющих. Для построения классической теории тестов изложенную систему постулатов целесообразно дополнить двумя предположениями. Одно из них связано с допущением о континуальном распределении истинных баллов в генеральной совокупности в противоположность объективно существующему дискретному характеру распределения наблюдаемых баллов тестируемой выборки. Другое — * В отличие от символа 8$, используемого для обозначения статистической величины —дисперсии наблюдаемых баллов выборки испытуемых, символ обозначает дисперсию баллов генеральной совокупности. 322
предположение о нормальном законе распределения наблюдаемых баллов, истинных баллов и ошибок измерения. Важность приведенных постулатов и основных предположений часто остается за фанью внимания разработчиков тестов, поскольку в основном разработчики имеют дело не с выводом формул, а с готовым математическим аппаратом для оценки надежности и валид- ности тестов. Однако эти предположения необходимы, и о них следует постоянно помнить в процессе разработки теста. В противном случае можно прийти к неоправданным выводам о высоком качестве теста и получить существенно смещенные результаты измерения с большим ошибочным компонентом. Равенство (5.69) удобно переписать в виде 2 2 2 ъ2х °х °х или °х °х В последнем выражении а^ следует понимать как среднее арифметическое дисперсий ошибок для оценок различных испытуемых из генеральной совокупности. Необходимость введения среднего значения вызвана тем, что ошибка при оценке истинного балла будет различной у испытуемых фуппы. Естественно предположить, что чем ближе о^к^, тем выше корреляция между множеством наблюдаемых баллов Хи множеством истинных баллов Гитем, следовательно, надежнее тест. Поэтому отношение <з\/о2х обычно трактуют как концептуальное определение коэффициента надежности теста — гн. Тогда 4 >*н=1 2 а для статистик коэффициент надежности можно записать в виде »• 323
Хотя формула (5.71) имеет основополагающий характер, она не операциональна, поскольку по эмпирическим результатам выполнения теста нельзя определить 8\. Несложный анализ формулы (5.71) позволяет сделать выводы о возможных пределах величины гн и факторах, влияющих на ее измерение. Очевидно, что дробь 82Е/82Х всегда неотрицательна, поэтому коэффициент надежности не может принимать значение больше единицы. Максимальное значение гн= 1 получается в том случае, когда ^|=0, — случай, который не встречается в практике любых измерений. Так как величина дроби растет по мере роста числителя и уменьшается с ростом знаменателя, то естественно предположить, что надежность увеличивается в тех случаях, когда тест обеспечивает высокую дисперсию тестовых баллов учеников. Конечно, максимального значения дисперсия достигнет при равномерном (прямоугольном) распределении, когда каждое значение индивидуального балла встречается один раз. Однако этот случай противоречит важному предположению о нормальном характере распределения. Поэтому обычно разработчики нормативно-ориентированных тестов стремятся к максимальным значениям 82х, но без нарушения закона нормального распределения статистик по тесту. Факторы, влияющие на надежность гомогенного теста Основываясь на постулатах классической теории тестов, можно показать, что корреляция гт каждого задания./ с истинным показателем Т равна квадратному корню из среднего значения его корреляций с другими заданиями теста [11]: 0т=^ (5-72) где гу — среднее значение по всем корреляцияму-го задания с остальными заданиями теста. Далее следует вспомнить, что, чем выше корреляция между множествами наблюдаемых Хи истинных Т баллов, тем меньше ошибка измерения, тем надежнее тест. Поэтому естественно принять предположение об увеличении надежности по мере роста г т для каждого задания теста. 324
С точки зрения разработчика теста, формула (5.72) имеет крайне важное значение, поскольку из нее следует интересный вывод, необходимый для конструирования надежного гомогенного теста. Если автор сумеет разработать много заданий и выбрать из них те, которые имеют большое значение среднего арифметического корреляций с другими заданиями теста, то согласно формуле (5.72) тест будет в высокой степени надежным и обеспечит низкую погрешность измерения. Однако это простое, казалось бы, правило конструирования автору довольно трудно выполнить при создании итогового теста. Если при выборе заданий из совокупности руководствоваться исключительно формулой (5.72), то, с одной стороны, повысится однородность (гомогенность) теста и соответственно надежность осуществляемых с его помощью измерений. С другой стороны, отбор заданий с высокой интеркорреляцией неизбежно негативно скажется на качестве содержания итогового теста. В тест попадут близкие по содержанию задания, нацеленные на одни и те же содержательные элементы, что явно противоречит идее итоговой проверки. Правда, из этого положения есть выход, который предлагают теоретики. В очень длинных тестах (100 заданий или более) малые значения интеркорреляции заданий могут сочетаться с высокой надежностью теста. Поэтому итоговые тесты часто стараются увеличить подлине и довести ее до 100—150 заданий [11]. Таким образом, первым фактором, влияющим на надежность, является внутренняя согласованность теста, обеспечиваемая высокой однородностью содержания заданий при их отборе в тесте. Точность тестовых оценок возрастает по мере повышения однородности (гомогенности) теста, когда содержание всех заданий нацелено на измерение единственной характеристики ученика, например уровня его подготовки по предмету. Поэтому нередко концепцию надежности увязывают с характеристикой внутренней согласованности теста. В целом при создании гомогенного теста к однородности содержания следует стремиться, но в тех пределах, которые не нарушают правильность пропорций содержательных элементов в итоговом тесте. Анализ возможных значений интеркорреляции между заданиями можно продолжить, чтобы получить представление о втором факторе, влияющем на надежность теста. Так как корреляции между заданиями отличаются, то они образуют некоторое распределение вокруг их среднего значения для каждого задания теста. Исходя из этого предположения, можно оценить стандартную погрешность из- 325
мерения среднего значения интеркорреляции 5Дгу) для каждого задания теста: ^•) = -==4==, (* = 1, 2,..., л), (5.73) ^1л(/,-1)-1 где 5Г — стандартное отклонение по распределению значений коэффициента корреляцииу-го задания со всеми другими заданиями теста; п — число заданий в тесте. Формула (5.73) указывает на прямую пропорциональную зависимость от стандартного отклонения корреляций заданий и обратную зависимость от количества возможных корреляций между п заданиями теста. Вычитание единицы в знаменателе дает соответствующие степени свободы. Анализ формулы (5.73) позволяет получить два важных следствия: первое — по мере возрастания стандартной погрешности увеличивается различие между интеркорреляциями заданий, второе — стандартная погрешность убывает с ростом числа заданий в тесте. Таким образом, формула (5.73) показывает, что надежность повышается с увеличением не только однородности содержания заданий, но и длины теста. Следовательно, длина теста — это второй фактор, влияющий на надежность теста. Если применить формулу (5.73) для случая, когда 5Г. = 0,15 , к тесту, состоящему из 10, 20 и 30 заданий, то получатся следующие стандартные погрешности [И]: 0,02; 0,01; 0,007 соответственно. Приведенные результаты указывают на высокую точность оценки надежности теста для случая, когда дисперсия по множеству значений коэффициента интеркорреляции заданий невелика, что характерно для гомогенного теста достаточно большой длины (не менее 30 заданий). Вообще говоря, вывод о необходимости разработки длинных тестов вполне понятен интуитивно, без всякого анализа формулы, так как естественно увязать этот вывод с определением истинного балла тестируемых учеников. В той гипотетической ситуации, когда число заданий в совокупности стремится к бесконечности, наблюдаемый балл приближается к истинному баллу при уменьшении ошибки измерения, следовательно, по мере роста числа заданий увеличивается надежность теста. 326
Однако этот формальный вывод приходит в явное рассогласование с реальными возможностями учеников, поскольку по мере роста длины теста увеличивается их утомляемость и снижается мотивация к выполнению заданий теста, что в совокупности ведет к росту ошибки измерения. Из-за накопившейся усталости ученики не справляются с теми заданиями, которые в другой ситуации могли бы выполнить вполне успешно. Поэтому при выборе оптимальной длины теста разработчики руководствуются группой факторов, среди которых высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых заданий, возраст учеников и определенное в соответствии с их физиологическими возможностями оптимальное время выполнения теста. Поданным работы [43], учащиеся старших классов за одну минуту могут выполнить одно задание с выбором ответа (при числе ответов не менее четырех), три задания с кратким ответом на дополнение или три задания типа «правильно-неправильно» при условии, что все задания проверяют знания, а не способности учеников. В практике советской и российской школы при использовании тестов достижений в одну работу, рассчитанную на урок (45 мин.), обычно включают до 25 заданий с выбором ответа разного уровня трудности или от 3 до 10 заданий со свободным ответом. Вполне понятно, что подобная совокупность заданий из-за маленькой длины не обеспечит достаточную надежность теста, да и вряд ли вообще может быть названа тестом. При определении оптимальной длины теста можно также воспользоваться данными международных сравнительных исследований (1АЕР, ТШ55), в которых принято следующее распределение времени на выполнение заданий различного типа: с выбором ответа из четырех-пяти — в среднем до 1 мин., с кратким дополняемым ответом — в среднем до 2 мин., с полным свободно конструируемым ответом — до 5 мин. С учетом всего сказанного рекомендуется проводить тестирование выпускников неполной средней школы (9 класс) в течение 2—3 уроков (от 90 мин. до 2 ч), а выпускников средней школы (11 класс) — в-течение 2—4 уроков (от 1,5 до 3 ч). Таким образом, письменная работа на два урока может включать до 50 заданий с выбором ответа, что позволит при прочих условиях обеспечить приемлемую, но не хорошую надежность теста. (Точная формула для определения скорости роста надежности по мере увеличения длины теста будет приведена дальше в разделе по оценке надежности теста.) 327
В оценке надежности очень важен подбор адекватной выборки испытуемых, выполняющих тест. Поскольку коэффициент надежности, как и любая статистика, связан с объемом выборки, то рекомендуется использовать выборки большого объема для оценки надежности теста. Например, Гилфорд в качестве минимального размера выборки предлагает 200 испытуемых для определения надежности теста [44]. По мнению Ньюнелли, их должно быть не менее 300, а вообще справедливо простое правило — чем больше выборка, тем достовернее оценка надежности теста. Однако еще более важным параметром выборки, чем ее объем, является ее состав. Большая, но неправильно подобранная, нестра- тифицированная выборка может дать полностью ошибочные представления об оценке надежности теста. Выборка должна отражать ту категорию лиц, для которых предназначен тест. Например, если тест предназначен для итоговой аттестации выпускников 9 классов, бесполезно оценивать его надежность на выборке одиннадцатиклассников. Сама по себе выборка не должна состоять только из сильных или слабых учеников. Для оценки надежности в выборку включают школьников с различным уровнем подготовки, чтобы различные по подготовке категории школьников были представлены в равных долях. Таким образом, при оценке надежности выборка испытуемых комплектуется специальным образом для отражения разнообразных параметров генеральной совокупности школьников. Оценка надежности теста Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста либо с помощью двух параллельных форм теста. Вторая группа предполагает однократное тестирование при оценке надежности теста. Конечно, практически отдают предпочтение второй группе методов, поскольку организация повторного тестирования, как и разра ботка параллельных форм, всегда сопряжена с определенными трудностями и дополнительными затратами со стороны создателей тестов. Вне зависимости от метода оценка надежности не всегда, но чаще всего строится на подсчете корреляции между двумя наборами результатов выполнения одного и того же теста или двух его параллельных форм. Логика рассуждений при этом довольно про ста: чем выше корреляция, тем выше надежность теста. 328
Для маленькой выборки корреляцию можно оценить визуально, как, например, в приведенном далее примере (табл. 5.27). В рассматриваемом гипотетическом примере три теста А, В и С из 10 заданий дважды выполняла одна и та же выборка из 10 учеников. Таблица 5.27. Результаты двукратного выполнения трех тестов Номер испытуемого 1 2 3 4 5 6 7 8 9 10 Тест А 1-е тестирование 10 9 8 7 6 5 4 3 2 1 2-е тестирование 10 9 8 7 6 5 4 3 2 1 Тест В 1-е тестирование 10 9 8 7 6 5 4 3 2 1 2-е тестирование 1 2 3 4 5 6 7 8 9 10 Тест С 1-е тестирование 10 9 8 7 6 5 4 3 2 1 2-е тестирование 6 4 8 9 3 1 5 7 2 10 Тест А обладает оптимальной надежностью, так как результаты 10 учеников остались прежними: баллы и места учеников не изменились после повторного выполнения теста. Подсчет корреляции результатов первого и второго тестирования даст коэффициент корреляции, равный единице, поэтому (гн)А =-1. Тест В полностью ненадежен: те, кто имел самые высокие баллы в первом тестировании, получают самые низкие во втором после повторного применения этого же теста. Результаты двукратного использования теста В указывают на полное отсутствие воспроизводимости баллов испытуемых и, следовательно, на минимальную надежность теста, поэтому (гн)в =-1. Тест С обеспечивает в целом существенно изменившуюся картину, хотя результаты отдельных учеников (3-го и 9-го) будут вое 329
произведены при повторном выполнении теста. Скорее всего, надежность третьего теста невелика, но положительна и ближе к нулю, чем к статистически значимым оценкам надежности теста. Естественно, что рассмотренные гипотетические ситуации для теста А и В практически не встречаются в практике. Обычно коэффициент надежности принимает положительные значения, но никогда не бывает равен единице и даже для существующих десятилетиями, получивших всеобщее признание очень хороших тестов. Статистические методы подсчета коэффициента надежности могут быть основаны на различных формулах. Некоторые из них приводятся далее и сопровождаются примерами, иллюстрирующими их использование. В качестве примера выбрана матрица тестовых результатов размером 10 х 10, которая ранее уже встречалась при обсуждении статистических методов обработки результатов выполнения теста (см. табл. 5.3). Для удобства читателей она приводится еще раз (табл. 5.28). Таблица 5.28. Матрица тестовых результатов Номер испытуемого/ 1 2 3 4 5 6 7 8 9 10 Число правильных ответов /?у Р} Номер задания у 1 0 9 0,9 2 1 1 0 1 0 1 1 1 1 1 8 0,8 3 1 0 0 0 7 0,7 4 1 0 0 1 0 0 1 1 1 1 6 0,6 5 1 0 0 1 1 0 0 0 1 1 5 0,5 6 1 0 0 1 1 0 1 0 1 0 5 0,5 8 0 0 1 1 0 1 0 0 1 0 4 0,4 7 0 0 0 1 0 0 0 0 1 1 3 0,3 9 0 0 0 1 0 0 0 0 1 0 2 0,2 10 0 0 0 1 0 0 0 0 0 0 1 0,1 Индивидуальный балл Л) 6 2 1 9 4 4 5 4 9 6 50 330
Ретестовыи метод оценки надежности теста (двукратное тестирование) Ретестовыи метод оценки надежности (1е8*-ге1е81: геИаЬИку) основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения одного и того же теста. Обычно повторное тестирование проводится через 2—3 недели, когда испытуемые не успели забыть задействованный в тесте учебный материал и незначительно продвинулись по пути усвоения новых знаний. В этом случае низкая корреляция будет следствием не изменения состояния испытуемых, а отсутствия надежности теста. Для подсчета коэффицента надежности по методу повторного тестирования используется формула \*н /рет /=1 ( N / N Л Км N Г N V /=1 N V /=1 (N V (5.74) #Х№) - X*, ^Х«г- Х>/ ) /=1 V /=1 ) где (г ) — коэффициент надежности теста по ретестовому методу; Х( — индивидуальный балл /-го испытуемого в первом тестировании (/= 1, 2,..., Ы)\ У1 — индивидуальный балл /-го испытуемого во втором тестировании (/= 1, 2,..., IV). Для удобства вычисления коэффициента надежности можно использовать табл. 5.29. Применение формулы (5.74) показано для данных табл. 5.30, где индивидуальные баллы испытуемых в первом тестировании взяты из матрицы табл. 5.28. Таблица 5.29. Сводная таблица для оценки надежности (ретестовыи метод) Номер ученика / 1 2 N Балл при первом тестировании X,- *• *2 ЛдГ N /=1 Балл при втором тестировании У, У у> у, N 1у,- 1=1 хх Х{У{ Х2У2 Лдг/дг N IV 1=1 (X;)1 (X,)2 (Х2)2 (х»У /=| т1 (Ух)2 (У2)2 (У*)2 N /=1 331
Таблица 5.30. Пример данных для оценки надежности Номер ученика • I 1 2 3 4 5 6 7 8 9 10 Балл при первом тестировании х-, 6 2 1 9 4 4 5 4 9 6 2*/ = 50 Балл при втором тестировании У; 5 4 2 7 6 3 7 6 7 8 х*^* хх 30 8 2 63 24 12 35 24 63 48 ХОД =309 №)2 36 4 1 81 16 16 25 16 81 36 К^-)2=312 (П)2 25 16 4 49 36 9 49 36 49 64 Х(Г,)2 = 337 После подстановки чисел из нижней строчки таблицы в формулу (5.74) коэффициент надежности 10-309-50-55 = 340 ?§ .Н ^ л/Ю-312-502л/Ю-337-552 ^620л/345 Значение гн = 0,78 указывает на невысокую надежность теста. Хотя ретестовый метод подсчета надежности прост в вычислительном отношении, следует быть очень осторожным, чтобы не завысить надежность искусственным путем, проводя слишком близкое по времени повторное применение теста. Учащиеся могут запомнить ответы к целому ряду заданий и при повторном тестировании значительно повысить свои результаты, что негативно скажется на объективности при оценке надежности теста. Метол параллельных форм (двукратное тестирование) Не может быть никакого сомнения в том, что метод параллельных форм (рага11е1-Гогт геНаЬПку) наиболее подходящий для оценки надежности в рамках классической теории тестов, поскольку идея существования параллельных форм заложена в ней на уровне концепций и постулатов. Однако с практической точки зрения — это наименее эффективный метод. Пользуясь им, автору приходится создавать форму теста, параллельную исходной, затем долго с большими затратами сил и времени доказывать ее параллельность 332
и только потом оценивать надежность исходного теста. К тому же параллельные формы — это скорее теория, чем реальность, поскольку на практике, несмотря на все усилия авторов, как правило, обнаруживаются статистически значимые отличия в характеристиках параллельных тестов. Если автору все же удалось, преодолев все трудности, создать параллельные формы и проверка условий параллельности дает обнадеживающие результаты, то для оценки надежности используется формула (5.74). В ней X. (/= 1,2,..., /V) — индивидуальные баллы испытуемых в первой форме, а К. (/ = 1, 2,..., Щ — во второй. А далее все вычисления с точностью повторяют подробно рассмотренный пример. И ретестовый метод, и метод параллельных форм довольно неудобны, поскольку они предполагают двукратное тестирование школьников. Обычно их используют довольно редко и отдают предпочтение методам, требующим однократного тестирования учеников. Метол расшепления теста (однократное тестирование) Метод расщепления на две части (8р1Н-Ьа1Г те1Ьос1) наиболее распространен из-за своего удобства. Он позволяет вычислить коэффициент надежности при однократном выполнении учениками теста. Для оценки надежности результаты тестирования делят на две части: в одну включают данные испытуемых по четным, а в другую — по нечетным заданиям теста. Правда, деление на две части — не единственный способ, возможны и другие варианты, когда выделяют большее число частей при оценке надежности теста. Результаты учеников заносят в табл. 5.31 и получают табл. 5.32. Далее для таблицы данных используют формулу (5.74), в которой роль результатов в первом тестировании выполняют данные по четным заданиям, а во втором — по нечетным. Таблица 5.31. Сводная таблица для оценки надежности (метод расщепления) Номер ученика / 1 2 .V Балл при первом тестировании Х{ *. *2 хы N /=1 Балл при втором тестировании У, г< у2 V* N ту, 1=1 Х,У, Х,У, Х2У2 Х^У,\ N №)2 №)2 (Х2)2 (Л*)2 N 1=1 (Уд2 (Г,)2 (У2)2 (У*)2 1(у,)2 1=1 333
Для матрицы табл. 5.28 результаты почетным и нечетным заданиям приводятся в табл. 5.32. После подстановки чисел из табл. 5.32 в формулу (5.74) получается м 10-75-24-26 126 рет л/Ю-74-242л/Ю-88-262 уШуШ -0,61. По сравнению с прежним значением 0,78 надежность получилась намного меньше, что можно было предвидеть, поскольку подсчет методом расщепления велся не по 10 заданиям, а только по 5. Для оценки надежности исходного теста из 10 заданий используется формула Спирмена—Брауна ги = 2(г„) расщ 1 + ('„) расщ (5.75) Таблица 5.32. Подсчет надежности (метод расщепления) Номер ученика « 1 1 2 3 4 5 6 7 8 9 10 Балл при первом тестировании X, 3 1 1 5 1 2 3 2 4 2 Х*/ = 24 Балл при втором тестировании У, 3 1 0 4 3 2 2 2 5 4 Х>/=26 ад 9 1 0 20 3 4 6 4 20 8 № = 75 №)2 9 1 1 25 1 4 9 4 16 4 Х№)2=?4 (^2 9 1 0 16 9 4 4 4 15 16 Х^)2=88 334
Тогда гн теста из 10 заданий будет 2 0,61 к. = — -0,76. " 1+061 После коррекции коэффициент надежности получился приблизительно такой же, как и в предыдущем случае подсчета ретесто- вым методом (гн =0,78). Применение формулы Спирмена—Брауна подтверждает высказанное ранее предположение: увеличение длины повышает надежность теста. Рассмотренный выше метод расщепления основан на допущении параллельности двух половин теста, что не всегда и не в полной мере может оказаться верным. Корреляция двух половин возрастает по мере роста гомогенности теста. В этой связи метод расщепления нередко называют методом оценки внутренней состоятельности (согласованности) теста (1п1егпа1-Соп8181:епсу МеШос!). Следующий подход к оценке надежности основан на вполне реальных данных и не зависит от упомянутых выше искусственных допущений о полной параллельности частей теста. Однако и он имеет свою ограниченную сферу применения, поскольку годится исключительно для гомогенных тестов. Метод Кьюаера—-Ричардсона (для дихотомических опенок по заданиям теста) Формула Кьюдера—Ричардсона (Р. КшЗег, М. КюЬагекоп 20, или КК-20) имеет вид [48] I \ П "\\ ^КК-20 /1-1 ( п \ V ) (5.76) где р. - - доля правильных ответов нау-е задание; д. — доля непра- вильных ответов, д.- 1 — р' 82х —дисперсия по распределению наблюдаемых баллов; п — число заданий теста. Применительно к рассматриваемой матрице 8Х =6,89 (см. разд. 5.2), а/>.(/= 1,2,..., 10) приводится в самой последней строчке табл. 5.27. Тогда 335
0,9 • 0,1 + 0,8 • 0,2 + 0,7 • 0,3 + 0,6 • 0,4 + 0,5 • 0,5 + 0,5 • 0,5 + + 0,3 • 0,7 + 0,40,6 + 0,2 • 0,8 + 0,1 • 0,9 = 1,9; Результат подсчета коэффициента надежности по формуле (5.76) довольно близок к двум другим полученным ранее (0,76 и 0,78). Из обсуждения должно быть понятно, что не может быть какого-либо единственного показателя, доказывающего по оценке своих значений приемлемую надежность теста. Для полной ее проверки следует учитывать несколько показателей надежности, подсчитанных по разным формулам, лишь небольшая часть которых приведена в данном тексте. В качестве нижнего предела допустимых значений надежности обычно выбирают 0,7. При более низком значении использование теста вряд ли целесообразно в силу большой погрешности измерения. Если тест разрабатывают профессионалы, то к нему предъявляют более жесткие требования. Как правило, тесты с надежностью менее 0,8 считаются непригодными в профессионально организованных службах тестирования и центрах. Значения коэффициента надежности, превышающие 0,9, говорят о высоком качестве теста. Они крайне желательны, но редко встречаются. Как правило, в тестологичес- кои практике надежность тестов колеблется в интервале (0,8; 0,9). Положение с выводами о качестве теста осложняется тем, что нет и не может быть раз и навсегда определенной надежности теста. Ситуация вполне объяснимая, поскольку коэффициент надежности, подсчитываемый по матрице тестовых результатов, всегда зависит от свойств выборки испытуемых. Поэтому при каждом очередном использовании теста приходится оценивать его надежность, а уж потом говорить о достоверной интерпретации результатов выполнения теста. В целом надежность зависит от ряда характеристик теста, рассмотрение которых может способствовать повышению качества теста в процессе его создания. Надежность и длина теста При конструировании теста полезно уметь определить необходимую его длину, чтобы достичь планируемой надежности теста. С этой целью используется обобщенный вариант формулы Спирме на—Брауна 1,* 6,89 -0,79. 336
—к— (577) где к — число раз, в которое увеличивается длина теста; г — коэффициент надежности теста до увеличения его длины; (гиУ —коэффициент надежности после увеличения длины теста [12]. Конечно, увеличение длины в обсуждаемой постановке проблемы предполагается вести путем добавления заданий, содержание которых основано на той же спецификации, что и исходные задания теста. Таким образом, увеличение длины предполагает не изменение содержательной области, подвергающейся проверке, а детализацию проверки каждого содержательного элемента в тесте. Помимо этого, добавляемые задания должны иметь статистические характеристики, близкие к характеристикам исходных заданий теста. Нарушение одного из этих условий приводит, как правило, к неоправданному завышению оценок надежности теста. Использование формулы (5.27) легко пояснить с помощью чис- ленныхданных. Например, если надежность теста была гн=0,7 и длину теста увеличили в 3 раза, то надежность нового теста возрастет до 30 7 , :э_ц1/ = 088 н 1 + (3-1)0,7 что в отличие гн = 0,7 является вполне приемлемой для профессионального уровня создания теста. Возможно другое применение формулы (5.77), когда достигнутая надежность, скажем ги=0,7, кажется разработчику явно недостаточной и он хочет узнать, во сколько раз следует увеличить длину для запланированного повышения качества теста. Если достигнутую надежность обозначить символом г_, а планируемую, т.е. желатель- ную — символом А*план, то 'досА*-чтлан/ (5.78) Для рассматриваемого выше примера, где г• = 0,7, а г =0,88, дост ' ' план ^0,88(1-0,70) = 0,70(1-0,88) 337
Естественно, что надежность теста не является самоцелью, поскольку неоправданное увеличение длины теста, как уже было отмечено ранее, приведет к усталости и снижению мотивации у уче- ников, что в конечном счете отразится негативно на той же надежности теста. Поэтому при конструировании теста следует искать разумный компромисс, когда надежность теста находится в допустимых пределах, а длина теста выбрана сообразно возрастным особенностям учеников и специфике проверки. К тому же включение большого числа заданий, сходных по содержанию, нецелесообразно при итоговой проверке учеников. Надежность и стандартная ошибка измерения Один из аспектов применения коэффициента надежности связан с определением стандартной ошибки измерения. Для установления связи между стандартной ошибкой измерения и надежностью теста необходимо преобразовать формулу (5.71): После преобразования формулы относительно 52Е получится выражение 52Е = 8\(1-ги), или где 5Х— стандартное отклонение по распределению индивидуальных баллов; гн — коэффициент надежности теста; 3Е — стандартная ошибка измерения. Обычно выражение (5.79) используется для вычисления 5Е по известным величинам г и 5Х. Что касается сущностного смысла, то 5Е(^1ап6ат6 еггог оГтеазигетет) трактуется как стандартное отклонение результатов испытуемого от его истинного балла, полученное при выполнении им большого числа параллельных форм теста. Для лучшего уяснения смысла показателя 5Еможно представить другую гипотетическую ситуацию, когда /-й испытуемый выполнял много раз один и тот же тест. Если предположить, что эффект запоминания отсутствует, то результаты тестирования образуют нормаль- 338
ное распределение вокруг истинного балла Г со стандартным отклонением 5Е. На практике ^рассматривается как статистическая величина, отражающая степень точности отдельных измерений, поэтому величину 8Е используют для определения границ доверительного интервала, внутри которого должен находиться истинный балл оцениваемого ученика группы. Общераспространен подход, когда доверительный интервал выстраивается как две симметричные окрестности (левая и правая) вокруг наблюдаемого показателя ученика, хотя это не совсем верно, поскольку речь должна идти об окрестностях, расположенных слева и справа от истинного балла. Тем не менее этот факт обычно игнорируется в прикладных исследованиях, и доверительный интервал при заданном риске допустить ошибку а = 0,05, т.е. в пяти случаях из ста, принимается равным (*,-1,9б^; ^ + 1,96^), где X. — наблюдаемый балл /-го испытуемого; 1,96 — константа, табличное число, используемое при /=0,05. Для рассматриваемого ранее примера матрицы тестовых результатов (см. табл. 5.3), коэффициента надежности гн=0,78 и стандартного отклонения 8Х= 2,62 (см. разд. 5.2) 8Еио формуле (5.79) получится 5^=2,6271-0,78 «1,23. Тогда доверительный интервал для истинного балла первого ученика со значением Хх = 6 будет (6 - 1,96 • 1,23; 6 + 1,96 • 1,23). Интересна геометрическая интерпретация доверительного интервала на оси наблюдаемых баллов учеников (рис. 5.39). Может быть, Истинный балл, А может быть, здесь? здесь? здесь? X,- 1,965, 7] X, I Т, Л; +1,965, Рис. 5.39. Геометрическая интерпретация доверительного интервала Следовательно, истинный балл первого ученика может находиться в любой точке этого интервала. Таким образом, стандартная ошибка измерения является стандартной погрешностью оцен- 339
ки истинных баллов на основании наблюдаемых результатов тестовых измерений. Очевидно, что с ростом 5Е границы доверительного интервала будут раздвигаться, и вместе с тем будут увеличиваться возможные пределы отклонения истинного балла от наблюдаемых результатов измерения (более правильная с точки зрения теории трактовка: пределы отклонения наблюдаемых баллов от истинной компоненты измерения). Хотелось бы думать, что после изложения материала раздела преподаватели, использующие в своей работе готовые тесты, будут с большим пониманием относиться к стремлениям разработчиков снизить ошибку измерения с помощью повышения надежности теста. Эти стремления не являются лишь изобретениями теоретиков, а вытекают логически из предположений о погрешностях измерения. Для завершения вопроса о погрешностях необходимо перейти к следующей теме, более простой, но, несмотря на это, очень полезной в сфере интерпретации результатов тестовых измерений. Предсказание истинных баллов на основе регрессионной модели Методы регрессионного анализа позволяют прогнозировать оценки истинных баллов испытуемых по распределению наблюдаемых баллов и коэффициенту надежности теста. Прогноз получается путем подставки в регрессионное уравнение, полученное Дж. Стенли [9], где Т.{ — истинный балл; X. — индивидуальный балл /-го испытуемого; X — среднее значение баллов испытуемых. Например, в матрице данных из табл. 5.27 Х3= 1, X = 5 , ги = 0,78. Тогда Тъ= 5 + 0,78(1 — 5) = 1,88 ~ 1,9, что несколько завышает исходный наблюдаемый балл Х3=1. Если в качестве примера выбрать не минимальный наблюдаемый балл 1, а максимальный у 4-го испытуемого, то после коррекции результат Т4будет несколько занижен: ТА = 5 + 0,78(9 — 5) ~ = 8,12 вместо прежних 9. Завышение или занижение наблюдаемых баллов при подсчете Т1 вызвано изменением знака разности Хг-Х в выражении (5.80). Для всех наблюдаемых баллов выше среднего разность будет полу- 340
чаться положительной, а для значений Х{<Х разность Хг-Х принимает отрицательные значения. Уравнение линейной регрессии (5.80) учитывает эти тенденции, в результате чего наблюдается отмеченный выше эффект. ИСТОЧНИКИ НЕУДОВЛЕТВОРИТЕЛЬНОЙ НАДЕЖНОСТИ ТЕСТА Вопрос о причинах неудовлетворительной надежности имеет несомненное практическое значение, так как предварительное исследование источников ненадежности позволяет по возможности устранить их влияние при конструировании теста. К числу таких источников обычно относят: 1. Субъективизм при оценке результатов выполнения заданий теста. Субъективизм оценок является непременным атрибутом оценок при включении в тест заданий со свободно конструируемыми ответами. При анализе результатов их выполнения всегда наблюдаются различия между подходами различных экспертов и между ответами одного и того же испытуемого при повторном выполнении им теста. Очевидным следствием этих различий является снижение надежности теста. Наиболее эффективный метод преодоления отмеченного недостатка — использование закрытых заданий, которые благодаря возможности объективной оценки результатов выполнения при прочих равных ведут к повышению надежности теста. 2. Угадывание. Проблема угадывания подробно обсуждалась в гл. 4 пособия, однако в несколько ином контексте использования формулы для коррекции результатов выполнения закрытых заданий теста. Однако, как показывают специальные исследования, угадывание существенно снижает надежность теста, особенно в тех случаях, когда тестируется группа слабых учеников, которые обычно прибегают к догадке при выполнении наиболее трудных заданий теста. 3. Отсутствие логической корректности формулировок заданий теста. Двусмысленность формулировок заданий обсуждалась ранее, в гл. 4. Как правило, некорректные задания пропускают сильные ученики, что в целом негативно отражается на надежности теста. 4. Неоправданный выбор весовых коэффициентов. Проблема выбора оптимальных весовых коэффициентов рассматривалась в разд. 5.4. При правильном положении вещей выбор весовых коэффициентов в процессе подсчета индивидуальных баллов обучаемых должен базироваться на соответствующей теории. Только в том случае, когда весовым коэффициентам приданы оптимальные значения, их введение не ведет к снижению надежности теста. 341
5. Длина теста. Ранее, в этом же разделе, было показано, что надежность растет по мере увеличения длины теста. Для удовлетворительной, но не хорошей надежности обычно достаточно 30 заданий теста. 6. Отсутствие стандартной инструкции к тесту. Инструкции к тесту должны быть предельно стандартизованы и точны. Любые неоднозначности, двусмысленности и отступления от требований стандартизации в инструкции ведут к снижению надежности теста. 7. Другие источники снижения надежности. Иные источники ненадежности связаны с испытуемыми, а не с заданиями теста. Испытуемый может плохо себя почувствовать во время работы над тестом либо ошибиться в инструкции и указать и вместо правильного неверный ответ. На результаты выполнения теста могут повлиять усталость и скука, температура в помещении, шум за окном и т.п. В целом все эти факторы приводят к снижению надежности теста, поэтому их влияние стараются нивелировать как в процессе создания, так и при применении теста. Валидность гомогенных тестов В трудах теоретиков-тестологов валидность трактуется как характеристика качества теста, ориентированная на оценку адекватности теста поставленной цели его создания. Другими словами, валидность — это характеристика способности теста служить поставленной цели измерения. Как правило, постановка целей создания теста носит комплексный характер, поэтому часто стараются проверить валидность с разных позиций сообразно различным направлениям использования теста. Например, нормативно-ориентированный тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как мало выделить лучших абитуриентов в момент приема, нужно также осуществить спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов. Содержательная валидность При разработке педагогических тестов, конечно, на первом плане находится содержательная валидность, которая определяется как характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям и умениям. Если 342
тест позволяет проверить все то, что задумано авторами в спецификации, он считается валидным относительно контролируемого содержания курса. Представление о содержательной валидности не следует связывать только с полнотой отображения в тесте содержания проверяемого курса. Полнота выходит на первый план при создании критериально-ориентированных тестов. В случае нормативно-ориентированного подхода дело обстоит несколько иначе. Конечно, во всех случаях справедлив общий вывод — чем глубже и полнее отображение, тем выше уверенность в содержательной валидности теста. Однако при нормативно-ориентированном подходе есть свои особенности. Тест валиден по содержанию, если он обеспечивает высокую дифференциацию результатов испытуемых и в нем отображено все то главное, без чего нельзя говорить о знании курса. При этом отдельные содержательные разделы могут быть представлены фрагментарно, а другие и вовсе отсутствовать в тесте. Для повышения содержательной валидности в тест лучше включать задания, содержание которых не связано каким-либо заметным образом, и потому эти задания при проверке не могут замещаться. При прочих равных эта тенденция приведет к повышению полноты охвата содержания и, следовательно, к росту содержательной валидности теста. Таким образом, если речь идет о валидности, то конструктор заинтересован в выборе заданий с малыми коэффициентами интеркорреляции. К противоположному выводу легко прийти, если стараться повысить надежность теста. Именно отбор заданий с большими коэффициентами интеркорреляции можно обеспечить высокую однородность содержания и отличную надежность теста. Это противоречие, отмеченное впервые Ф.Лордом [50], дает основание для возникновения серьезных проблем при конструировании теста. Здесь легче привести примеры, иллюстрирующие проблемы разработчиков тестов, и дать советы общего характера, чем найти разумное компромиссное решение в практической работе по созданию теста. В частности, легко представить ситуацию конструирования итогового теста по алгебре. Если включить в него только задания на решение уравнений одного вида, то можно достичь высокой надежности, близкой к 0,90. Однако, и это понятно без всяких объяснений любому читателю, маловероятно, чтобы этот итоговый тест обладал приемлемой содержательной валидностью. Таким образом, при конструировании гомогенного теста следует стремиться к повышению его надежности в разумных пределах, так чтобы не снизить существенным образом содержательную валидность теста. Поэтому при отборе заданий в тест необходимо 343
иметь четкое представление об их содержании и о множестве других факторов, а не просто отдавать предпочтение тем, которые высоко коррелируют друг с другом и обеспечивают хорошую надежность теста. Правда, по рассматриваемой выше проблеме есть другая точка зрения, принадлежащая Гилфорду [44] и Ньюнелли [II]. Они полагают, что внутренняя согласованность теста является непременным условием его высокой содержательной валидности, и потому высокая надежность является предпосылкой оптимальной валидности теста. К точке зрения Ф. Лорда присоединяются Кэттелл и Клайн [11]. По их мнению, максимум валидности может быть получен тогда, когда все задания слабо, но положительно коррелируют друг с другом, но каждое из них имеет высокую корреляцию с критерием по тесту. Поэтому повышению валидности способствует включение заданий, для которых характерны большие коэффициенты бисе- риальной корреляции с суммой баллов по тесту. Помимо этого, повышению содержательной валидности обычно способствует независимая экспертиза, рекомендации по проведению которой представлены в гл. 3. Опенка валидности теста Для оценки валидности теста обычно используют корреляцию между показателями теста и некоторым внешним критерием. Основная трудность при такой валидизации носит не практический, а методологический характер, поскольку она состоит в выборе значимого внешнего критерия. Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний учеников без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек. Если мера согласованности достаточно высока [5], то для оценки валидности используется формула /=1 = , (5.79) г* = ■тх где Х}-Х —отклонение тестового балла/-го ученика от среднего балла по тесту; Хт. -Хэ -отклонение балла/-го ученика у экспер- 344
тов от Хэ — среднего арифметического экспертных оценок; 51 — дисперсия баллов учеников по тесту; 8^ — дисперсия баллов экспертов; т — число экспертов. Бывают случаи, когда педагог заинтересован в оценке прогностической валидности, указывающей меру вероятности прогноза успешности дальнейшего обучения по результатам выполнения теста. Высокой прогностической валидностью должны обладать тесты для приема абитуриентов в вузы. В этом случае результаты по тесту коррелируют с результатами поступивших абитуриентов, после окончания первого года обучения в вузе. Высокая корреляция означает, что разработанные тесты прогностичны для отбора абитуриентов в вуз. ИСТОЧНИКИ ПОВЫШЕНИЯ ВАЛИДНОСТИ ТЕСТА 1. Подбор оптимальной трудности заданий для обеспечения нормального закона распределения баллов по тесту. 2. Экспертиза качества содержания теста. 3. Расчет оптимального времени выполнения теста. 4. Подбор валидных заданий с высокой дискриминативностью. Выводы 1. Полная стандартизация процедуры предъявления теста способствует повышению точности и созданию качественных тестов. 2. Наибольшую трудность в процессе создания теста представляет не обработка данных, а интерпретация результатов обработки. Последнее требует от авторов тестов определенных навыков по анализу результатов и выработки решений для повышения качества тестов. 3. Современная теория тестов по сравнению с традиционной обладает существенными преимуществами, позволяющими значительно повысить точность измерений и качество педагогических тестов. 4. В отличие от традиционных средств контроля тесты проходят процесс научного обоснования качества, предполагающий оценку соответствия характеристик тестов двум важнейшим критериям: надежности и валидности. 345
Приложение 5.1. Инструкция Т1М55 Пример инструкции, используемой сотрудниками Центра оценки качества образования Института общего среднего образования в рамках проводимых ими международных исследований. 1. Введение 1.1. Информация об исследовании Третье международное исследование по оценке качества математического и естественнонаучного образования — Т1М88 (ТЫпЗ 1п1егпапопа1 Ма(Нета1Ю8 апс! 8с1епсе $Шс1у) — самый широкомасштабный проект XX в. в области образования по исследуемой проблематике и числу участвовавших в нем стран. Основная цель проекта — сравнить математическую и естественнонаучную подготовку школьников в различных странах мира и выявить факторы, влияющие на результаты обучения. Данный проект осуществляется в 45 странах. Исследование организовано Международной ассоциацией по оценке учебных достижений 1ЕА (1п1егпа1юпа1 АззоааНоп Гог гпе Еуа1иа1юп оГ Ес1исаиопа1 Асшеуетеп1&). В России данное исследование проводится Центром оценки качества образования ИОСО РАО. Первый этап исследования проводился в 1995 г. Для выявления тенденций изменения качества математического и естественнонаучного образования стран-участниц в 1999 г. в этих странах проводился второй этап тестирования. Для этого были созданы валидные и надежные тесты на основе экспериментально проверенных заданий, разработанных специалистами различных стран, участвовавших в исследовании. Целью тестирования, проводимого в данной школе, и является экспериментальная проверка международного банка заданий. В тестировании принимают участие учащиеся 8 классов. Приведены рекомендации проводящему тестирование, которым нужно следовать в работе. Наиболее важные рекомендации отмечены в тексте значком «^». Текст, который рекомендуется прочитать учащимся, приводится курсивом. 1.2. Обязанности проводящего тестирование ^ Основной задачей проводящего тестирование является организация и проведение тестирования в данной школе. ^ Работу проводящего тестирование можно разделить на три этапа: • подготовка к проведению тестирования; • проведение тестирования; • сбор и отправка материалов. Что же включает каждый этап работы? При подготовке к тестированию необходимо получить все материалы для тестирования. Они включают. 346
• тесты; число тестов должно соответствовать числу учащихся в классе, в котором проводится тестирование. Обычно пакет для класса содержит еще два дополнительных экземпляра тестов на случай, если в тесте, полученном учащимся, имеются какие-либо типографские ошибки (неправильно скомплектован тест, плохо напечатана страница и др.); • список учащихся класса; • протокол проведения тестирования; • руководство по проведению тестирования. Проведение тестирования осуществляется в строгом соответствии с рекомендациями, разработанными международным координационным центром для всех стран-участниц. Стандартизация процедуры проведения тестирования позволяет создать равные условия, необходимые для сравнения результатов различных стран. Рекомендации подробно изложены в сценарии проведения тестирования. После завершения тестирования собираются все материалы: заполненные и незаполненные тесты, заполненный протокол проведения тестирования и список класса. Все эти материалы передаются в координационный центр для проверки и дальнейшей обработки. 2. Структура теста Международный тест по математике и естествознанию разработан ведущими специалистами мира в области математического и естественнонаучного образования. В его создании принимали участие также российские специалисты. Всего для экспериментальной проверки разработано пять вариантов теста, каждый из которых имеет одинаковую структуру и уровень трудности. Все пять вариантов теста состоят из двух частей. В первой и во второй частях теста имеются задания по математике и естествознанию. Большая часть заданий теста с выбором ответа, один из которых правильный. Остальная часть заданий со свободными ответами, при выполнении которых учащиеся должны сами написать свой ответ в специально отведенном для этого месте. 3. Особенности проведения тестирования 3.1. Распределение времени на выполнение теста На тестирование отводится около 2 ч. Далее приведено распределение времени на отдельные виды работ: Организационная часть (раздача тестов, 5 чтение инструкции, ответы на вопросы) Выполнение первой части теста 46* Перерыв (по усмотрению администрации школы) 5—15 Организационная часть (чтение инструкции 5 ко второй части теста, ответы на вопросы) 347
Выполнение второй части теста 44* Всего на выполнение теста 90 На всю работу 105— 115 Примечание. Время, указанное в таблице, рекомендовано международным координационным центром на основе практики проведения тестирования в различных странах мира. В связи с тем что российские школьники имеют небольшой опыт работы с тестами, время на проведение экспериментального тестирования по необходимости может быть увеличено (см. Сценарий проведения тестирования). 3.2. Подготовка списка учащихся класса Список учащихся класса является основным документом, на основании которого идентифицируются учащиеся, класс и школа при проведении тестирования Информацию о типе класса (общеобразовательный или с углубленным изучением отдельных предметов), атакже об уровне подготовки большинства учащихся класса следует получить у классного руководителя, завуча или директора школы. <*" Список учащихся класса повторяет список из классного журнала. В него заносятся даже те учащиеся, которые по каким-либо причинам не участвуют в тестировании. Вся информация об учащихся вносится на основе классного журнала. Данные о рождении учащихся и их пол вносятся в список учащихся из классного журнала. Участие в тестировании отмечается буквой «С», отсутствие — буквой «А». При отсутствии ученика на тестировании (или одной из его частей) указывается причина отсутствия. 3.3. Правила проведения тестирования Для обеспечения стандартизации процедуры тестирования следует соблюдать следующие правила: ■*" 1. Тестирование должно проводиться строго по сценарию. ^ 2. Не следует позволять учащимся разговаривать во время выполнения тестов. ^ 3. Нельзя отвечать на вопросы учащихся, а также сообщать им дополнительную специальную информацию после того, как они приступили к выполнению теста. 4. Сценарий проведения тестирования 4.1. Организационная часть. Подготовка учащихся к тестированию ^ Перед началом тестирования учащимся следует сказать несколько слов об исследовании, а также о том, как нужно себя вести во время тестирования. 348
4.1.1. Вводная информация для учащихся Прочитайте учащимся, как нужно работать над тестом: Ребята! Сегодня вы будете принимать участие в международном тестировании. Вам будет предложен тест по математике и естествознанию. Этот тест в настоящее время проводится в 33 странах мира. Тест состоит из двух частей. На работу отводятся два урока с перерывом (около 2 ч). Отметки вам ставить не будут, и ваши работы в школе никому не будут показаны. Возможно, некоторые задания вам покажутся легкими, а другие слишком трудными. Постарайтесь выполнить тест как можно лучше. Если вы не знаете ответа на задание, не тратьте на него время. Лучше его пропустить и вернуться к нему, если останется время. Есть ли у вас вопросы ? Кратко ответьте на вопросы. 4.1.2. Раздача тестов Прочитайте следующее: Сейчас я раздам вам тесты. Не открывайте их до моего разрешения. Для работы вам нужна будет только ручка. Уберите со стола все, кроме ручки. Убедитесь, что все учащиеся получили тесты. Все получили тесты? Подпишите, пожалуйста, свои работы. 4.1.3. Знакомство с инструкцией по выполнению теста В ваших тетрадях дана инструкция о том, как следует выполнять задания. Давайте вместе прочитаем ее. Прочитайте инструкцию из тетради учащихся и ответьте на вопросы по выполнению теста. 4.2. Выполнение теста 4.2.1. Выполнение первой части теста А теперь откройте тест и приступайте к работе. На выполнение первой части теста дается 46 мин. Отметьте время в протоколе проведения тестирования. Помните, что помогать учащимся нельзя. Во время работы пройдитесь по классу и убедитесь, что все учащиеся при выполнении заданий придерживаются инструкции. Заполните по журналу список учащихся, внесите в документ всю необходимую информацию, включая не участвующих в тестировании учащихся и причины их отсутствия. Недостающую информацию получите у классного руководителя или завуча во время перерыва. Через 36 мин.: У вас осталось 10 мин. Просмотрите задания, которые вы еще не выполнили. Может быть, вы сможете выполнить некоторые их них в оставшееся время. Через 10 мин.: 349
Время, отведенное на выполнение заданий первой части теста, закончилось. Остановитесь. Кто не закончил работу, обведите кружком номер задания, над которым вы сейчас работаете. Поднимите руки те, кторабо\ ту не закончил. Если более 25% учащихся работу не закончили, дайте им дополнительное время (5—10 мин.) для того, чтобы большинство учащихся (75—80%) закончили работу над заданиями первой части теста. Остальным можно разрешить закончить работу во время перерыва. Для завершения первой части теста вам дается еще 5 (10) минут. Когда вы закончите работу, закройте тетради и положите ручки. Через 5 (10) мин.: Время, отведенное на выполнение первой части теста, закончилось. Закройте тетради и идите на перерыв. Сообщите учащимся длительность перерыва. Внесите всю недостающую информацию об учащихся и классе в список учащихся. 4.2.2. Выполнение второй части теста Убедитесь, что все вернулись в класс после перерыва. Начинаем работу над второй частью тестов. Откройте свои тетради. Сейчас мы повторим, как выполнять задания второй части. Прочитайте инструкцию и ответьте на вопросы учащихся. Приступайте к работе. На выполнение второй части работы дается 44 минуты. Отметьте время в протоколе проведения тестирования. Помните, что помогать учащимся нельзя. Во время работы пройдитесь по классу и убедитесь, что все учащиеся при выполнении заданий придерживаются инструкции. Через 34 мин.: У вас осталось 10 мин. Просмотрите задания, которые вы еще не выполнили. Может быть, вы сможете выполнить некоторые их них в оставшееся время. Через 10 мин.: Время, отведенное на выполнение второй части теста, закончилось. Остановитесь. Все закончили работу? Поднимите руки те, кто работу не закончил. Если более 25% учащихся работу не закончили, попросите учащихся отметить последнее задание, над которым они работали, и дайте дополнительное время (5— 10 мин.) для того, чтобы большинство учащихся (75— 80%) закончили работу. Остальным можно разрешить закончить работу, дав им еще дополнительное время. Для завершения теста вам дается еще 5(10) мин. Через 5 (10) мин.: Время, отведенное на выполнение работы, закончилось. Сдайте тесты. Большое спасибо за то, что вы приняли участие в этой работе. 350
Отпустите учащихся. Разложите тесты в соответствии со списком учащихся. Проверьте, полностью ли заполнен список учащихся и протокол проведения тестирования. 4.3. Сбор и отправка материалов После окончания тестирования формируется пакет для отправки в координационный центр для проверки и дальнейшей обработки. В пакет должны войти следующие материалы: 1) заполненные и незаполненные тесты; 2) заполненный список учащихся класса; 3) заполненный и подписанный проводящим протокол проведения тестирования. Большое спасибо за вашу работу!
Приложение 5.2. Инструкция аля самооценки знаний с помошью теста по... Пример инструкции, взятой из рекомендаций по самостоятельному выполнению тестов СЯЕ (Сгаёиа1е Кесогс! Ехагшпаиоп). На месте слов, указывающих на дисциплину, по которой разработан тест, в инструкции поставлены точки. 1. Вводная часть В предложенной брошюре содержится... тест, впервые появившийся в... г. Все задания теста прошли эмпирическую проверку. Эти задания публикуются для того, чтобы подготовиться к выполнению теста в условиях экзамена и выявить свои потенциальные возможности, работая дома с материалами, подобными экзаменационным тестам. Брошюра включает информацию об основаниях для разработки и детальное описание спецификации содержания с перечислением разделов содержания, отраженных в тесте. Для ответов используется карандаш средней мягкости. Время выполнения... ч.... мин. в рабочей обстановке. Необходимо сосредоточиться и сконцентрировать внимание на тесте, нельзя использовать книги, словари, калькулятор... После завершения теста в брошюре посмотрите на стр..., где приводятся оценки испытуемых, выполнявших тест в... г. и эталоны правильных ответов. Вы можете оценить свои возможности, сравнив их с результатами нормативной выборки. Оцените свои возможности самостоятельно, это поможет вам хорошо справиться с тестом на экзамене. 2. Пели разработки теста по... Тест предназначен для поступления в... Он признан специальным комитетом и содружеством спонсоров. В разработке теста принимали участие специалисты высокой квалификации. Тест обеспечивает испытуемым реальные представления об уровне собственной подготовки. Тестовые оценки по различным дисциплинам позволяют испытуемым оценить свои достижения и выбрать предметы, по которым они готовы продолжать образование. Это связано с тем, что тестовые оценки достижений по отдельным предметам часто бывают хорошим индикатором будущих успехов, т. е. эти оценки полезны для предсказания успешности обучения в том или ином вузе. Конечно, этих оценок недостаточно, чтобы достоверно предсказать успешность обучения. Многочисленные фак торы влияют на результаты обучения в высшей школе. Поэтому тестовые оценки рекомендуется рассматривать в совокупности с другой информацией об испытуемом. Такую информацию могут предоставить собеседование, рекомендательные письма, другие результаты тестирования. 352
3. Развитие предметного теста по... В каждом новом издании... тест совершенствовался специальной группой экзаменаторов, куда входят преподаватели-специалисты по... из различных высших и средних учебных заведений. Спецификация каждого нового издания определена. Она периодически меняется специалистами по предмету совместно со специалистами по тестовой технологии. Все задания рассматриваются как важные и необходимые, они охватывают различные аспекты предмета и дают возможность отразить самые разнообразные элементы содержания, от самых простых до самых сложных. Специальные измерения, доказывающие параллельность отдельных вариантов и сопоставимость результатов по различным изданиям теста, выполняются специалистами, которые ассистируют группе экзаменаторов, обеспечивая информацию о методах конструирования теста, и помогают разработать задания теста. В тест не было возможности включить задания, охватывающие весь материал, который изучали экзаменуемые, поэтому в заданиях отражены наиболее важные вопросы программы. Содержание теста систематически обновляется. Когда выпускают новое издание теста, то с помощью специальных статистических методов принимается решение о том, связаны ли оценки по новому изданию с оценками по предыдущему изданию и можно ли их сопоставлять. Хотя отдельные издания не содержат одних и тех же заданий, но все издания... теста подготовлены на основе эквивалентных спецификаций содержания и попарно равных уровней трудности заданий. Когда новое издание теста предъявляется впервые экзаменуемым, ответы к каждому заданию анализируются, для того чтобы оценить параметры заданий и соответствие требованиям формы заданий теста. Этот анализ иногда устанавливает двусмысленность или некорректность формулировок. Такие задания не принимаются во внимание при оценивании экзаменующихся. 4. Содержание... теста Тест обычно содержит... заданий с пятью выборочными ответами, часть из которых может быть объединена в группы, если они основаны на общих данных. Задания по содержанию ориентированы на требования образовательных стандартов. Приблизительно...% заданий включают... и их применение, что, по мнению разработчиков, является основой при проверке усвоения большей части содержания предмета. Приблизительно...% заданий посвящено... Оставшаяся часть состоит из заданий на... 5. Стратегия применения теста Если вы собрались выполнить тест и добиться при этом успеха, то нужно успеть попробовать выполнить почти все или хотя бы большую часть 12 Мельников;) М.Б. 353
заданий теста. Так как тест закрывает очень большую содержательную область, то вы можете быть не знакомы с частью заданий. Когда вы получили тест, внимательно прочтите руководство к выполнению и работайте так быстро, как только можете, не отвлекаясь. Не тратьте слишком много времени на задание, которое вы считаете слишком трудным или незнакомым, поскольку при подсчете результатов ни одно задание не имеет больше веса, чем другое. Окончив тест и посчитав число правильно выполненных заданий, вы получите свою сырую оценку, не содержащую никакого вклада за неправильно выполненные или пропущенные задания. Затем эту оценку следует скорректировать, внеся поправку на возможное угадывание правильных ответов к заданиям теста. Для этого из количества правильных ответов вычитается одна четвертая количества неправильных ответов к заданиям теста. В результате этой процедуры возможное угадывание правильных ответов не будет увеличивать вашу оценку. Однако если вы знаете, что отвечали на все задания, руководствуясь исключительно знаниями, то оценку можно не корректировать. Затем каждая сырая оценка преобразуется в шкалированную оценку для сопоставления ваших результатов с результатами репрезентативной выборки испытуемых. 6. Как оцениваются результаты Полученные результаты можно оценить с помощью табл. 1, которая содержит два вида информации: ключ к ответам и процент экзаменующихся, ответивших правил ь- Таблица /. Оценка результатов тестирования но на каждое задание (только для теста...). Число правильных ответов П =... Число неправильных ответов Н =... Общая оценка П—Н/4=... Оценка Р+ получена для группы экзаменующихся, которые выполняли... тест на протяжении... лет. В столбце Р+ содержится процент экзаменующихся, правильно выполнивших задания теста. Результаты собраны за три года и отражают трудность заданий теста. Вы можете использовать эти данные для того, чтобы выявить свои возможности. Задание № 1 2 3 4 5 6 ... 61 62 63 64 65 66 Ответ В С В А А С ... С В Б С А В Р+,% 92 72 94 89 89 83 • • • 37 33 40 39 48 57 Оценка П • • • Н • • • 354
Например, задание № 1 очень легкое, так как его выпол нили правильно 92% репрезентативной выборки учеников. Если вы с ним не справились, то это плохо характеризует подго товку, хотя может быть случайностью в результате ошибки по невнимательности или описки. Второй вид информации содержится в колонке ответов, где приводится ключ к оценке ответа на каждое задание теста. Если вы правильно выполнили задание и ваш выбор совпал с эталоном, то ставится единица в колонку «П». В случае неправильного ответа единица ставится в колонку «Н». На месте пропущенных заданий ставится прочерк, так как они не участвуют в оценке. Сложите все единицы в каждом из столбцов, а затем из количества правильных ответов (столбец «П») вычтите количество неправильных ответов (столбец «Н»), разделив его предварительно на 4. Округлите полученное число до ближайшего целого и используйте полученный результат для нахождения шкалированной оценки ваших знаний по табл. 2. 7. Оценка вашего результата После того как вы оценили свои результаты, вы можете сравнить их с результатами тех, кто выполнял этот тест ранее. Представительная (репрезентативная) выборка экзаменующихся выполняла этот тест в период с... г. по... г. С помощью сравнения своих результатов с результатами выборки можно оценить свои силы и выявить пробелы в знаниях. Это поможет вам спланировать программу подготовки к выполнению теста по... в условиях экзамена. Например, в колонке процентных рангов против шкалированной оценки 880 стоит число 81. Это означает, что 81% выборки экзаменующихся получили худший результат, чем 880 баллов, что позволяет интерпретировать ваш результат как довольно высокий. Таблица 2. Шкалированные оценки и процентные ранги репрезентативной выборки экзаменующихся (только для данного теста) Сырая оценка 60-66 59 58 57 56 55 ... 49 ... 5 4 3 2 1 0 Шкалированная оценка 990 980 970 960 950 940 ■ • • 880 ... 460 450 440 430 420 410 Процентный ранг, % 95 94 93 92 91 90 • •« 81 а • » 5 4 3 3 2 2 12* 355
Важно представлять, что условия, в которых вы проходили тестирование самостоятельно, не будут в точности такими же, как на экзамене. Следовательно, трудно предсказать, как будут отличаться ваши результаты при тестировании на экзамене и как повлияют эти новые условия на ваши результаты. Поэтому, занимаясь самооценкой, вы должны принять во внимание возможную разницу баллов. Однако, несомненно, что она будет невелика и, добившись успеха дома, вы выполните успешно тест на экзамене и поступите в...
Приложение 5.3. Формулы лля вычисления дисперсии %(Х{-Х)2 ^(Х}-2ХХ,+Х2) ^Х2-2Х^Х^Х2 51 =& N-1 /=1 /=1 /=1 /=1 N-1 N-1 N Так как ^иХ1 = NX , то последнее выражение /=1 N N N N 2 -л уГ V . V 172 V ^2 -2 . А/V2 V V2 л/^2 /=1 1=1 /=1 _ /=1 _ /=1 УУ-1 N-1 N-1 Так как А" = Ж\ +А2+... + -ЛДГ ^ УУ (N \ #2 , то Л/ _ ТУ /=1 /=1 УУ2 Л' X*/ _/=1 //-1 УУ-1 УУ-1 Тогда 5; N ХД2 ( N \ X*/ Ш I N N (N \ ^х2- ^х> N-1 или 5: = 2 /=1 /=1 N(N-1)
Приложение 5.4. Расчетная формула аля вычисления коэффициента корреляции Пирсона N ы 7У-1 N (ТУ-1)1 Х(*/-^2Х(^-п2 1=1 /=1 УУ-1 N-1 N Х(*,-вд-п /=1 Л/_1 ^ - N - N _ N _# А/ Хад-*Х1/-гХ*»-+Х*1' Ы /=1 1=1 /=1 / N _N N _ \ Х*,2-2*х*/+Х*2 Ы /=1 /=1 ( N ^ _N N _,Л Х/,2-2ГУ/,+Х/2 / ^ V N ХОД - мхг - му+шу /=1 /=1 /=1 /=1 у V /=1 А/=| ^ N N х^да »=1 уу ^ ХА-/-УА-,. /лг т?- у/, 2 / Л /=| Тогда ^/=1 у /=1 ^=1 , 'м у Л/ ( N Л { N \ "1х,г,- У^х,, у/, /=1 ^ Р ^'=* ^ ^ '-' / V N ( N \ "1*1- 1х, /=1 ^=1 , 2 V N ( N \ *Х*/2- Х^- Л /=1 2> уЫ , / 358
Приложение 5.5. Переход от тху к (^коэффициенту Согласно полученному результату в приложении 5.3 коэффициент корреляции между двумя наборами данных Хи Кимеет вид N ( N V N \ /=1 /=1 ху А »=1 / N г# л /V ^ л л *Х*/-Х*/ ИХ^/-Х*5 V, /-1 V-1 у I Л' уу /=1 /=1 1^1 У 2>> / ( 1 Л' V N1 г=\ 1 /V а {72 Л Х*/-*' КгХ*?-*' / N г=\ Если X и У изменяются дихотомически, т. е. принимают значения ■ 1 или 0, то X = рх — доля правильных ответов на задание X, У - ру — доля правильных ответов на задание У. Произведение Х.У. принимает значение 1 только для случая, когда оба множителя равны 1, и обращается в нуль во всех остальных случаях. Таким образом, Х.У. равно числу испытуемых, выполнивших правильно оба заданиями У, а Рху=-тт^^1 —доля испытуемых, получивших 1 по обоим заданиям теста; тгХ^/ ~Рх , так как \2= 1 и 02 = 0, а "ТгХ^' ~Ру по тем же причинам. Обычно для нумерации заданий используются другие символы, поэтому в дальнейшем выводе произведена замена А'нау, Кна /. Тогда выражение для г можно переписать как формулу для ф7 в виде Фу/ РЛ ~ Р]Р1 Р}1 ~ Р}Р\ ^РгР^-р}) у1рА1-Р№И-Р1) , тогда фу/ Р»-Р}Р\ где я}г = 1 - р}и д( = 1 - р{ - доли неправильных ответов на оба задания теста. 359
Приложение 5.6. Составление системы уравнении для вычисления оценки наибольшего правдоподобия параметров испытуемых Функция правдоподобия для первого испытуемого (для матрицы из табл. 5.3) так как профиль ответов первого испытуемого имеет вид 1 1 1 1 1 1000 0. Соответствующая ей логарифмическая функция правдоподобия \п1л=\пР1+\пР2+]пР3+]пР4 + \пР5 + 1пР6 + 1п07 + 1п08 + 1п()9 + 1п(?| 10- Подставим в уравнения значения р (модель Г. Раша), полученные в табл. 5.18. Для краткости записи значения р,(/= 1> 2,..., 10) берутся с двумя знаками после запятой. Тогда 111/^ =1п е1.7<в, -Р1) + 1п е1,7(в1-р2> + 1п >1.7<в1-Рз) + 1п Л7(в,-р4) |+е^(в1-Р ) ]+е1,7(в,-р2) " |+е1,7(в1-Р3) | + е1.7(в1-Р4) е1.7(в1-Р5) е1.7(в1-рб) +1п . ■,,„ п . + 1п , „,„ „ , +1п 1 + 1п 1 + 1п 1+е1.7(в1-р5) 1+е1,7(в,-р6) "1+е1,7(в,-Р7) " | +е1,7Св8-р8) 1 ||п 1 1+е1,7(е1-р9)"ЬШ1+е1,7(в,-р,0)- После логарифмирования 1п^ = 1,7(в|-р1)+1,7(в1-р2) + 1,7(в1-р3) + 1,7(е1-р4)+1,7(9, -р5)+ 4-1,7(6, -р^-ПпО + е1'7*6'-^)*^ 1п!1 = 1^-6в1-1Л(р1+... + рб)-[1п(1 + е,»7(в|-Р|)) + ...+ 1п(1 + е1'^ После дифференцирования по 0, получится уравнение ВЦ эе, = 1,7-6- 1>7е1,7(в,-р,) 1,7е1'7(е,-Р1о) 1+е1.7(в1-р1)+-+|+е117(в,-Рю) Приравняем производную к нулю и сократим на 1,7: 360
6- | 7е1,7<в1-Р1> 157е1,7(е1-р,0) 1ч.е1да,-р,)ч"-ч"1ч.е1,7(е,-р,0) -0. Первое уравнение правдоподобия е1,7<е1-р1) е1,7(е,-р,0) + ... + г^тг—й—г = 6. \+е1т-Р0 1 + е1.7(в1-р10) Отметим, что правая часть равна количеству верных ответов первого испытуемого (Х{ = 6). После подстановки значений р (табл. 5.18) система уравнений для 10 испытуемых имеет вид е1,7(9,+3,58) е1,7(в1 +2,24) 1 + е1,7(в,+3,58) + 1+е1,7(в1+2,24) е1,7(в2+3,58) е1,7<92+2,24) е1,7(9,-3,66) + *"+1 + е|'7(е1_3'66) е1,7(62-3,66) +...+ |+е1,7(в2+3,58) |+е1,7(в2+2124) \ +е1,7(в2-3,66) = 2, е1,7(е,0+3,58) е1,7(9,0+2,24) е + гчтт: =гттг + ...4 1,7(6,0-3,66) 1 + е1 7(в,о+3,58) 1 + е1,7(в10+2,24) *" 1 + е1,7(вю-3,6б) 361
Приложение 5.7. Информационная функция задания аля однопараметрической моаели Г. Раша Для однопараметрической модели Г. Раша />,(6)= С 1+е1'7(в-р;> ; / > (ие1'7^»)2 21,7(в-р;) 1,7<6-Ру) 2-1,7(в-Ру) 1,7<в-ру> = 1,7- ,„. « ; = 1.7 (1 + е1,7(в-Ру))2 ' (1 + е'Лв-Р,))2 е1.7(в-ру) , = ^^шчз,) 1+е1,7(в-Р>) = 1,7^.(6)0,(6); [/?(е)? =^(ехг/е)1» л Л(еше) я.(в)<2,(в) '1 ;ЦЛ
61 СОТРУДНИЧЕСТВО ПРЕПОДАВАТЕЛЕЙ I И УЧЕНИКОВ В ПРОЦЕССЕ КОНТРОЛЯ 6.1. Основные положения педагогического сотрудничества С начала 90-х годов в качестве перспективного направления в теории и практике обучения начинает утверждаться новый стиль педагогического мышления, для которого характерна общая устремленность педагогической мысли на вопросы сотрудничества обучающего и обучаемого. Появление этого направления обусловлено не данью моде, а вполне объективными обстоятельствами. Традиционные методы педагогики в определенной степени исчерпали свои возможности, а между тем качество обучения неуклонно продолжает снижаться. В этой связи приходится искать новые возможности повышения эффективности учебного процесса Одним из направлений поиска стало исследование вопросов сотрудничества преподавателя и учеников в процессе обучения Представление о новизне этого направления, утверждаемое в большинстве публикаций по данному вопросу, вообще говоря, спорно. Идея повышения качества обучения путем установления сотрудничества между преподавателем и учениками возникла довольно давно, однако она всегда имела своих сторонников и противников. На протяжении всей истории развития практики обучения к идеям сотрудничества неоднократно обращались лучшие педагоги. Подвергая острой критике авторитарность в воспитании и принуждение к обучению, представители этих взглядов искали и ищут по сей день новые меры воздействия на ребенка. Постепенно все эти идеи стали оформляться в своеобразное направление педагогической мысли, получившее позже название педагогического сотрудничества. К отдельным, ставшим классическими, положениям этого направления можно отнести помощь обучаемому, гуманное отношение к нему, отсутствие принуждения к учению, совместную деятельность педагога и ученика в процессе обучения. Иногда в качестве решающего фактора для реализации идей сотрудничества выделяют создание специальной устойчивой психологической ситуации за счет четких установок преподавателя на сотрудничество с учеником. Правда, педагогический опыт свидетельствует о том, 363
что одних психологических средств явно недостаточно. Кроме того, не все преподаватели готовы по-новому построить отношения со школьниками в процессе обучения, отойти от сложившегося привычного стиля работы. Нередко у преподавателей для этого просто нет ни сил, ни времени, ни желания. При теоретических исследованиях проблемы сотрудничества зачастую гораздо легче объяснить, что такое авторитарность, чем адекватно скрепить теорию с практикой. Дело в том, что неприемлемость многих положений гипертрофированного авторитарного подхода в традиционной педагогической науке стала довольно очевидной в наши дни, в то время как теоретический уровень исследований идей и принципов сотрудничества в обучении явно недостаточен. Разработка точного научного понятия со строго фиксированным смыслом и значением, которое замещало бы имеющиеся нестрогие представления о сотрудничестве обучающего и обучающегося, продолжается. Для того чтобы его создать, необходимы систематические, объединенные общностью замысла исследования и в теории, и в практике [29]. На сегодняшний день фундаментальным понятием, определяющим сотрудничество, является гуманистическая идея помощи обучаемому. Суть вопроса, разумеется, не в слове «помощь», а в принципиальном отличии трактовки этого понятия при авторитарном подходе и в условиях педагогического сотрудничества. В первом случае помощь сводится к принуждению, подавлению и искусственной приостановке или ускорению развития личности ученика. Уровень усвоения знаний, их объем и содержание односторонне устанавливаются педагогом. Роль преподавателя сводится в основном к подавлению нежелательных в обучении тенденций. Его усилия, стремления направлены на достижение обучаемым некоторых известных стандартов усвоения знаний, установленных программой. Как результат необходимости подчинения требованиям педагога у одних обучаемых постепенно формируется безынициативность, у других в качестве естественной реакции на неприемлемость, искусственность авторитарного учебного процесса проявляются непослушание, иногда пренебрежение к качеству полученных знании, абсолютизация роли отметки, чувство неприязни к педагогу. Отход от позиций авторитарности в обучении становится возможным в том случае, когда преподаватель стимулирует творческое саморазвитие личности. По-видимому, именно этот тезис лежит в основе наиболее приемлемого понимания характера и цели помощи обучаемому. Применение на практике этого тезиса наполняет конкретным смыслом главную функцию преподавателя, которой в условиях со- 364
трудничества становится помощь обучаемому в процессе осознания им своих индивидуальных задатков, склонностей и способностей, в процессе превращения социально значимых целей обучения в личностно значимые. Реализация функции выдвигает новые требования к личностным характеристикам преподавателя, к задачам, стоящим перед ним в учебном процессе. К числу основных задач преподавателя в условиях сотрудничества можно отнести анализ и осмысление новых социальных явлений, организацию отношений с обучаемыми на основе взаимопонимания, выбор коммуникативных средств общения, адекватных индивидуальным особенностям личности обучаемого, помощь обучаемому в осознании социально значимых целей его учебной деятельности. Конечно, главную трудность здесь представляет не формулировка задач, а их реализация, поскольку все эти красивые и вполне правильные слова так и остаются словами до тех пор, пока не найдены средства их осуществления. Особенно трудно реализовать идеи сотрудничества в процессе педагогического контроля, так как необъективные, а иногда и объективные результаты контроля зачастую являются первопричиной конфронтации педагогов и школьников в учебном процессе. Такая конфронтация вполне объяснима, так как с точки зрения естественной логики педагогический контроль и педагогическое сотрудничество — трудно сочетающиеся процессы. Годами складывался стереотип мышления — оценочная деятельность была целиком функцией преподавателя, отметки обучаемых являлись выражением воли преподавателя, его субъективного мнения об уровне знаний учеников. Зависимое положение обучаемого от педагога обычно расценивалось как положительное явление. Более того, именно в повышении этой зависимости, требовательности традиционная педагогика искала пути и средства для повышения качества обучения. Обычно эти попытки связывались с усилением авторитарного подхода, ужесточением контроля и тем самым усилением принуждения к обучению [22]. Педагогический контроль и педагогическое сотрудничество Ужесточение контроля учебной деятельности способствует в определенной мере ее активизации, но лишь для тех школьников, которые хотят учиться. Если стойкого желания учиться нет, то меры принуждения вызывают, как правило, снижение мотивации учебной деятельности. В условиях постоянного принуждения обучаемый чувствует себя не свободно действующей личностью, а объектом педагоги- 365
ческого воздействия. И естественно, что он скорее стремится выйти из поля педагогического воздействия, чем сотрудничать с педагогом в решении учебных задач, поскольку любое принуждение рождает противодействие, а сотрудничество немыслимо без доверия и взаимопонимания. Таким образом, в рамках авторитарного подхода создаются условия, в которых контроль и сотрудничество нередко противостоят друг другу. Отчасти причины противостояния обусловлены недостатками традиционных средств и методов контроля. Субъективизм, отсутствие сопоставимости оценок, используемых в традиционном контроле, сплошь и рядом приводят к расхождению представлений педагога и обучаемого об оцениваемом объекте. Расхождение в случае неудовлетворительных оценок, как правило, сопровождается конфронтацией, которая изначально снимает возможность сотрудничества преподавателя и учащихся в процессе контроля. Правда, результаты обучаемых, полученные с помощью традиционных средств контроля, могут быть улучшены. При известных условиях субъективные оценки закладывают основу процесса формирования пусть не объективных, но хотя бы объективированных оценок. Например, такая возможность появляется при проведении экзаменов специальными экзаменационными комиссиями, состоящими из достаточно большого числа независимых экспертов. Однако этот путь довольно трудный и малоэффективный, к тому же он не всегда дает хорошие результаты. Часто приходится сталкиваться с тем, что мнения экспертов далеки от независимости, поскольку решающую роль играет мнение одного ведущего эксперта. Наиболее эффективный путь повышения объективности контроля — использование стандартизованных тестов, инструментальных средств и ПЭВМ [ 18]. После определенного периода разработки тестов и программно-инструментальных средств такой контроль может проводиться в каждой школе, если там есть компьютерные классы. Особый интерес к программно-инструментальным и тестовым сред ствам контроля должны проявлять органы управления образованием в связи с предстоящей задачей аттестации школ. Немаловажное значение имеет массовая подготовка преподавателей школ по вопросам разработки и применения педагогических тестов. Без нее внедрение современных тестовых средств объективной оценки знаний учащих ся так и останется делом не сегодняшнего, а завтрашнего дня. Что касается настоящего момента, то сейчас реакция преподавателей на сложившуюся ситуацию в сфере контроля не всегда адекватна задачам и направлениям его совершенствования. Некоторые прилагают все усилия, чтобы сохранить традиционную, годами 366
складывающуюся систему контроля: подправить, улучшить ее, иногда даже сделать вид, будто нет никаких проблем. Зачастую это проявляется в неприятии новых форм и методов контроля, например в отрицании необходимости внедрения в учебный процесс педагогических тестов. Однако сама практика обучения вынуждает даже наиболее консервативных преподавателей пересматривать устоявшиеся догмы и искать новые формы, особенно в тех случаях, когда субъективизм и несопоставимость традиционных оценок препятствуют объективной оценке качества работы преподавателя, его реального вклада в учебный процесс. По-видимому, для радикального изменения сложившейся ситуации нужны специальные меры, направленные на совершенствование итогового и текущего контроля, на оптимизацию его диагностической и обучающей функций. Намечаются как бы два взаимосвязанных направления работ, одно из которых предполагает создание и внедрение в массовый учебный процесс тестовых методик для проведения итогового контроля, а другое — методик обучающего контроля, обеспечивающих необходимые условия для совместной деятельности ученика и педагога. В новых условиях текущий контроль учебной деятельности будет влиять на ее характер, интенсивность, регулировать ее направленность, обеспечивая потребность обращения за помощью преподавателя в процессе освоения новых знаний. При этом управление учебной деятельностью школьников должно осуществляться такими методическими приемами, которые ставят обучаемого в ситуацию свободного выбора: самостоятельно ли выполнять учебное задание или объединить свои усилия с преподавателем для решения поставленных задач. Причем у большинства учащихся будет усиливаться и стабилизироваться потребность в сотрудничестве с преподавателем и лишь по отношению к меньшей части, как исключение, могут потребоваться какие-то меры принуждения к учебе. Работа в обстановке взаимопомощи и взаимоконтроля, известная заранее последовательность опроса обучаемых, соблюдение принципа посильности предлагаемых контрольных заданий, возможность повторения контрольного задания для улучшения результатов создают дополнительную мотивационную основу для добровольного обращения за помощью преподавателя, для установления сотрудничества педагога и обучаемого в процессе контроля. Таким образом, возникает вполне определенная задача — организовать процесс текущего контроля учебной деятельности учащихся так, чтобы обеспечить стремление обучаемых сотрудничать с педагогом. При такой организации одним из факторов повыше- 367
ния качества обучения станет не принуждение к обучению, а устойчивое повышение мотивации учебной деятельности учащихся в процессе контроля. В этой связи в очередной раз приходится вернуться к проблеме создания теоретических основ и определения практических путей организации контроля учебной деятельности школьников в условиях сотрудничества. Условия возникновения сотрудничества в процессе контроля Отчасти решение поставленной проблемы связано с исследованиями мотивационной сферы учебной деятельности школьников, которые относятся скорее к области психологии, а не педагогики. Психологи полагают, что величина показателей мотивации различна у индивидов и постоянно меняется в ту или иную сторону под воздействием факторов [28]. Мотивация учебной деятельности уменьшается при недостаточном общем интеллектуальном развитии обучаемых, при несформированности у них должного уровня знаний. Ученик просто перестает воспринимать новые знания, когда систематически все на уроках становится непонятным. Однако существуют и другие, прямо противоположные причины, когда на уроках становится скучно наиболее способным и знающим ученикам. В этой связи напрашивается вполне тривиальный вывод. Одна из главных причин снижения мотивации учебной деятельности школьников связана с расхождением представлений педагога и обучаемого об оптимальном уровне трудности учебных задач, обеспечивающем усвоение, переосмысление старого и познание нового в процессе обучения. Мысль довольно не нова, еще К.Д. Ушинский в своих работах писал о том, что труд без трудностей невозможен. В дальнейшем эти идеи были положены в основу экспериментальной дидактической системы Л.В. Занкова, где принципу обучения на высоком уровне трудности отводится центральное место [4]. Одна ко чрезмерное повышение трудности учебных задач тоже оказывает отрицательный эффект. Если трудность излишне велика, то задания остаются непонятными обучаемому даже при выполнении в сотрудничестве с педагогом и не обеспечивают продвижения обучаемого по пути прироста знаний. Высказанное предположение в свое время было подкреплено исследованиями Л.В. Занкова, который экспериментально подтвердил тот факт, что в этом случае обучаемый либо пытается механически списать готовые решения, либо полностью отказывается от поставленных перед ним проблем К этим рассуждениям непосредственно примыкает вопрос о взаимосвязи между классическим принципом доступности обуче 368
ния и принципом обучения на высоком уровне трудности Занко- ва, которые на первый взгляд отчасти противоречат друг другу. По- видимому, противоречия здесь все же нет, просто второй принцип, выдвинутый в экспериментальной дидактической системе, уточняет первый. Утверждается как бы необходимость обучения школьников с помощью наиболее трудных из числа доступных им заданий. Конечно, сам термин «доступность» также нуждается в уточнении. Если под доступностью понимать легкость, изученность, когда выполнение задания носит характер повторения изученного, а не освоение нового, то никакого продвижения обучаемого по пути развития не будет. Поэтому под доступностью, несомненно, следует понимать возможность выполнения заданий в сотрудничестве с педагогом, когда задания слишком трудны для самостоятельной работы ученика, но вполне доступны для выполнения с помощью преподавателя. В этой связи возникает вопрос методологического характера о выборе оптимального соотношения между уровнем знаний обучаемых и трудностью контрольных заданий для обеспечения условий возникновения сотрудничества в процессе контроля учебной деятельности школьников [29]. Естественно, что ответ на этот вопрос, несмотря на явно выраженный методологический характер, следует искать не только в области содержательных теорий педагогики и психологии, но и в повседневной педагогической работе. Причем именно практический опыт намечает возможный путь решения поставленного вопроса. Интуитивно вполне понятно, что задания для текущего контроля не должны быть ни слишком легкими, ни слишком трудными, в противном случае ни о каком сотрудничестве не может быть и речи. Также вполне понятно, что речь должна идти о создании специальных алгоритмов, позволяющих индивидуализировать процесс отбора тестовых контрольных заданий, поскольку все учащиеся подготовлены по-разному. Другое дело, что не всегда у преподавателя есть средства, позволяющие выявить этот разный уровень знаний учеников. Поэтому возможность организации контроля учебной деятельности школьников в условиях педагогического сотрудничества следует напрямую связать с созданием тестов и с введением специальных шкал, обеспечивающих более тонкую, чем пятибалльная шкала, дифференциацию школьников. Но это то, что относится к созданию средств реализации идей сотрудничества, т.е. непосредственно к области практики. Что касается теории, то здесь необходимо привлечь отдельные идеи педагогов и психологов, давно перешедшие в разряд классических. 13 Мельникова М.Б. 369
ЗОНЫ РАЗВИТИЯ ЛИЧНОСТИ ОБУЧАЕМОГО Обращение к классическому психолого-педагогическому наследию позволяет выделить идею Л.С. Выготского о зонах развития личности [8]. Первой зоне актуальногоразвития личности должны соответствовать задания, с которыми обучаемый может справиться самостоятельно. Оценка знаний школьника, полученная на основе таких заданий, является соответствующим показателем объема и качества уже освоенного им учебного материала, т. е. уровнем и качеством его подготовки на момент контроля. При выполнении заданий, трудность которых соответствует зоне актуального развития, обучаемый занят самостоятельным, активным умственным трудом, который, как правило, получает положительную оценку преподавателя. Здесь нет повода для конфронтации, однако нет и повода для сотрудничества, поскольку при выполнении заданий, соответствующих зоне актуального развития, заметной необходимости в помощи преподавателя обычно не возникает. Совсем иначе обстоит дело в том случае, когда учащемуся предлагают более сложные задания, побуждающие его обратиться за помощью к преподавателю. Здесь, вероятно, нужны задания, соответствующие по трудности зоне ближайшего развития обучаемого, которые он способен выполнить правильно только в сотрудничестве с педагогом. В процессе сотрудничества у обучаемого формируются навыки самостоятельного решения более трудных заданий, расширяется область знаний и умений, раздвигаются границы зоны актуального развития обучаемого за счет перехода в нее новых заданий, относившихся ранее к зоне ближайшего развития ученика. Простое повышение трудности заданий без учета реального уровня знаний ученика в данный момент времени может иметь и негативные последствия [3]. Когда задание слишком трудное, обучаемый просто не берется за его выполнение, так как он даже не способен понять поставленную задачу и сформулировать вопросы к преподавателю. В этом случае, как правило, создаются ситуации, когда помощи преподавателя недостаточно. Несмотря на попытки преподавателя совместно с обучаемым решить поставленную зада чу, обучаемый не способен ее принять. Вместе с тем намечается перспективное направление создания необходимых предпосылок для организации контроля учебной деятельности учащихся в условиях педагогического сотрудничества. Эти предпосылки формируются путем целенаправленного отбора заданий определенной трудности. При этом принимается во внимание тот факт, что при выполнении заданий, соответствующих 370
зоне актуального развития, у обучаемого потребность в помощи педагога возникает редко или не возникает совсем. Стремление к сотрудничеству с педагогом в целях усвоения новых знаний является наиболее характерным для обучаемого при выполнении заданий, соответствующих его зоне ближайшего развития, но не выходящих за ее пределы. Последнее обстоятельство, по сути, формирует единое правило организации контроля учебной деятельности каждого учащегося в условиях сотрудничества, которое может быть положено в основу создания общего подхода. Конечно, сама идея не нова, в какой-то мере она пересекается с концепцией Л.С. Выготского о соотношении обучения и развития внутренних сил ребенка, согласно которой развитие есть функция характера обучения и воспитания, характера общения педагога с обучаемым. Здесь, в концепции Выготского, также обращается внимание на необходимость ориентации в обучении на зону ближайшего развития ребенка, когда на помощь обучаемому приходит педагог, в сотрудничестве с которым ребенок осваивает новые знания и тем самым продвигается в своем развитии. На эту же мысль наталкивает анализ работ Ушинского [27]. К ней обращались в свое время создатели экспериментальной дидактической системы Занкова, последователи его учения и ряд других исследователей как в области теории, так и в сфере практики. Однако, несмотря на всеобщую уверенность в правильности и важности ориентации обучения на зону ближайшего развития, вопрос всегда упирался в отсутствие реальных механизмов для внедрения теории в практику. Таким образом, введенные Выготским зоны развития личности обучаемого помогают наметить пути формирования отношений сотрудничества между преподавателем и учеником в процессе контроля. Необходимым условием возникновения таких отношений является подбор контрольных заданий определенной, повышенной трудности, соответствующих зоне ближайшего развития каждого обучаемого. 6.2. Пути организации контроля учебной деятельности в условиях сотрудничества Что касается самой возможности организации контроля учебной деятельности в условиях сотрудничества, то она зависит от умения преподавателя определить границы зоны ближайшего развития каждого обучаемого и отобрать задания, соответствующие этой зоне. В основе формирования такого умения лежит решение ряда важных 13* 371
вопросов, на которые нужно постараться ответить не столько теоретическим, сколько прагматическим образом и довести этот уровень прагматизма до создания реальных алгоритмов и компьютерных программ. Без этого все, даже достаточно правильные, умозаключения так и останутся на уровне рассуждений и потому, скорее всего, будут быстро забыты, как это уже произошло с огромным количеством теорий, не нашедших средств для практической реализации. Наиболее важный вопрос непосредственно нацелен на создание аппарата для определения границ зон путем сопоставления определенного диапазона трудности заданий с длиной той или иной зоны. Решение вопроса осложняется многообразием факторов, влияющих на эти границы. Здесь нет и не может быть единого интервала трудности заданий не только для группы, но даже для двух учеников, хотя, конечно, отдельные интервалы могут частично накладываться друг на друга. К тому же разными могут быть активность учебной деятельности обучаемых, ее мотивация, приобретенные ранее знания и опыт, динамика процессов усвоения знаний, способность к обобщению знаний и множество других факторов, которые влияют на развитие обучаемого, изменяя в ту или иную сторону границы интервалов трудности заданий, соответствующих его зонам. Индивидуализация процесса планирования обучения Особый интерес представляет расширенная постановка задачи, которая позволяет, помимо выделения заданий, соответствующих зонам актуального и ближайшего развития, вычленить и те задания, которые находятся за пределами зоны ближайшего развития обучаемого и являются непосильными для него в данный момент времени даже в сотрудничестве с педагогом. Ценность подобного результата трудно переоценить. У преподавателя появляются реальные рычаги для индивидуализации процесса планирования обучения, когда дифференцированным в полном смысле слова становится отбор заданий не только для текущего контроля и развития ученика в процессе совместной деятельности с педагогом, но и для планирования направлений сотрудничества с учеником [29]. Другой, не менее важный вопрос связан с преодолением определенных трудностей, обусловленных подвижностью границ зон. При создании алгоритмов отбора заданий, соответствующих по трудности той или иной зоне, приходится думать о том, что в процессе учебной деятельности школьника происходит постоянное увеличение его уровня знаний. Задания, которые выполнялись только в сотрудничестве с преподавателем, постоянно переходят в 372
зону актуального развития ученика. Это обстоятельство привносит дополнительные трудности в процесс отбора заданий, поскольку важно не только указать границы зон учащихся в начале совместной деятельности с преподавателем, но и выбрать метод отнесения заданий к различным зонам с учетом динамики их изменения. Методика отбора заданий для организации контроля в условиях сотрудничества К числу проблем, нуждающихся в решении, следует отнести выбор методов оценки параметров, определяющих уровень знаний обучаемых и трудность заданий теста, введение единой шкалы, позволяющей соотнести значения этих параметров, создание алгоритмов отбора заданий, соответствующих по трудности различным зонам, и ряд других более мелких вопросов. Идея соотнесения основана на введении разности между значениями параметров, один из которых характеризует уровень подготовки учащихся, а другой — трудность заданий теста. Несмотря на кажущуюся незамысловатость, идея введения разности параметров оказывается крайне продуктивной в том случае, когда удастся выбрать функцию, описывающую успешность выполнения заданий от разности параметров. Попытка введения подобных функций была предпринята в теории латентно-структурного анализа, где вероятность правильного выполнения задания испытуемым задается как функция от разности двух параметров, один из которых (уменьшаемое) — уровень подготовки ученика 9, а другой (вычитаемое) — трудность задания теста р (см. разд. 6.3). Таким образом, впервые появляется возможность корректного с математической и эффективного с технологической точек зрения сопоставления любого множества заданий с любым множеством испытуемых и на этой основе отбора заданий для различных зон развития учеников. Простой анализ возможных значений разности 6 — р позволяет сделать определенные выводы и наметить пути отбора заданий, соответствующих по трудности той или иной зоне. Если уровень знаний ученика намного больше трудности задания, т.е. уменьшаемое больше вычитаемого, то, скорее всего, ученик выполнит задание успешно без всякой помощи преподавателя с вероятностью, близкой к единице. Это задание, без сомнения, можно отнести к зоне актуального развития ученика. В том случае, когда разность отрицательна, но не слишком мала, знаний ученика явно недостаточно для успешного самостоятельного выполнения задания. Тогда вероятность правильного выполнения задания стремится к нулю, что 373
является основанием для отнесения задания к зоне ближайшего развития обучаемого. По-видимому, эти последние задания и обеспечат необходимые условия для сотрудничества педагога и ученика. Методику отбора заданий, соответствующих по трудности различным зонам развития обучаемого, удобнее всего рассмотреть на примере рис. 6.1. На рисунке представлены индивидуальная кривая /-го испытуемого Р. и характеристические кривые различных по трудности шести заданий теста Рх—Р& Предполагается, что было проведено предварительное шкалирование заданий с помощью модели Г. Раша на репрезентативной выборке учеников, по результатам котор'ого оценки параметра трудности заданий в шкале логитов получились равными: Р, ~ 2; Р2~-1,8; Р3~ 1; Р4~ 1,2; Р5«4; Р6~4,2. Также предварительно была получена оценка испытуемого, который в шкале логитов получил 6,.- +1 логит (см. [31] или разд. 5.3). На качественном уровне анализа можно сказать, что задания с характеристическими кривыми Р{ и Р2 являются слишком легкими для /-го обучаемого. Кривые расположены довольно далеко от точки перегиба кривой. Кривые Ръ и Р4 лежат в окрестности точки перегиба характеристической кривой /-го обучаемого. Более того, кривая Ръ просто проходит через точку перегиба индивидуальной кривой Р{, так как Р3 ~ 9,- 1. Таким образом, трудность 3-го и 4-го заданий мало отличается от оценки параметра /-го испытуемого 9/? определяющей его уровень подготовки на момент измерения. Кривые Р5 и Р6 расположены значительно правее на континууме значений переменной 9. Трудность этих заданий намного больше, чем уровень подготовки /-го ученика. Количественный анализ рассматриваемого взаимного расположения кривых позволяет установить, что вероятность правильного выполнения /-м обучаемым 1-го и 2-го заданий приблизительно одинакова и стремится к единице при уменьшении значений р. Как правило, такие задания /-й обучаемый выполняет правильно. Ошибки, допущенные здесь, бывают вычислительного характера, не связанные с глубиной понимания и объемом знаний по содержанию контролируемого раздела. Для оценки уровня подготовки /-го обучаемого задания типа 1-го и 2-го будут абсолютно бесполезны, так как они не обладают в силу излишней легкости способностью дифференцировать знание от незнания для /-го испытуемого группы. Отмеченный недостаток в выборе значений р можно преодолеть, если /-му обучаемому предлагать задания с характеристическими кривыми, расположенными в окрестности точки перегиба 374
кривой Р., т. е. заданий той трудности р, для которой вероятность правильного ответа /-го обучаемого лежит в интервале |/>(Р)-0,5|<е, (6.1) где е — достаточно малое положительное число. На рис. 6.1 такими являются 3-е и 4-е задания. Для них вероятности правильных ответов существенно отличаются друг от друга, а также от единицы и от нуля. Судя по рис. 6.1, Р$ъ) - 0,5 и Р.(р4) - 0,4. Столь четкий дифференцирующий эффект связан со свойством характеристической кривой Р/? обладающей наибольшей крутизной в окрестности точки перегиба. Можно предположить, что задания с трудностью рз и Р4 наиболее полезны для оценки знаний /-го обучаемого по контролируемому содержанию. Они обладают способностью отличать то, что обучаемый усвоил хорошо от того, что он еще не может выполнить правильно, т.е. от тех знаний, которые еще не вошли в его зону актуального развития. Вероятность правильного выполнения 5-го и 6-го заданий для /- го ученика сравнительно мала и стремится к нулю при возрастании р. Правильно выполнить 5-е и 6-е задания без помощи преподавателя /-и обучаемый, по-видимому, не может, поэтому эти задания, скорее всего, соответствуют его зоне ближайшего развития. Иногда, выполняя трудные задания, даже малознающие могут получить правильный ответ по причинам, связанным отнюдь не со знаниями по предмету, а с какими-то другими факторами, которые даже трудно определить. Такими факторами могут быть и угадывание правильного ответа, и помощь товарища по группе, и ряд других. Конечно, это порождает дополнительные трудности при подборе заданий, соответствующих различным зонам развития обучаемого, и вносит дополнительные погрешности в выводы педагога. О возможности точного определения границ зон, даже на основе двух выделенных эмпирических индикаторов, говорить, разумеется, нельзя, но попытаться соотнести значения разности 9, — Р3 и вероятности правильного ответа /-го обучаемого на задания различной трудности для примерного определения границ, по-видимому, можно. Сравнительный анализ взаимного расположения кривых Р., Р{9 Р2, Р3, Р4, Р5, Р6 позволяет предположить, что 4-е и 3-е задания наиболее эффективны для оценки подготовки /-го обучаемого и относятся к зоне его актуального развития. Задания такой трудности /*-й обучаемый способен выполнить правильно с довольно большой вероятностью без сотрудничества с педагогом. 375
-3-2-1012345 Р(в) Рис. 6.1. Характеристические кривые заданий и индивидуальная кривая испытуемого
Подтверждением высокой эффективности заданий с трудностью рз и для оценки /-го ученика могут служить информационные кривые этих заданий теста (рис. 6.2). /з(1Ь/4(1){ Рис 6.2. Информационные функции 3-го и 4-го заданий теста Величины /3( 1) и /4( 1) выступают в качестве показателя точности измерений (см. разд. 5.3). Чем ближе р к 0/5 тем больше значение информационной функции, тем эффективнее задание для оценки 9Г Это свойство хорошо просматривается на рис. 6.2, где разность /3( 1) — /4( 1) показывает, насколько 3-е задание эффективнее по сравнению с 4-м для оценки обучаемого с уровнем подготовки в.~ 1. Основываясь на результатах диссертационного исследования автора книги [29], в неравенстве (6.1) можно выбрать е = 0,2. Тогда вероятность правильного выполнения заданий, соответствующих по трудности зоне актуального развития /-го обучаемого, определяется неравенством |/уР) - 0,5| < 0,2 (6.2) или 0,3 < />,.(р) < 0,7. (6.3) Разность 9;. — р можно определить с точностью до десятых из формулы для вероятности правильного ответа /-го обучаемого по модели Г. Раша и неравенства: 377
-0,5<е.-р<0,7. (6.4) Значения параметра трудности в логитах, соответствующих зоне актуального развития /-го ученика удается определить с помощью неравенства: е.-0,7<р<е. + 0,5. (6.5) Например, для обучаемого с уровнем подготовки 0 = 1 логит трудность заданий, соответствующих зоне актуального развития, лежит в интервале (0,3; 1,5). При 1 > РДР) > 0,7 значения р лежат в интервале (—«>; в. — 0,7). При выполнении заданий такой трудности деятельность обучаемого протекает на базе уже «завершившихся циклов развития» [4]. Эти задания слишком легкие для измерения уровня знаний /-го обучаемого по контролируемому разделу курса. И, наконец, при 0 < Р;.(Р) < 0,3 значения параметра р, принадлежащие интервалу (9/ + 0,5; +°°), указывают, что эти задания соответствуют зоне ближайшего развития /-го обучаемого. Таким образом, оптимальные условия для возникновения сотрудничества заключаются в подборе заданий, соответствующих зоне ближайшего развития каждого ученика. Процесс подбора выглядит следующим образом: оценив предварительно уровень подготовки обучаемого с помощью предтеста, преподаватель подбирает задания из банка трудностью р > 9, + 0,5. Возникает вопрос: следует ли стремиться к увеличению трудности заданий до максимально возможной по данной теме или есть какой-то верхний предел, ограничивающий интервал для р справа? Быть может, все задания трудностью рз > 9/ + 0,5 являются оп тимальными для развития /-го обучаемого и именно их следует выбирать согласно принципу обучения на высоком уровне трудности? Ответ на этот вопрос можно получить, обратившись к другому, не менее важному принципу доступности обучения, который вступа ет в противоречие с принципом Л.В. Занкова [3], если не ограничить правый конец интервала (9/ + 0,5; +«>). Это противоречие может послужить причиной снижения мотивации учебной деятельности. На опасность такого рода указывал К.Д. Ушинский [27]. Он отмечал, что слишком трудные задания могут вызвать недовольство обучаемого. Педагогический опыт так же говорит о том, что слишком трудные задания, которые полностью непонятны обучаемому, могут оказаться неэффективными для развития, для совместной деятельности с педагогом в процессе их 378
выполнения. Начиная с определенного значения параметра р и по мере его увеличения выполнение заданий становится для обучаемого невозможным даже в процессе совместной деятельности с педагогом. Задания приобретут для обучаемого содержательный смысл и мотивацию основы к совместной деятельности с педагогом в том случае, если обучаемый способен их понять и принять. После решения вопроса о необходимости ограничения интервала для р ставится задача выбора значений, пригодных для верхней границы интервала (9. + 0,5; +<*>). Понятно, что основания для такого выбора должны быть получены в процессе эксперимента. Поскольку соотношение трудности заданий и зон развития обучаемого экспериментально методами теории латентно-структурного анализа ранее не исследовалось, то основаниями для выбора верхней границы интервала являются результаты, полученные в процессе выполнения эксперимента [29]. Таким интервалом для вероятности правильного выполнения /-м обучаемым трудностью р будет 0,2 < Р;(Р) < 0,3. (6.6) Тогда трудность заданий, соответствующих зоне ближайшего развития /-го обучаемого в логитах, определяется неравенством 9,+ 0,5 <р< 9,.+ 0,7. (6.7) Интервал р > 9,. + 0,7 определяет трудность заданий, которые можно отнести к зоне дальнейшего перспективного развития обучаемого. В этой зоне вероятность правильного выполнения заданий даже с помощью преподавателя стремится к нулю. Эти зада ния еще не приобрели для обучаемого с уровнем знаний 9 значение мотивационной основы к сотрудничеству с педагогом. Неравенство (6.7) позволяет совершить отход от упрощенного понимания принципа обучения на высоком уровне трудности, переосмыслить его взаимосвязь с принципом доступности в обучении и ввести формальную характеристику этой взаимосвязи. Предлагая /-му обучаемому задания трудностью р е (9,. + 0,5; 6/ + 0,7), можно реализовать принцип доступности на уровне повышенной трудности. Таким образом, принцип Л. В. Занкова получает свою конкретизацию и может быть подтвержден экспериментально. Рассмотренные интервалы на оси р и выделенные зоны приводятся на рис. 6.3. Зона I. Слишком легкие задания. Потребность в сотрудничестве с преподавателем не возникает, реализуется принцип доступности. 379
6,-0,7 е. в,.+ 0,5 в.+ 0,7 Рис. 6.3. Трудность заданий, соответствующих различным зонам развития /-го обучаемого
Зона II. Задания, соответствующие зоне актуального развития. Заметной мотивации к сотрудничеству с педагогом в учебной деятельности не вызывают, реализуется принцип доступности. Зона III. Задания, соответствующие зоне ближайшего развития /-го обучаемого. При их выполнении преобладают отношения сотрудничества обучаемого с педагогом. Стимулируют мотивацию учебной деятельности. Реализуется принцип доступности на уровне максимально возможной трудности. Зона IV. Слишком трудные задания, не выполнимые для /-го обучаемого даже в сотрудничестве с педагогом, могут снижать мотивацию учебной деятельности. Противоречат принципу доступ ности обучения, по-видимому, относятся к зоне дальнейшего перспективного развития /-го обучаемого. Таким образом, благодаря аппарату 1КТ возникает возможность выделения заданий, которые обучаемый способен выполнить успешно только в сотрудничестве с педагогом. Для этого необходимо предварительно измерить уровень подготовки /-го обучаемого и трудность заданий в логитах методами теории 1КТ. Затем расположить задания в порядке возрастания значений параметра р: Р1<Р2<...<Ру<Ру+1<.-.<Ря, где п — число заданий в банке. Тогда трудность к заданий, соответствующих зоне ближайшего развития /-го обучаемого, определяется неравенством е,+ о,5 < р„< р„+1 <... < рт+*< е, + о,7, (6.8) где 07. — уровень знаний /-го обучаемого в логитах; 0т,..., 0т + к — трудности к заданий в логитах, 1 <т< п, к>0. Следовательно, теоретический анализ работ Л.С. Выготского позволяет определить основное исходное понятие, необходимое при создании отношений сотрудничества между преподавателем и студентами в процессе контроля. Таким понятием является зона ближайшего развития обучаемого. Попытки развития идей педагогического наследия Л.С. Выготского [8] можно встретить в исследованиях Г. Ломпшера [49], А.И. Ивановой [10], Л.В. Занкова, Ш.А. Амонаш- вили [3, 4] и др. Тем не менее методов определения границ зон, в равной мере как и методов оценки адекватности трудности контрольных заданий в той или иной зоне, ранее предложено не было. Формирование установки на сотрудничество с педагогом легче всего реализовать при совместном выполнении заданий, соответствующих зоне ближайшего развития обучаемого. Для выполнения 381
таких заданий, кроме преодоления концептуальных проблем, необходимо перейти к операционному определению, в котором понятие «зона ближайшего развития» можно выразить правилами измерения трудности заданий и отбора тех из них, которые соответствуют этой зоне. Процедуру операционализации можно осуществить, опираясь на современные достижения теории 1КТ. На основе математических моделей данной теории в этой работе предлагается неравенство, выражающее правило отбора заданий, соответствующих по трудности зоне ближайшего развития каждого обу- чаемого. Эти задания являются наиболее эффективными при организации контроля учебной деятельности учащихся в условиях педагогического сотрудничества. Для выдвижения подобного предположения имеется ряд оснований. Прежде всего концептуальные, выражающиеся в идеях Выготского и его последователей. Затем дидактические, в роли которых выступают дидактические принципы экспериментальной системы обучения Занкова. Психологические, связанные с изучением мотивации учебной деятельности обучаемых. И наконец, математические, следующие из свойств математических моделей, взаимного расположения характеристических кривых и оценок сравнительной эффективности различных по трудности заданий теста. Таким образом, концептуальное решение вопроса о создании необходимых предпосылок для сотрудничества преподавателя и ученика заложено в исследованиях Л.С. Выготского. Анализ его исследований позволяет наметить теоретические пути организации контроля знаний обучаемого в условиях педагогического сотрудничества, но ничего не сообщает о возможности ее практической реализации, которая строится на специальных математических моделях и новых параметрических методах, получивших развитие в рамках теории латентно-структурного анализа. Понятно, что и на этом пути есть определенные трудности и ограничения, правда, не теоретического, а практического характера. Например, необходимо оценить параметр трудности заданий, используемых для контроля, и получить не любую, а довольно ус тойчивую оценку, инвариантную относительно уровня подготовленности выборки, используемой для получения оценок. Конечно, решить поставленную проблему оценки для традиционных, не тестовых заданий практически невозможно, поэтому «ненужные» и даже «вредные», с точки зрения некоторых преподавателей, тесты здесь оказываются крайне полезными. Если в памяти ПЭВМ накоплен репрезентативный банк тестовой информации, то дальнейшая работа между преподавателем и учени- 382
ком в условиях сотрудничества может быть автоматизирована путем подбора оптимальных по трудности для каждого ученика заданий на основе специальных алгоритмов и готового банка заданий. На первом шаге ученики выполняют входной тест, позволяющий дифференцировать обучаемых по уровню подготовки. На втором шаге в автоматизированном режиме в банке отыскивается оптимальное по трудности для каждого ученика задание, относящееся к зоне ближайшего развития и обеспечивающее выполнение необходимых условий для обращения за помощью к преподавателю или к компьютеру. Далее по результатам самостоятельного выполнения аналогичного задания пересчитывается уровень знаний ученика и из банка подбирается очередное оптимальное по трудности задание, обеспечивающее реальное, а не гипотетическое продвижение каждого ученика по пути освоения новых знаний. При этом каждый обучаемый продвигается по своей образовательной траектории в том темпе и режиме, который позволяет все понимать, не скучать и усваивать учебный материал без пробелов в сотрудничестве с педагогом. Выводы 1. Анализ процесса развития идей педагогического сотрудничества показывает, что в нем имеют место не только достижения, но и неудачи. 2. Одна из причин неудач заключается в отсутствии операционального характера методологических и методических психолого- педагогических исследований по проблемам сотрудничества педагога и учеников. 3. Операционализация предполагает доведение результатов исследований до уровня, на котором понятие «педагогическое сотрудничество» выражается правилами измерения и перечислением измеряемых элементов. 4. Возможность операционализации основывается на соединении психолого-педагогического наследия Л .С. Выготского с тестовыми методами контроля познавательной деятельности обучаемых и математическими моделями 1КТ. 5. На основе моделей 1КТ разработана методика оперативного отбора заданий определенной трудности, соответствующей различным зонам развития обучаемых. 6. Для эффективного применения методики в учебном процессе необходимо соответствующее программное обеспечение и банк тестовых заданий с устойчивыми оценками параметра трудности, полученных методами 1КТ. 383
71 МЕТОДЫ ШКАЛИРОВАНИЯ И ИНТЕРПРЕТАЦИИ I РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ 7.1. Стандартизация и нормы Эффективность тестовых оценок зависит не только от качества теста, но и от методов сравнения и интерпретации первичных (сырых) баллов испытуемых группы. Необходимость разработки методов интерпретации вызвана стремлением исследователей выявить истинные различия в уровне знаний испытуемых, сравнить результаты между собой даже в том случае, когда они получены по совершенно различным тестам. Само по себе это стремление продиктовано достаточно серьезной причиной, связанной с тем, что сырые баллы не дают информации о реальном уровне знаний. Один и тот же испытуемый может выглядеть по-разному на фоне более сильной или более слабой группы. К примеру сказать, что кто-то выполнил правильно 15 заданий из 30 в тесте по физике — значит ничего или почти ничего не сообщить о результате выполнения теста. Поскольку это, может быть, хорошо, а может быть, и плохо. Если задания очень трудны и большинство учеников выполнило из них не более 10 в тесте, то результат 15 баллов, выставленный за 15 правильных ответов ученика, один из самых высоких. И поэтому, несомненно, ученик заслуживает отличной оценки. Совсем иначе интерпретируется этот же результат в том случае, когда большинство учеников выполнили не менее 25 заданий в тесте. Тогда 15 баллов — один из самых низких результатов, и поэтому испытуемому можно в лучшем случае выставить удовлетворительную оценку. Таким образом, интерпретация результата, его отнесение к категории плохих или хороших зависят от ряда факторов. Прежде всего от того, как распределились результаты остальных испытуемых, от трудности и от количества заданий в тесте. Адекватность интерпретации достигается путем сопоставления первичного индивидуального результата с определенными норма ми выполнения теста. Нормы — это множество показателей, которые устанавливаются эмпирически, сообразно тому, как выполняет задания теста некоторая четко определенная выборка испытуемых. Разработка и процедуры получения этих показателей составляют процесс стандартизации теста. Наиболее распростра- 384
ненными нормами являются среднее арифметическое и стандартное отклонение по множеству индивидуальных баллов выборки стандартизации (см. гл. 5). Соотнесение первичного результата испытуемого с нормами выполнения позволяет установить место испытуемого в выборке, использованной для стандартизации теста. При такого рода сопоставлении можно установить, соответствует ли данный результат среднему или насколько он выше, а может быть, ниже среднего результата выполнения теста. К нормам предъявляют ряд требований [5]. Она должна быть: • дифференцированной — ученики, работающие по разным программам, должны сравниваться исходя из разных норм. Например, нельзя установить одинаковые нормы выполнения теста по математике для учеников обычной школы и школы с углубленным изучением математики, поскольку норма должна отражать специфику программы подготовки учеников; • соответственной, т.е. отражающей реальный контингент и реальные требования, вытекающие из современной ситуации в образовании; • репрезентативной — предполагающей организацию репрезентативной случайной выборки, обеспечивающей несмещенные нормативные оценки. Норма — весьма относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Поэтому при стандартизации теста особое внимание обращают на формирование выборки. Выборка должна точно отражать категорию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой погрешности измерений, чтобы ею можно было пре небречь в процессе стандартизации теста. В практической работе по созданию теста часто бывает необходимо чем-то поступиться: уменьшить объем выборки либо снизить ее репрезентативность. При этом следует иметь в виду, что репрезентативность выборки более важна, чем ее размер. Для простого уменьшения стандартной ошибки вполне допустимо ограничиться выборкой из 200—300 испытуемых, сохраняя ее репрезентативность, поскольку маленькая, но репрезентативная нормативная выборка будет предпочтительнее, чем большая, но неравномерно представленная. Равномерность достигается специальным процессом стратификации, который необходим, поскольку стратифицированная выборка более эффективна при том же объеме, чем случайная (рандомизированная). Обычно в качестве оснований для стратифика- 385
ции выделяют: социальное положение, географическую область, возраст, принадлежность к числу горожан или сельских жителей, обучение у определенного преподавателя и т.п. Стратифицированная выборка стандартизации должна отражать равные пропорции школьников, объединенных по сочетанию этих признаков. Таким образом, можно сформулировать общие правила получения репрезентативной выборки стандартизации. • Выборка должна быть стратифицирована на подгруппы по наиболее важным переменным, отражающим обычно не более четырех уровней стратификации. • В каждой подгруппе необходимо выровнять число испытуемых, установив какое-то число в качестве минимального для всех подгрупп. Для одной школы это число бывает небольшим — в пределах 50—100 учеников. В центрах тестирования обычно берут не менее 300 испытуемых в одной подгруппе. В последнем случае с учетом всех возможных сочетаний оснований для стратификации минимальный объем выборки стандартизации обычно бывает 12 000—15 000, хотя можно уменьшить число оснований для деления на подгруппы, снизив тем самым число возможных классификаций и затраты на стандартизацию теста. Однако простое введение норм не решает в полной мере всех проблем, связанных с интерпретацией первичных результатов. Из- за того что в каждой выборке стандартизации рассчитываются свои средние арифметические и они часто могут заметно отличаться, возникает еще одна проблема интерпретации первичных результатов. Один и тот же балл в слабой выборке может оказаться выше среднего, а в сильной — значительно ниже. Немалые затруднения вызывает проблема суммирования результатов, полученных испытуемым при тестировании по различным предметам. Обычно эта проблема возникает при подсчете проходного балла при зачислении абитуриентов, так как приходится суммировать практически несравнимые результаты, полученные в разной шкале оценок по отдельным тестам. При такого рода суммировании большой удельный вес приобретут оценки по более длинным тестам. Если, скажем, во вступительном тесте по физике 20 заданий, а в тесте по математике 40, то в сумме баллов, скорее всего, будут доминировать результаты абитуриента по математике, в то время как именно знания по физике, возможно, имеют решающее значение для последующего обучения в вузе. В этом случае суммирование и интерпретацию результатов испытуемых должна предварять проце дура выравнивания путем перевода сырых баллов в одну из стандартных шкал, используемых в педагогических измерениях. 386
7.2. Основные типы шкал в педагогических измерениях Шкала—средство фиксации результатов измерения свойств объектов путем упорядочения их в определенную систему чисел, в которой отношение между отдельными результатами выражено в соответствующих числах. В процессе упорядочения каждому элементу совокупности наблюдаемых эмпирических данных — результату выполнения теста — ставится в соответствие определенный балл (шкальный индекс), устанавливающий положение результата на шкале. Определение. Операция упорядочения исходных эмпирических данных путем перевода их в шкальные носит название шкалирования. Процесс шкалирования состоит в конструировании шкалы по определенным правилам и включает два этапа. Первый — сбор эмпирических данных. Второй этап — обработка и анализ, по результатам которого строится числовая система, представляющая собой шкалу. В педагогических измерениях шкалы различаются в зависимости от характера свойств, лежащих в основе их построения. В качестве таких свойств выделяют: идентичность, позволяющую однозначно относить объекты к одной из выделяемых категорий; транзитивность, способствующую ранжированию объектов в определенном порядке; метричность, обеспечивающую единую единицу измерения; наличие абсолютного нуля [9]. Наиболее общая классификация шкал предложена С. Стивен- сом и приводится на рис. 7.1, где дана подробная характеристика уровней измерения. Самая элементарная форма измерения — это номинальная шкала, или шкала наименований, обладающая только первым свойством. Типы измерений в педагогике I Качественные дискретные шкалы I Ш кала наименований (номинальная) I I Качественные непрерывные иг кал ы Шкала порядковая (ранговая) I Интервальная шкала I Шкала отношений Рис. 7. /. Классификация шкал по С. Стивенсу 387
В этой шкале каждому оцениваемому объекту в соответствии с каким-либо свойством приписывается наименование или число. Арифметические действия с числами в номинальной шкале не имеют смысла, между ними не устанавливается отношение порядка, числа применяются только для наименования объектов. Существуют два типа номинальной шкалы. В шкале первого типа каждому объекту приписывается число. Каждое число представляет отдельного человека (объект), и между объектами есть различие, так как числа присваиваются некоторым образом. Второй тип номинальной шкалы особенно широко применяется в педагогической практике. Он связан с классификацией учащихся по группам в соответствии с каким-либо признаком, после чего число или наименование приписывается не отдельному учащемуся, а группе учеников. Например, в процессе проверки соответствия подготовки выпускников школы требованиям образовательных стандартов появляется группа аттестованных и группа неаттестованных учеников. Вообще, при применении шкалы классификации можно обойтись и без чисел. Объектам приписывают буквы или какие-то другие обозначения, например оценки в зачетной книжке студентов «зачет» — «незачет». С помощью номинальной шкалы можно измерять только качественные признаки, поэтому обработку количественных данных следует проводить не с самими этими числами, а с удельными весами количества объектов данного класса. В этой шкале допустимы следующие статистические операции: • расчет частот (удельных весов) объектов данного класса; • определение моды изучаемого признака. В порядковой шкале вводятся числа и отношение «больше—меньше», поэтому по числу, соответствующему оцениваемому объекту, можно узнать о месте объекта в совокупности. Например, по результатам экзаменов можно приписать ранги каждому ученику, но только в пределах той группы, где проводился экзамен. Пятибалльная шкала, по которой сейчас выставляются оценки в школе, является частным случаем порядковой. В ней все ученики делятся на отдельные группы. Например, группа троечников может включать довольно много учеников, объединенных вместе и никак не ранжированных внутри своего объединения. Таким образом, внутри каждой группы нет никакого порядка, он устанавливается между отдельными группами, которые обычно распределяются по степени нарастания определенного признака, правда, не всегда. Например, при ранжировании спортсменов лучший как раз получает место с минимальным номером один. 388
Вполне понятно, что не следует проводить сложение и вычитание номеров мест ввиду неопределенного смысла получаемого результата. Однако этой прописной истины придерживаются далеко не всегда. В сфере образования был период, когда директору любой школы немало хлопот доставлял так называемый средний балл, который рассматривался как важный показатель качества работы школы. При этом как-то забывалось о том, что арифметические действия с номерами мест групп школьников недопустимы, и потому средний балл нисколько не отражает объективных закономерностей результатов учебного процесса. Никому и никогда не приходило в голову искать средний результат команды спортсменов, занявших определенные места, зато на протяжении ряда лет безответственно по среднему баллу сравнивались результаты работы педагогических коллективов, что, конечно, нередко приводило к неоправданным выводам, наносящим зримый ущерб качеству учебного процесса. При измерении признака в порядковой шкале возможны только монотонные преобразования, допускающие умножение на постоянный множитель, возведение в степень и извлечение корня, и некоторые статистические операции. В частности, в порядковой шкале в качестве средней оценки используют медиану, меры рассеяния — квантили, в качестве меры связи двух признаков — ранговый коэффициент корреляции. В порядковой шкале измеряются только качественные признаки. Объекты оцениваются с точки зрения отношения равенства между ними или отношения «больше—меньше», а расстояния между объектами не имеют никакого смысла. По оценкам в порядковой шкале можно ранжировать учащихся, но делать вывод о том, насколько один лучше другого, нельзя в силу отсутствия единицы измерения. Сравнимость результатов учеников достигается в интервальной шкале. Интервальная шкала, включающая первые три свойства, позволяет преодолеть недостатки номинальной и порядковой шкал, поскольку в ней определено расстояние между объектами и предусмотрена общая для всех объектов постоянная единица измерения. Интервальная шкала — количественная. В ней возможны все арифметические действия над числами, кроме деления. Таким образом, в интервальной шкале нельзя определить, во сколько раз один объект больше или меньше другого. Например, если ученик ответил правильно на 30 заданий, то это не означает, что он знает вдвое больше ученика, ответившего на 15 заданий теста. Недостатком этой шкалы является неизвестность абсолютного нуля. Например, при оценке выполнения учащимся теста нуль вер- 389
ных ответов не означает полного отсутствия знаний. В интервальной шкале допустимы почти все статистические операции, кроме тех, которые предполагают знание «истинно» нулевой точки шкалы. Поэтому в интервальной шкале нельзя использовать такие характеристики, как средняя геометрическая и коэффициент вариации исследуемого признака. Шкала отношений, удовлетворяющая всем четырем свойствам, позволяет получить самый высокий уровень измерения. Здесь можно определить отношение чисел, приписываемых объектам. В шкале отношений в качестве отсчета выбран абсолютный нуль. В ней можно выполнять все арифметические и статистические операции. Так же как и интервальная, она позволяет производить количественные измерения. Уровни измерения и числовые характеристики, используемые на данных уровнях, приведены в табл. 7.1. Из этой таблицы видно, что переход от одного уровня к другому сопровождается расширением класса допустимых математико-статистических операций. Как следует из табл. 7.1, наилучшей является шкала отношений, которую на сегодняшний день удалось реализовать только в рамках физических измерений. Исходя из приведенных выше рассуждений можно сделать вполне определенный вывод: не следует стремиться к традиционным средствам контроля, не обеспечивающим сопоставимых количественных оценок в интервальной шкале. Хотя и с тестами дело обстоит не столь благополучно, как казалось в те годы, когда за рубежом создавались первые педагогические тесты для массового внедрения в учебный процесс. Говоря о преимуществах тестовых методов, связанных с возможностью получения количественных сопоставимых оценок, следует специально отметить, что они проявляются не всегда и не везде. Во-первых, не всякий тест лучше экзамена, а только тот, который обладает высокой надежностью и позволяет построить по эмпирическим результатам его выполнения устойчивую шкалу. Во-вторых, наблюдаемые результаты выполнения теста (сырые баллы испытуемых) не обеспечивают сопоставимости. Для сопоставимости необходимо произвести шкалирование сырых баллов путем перевода их в одну из специальным образом подобранных стандартных производных шкал. В-третьих, при переходе к шкалированным показателям испытуемых желательно пользоваться методами современной теории тестов — теории 1КТ (см. подробнее гл. 5), поскольку именно теория IКТ обеспечивает перевод сырых баллов в интервальную шкалу. 390
Таблица 7.1. Уровни измерений и их характеристики Уровень измерения (шкала) Номинальный (номинальная) Ординальный (ранговая, порядковая) Интервальный (интервальная) Измерение отношений (отношений) Основная операция, определяющая уровень Приписывание одинаковых чисел (наименований) объектам, имеющим общий признак Ранжирование объектов по выраженности определенного признака Определение величины различия между объектами Определение равенства отношений величин Допустимое преобразование *1 =/(х), где/(х) — замена одного числа другим *1 =/(*)> где/(;с) — любая монотонно возрастающая функция Любые, кроме деления величин Любые Математические и статистические величины, вычисление которых допустимо на данном уровне Мода, процентные частоты, доли, коэффициент связи, коэффициент различия — квадрат Мода, медиана, квантили, квартили (процентиль, де- циль, квартиль и др.), ранговые коэффициенты корреляции, дисперсионный анализ Мода, медиана, квантили, ранговые критерии, выборочная средняя, дисперсия, стандартное квадратичное отклонение, коэффициент корреляции Все арифметические операции, все понятия и методы математической статистики Классическая теория тестов и рекомендованные в ее рамках линейные преобразования сырых баллов повышают сопоставимость результатов испытуемых, но не меняют природу порядковой шкалы наблюдаемых результатов выполнения теста. Именно это соображение нередко склоняет разработчиков к выбору 1КТ в качестве осно вополагающеи при конструировании тестов, несмотря на отдельные трудности технического характера, связанные с необходимостью применения специальных математических методов и моделей. 7.3. Шкалирование результатов тестовых измерений Чтобы определить положение испытуемого относительно выборки стандартизации, его первичный результат (количество пра- 391
вильно выполненных заданий) переводят в некую относительную меру. В основе такого преобразования лежит стремление повысить уровень измерений, перейти, если это возможно, от порядковой к интервальной шкале, допускающей упорядочение испытуемых с учетом различия в их уровне подготовки путем введения фиксированной единицы измерения. Правда, далеко не всегда преобразование первичных результатов приводит к интервальной или хотя бы к квазиинтервальной шкале. В отдельных случаях факт перехода считается довольно спорным и опровергается аргументированной критикой на основании результатов экспертизы качества шкалы и самого измерителя. Следует отметить, что попытки повышения уровня измерений путем шкалирования направлены целиком на расширение возможностей интерпретации и сопоставимости тестовых баллов, но ни в коей мере не связаны с повышением точности измерений. Не нарушая общности, можно считать, что преобразованные (производные) показатели служат двум целям. Во-первых, они позволяют уточнить место, занимаемое испытуемым в нормативной выборке, и, во-вторых, сравнить результаты испытуемых, полученные по различным тестам. Шкалы проиентильных рангов Производные показатели можно подразделить по своему назначению. Одни из них служат для определения достигнутого уровня подготовки в определенной шкале, а другие — для установления относительного положения испытуемого в некоторой нормативной группе. В частности, решению второй задачи слу жат процентили, позволяющие установить ранг первичного по казателя испытуемого в нормативной группе [5]. Ранг показателя в процентилях определяется процентной долей испытуемых из выборки стандартизации, результаты которых не выше данного первичного показателя. Процесс построения шкалы процентилей состоит в определении процентильных рангов первичных показателей нормативной группы. Метод построения шкалы процентилей можно рассмотреть на небольшом примере результатов выполнения теста группой из 25 испытуемых, хотя, конечно, маловероятно встретить такую выборку в практике. Обычно построение этих шкал выполняется на больших массивах. Пусть, например, 25 тестируемых учащихся по одному из предметов получили первичные результаты, представленные в табл. 7.2: 392
Таблица 7.2. Результаты испытуемых Сырые баллы испытуемых Частоты Кумулированные частоты Процентильные ранги 3 1 1 1 4 1 2 6 5 2 4 12 6 2 6 20 7 3 9 30 8 4 13 44 9 3 16 58 10 4 19 70 11 3 21 80 12 2 22 86 13 2 23 90 14 1 24 94 15 1 25 98 Первая строка в таблице 7.2 содержит наблюдаемые баллы испытуемых выборки, упорядоченные от меньшего значения к большему (слева направо). Обычно для больших групп простое упорядочение является малоэффективным и удобнее использовать сгруппированные данные, предполагающие введение разрядов оценок для отдельных групп (см. подробнее разд. 5.2). Во второй строке представлены результаты подсчета числа испытуемых, имеющих один и тот же тестовый балл. Каждый элемент второй строки показывает число повторений балла и потому называется частотой наблюдаемых сырых баллов испытуемых. Если частоты просуммировать слева направо, то получатся значения накопленных (кумулированных) частот. Кумулированные частоты представляют собой суммарное количество частот, наблюдаемых на этом балле или ниже его. Например, существует 9 испытуемых, получивших балл 7 или ниже, так как кумулированные частоты для балла 7 — число 9. Вычисление процентильных рангов для заполнения четвертой строки таблицы осложняется необходимостью определения фактических границ доверительного интервала (см. разд. 5.5), содержащего истинный балл каждого испытуемого выборки. Фактическая длина интервала зависит от значения стандартной ошибки измерения. Однако обычно для определения границ интервала ис пользуют 0,5 единицы измерения сырых баллов. В этом случае, если испытуемый получил балл 5, истинное значение его балла лежит в интервале от4,5 до 5,5, т.е. (4,5; 5),ачисла4,5 и5,5 называются соответственно нижней и верхней границей единичного интервала оценок. Понятия «верхняя» и «нижняя» границы используются для построения шкалы процентильных рангов в предположении равномерности распределения результатов испытуемых внутри доверительного интервала. Например, при вычислении процентного 393
Таблица 7.3. Построение шкалы процентильных рангов Шаг 1 2 3 Этап вычисления Подсчет кумули- рованных частот Определение точных верхних и нижних фан иц единичных интервалов оценок Подсчет процентильных рангов Пример вычисления Для испытуемого с баллом 4 кумулированная частота 1 + 1 = 2, для испытуемого с баллом 5: 2 + 2 = 4, для испытуемого с баллом 6: 4 + 2 = 6 и т. д. Для испытуемого с баллом 4 истинный балл лежит на интервале (4,5; 3,5), для испытуемого с баллом 5 — на интервале (4,5; 5,5) и т. д. Для испытуемого с баллом 4: (1,5/25) • 100% = 6%, для испытуемого с баллом 5: (3/25)-100% = 12% и т. д. ранга для тестового балла 5 принимают, что результаты двух испытуемых располагаются на интервале (4,5; 5,5) равномерно (табл. 7.3). Вероятнее всего, один результат будет ниже точки, соответствующей 5, а один — выше этой точки. Таким образом, к числу испытуемых, истинный балл которых меньше 5, можно отнести трех учащихся, из которых один имеет балл 3, второй — балл 4 и третий — один из двух, получивших балл 5, что в процентном отношении составит (3/25) • 100% =12%. Это и есть процентильный ранг, соответствую щий 5, который обеспечивает удобную интерпретацию результатов ученика: 12% учащихся из нормативной выборки сделали 5 или меньше заданий теста. В соответствии с введенным ранее определением 12-й процентиль в группе из 25 испытуемых равен 5. Обращаясь к полученным данным в третьем столбце табл. 7.2, можно определенно сказать, что первичный результат 5 баллов является плохим, так как он превосходит результаты только 12% испытуемых выборки стандартизации. Это конкретный и легко воспринимаемый результат, удобный в первую очередь для учеников при сравнении достижений по ряду тестов. Первичный результат, который ниже любого показателя выборки стандартизации, имеет нулевой процентильный ранг. Результат, превышающий любой другой в выборке, получит процентильный ранг 100. Конечно, ни нулевой ранг, ни ранг 100% не говорят о нулевом либо абсолютном знании контролируемого предмета. Возможно решение обратной задачи, когда необходимо определить р-й процентиль, вернее, точку, ниже которой лежат р % результатов [9]. Для определения/?-го процентиля необходимо выполнить 5 шагов, которые получаются с помощью табл. 7.4 и приводятся в табл. 7.5. 394
Таблица 7.4. Связь между сырыми баллами и частотами Сырые баллы испытуемых Частота Кумулированные частоты 1 2 3 15 1 25 14 1 24 13 1 23 12 1 22 11 2 21 10 3 19 9 3 16 8 4 13 7 3 9 6 2 6 5 2 4 4 1 2 3 1 1 Таблица 7.5. Определение процентилей Шаг 1 2 3 4 5 Этап вычисления Вычисление (/?л)/100%, где п — накопленная частота в группе оценок Определение фактической нижней границы Ь разряда оценок, содержащего результат 1-го шага Вычитание накопленной к Ь частоты (сит./) из результата 1-го шага (определение частот, лежащих ниже (рп) /100%) Определение доли интервала разрядов, лежащей под частотой {рп)/100% Прибавление результатов 4-го шага к результатам 2-го шага. Итоговая формула п Т , (рп)/100%-(сит.Л гп — Ь-г Р у Пример вычисления 2512 _ Р\2 = = 3 Уи 100 (4,5; 5,5); 1 = 4,5 3-2= 1 1/2 = 0,5 4,5 + 0,5 = 5 Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего — первичного — про- центиль является производным показателем, указывающим на долю от общего числа испытуемых группы. Помимо удобств, связанных с простотой интерпретации, про- центильные ранги имеют два существенных недостатка. Первый заключается в том, что процентильные ранги являются значениями порядковой шкалы, так как показывают относительное положение каждого индивида в нормативной выборке, а не выявляют различие между результатами отдельных испытуемых группы. Второй недостаток в определенной степени усугубляет первый — процентили не только не отражают, а даже искажают реальные различия результата выполнения теста. Это связано с особенностями 395
распределения процентилей, имеющего прямоугольный характер. Распределение первичных показателей существенно отличается от прямоугольного и для хороших нормативно-ориентированных тестов приближается к нормальной кривой. В этой связи небольшие отклонения от среднего в центре распределения наблюдаемых результатов значительно увеличиваются процентилями, в то время как относительно большие отклонения на краях кривой нормального распределения будут сжаты. Упомянутые недостатки — главная причина того, что использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в тестах для самооценки знаний учащихся. 7-ШКАЛА Наиболее простой метод выявления места результата /-го ученика (X) в сравнении с результатами других основан на подсчете отклонения балла Л^.от среднего значения баллов Хпо группе тестируемых учащихся. Отклонение находят путем вычисления разности X— Хг Если разность X— Х(> О, то результат /-го ученика выше среднего по группе. Отрицательное значение разности указывает на результат ниже среднего значения X. Так как средние арифметические, полученные по различным тестам и в разных группах, существенно разнятся, возникает проблема сопоставимости отклонений. Один и тот же балл Х1 в слабой группе может оказаться выше среднего, в сильной — значительно ниже. К тому же шкала отклонений оказывается по-разному растянутой в зависимости от длины теста. Удобным средством преодоления отмеченных трудностей является перевод индивидуальных результатов в стандартную 2-шка- лу с общим средним баллом и общей мерой вариации баллов. Вообще построение стандартных шкал производится путем линейных либо нелинейных преобразований сырых баллов. При линейном преобразовании стандартные показатели выражают отклонение индивидуальных результатов от среднего значения сырых баллов в единицах, пропорциональных стандартному отклонению распределения. В последнем случае шкалированный результат /-го ученика находят по формуле у —У 2,=^-, (7Л) О у 396
где Х{— сырой балл /-го испытуемого; X— среднее значение индивидуальных баллов ТУ испытуемых группы (/=1,2,..., Щ\ 8Х— стандартное отклонение по множеству сырых баллов, подсчитанное по формуле (см. разд. 5.2). Благодаря тому, что из каждого исходного значения Х{ вычитается Х9 этот же ^вычитается из среднего значения исходных баллов. Поэтому среднее арифметическое значений разности X — X. (1 = 1, 2,..., ЛО, полученных для группы тестируемых учеников, равно нулю. Это утверждение довольно убедительно иллюстрируется примером подсчета среднего значения разностей X— Х{ для матрицы тестовых результатов 10 испытуемых (разд. 5.2). Сумма разностей получается равной нулю: 10 10 N-1 _ I2 +(-3)2 +(-4)2 + 42 +(-1)2 +(-1)2 +02 +(-1)2 +42 +12 9 Х(Аг/-Л = 1-3-4 + 4-1-1 + 0-1 + 4 + 1 = 0. 2,6; Аналогично легко показать, что стандартное отклонение по множеству значений равно 1. Таким образом, ^-шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду путем нормирования индивидуальных результатов. Для приведенного выше примера оценки 10 испытуемых в 2- шкале получаются путем деления вычисленных разностей на стандартное отклонение 2,6: 7, =-^ = 0,38, 72~ = 1,14, ..., 2Г10=-^ = 0,38; 2,6 2,о 2,о 2_ 0,38-1,14-1,52 + 1,52-0,38-0,38+0-0,38 + 1,52+0,38 _. 10 5г = \ 397
Полученные шкалированные результаты интересно сопоставить со значениями сырых баллов 10 испытуемых (табл. 7.6). Таблица 7.6. Сравнительные результаты Номер испытуемого 1 1 2 3 4 5 6 7 8 9 10 Номер задания 0 2 1 1 0 1 0 1 1 1 1 1 3 1 0 0 0 4 1 0 0 1 0 0 1 1 1 1 5 1 0 0 1 1 0 0 0 1 1 6 1 0 0 1 1 0 1 0 1 0 7 0 0 0 1 0 0 0 0 1 1 8 0 0 1 1 0 1 0 0 1 0 9 0 0 0 1 0 0 0 0 1 0 10 0 0 0 1 0 0 0 0 0 0 хг 6 2 1 9 4 4 5 4 9 6 Х=5 ^=2,6 Х;~Х 1 -0 -4 4 -1 -1 0 -1 4 1 2(л;-л) = о 3 0,38 -1,14 -1,52 -1,52 -0,38 -0,38 0 -0,38 -1,52 0,38 2=0 5г=\ При использовании тестов, прошедших многолетний этап стандартизации и обладающих устойчивыми оценками генеральных параметров, перевод сырых баллов в ^-шкалу осуществляется по формуле где М и ох — генеральное среднее арифметическое и генеральная дисперсия соответственно. Очевидно, что для сырого балла, в точности равного среднему значению, 2 показатель обращается в нуль. Отрицательные значения 2 указывают на результаты ниже среднего, а положительные — на хорошие результаты, выше среднего значения сырых баллов по группе. 398
Особенно удобны ^-показатели в случае нормального рас1 пределения первичных баллов, когда все значения 2 в основном варьируют в пределах от —3 до +3. Иногда интервал вариации стараются расширить и учитывать все баллы в пределах от —5 до +5, что, без сомнения, лишено смысла, так как значения на концах интервала определены с очень большой ошибкой измерения. Несомненным достоинством 2Г-шкалы является общая средняя арифметическая и общая мера вариации данных, позволяющие достичь сравнимости результатов по разным тестам. Однако, помимо явных достоинств, есть и недостатки. Будучи удобной для научного анализа в процессе разработки новых тестов, 2Г-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Прежде всего это связано с тем, что значения 2 часто приходится вычислять с несколькими десятичными знаками, так как среднее значение индивидуальных баллов редко бывает целым числом. Поскольку выявление различий в подготовке испытуемых составляет основную цель создания тестов, легко по нять, что округление ^-оценок не всегда допустимо, так как оно может свести на нет первоначальные различия индивидуальных баллов и снизить тем самым дифференцирующий эффект теста. Эффект снижения дифференцирующей способности теста в результате округления ^-оценок можно проиллюстрировать примером данных табл. 7.6. Отличающиеся до округления результаты второго и третьего испытуемых 22 = —1,14 и 2Ъ = —1,52 превращаются после него в одинаковые баллы 22 ~ 2Г3 ~ — 1. Определенные неудобства вызывают отрицательные значения 2- показателя, указывающие на результаты ниже среднего по группе тестируемых учеников. Понятно, что в практике контроля отрицательные значения ^-баллов вызовут явное неприятие у получивших их учеников. В целом все это делает ^-показатель неудобным для сооб щения результатов испытуемым группы и вынуждает применять специальные методы преобразования для выставления оценок ученикам. 7.4. Шкалы стандартных оценок, полученных при преобразованиях /-шкалы Перевод всех ^-значений в область положительных целых чисел осуществляется линейным преобразованием, единственная цель которого придать более удобную форму значениям 2. Преобразование производится с помощью новых значений среднего арифметического (Л/) и стандартного отклонения (5), выбранных 399
с таким расчетом, чтобы сохранить все различия между испытуемыми, выявленные в 2-шкале. Для преобразования используется формула 2, = М + а2, (7.3) где М — новое среднее арифметическое и а — новое стандартное отклонение и 21 — значения лежат в области положительных целых чисел. Шкала 10 В качестве значений М можно использовать любые удобные числа. Например, для шкалы 10 эти значения равны 100 и 15 соответственно, т.е. 2,д= 100+15,2. Шкала СЕЕВ Для шкалы СЕЕВ ^-показатели теста способности к обучению совета по приемным экзаменам в колледжи пересчитываются по формуле 2^^500+ЮОД гдеЛ/=500иа=100. Значению 2= — 1 в старой шкале будет соответствовать значение 2СЕЕВ = 500 + 100 • (—1) = 400. Значению 2Г= +1 соответствует 2ГСЕЕВ = 600. Таким образом, в шкале СЕЕВ все дробные 2г-показа- тели превращаются в целые, если значения выбирались с двумя знаками после запятой и лежат в интервале (0; 1000), когда 2'меня- ется от —5 до +5. В этой же тысячебалльной шкале производится оценка результатов выполнения таких известных в мире тестов, как 8АТ (8со1а8Йс АрЦ(ис1е Тей), ОКЕ (Огас1иа*е Кесогс! Ехатшайоп) и др. Хотя теоретически шкала тысячебалльная, реальные результаты испытуемых обычно занимают интервал (200; 800). Шкала Векслера При пересчете 2г-показателей в шкалах интеллекта Векслера принимают М = 10 и 5= 3, т.е. новые значения 2 определяют по формуле 2=10 + 3.2. 400
Г-ШКАЛА Другое линейное преобразование сЛ/=50иа=10 переводит значения 1ъ Г-шкалу по формуле Г=50+107. Эта шкала позволяет избавиться от дробных и отрицательных значений только в том случае, если значения Iрасположены не ниже —5 и с одним знаком после запятой. В противном случае, если ^-показатели подсчитаны с точностью до сотых, необходимо последующее округление Г-показателей, что может привести к снижению дифференцирующего эффекта теста. Сравнительные характеристики шкал В отдельных случаях возникает необходимость сравнения относительного положения учеников, определенного в различных шкалах и по различным тестам. В этом случае, когда результаты тестирования имеют нормальное распределение и выстроенные шкалы основаны на идентичных выборках испытуемых, такое сравнение можно провести с помощью рис. 7.2 [9]. Поскольку стандартные ^-показатели получаются линейным преобразованием множества сырых баллов, свойства первоначального распределения остаются неизменными. Сохраняется характер распределения. Если распределение сырых баллов не является нормальным, то столь же далеким от нормальности будет и распределение стандартных показателей. Сохраняются и отношения между сырыми баллами. Благодаря линейному характеру преобразований относительная разница между стандартными показателями будет в точности соответствовать относительному различию сырых баллов. Словом, все свойства первоначального распределения баллов полностью воспроизводятся в распределении стандартных показателей, полученных тем или иным путем. С одной стороны, эту стабильность относят к категории желаемых свойств, поскольку любые вычисления, которые можно производить с исходными данными, могут также выполняться и со стандартными показателями без какого-либо искажения конечных результатов. С другой стороны, стабильность характеристик считают недостатком, не позволяющим повысить уровень измерений. В силу линейности преобразований порядковая шкала сырых баллов переходит в порядковую шкалу стандартных пока 14 Челышкона М.Б. 401
Процент случаев под отрезками нормальной кривой _4о олз% -45 Стандартные отклонения Накопленные проценты Процентильные эквиваленты 2.14% 13.59% 34.13% 34.13% 13.59% • 2.14% 0,13% +4о -35 -25 -5 О +5 +25 +35 +45 2-оценки Т-оценки Оценки СЕЕВ -4 ,0 1 1 1 0.1% 1 1 1 1 1 1 1 1 1 * -3.0 1 1 1 20 • • 1 1 1 1 2,3% 1 1 1 1 1 : 5 1 -2.0 • 1 30 1 1 1 15.9% 10 1 1 1 50% 1 1 ■ 1 1 1 84,1% 1 1 1 30 40506070 80 90 ■ 1 • | -1.0 1 1 1 | 40 1 I 0 » 1 1 50 —1 + 1,0 • 1 60 —1 ) 1 1 1 97.7% 95 ; 99 +2.0 * 1 70 1 1 ' 1 • 99.9% ; +3,0 +< 1 ' 1 ' 1 ' 80 | 1 ' 200 300 400 500 600 700 800 Рис. 7.2. Сопоставление шкал
зателей, а единую единицу измерения несмотря на, казалось бы, удачные преобразования для шкалы стандартных показателей ввести не удается. Недостатком можно считать и сохранение вида распределения. Прийти к такому выводу довольно просто, если вспомнить о цели введения производных показателей, предназначенных для решения задачи сопоставимости результатов испытуемых по различным тестам. С точки зрения теории значения стандартных показателей сопоставимы только тогда, когда исходные распределения сырых баллов имеют приблизительно одну и ту же форму, как правило форму нормальной кривой. На практике ни одно из эмпирических распределений не является совершенно нормальным, а большинство распределений просто далеки от нормальной кривой. Поэтому желательным считается преобразование, не сохраняющее, а изменяющее вид распределения для приближения к виду нормальной кривой. Удобным средством преодоления отмеченных затруднений является нелинейное преобразование, позволяющее придать эмпирическому распределению желаемую форму нормальной кривой. С этой целью вводятся нормализованные стандартные показатели, соответствующие распределению, преобразованному так, что оно аппроксимируется формой нормальной кривой. Их значения могут быть найдены с помощью специальных таблиц, в которых приводится процент случаев различных отклонений в единицах от среднего значения для нормальной кривой. Сначала для каждого сырого показателя определяется кумули- рованная частота как сумма всех частот, лежащих ниже данного сырого показателя. Затем к ней добавляется половина количества испытуемых, имеющих данный сырой балл. По этим данным вычисляется кумулированная доля путем деления порученной суммы на общее число испытуемых выборки. По статистическим таблицам (например, р18Ьег К. А., Уа*е8.8(а(18(1са1 ТаЫез Гог Вю1о§1са1 апс! МесНса1 КезеагсЬ), содержащим значения площади под кривой нормального распределения, находят значения нормализованных стандартных показателей для каждой кумулированной доли. Нормализованный стандартный показатель, как и линейно преобразованный стандартный показатель, имеет среднее значение О, если сырой балл приходится на самую середину нормальной кривой, т. е. не превышает 50% результатов группы. Результат — 1 можно интерпретировать как превышающий приблизительно 16% ре зультатов группы, а +1 — как превышающий 84% всех результатов. 14* 403
7.5. Шкалы станайнов и стенов Нормализованным стандартным показателям стараются придать удобную форму, пригодную для сообщения результатов. Для этого используют шкалы стандартных 10 или 9 единиц. Разбиение нормального распределения на 9 интервалов приводит к шкале станайнов, имеющей 9 стандартных единиц. При оценке результатов испытуемых по любому тесту с любым числом заданий 4% самых худших результатов присваивается станайн 1, а самых лучших — ста- найн 9. Следующим за худшими и лучшими 7% результатов присваивают станайны 2 и 8 соответственно. Следующим за ними 12% результатов — станайны 3 и 7. Следующим 17% присваивают станайны 4 и 6 и, наконец, 20% средних результатов соответствует станайн 5. В дополнение к описанной шкале станайнов есть еще две шкалы, имеющие некоторое преимущество перед девятибалльной шкалой в плане различающей способности. Одна из них — шкала стандартных 10 единиц, называемая часто шкалой Кэттела или шкалой стенов (81еп). Как следует из названия, весь массив результатов делится на 10 частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,55. 7.6. ОДИННААИАТИБАЛЛЬНАЯ ШКАЛА Выявить по одному проценту самых сильных и самых слабых испытуемых и присвоить им соответственно максимальный и ми нимальный баллы можно, удлинив шкалу станайнов путем добавления по одному интервалу в 0,5$ справа и слева. Таким образом получают одиннадцатибалльную шкалу. Если значениям стандартных баллов поставить в соответствие оценочные эквиваленты, то соотношение между значениями стандартных ^-оценок, процентом испытуемых, оценочными эквивалентами и баллами испытуемых можно представить в виде табл. 7.7. В большинстве учебных заведений нашей страны обычно пользуются пятибалльной шкалой, что хотя и часто критикуется, однако не меняется на протяжении многих десятилетий. Переход в пятибалльную шкалу снимает возможность тонкой дифференциации испытуемых, тем самым теряется важнейшее преимущество педа гогических тестов. В процессе перехода от нормализованных стандартных показателей к традиционным баллам возникают определенные трудно 404
Таблица 7.7. Соотношение между баллами, оценочными эквивалентами, ^-оценками и процентом испытуемых Баллы, пятибалльная шкала 2 3 4 5 Баллы, дцатибалльная шкала 1 2 3 4 5 6 7 8 9 10 11 Оценочный эквивалент Низшая оценка Неудовлетворительно Малоудовлетворительно Удовлетворительно Ниже среднего Среднее Выше среднего Хорошо Очень хорошо Отлично Высшая оценка ^-оценка К -2,25 -2,25 <7<-1,75 -1,75 <К -1,25 -1,25 <К -0,75 -0,75 <1< -0,25 -0,25 <К 0,25 0,25 <1< 0,75 0,75 <2< 1,25 1,25 <1< 1,75 1,75<7<2,25 2,25 <^ Процент испытуемых 1 3 7 12 17 20 17 12 7 3 1 Ста- найн 1 2 3 4 5 6 7 8 9 сти, связанные с необходимостью огрубления результатов. В частности, приходится принимать решения относительно испытуемых, чьи результаты принадлежат интервалу -1,75 < 2< -1,25, поскольку их можно отнести как к неудовлетворительно, так и к удовлетворительно выполнившим тест. Аналогичные трудности возникают с тестовыми баллами испытуемых из интервала -1,25 < К -1,25. В пятибалльной шкале их результаты можно оценить как четырьмя, так и пятью баллами. При этом приходится помнить, что полученные границы интервалов являются теоретическими. Фактически же они могут слегка сдвигаться в ту или иную сторону, поскольку длина их зависит от величины стандартной ошибки измерения. Например, если ^-оценка испытуемого равна 1,25, то истинное значение его балла может быть больше или меньше этого числа на значение ошибки. Таким образом, можно отнести к категории ответивших хорошо и оценить четырьмя баллами испытуемого с истинным баллом большим 1,25. Введение одиннадцатибалльной шкалы в качестве общепринятой вместо пятибалльной может дать ряд преимуществ, связанных с по- 405
вышением дифференцирующей способности педагогической оценки более чем в 2 раза. Особенно четко в одиннадцатибалльной шкале дифференцируется 1 % лучших и худших испытуемых. Определенное преимущество психологического характера есть у одиннадцатибалльной шкалы и по сравнению с девяти- и десятибалльной шкалами. Оно связано с тем, что в качестве опорных точек шкалы используются привычные для обучаемых понятия: низшая оценка — балл 1, средний уровень — балл 6, высшая оценка — балл 11. В заключение хотелось бы отметить, что в практике деятельности различных тестовых центров встречаются попытки оценки знаний по сильно растянутой, например по двадцатибалльной, стобалльной или даже тысячебалльной шкале. Однако такие попытки следует признать не очень удачными, так как они находятся в противоречии с ограниченными психологическими возможностями человека, которому трудно определить место своего результата на столь широком диапазоне и отнести его тем самым к категории плохих или хороших. Как правило, используемые в процессе преобразования ^-показателей новые значения среднего и стандартного отклонения выбирают из соображений удобства. Особенно удобны ^-показатели в том случае, если распределение сырых баллов можно апп- роксимировать нормальной кривой, поскольку пропорции между площадями различных сегментов поднормальной кривой известны. Следовательно, ^-показатели легко преобразовать в проценты и проинтерпретировать в терминах процентилей. Однако к такой интерпретации нужно относиться с определенной осторожностью, если сравниваются результаты, полученные на различных выборках по нескольким тестам. Например, нельзя делать вывод, что процентильный ранг 84 по одному тесту обязательно эквивалентен 2-оценке +1,0 по другому тесту. Этот вывод может иметь место лишь в том случае, когда каждый тест обеспечивает нормальное распределение сырых баллов и обе шкалы основаны на одинаковых или очень похожих выборках людей (Тез* Бегущее Ви11е(ш, № 48). Возможность искусственной нормализации любого распределения сырых баллов некоторыми исследователями подвергается вполне обоснованному сомнению, поскольку зачастую нормализация приводит к неизбежным искажениям исходного распределения. Поэтому нормализованные стандартные показатели рекомендуется использовать лишь в том случае, когда исходное распределение близко к нормальному и для предположения о близости есть веские теоретические основания. Во всех остальных случаях предпочтение сле- 406
дует отдать стандартным показателям, основанным на вычислении отклонения сырых баллов от среднего. Стандартные показатели, подвергнутые линейному преобразованию в единую шкалу с удобными значениями среднего и стандартного отклонения, обеспечивают сравнимость результатов, полученных испытуемыми по различным тестам. Одинаковые стандартные показатели находятся на одинаковом расстоянии от среднего. Хотелось бы также отметить некоторую терминологическую путаницу, встречающуюся в переводах на русский язык англоязычной литературы по тестовой проблематике. В ряде изданий термины «нормализованные стандартные» оценки и «нормальные стандартизованные» оценки используются как рядоположенные, хотя для этого нет никаких оснований. Вследствие преобразования сырых баллов в ^-шкалу получаются стандартные оценки, которые в отдельных случаях подвергаются нормализации. В то время как термин «нормальные стандартизованные» оценки используется в ряде других случаев, не имеющих отношения к вопросам шкалирования. При построении шкалы по тесту возникают определенные проблемы, связанные с ее устойчивостью, если тест используется в различное время учебного года либо выполняется испытуемыми различных возрастных групп. Однако и в этих случаях можно предпринять определенные шаги, способствующие повышению устойчивости тестовых шкал. При этом необходимо предположить, что приращение оцениваемого уровня подготовки по предмету происходит равномерно на протяжении всего времени изучения предмета. В качестве таких шагов при конструировании шкалы Торн- дайк предложил следующие [48]: • получить репрезентативную выборку испытуемых для вычис- ления устойчивых оценок уровня знаний с известными стандартными ошибками измерения; • предъявить тест выборке подходящего возраста и периода обучения, объединив испытуемых выборки в одинаковые возрастные группы и разбив на трехмесячные подгруппы по периодам обучения; • определить средний балл для каждой подгруппы, шкалировать результаты; • интерполировать шкалированные результаты между соседними средними для тех сырых баллов, которые не наблюдались в выборке; • экстраполировать результаты с учетом минимального и максимального наблюдаемых баллов для установления возможных границ шкалы по тесту; 407
• результаты интерполяции и экстраполяции собрать в таблицу, указывающую шкалированные эквиваленты сырых баллов в различных возрастных подгруппах или с учетом определенного периода обучения. 7.7. Шкала логитов Зарубежные исследования конца 80-х годов показали плодотворность шкалирования тестовых результатов испытуемых посредством использования математических моделей, разработанных в рамках 1КТ. Согласно основным положениям 1КТ, уровень подготовки испытуемых и трудность заданий теста считаются некоторыми латентными параметрами, оценки которых предстоит получить в процессе шкалирования результатов выполнения теста. При этом предполагается, что вероятность правильного ответа определяется значениями двух латентных параметров, один из которых — уровень подготовки испытуемых, а второй — трудность заданий теста. Зависимость между вероятностью правильного ответа и значениями параметров выражается с помощью ряда математических моделей, предполагающих введение единой шкалы как для уровня знаний испытуемых, так и для трудности заданий теста (см. разд. 5.3). Таким образом, латентные оценки параметров испытуемых и заданий располагаются вдоль одной шкалы логитов. Благодаря этому каждую точку шкалы, соответствующую оценке уровня подготовки испытуемого, можно соотнести с трудностью заданий, лежащих на шкале логитов левее и правее этой точки. Пример подобного соотнесения показан на рис. 7.3. X 3 25 О) 3 с о х о ч от ?! 6, Р2 02 03 Р3 04 е5 Р4 <>6 Р5 07 08 Р7 Р8 Шкала логитов Рис. 7.3. Графическая интерпретация распределения 408
Точками рр р2,... на шкале логитов отмечены значения, соответствующие трудности теста, причем р1 < р2 < р3 <..., т. е. задания расположены по нарастанию трудности на всем протяжении теста. Точки 0(, 02,... соответствуют уровням подготовки подгрупп испытуемых, а высота столбиков пропорциональна количеству испытуемых, обладающих одинаковым уровнем подготовки в каждой подгруппе. Расположение значений параметров 0 и р на одной оси позволяет провести интересную геометрическую интерпретацию. Любой испытуемый группы в состоянии выполнить с вероятностью больше 0,5 все задания, лежащие на оси левее точки, соответствующей оценке его уровня подготовки. И наоборот, вероятность правильного выполнения всех заданий, расположенных правее этой точки, меньше 0,5. Например, три испытуемых с уровнем подготовки 06 наверняка смогут выполнить верно 1-е, 2-е и 3-е задания теста. Вероятность правильного выполнения 4-го задания для трех испытуемых этой подгруппы немногим больше 0,5. А вот задания с трудностью р7 и р8 для этих трех учеников явно слишком сложные. Как следует из результатов разд. 5.3, наиболее эффективными для тестирования испытуемых с уровнем подготовки 0 являются задания с трудностью р ~ 0. Опираясь на это правило подбора заданий в тест, удобно визуально с помощью рисунка оценить эффективность создаваемого теста. В том случае, когда большая часть заданий теста расположена на шкале логитов значительно левее или правее множества значений 0, как, например, в случаях А и Б, рис. 7.4, тест не годится для оценки знаний рассматриваемого контингента учеников. Совсем иначе обстоит дело в случае В, когда основная часть заданий расположена на оси логитов именно там, где находится множество параметра 0 для тестируемой группы учеников. В последнем случае тест явно удался, так как по подбору трудности заданий рассчитан на тестируемую группу. Так как матрица тестовых результатов дает наблюдаемые, сырые значения тестовых баллов, а не оценки латентных параметров испытуемых и заданий в логитах, то необходимы специальные алгоритмы вычисления параметров 0 и р, подобные тем, которые были подробно рассмотрены в гл. 5. Условно процесс шкалирования можно подразделить на три этапа. Первый предполагает построение шкалы логитов уровня знаний, второй — шкалы логитов трудности заданий и третий этап позволяет свести две шкалы в общую шкалу стандартных оценок для уровня подготовки испытуемых и трудности заданий теста. 409
Процедура построения шкалы латентных переменных связана с процедурой шкалирования по Гуттману [47], когда задания отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания дисциплины. При 1 МЫХ о» испыг Число к Случай А 1 • ♦ • ш • • Црв! 1 1 '|" — 1—1 ■ ■ —«— • ■—т— ► X а <ч >» 3 с а X о а х Р1 Р2 Рз Р5 Р4 Р5 в1 Рб °2 Случай Б е3 е4 е5 е6 р7 е7 р8 е8 е(р) ■ • I • • е, е2 е3 е4 е5 е6 р, е7 р2 е8 р3 р5 р4 р5 р6 р8 е7 в(Р) 1 X 3 2 а> >» н 3 С а X о ч а X а* Случай В ' • • • ■ —•— • • • • • ► р, в, р2 рз е2 р5 в3 р4 в4 р5 р6 в5 е6 р8 в7 в8 р7 в(р) Рис. 7.4. Визуальная оценка эффективности теста 410
этом предполагается, что любой испытуемый с правильной структурой знаний, справившийся с каким-либо заданием, можетуспеш- но выполнить все предыдущие, более легкие задания теста. Это предположение чаще всего не выполняется, как правило, по причине неудачно сделанного теста. Если тест разработан профессионально, то каждый профиль ответов испытуемого будет характеризовать ту или иную структуру знаний испытуемого и в совокупности с тестовым баллом определять качество его знаний. Это обстоятельство делает чрезвычайно привлекательной шкалу Гуттмана для педагогов, хотя ее довольно редко удается реализовать в практике. Шкалирование по алгоритмам 1КТ в определенной степени преодолевает трудности построения шкалы Гуттмана, поскольку является ее вероятностной версией и отражает вероятностную сущность тестовых процессов. Согласно модели Г. Раша, о правильном выполнении любого задания /*-м испытуемым можно говорить лишь с некоторой вероятностью и прогнозировать успешность лишь в том случае, если эта вероятность больше 0,5. Единая шкала, содержащая новые единицы измерения, называемые логитами, позволяет реализовать преимущества математических моделей теории 1ЯТ. Первое преимущество вытекает из стандартизованного характера оценок параметров испытуемых и заданий в шкале логитов. Как и любые стандартизованные величины, оценки латентных параметров представляют собой результат преобразования исходных сырых оценок разного происхождения в единую интервальную шкалу. Это дает возможность объективного сравнения достижений испытуемых по различным предметам, что, конечно, особенно важно в процессе экзаменов. Второе преимущество связано с введением единицы измерения, позволяющей измерять в единой шкале уровень подготовки испытуемых и трудность заданий теста. В отличие от стандартных шкал (типа /Г-шкалы, Г-шкалы и им подобных) шкала латентных переменных является интервальной. Равные приращения сырых баллов испытуемых не соответствуют равным приращениям шкалированных оценок латентных параметров, зато последние разности приобретают вполне интерпретируемый смысл, поскольку их можно считать мерой отличия уровня подготовки испытуемых по предмету. Третье преимущество вытекает из специфических особенностей математических моделей, используемых для оценок латентных параметров испытуемых и заданий. Получаемые с их помощью статистические оценки параметров обладают относительной независимостью друг от друга, хотя ряд авторов (Лорд (Ьогй), Чопин (СЬорт) [11]) считают такое утверждение явным преувеличением. 411
Возможна эмпирическая проверка этого утверждения, которая должна быть разбита на два этапа. Первый этап — проверка независимости оценок латентного параметра трудности заданий от уровня подготовленности тестируемой выборки — включает ряд шагов. В результате их выполнения удается отобрать задания, удовлетворяющие выдвинутому предположению о существовании такой независимости. Второй этап, гораздо более важный, посвящен проверке инвариантности оценок латентного параметра испытуемых относительно различных наборов заданий, отобранных на первом этапе, и состоит из нескольких шагов. На первом шаге все задания, прошедшие проверку, делятся на две группы: одна содержит самые легкие, а другая — наиболее трудные задания тес га. На втором шаге вычисляются оценки латентных параметров испытуемых по каждой из двух групп заданий и связанные с ними стандартные ошибки измерения. Если задания удовлетворяют требованиям моделей латентно-структурного анализа и прошли первый этап, то с точки зрения теории оценки параметра испытуемых в пределах стандартной погрешности должны быть примерно одинаковыми как по группе самых легких, так и по группе самых трудных заданий теста. Однако на практике это выполняется далеко не всегда. Нередко наблюдаемые существенные отклонения в оценках испытуемых указывают на необходимость удаления или переформулировки прошедших первый этап отбора заданий теста. Однако следует иметь в виду, что для выводов о наличии инвариантности или об отсутствие ее одной выборки испытуемых недостаточно. Работу по шкалированию можно считать завершенной, если эффект инвариантности обретает характер стабильности и наблюдается на различных выборках каждый раз. В некоторых случаях эффект инвариантности может быть искажен угадыванием ответов, плохой формулировкой дистракторов либо отсутствием внутренней согласованности заданий теста. Проверка внутренней согласованности заданий осуществляется специальной процедурой, получившей название \УкЫп рори1айоп кет- Ги, и проводится после оценивания латентных параметров [59]. По результатам проверки выбраковываются эмпирические данные тестирования, не удовлетворяющие требованиям моделей измерения. Оставшиеся задания дают основания для построения одномерной шкалы латентных параметров или в традиционной терминологии являются внутренне согласованными, однородными, удовлетворяющими задаче создания гомогенного теста. Таким образом, возможность получения независимых оценок латентных параметров 412
устанавливается путем двухэтапного исследования и в случае необходимости достигается с помощью специальной процедуры подгонки эмпирических данных тестирования под требования модели. При этом часто как-то забывается, что этап работы над заданиями, их отбор, шкалирование и переформулировка являются первичными, поскольку качество заданий определяет качество оценок испытуемых, полученных с помощью теста. Если этот этап не пройден, то никогда не может быть достигнута инвариантность оценок испытуемых от трудности заданий теста, т. е. не будет реализовано важнейшее преимущество математических моделей теории латентно-структурного анализа. Четвертым преимуществом рассматриваемых моделей является устойчивость оценок латентных параметров, основанная на их относительной независимости друг от друга. Хотя о полной независимости оценок говорить, конечно, нельзя, но все же оценки параметров в шкале логитов имеют тенденцию к стабилизации, что, несомненно, делает эту шкалу наиболее привлекательной на всем множестве шкал тестовых измерений. Помимо достоинств, у шкалы логитов есть и определенный недостаток. Поскольку оценки параметров обычно лежат в интервале (—5; 5) и имеют несколько знаков после запятой, они малопригодны для сообщения испытуемым. Преподаватели-практики, как правило, категорически возражают против применения отрицательных дробных значений параметра для оценки уровня подготовки учеников. По этой причине возникает необходимость преобразования оценок в другую, более удобную для сообщения результатов шкалу. Преобразование шкал логитов В процессе преобразования можно выделить два момента. Первый — это умножение всех значений параметра на один и тот же шкалирующий множитель для перевода результатов в область целых чисел. Второй — перенос всех значений параметра на множество положительных чисел путем прибавления некоторой константы, позволяющей избавиться от всех отрицательных оценок параметра 0. Второе преобразование, связанное с выбором нового начала шкалы, выполнить довольно просто. Например, если оценки параметра 6 расположены в интервале (—5,8; 5,2), то прибавление константы 10 позволит исключить из рассмотрения отрицательные числа. В результате оценки испытуемых будут располагаться в интервале (4,2; 15,2) и число 4,2 можно считать началом новой шкалы. 413
Гораздо сложнее обстоит дело с первым преобразованием, поскольку неправильный выбор шкалирующего множителя и последующее округление результатов могут свести на нет все усилия по дифференциации испытуемых с помощью теста. Неудачный выбор размерности новой шкалы, связанный с введением шкалирующего множителя, неизбежно приведет к потере полезной информации о подготовке учеников. Например, интервал (4,2; 15,2) легко преобразовать в промежуток (42; 152), выбрав в качестве шкалирующего множителя число 10 и округлив все полученные результаты до целых. Однако такой выбор шкалирующего множителя вызовет потерю информации, если в группе были испытуемые, незначительно отличающиеся, но все же разные по подготовке с 61=4,25 и 62= 4,23. После перевода в новую шкалу и тот и другой испытуемый получат балл 42. Именно поэтому в процессе преобразования шкалы логитов первостепенное значение придается правильному выбору шкалирующего множителя, и операция умножения всех значений является первым преобразованием. После выбора новой единицы и установления новой размерности осуществляется перенос всех шкалированных значений на множество положительных чисел. В общем виде преобразование шкалы логитов можно записать как 6, = сс + у9; р2 = сс + ур, где в, и Р2 — оценки параметров испытуемых и заданий соответственно на множестве положительных целых чисел; вир — оценки параметров в интервале (—5; 5) шкалы логитов; а — константа пе реноса, определяющая начало новой шкалы; у — шкалирующий множитель, определяющий ее размерность. Стандартные ошибки измерения преобразуются по формулам 5Е(в1) = т5Е(в); 8Е(Р1) = т8Е(р), где 8Е(Р1) и 8Е(62) — новые стандартные ошибки измерения. Для выполнения преобразования необходимо выбрать константы а и у, вернее, именно константу у, так как а может быть выбрана множеством способов. Процесс выбора приемлемых значений для у основан на анализе перехода наименьшей наблюдаемой разницы сырых баллов (ЬОО) в наименьшую разницу (ЬМО) оценок 414
параметра в в шкале логитов. В рамках другого подхода оценка шкалирующего множителя у основана на анализе значений стандартной ошибки измерения 6. Вне зависимости от подхода все исследователи связывают значение ус длиной теста. Как правило, у выбирают на основании одного из трех неравенств п у[п у[п У,>?,У2>^илиу3>-. В качестве обобщения различных подходов к выбору шкалирующего множителя у предлагается табл. 7.8, где сообразно трем неравенствам, приведенным выше, даются возможные минимальные значения у,, у2 и у3. Таблица 7.8. Минимальные значения множителя у Длина теста п 30 120 150 300 600 У1 5 10 20 50 100 Ъ 2 3 4 7 10 Уз 2 2 3 5 7 Анализ табл. 7.8 показывает, что выбор шкалирующего множителя целиком зависит от длины теста. В практике деятельности тестовых служб обычно останавливаются на значениях у=10, так как редко применяются тесты, включающие менее 30 заданий. При фиксированной длине теста значение множителя будет зависеть целиком от желания пользователя добиться определенного уровня дифференциации тестовых баллов испытуемых. При этом необходимо помнить о том, что уменьшение размаха шкалы огрубляет оценки, а увеличение — повышает ошибочный компонент. При у= 10 стандартная ошибка измерения увеличится в 10 раз, а при у = 100 — в 100. В целом же и то и другое ухудшает качество сырых оценок. Поэтому при выборе у недопустимо как неоправданное за нижение, так и излишнее завышение у. Конечно, оценки латентных параметров в логитах можно подвергать и нелинейным преобразованиям, однако линейное преобразование предпочтительнее, так как оно сохраняет интервальный характер шкалы. Среди линейных наиболее распространенным 415
является преобразование при а = 50, у =4,55, предложенное Чопи- ном (СНорт). В этом случае 6,= 50 + 4,550; Р,= 50 + 4,55(3; 8Е(61) = 4,558Е(в); 8Е(Р1) = 4,558Е((3). В результате линейного преобразования с а = 50 иу=4,55 получают положительные значения вир, расположенные в интервале (30, 70), которые затем округляют до целых. Новые значения латентных параметров 6 и Р представлены в так называемой шкале XV, или \Ук8 [5]. Выбор значений а и у обусловлен соображениями удобства, поскольку при увеличении значения |6 - р| на 5 единиц по сравнению со значением 6 — р = 0 вероятность правильного выполнения задания возрастет или уменьшится в 3 раза. Другое линейное преобразование связано с именем Вудкока (\Уоос1соск). В определенной им шкале для \Уоос1соск—.1оНп80п Р8усНо-Ес1иса1:юпа1 ВаПегу 6, = 201оё9ев + 500, т.е. а = 500, у= 20к>ё9е = 9,1. Уровень трудности заданий пересчитывается по формуле Р1 = 9,1р + 500. В шкале Вудкока значениям разности 0 — р=20,10,0, —10,20 соответствуют вероятности правильных ответов 0,90; 0,75; 0,50; 0,25; 0,10. К разряду линейных относится преобразование Райта (\Уп§Ы) [59] при ос = 100, у =9,1, когда 0, =9,16 + 100; ^=9,10+100. Подводя итог сказанному, можно отметить, что при переходе от сырых показателей к производным используются шкалирующие модели двух классов. В рамках первого строятся шкалы, основанные на оценке различий между сырыми баллами и нормативными показателями, определенными в процессе стандартизации теста. При этом предполагается, что есть некоторая связь между уровнем подготовки испытуемого и алгебраической суммой баллов, полученной им в ре- 416
зультате выполнения теста. Этот класс моделей применяется в рамках классической теории тестов и позволяет реализовать, как правило, порядковую, а в лучшем случае квазиинтервальную шкалу. Второй класс моделей имеет дело с зависимостями между сырыми баллами и производными показателями, получаемыми как для заданий, так и для испытуемых в одной и той же шкале. Сопоставление таких, казалось бы, несравнимых величин проводится в шкале логитов переменной, обеспечивающей общую единицу измерения для уровня знаний испытуемых и трудности заданий теста. Шкала латентных переменных подвергается одному из линей ных преобразований для сообщения результатов испытуемым, выполнявшим тест. Параметры преобразования выбираются из соображений удобства, однако так, чтобы не потерять никакой полезной информации, полученной в процессе применения теста. Выводы 1. Шкалирование тестовых баллов предназначено для выявления истинных различий в уровне подготовки испытуемых при интерпретации результатов выполнения теста. 2. Адекватность интерпретации достигается путем сопоставления индивидуальных результатов с нормами выполнения теста. 3. Профессионально разработанные нормативно-ориентированные тесты проходят обязательный процесс стандартизации, суть которого заключается в определении норм теста. 4. Операция шкалирования первоначальных эмпиричских данных предполагает различные уровни измерения, среди которых оптимальным является интервальный, позволяющий построить количественную шкалу с определенной единицей измерения. 5. Каждая из шкал имеет свои достоинства и свои недостатки. Среди многих других наиболее предпочтительной является шкала логитов, обеспечивающая сравнение оценок параметров трудности заданий и уровня подготовки испытуемых благодаря введению единой единицы измерения. Вопросы и задания 1. Какие нормы теста вы знаете? 2. Как называется процесс определения норм теста? 417
3. Приведите примеры измерения величин в номинальной шкале и шкале отношений. 4. Предположите, что группа учеников выполняла ранжированные по нарастанию трудности задания теста. Если индивидуальные баллы четырех учеников таковы, что Х} = 5, Х2 = 10, Х3 = 40, Х4 = 45, то имеет ли смысл интерпретировать равенство Х2 — Х{ = Х4 — Х3 при сопоставлении результатов учеников? 5. Можно ли выбрать единую шкалу тестовых баллов и пользоваться ею в любых шкалах и любых тестах? 6. Переведите в /Г-шкалу сырые баллы 10 учеников: Хх = 2,Х2 = = 7,Х3= 1,Х4 = 5,Х5 = 5,^=11,Х7 = 9,^ = 2,^=15,^ = 3, выполнивших 25 заданий теста. 7. Установите соответствие. Шкала Возможность оценить 1. Номинальная А) Во сколько раз один ученик 2. Порядковая знает больше другого 3. Интервальная Б) Наличие или отсутствие планируемого уровня подготовки В) На сколько один ученик знает больше другого Г) Ранг ученика Ответы: 1 , 2 , 3
81 ОСНОВНЫЕ ПОДХОДЫ К ОПЕНКЕ I КАЧЕСТВА ПОДГОТОВКИ 8.1. Качество подготовки обучаемых как предмет обсуждения В отличие от нашей страны, где поиск решения проблемы оценки качества обучения идет в основном по пути теоретико-методологических исследований [ 1 ], в ряде европейских стран, в США, Австралии большинство исследований носит прикладной характер и сами исследования по сути своей крайне прагматичны. Прагматичность зарубежных подходов выглядит очень привлекательно. Дело в том, что результаты теоретико-методологических исследований выполняют для преподавателя-практика исключительно ориентирующую функцию в силу своего абстрактного характера, но ничего не говорят педагогу о том, что же такое качество обучения и как его оценить в повседневном учебном процессе. Конечно, эта точка зрения может показаться спорной, особенно тем, кто далек от практической работы с учениками и студентами. Однако она представляется единственно верной. Не отрицая важности концептуальных исследова ний, следует признать, что пришла пора перейти от слов к делу, от рассуждений о том, что такое качество подготовки, к его непосредственной оценке и контролю за его достижением. Таким образом, можно считать наиболее ценными те определения качества подготовки, которые поддаются операционализа- ции. Процедура операционализации предполагает доведение определений до уровня, на котором понятие «качество подготовки» выражается правилами измерения и конкретными измеряемыми элементами. Именно с этих позиций, с позиций уровня операциональное™ подходов и представлений о качестве подготовки, выстроен материал, в котором приоритет отдан понятиям, идентифицируемым совокупностью конкретных эмпирических референтов. Извечные попытки ученых и практиков найти ответ на вопрос, что же такое качество подготовки обучаемых, позволяют сделать лишь один несомненный вывод о неоднозначности подходов ктрак- товке этого понятия. Дополнительные трудности появляются в тех случаях, когда одновременно используют и противопоставляют два понятия «качество» и «количество». Типичным примером последне- 419
о подхода может служить термин «качественная оценка», который обычно применяется именно для того, чтобы подчеркнуть не количественный характер оценки, ее субъективизм и отсутствие явных количественных референтов. Еще один пример — Закон РФ «Об образовании», где цель и содержание аттестации определяются как установление соответствия содержания, уровня и качества подготовки выпускников образовательных учреждений требованиям государственных образовательных стандартов, т.е. в самом законе декларируется существование двух рядоположенных объектов проверки. В этой связи прежде всего необходимо уточнить оттенки словоупотребления в материале главы, где термины «качество» и «количество» не противопоставляются, а «вкладываются» один в другой. Количество — уровень подготовки — рассматривается как одна из характеристик качества подготовки. Обсуждению более широкого понятия «качество образования» Международный институт планирования образования посвятил две конференции в 1969 и 1978 г. Итогом многолетних дискуссий стал вывод о том, что дать однозначное определение понятию «качество образования» просто невозможно. Однако для практических целей под качеством образования решили понимать «качественные изменения» в учебном процессе и в среде, окружающей обучаемого, которые можно идентифицировать как улучшение знаний, умений и ценностей, приобретаемых обучаемым по завершении определенного этапа. 8.2. Уровни анализа информации о качестве подготовки обучаемых Как результат сужения понятия «качество образования» возникает понятие «качество подготовки», обсуждение которого можно вести на различных уровнях. Первый уровень — планирование обучения, когда определенные представления о планируемом качестве подготовки закладываются в образовательные программы по каждому предмету. Второй уровень обычно ассоциируется с этапом реализации образовательных программ в учебном процессе. В зависимости от обстоятельств, внешнего окружения и качества работы педагога можно говорить об определенном реализуемом качестве подготовки учеников и студентов. И наконец, третий уровень оценки с позиций качества результатов учебного процесса непосредственно смыкается с данным контекстом. Итак, в главе рассматривается качество подготовки обучаемых как результат осуществленного учебного процесса. 420
Последний, третий, уровень рассмотрения качества подготовки в зарубежных исследованиях обычно отождествляется с термином «учебные достижения», поэтому оба термина «качество подготовки» и «учебные достижения» нередко используются как синонимы в контексте данной работы. Корректность оценки качества подготовки как результата обучения представители отечественной научной школы подвергают сомнению, поскольку, с их точки зрения, представление о качестве подготовки должно ассоциироваться с внутренним состоянием обучаемого, в то время как результаты обучения проявляются во внешних наблюдаемых признаках и результатах учебного процесса. Причем критики нередко апеллируют к этому тезису как к обоснованию принципиальной порочности тестов в смысле некорректности интерпретации результатов тестовых измерений. При этом как-то забывается, что методом преодоления проблемы является не голое отрицание, а поиск решения, позволяющего получить представление о параметрах обучаемых. Именно по этому перспективному пути пошли идеологи современных параметрических методов в теории педагогических измерений, получивших название 11ет Ке$роп$е ТЬеогу (1КТ). Благодаря специальным математическим моделям и эффективному математическому аппарату, построенному на итерационных процессах, в рамках 1КТ появляется возможность перейти от внешних признаков — наблюдаемых результатов выполнения теста — к оценкам латентных параметров испытуемых, ассоциируемых с константами обучаемых на момент измерения [31]. Таким образом, использование специальных моделей измерения, соединяющих латентные параметры испытуемых с наблюдаемыми результатами выполнения теста, позволяет преодолеть отмеченное выше противоречие, что дает основания для отождествления оценок качества подготовки испытуемых с модифицированными в рамках 1КТ результатами тестовых измерений. 8.3. Традиционные подходы к оценке учебных достижений В нашей стране при оценке достижений обучаемых роль предмета измерения традиционно отводится уровню и качеству подготовки обучаемых. Что касается уровня подготовки, то с его определением дело обстоит достаточно просто. Обычно полагают, что это совокупность знаний, умений, навыков и представлений, освоенных обучаемыми на момент измерения. Как многие другие, трудно детерминируемые понятия общественных наук, предмет можно 421
определить с помощью метода, используемого для измерения знаний. Отсюда возникает прагматическое определение уровня подготовки, когда учащийся выполняет правильно то или иное количество заданий по выбранным разделам дисциплины. Гораздо сложнее определить категорию «качество». Обобщение результатов ряда отечественных научно-методических работ позволяет говорить о различии в подходах при решении этого вопроса. Среди подходов теоретиков и практиков нет не только единства, но даже сходства. Иногда категорию качества отождествляют с полнотой знаний и их глубиной, где полнота трактуется как способность ученика воспроизводить признаки изучаемого предмета, необходимые и достаточные для понимания его сущности. В других случаях под качеством знаний понимается их обобщенность — понимание сущности знания из связи его признаков, его идеи, концепции. Нередко качество знаний трактуют как системность, умение обучаемого выстроить отношения познавательных объектов, их иерархию. Иногда при оценке качества, по мнению теоретиков, на первый план должны выходить конкретность знаний, их осознанность или прочность либо логичность изложения материала, рациональность способов и приемов решения учебных задач. Есть и упрощенные трактовки, когда качество знаний понимается как превышение некоторой обученное™, а степень обученное™ в свою очередь определяется как совокупность знаний, умений и навыков, усвоенных учеником. Однако чаще всего встречается ситуация, когда знания обучаемого считают качественными, если он выполняет задания повышенной трудности. Между тем отсутствие единой, обоснованной точки зрения по этому вопросу значительно затрудняет, если не снимает полностью, возможность оценки качества подготовки обучаемых. Несмотря на требования Закона РФ «Об образовании», все усилия практиков в основном направлены на оценку уровня, а не качества подготовки. Возможность согласования различных подходов к трактовке понятия качества подготовки возникает только с появлением определения, которое, по замыслу авторов, призвано обобщить, по возможности, существующие точки зрения теоретиков и практиков. Идея общего определения непосредственно увязывается с ответом на вопрос о том, для чего нужна категория качества в процессе контроля. Проводить оценку качества подготовки учащихся с различным уровнем подготовки, по-видимому, не имеет смысла, поскольку они уже отличаются по объему усвоенных знаний, уме ний и навыков. Зато вполне правомерно одинаковому уровню подготовки поставить в соответствие различное качество. Отсюда ос- 422
тается один шаг до обобщенного определения, когда качество подготовки трактуется как совокупность существенных характеристик знаний и умений, способствующих дифференциации обучаемых с одинаковым уровнем подготовки. В дополнение к определению необходимо конкретизировать представления о существенных характеристиках знаний, умений и навыков учащихся. В процессе конкретизации возникает проблема выбора, когда приходится отдавать предпочтение тем ли иным характеристикам обучаемых, но каким? Несомненно, привлекательно выглядят такие перечисленные выше характеристики, как прочность, осознанность, обобщенность знаний. Они представляют особую ценность как для развития личности учащегося, так и для пополнения интеллектуального потенциала вузов за счет абитуриентов с высоким качеством подготовки. Однако, несмотря на всю привлекательность, перечисленные характеристики обладают существенным недостатком, поскольку не поддаются никаким объективным методам измерения. В этой связи приходится признать, что решение проблемы конкретизации базируется на новых возможностях, которые открывают в сфере измерений педагогические тесты. 8.4. Современные подходы к оценке качества подготовки обучаемых В последние годы за рубежом был предложен ряд новых интересных методов, позволяющих получить определенные представления о качестве подготовки обучаемых. К сожалению, нередко однозначный перевод и интерпретация названия этих методов затруднены в связи с отсутствием аналогичных терминов в русском языке. Далее приводится краткий обзор этих методов. 1. Метод оценки индекса структурированности знаний (те1кой З-РИпез). В отличие от традиционных средств контроля тесты при определенных условиях позволяют выявить не только уровень подготовки, но и структуру знаний учащихся, вернее, степень ее отклонения от идеальной структуры, планируемой педагогом на момент начала обучения. Элементарное представление о степени отклонения позволяет составить анализ профиля ответов учащегося на различные задания теста. Так как один и тот же уровень подготовки может быть получен при ответах на различные задания, то можно сравнить ответы учащихся с одинаковым уровнем подготовки. Если задания ранжированы по нарастанию трудности и отражают по содержанию и порядку расположения идеальную, плани- 423
руемую преподавателем при обучении структуру знаний, то общий вывод о качестве подготовки учащихся сделать довольно просто: чем меньше пробелов в ответах ученика на задания теста, тем лучше структура его знаний, тем выше качество его подготовки в группе других учеников, имеющих одинаковый с ним уровень подготовки по предмету. Характеристика степени отклонения индивидуальной структуры знаний от планируемой педагогом основана на подсчете значений специального индекса структурированности знаний, введенного в рассмотрение зарубежными исследователями. Идеальный профиль ответов, не содержащий пробелов, в мировой литературе по тестовой проблематике получил название профиля Гуттмана [47], которому соответствует нулевой специальный индекс. Большое значение индекса, характерное для инвертированных профилей с большим числом пробелов, порождает сомнения в системности знаний обучаемого и валидности его общей оценки по тесту. Конечно, использование метода оценки индекса структурированности знаний обучаемых требует разработки тестов, содержание которых отобрано специальным образом. Необходимо, чтобы по результатам ответов обучаемых с правильной структурой знаний наблюдался эффект воспроизводимости правильных ответов на более легкие задания по результатам ответов на трудные задания теста. Ситуацию с конструированием тестов значительно облегчает 1КТ, поскольку кумулятивный эффект Гуттмана заложен в самих моделях 1КТ, что позволяет создавать достаточно совершенные тесты. Несмотря на определенные трудности оценки структуры знаний учащихся в повседневной работе преподавателей, предлагаемый подход к определению качества подготовки учеников довольно корректен и с точки зрения возможности измерения удачен. Особенно привлекательно выглядит оценка структуры знаний учащихся в тех случаях, когда речь идет об оценке эффективности работы отдельных преподавателей либо групп преподавателей, как, например, при аттестации образовательных учреждений. На фоне многообразия существующих аттестационных моделей, методик, технологий, показателей и критериев оценка качества подготовки выпускников остается важнейшим показателем эффективности работы педагога. При этом в центре внимания аттестационных комиссий, работающих по традиционным схемам, находится, несомненно, уровень подготовки. Оценка качества подготовки хотя и декларируется в инструктивных документах Минобразования России, но все же остается за гранью работы организаций, проводящих аттестацию, что вряд ли оправдано. 424
В то время как уровень подготовки в основном зависит от прилежности учащегося, его способностей и желания учиться, структура знаний заметно отражает особенности организации учебного процесса. На формирование структуры знаний обучаемых в большой степени влияют умение преподавателя правильно построить программу подготовки и доступно ее изложить, его ответственность в работе по выявлению и устранению пробелов в знаниях учащихся, его умение внести моменты индивидуализации в массовый учебный процесс, словом, все то, что следует принимать во внимание в первую очередь при оценке качества работы преподавательских коллективов. 2. Аутентичная оценка учебных достижений (АшНепИс аззеззтеШ). Данная форма была впервые предложена в 1988 г. Арчибальдом и Ньюманом (АгсЫЪаШ & №\утапп) [38]. Ее отличают две основные особенности: по результатам выполнения работы делается вывод об уровне овладения учебным материалом на основе специальным образом разработанных критериальных заданий; учащимся предлагаются такие задания, которые могут вызвать у них интерес и представляют для них определенное значение. Данные задания позволяют получить эффективный конечный продукт и оценить уровень деятельности ученика. Обычно время на выполнение заданий не лимитируется. 3. «Уравновешенная» оценка учебных достижений («Ва1апсес1» аззеззтеш). Основной идеей, лежащей в основе данной альтернативной формы оценки качества подготовки обучаемых, является необходимость уравновесить традиционные формы проверки такими формами контроля, которые позволяют оценить так называемые интеллектуальные умения более высокого порядка (Ы&Ьег огйег вкШв). Впервые данный подход к оценке был предложен математиками в 1990 г. (ВеП, ВигкНагЛ, 8^ап). 4. Оценка деятельности учащихся (Рег/огтапсе а88е88теШ). Данная форма контроля помогает оценить деятельность ученика, освоенные им практические навыки с помощью эссе или заданий, позволяющих получить в качестве результата некоторый материальный продукт [57]. В целом же можно сказать, что основные изменения, происходящие в системе оценки качества подготовки обучаемых, связаны с изменениями в целях обучения, с перенесением центра тяжести учебного процесса с формирования знаний и алгоритмов деятельности на развитие логического мышления учащихся, их умений решать проблемы различного содержания и уровня, коммуникативных умений. Включение данных целей в программы обучения потребовало создания новой системы оценки учебных достижений, отвечающей новым 425
задачам. Привычное для зарубежных стран стандартизированное тестирование не смогло обеспечить прямое измерение ни коммуникативных, ни интеллектуальных умений. И потому новые тенденции в оценке качества подготовки привели к определенным изменениям в подходах к разработке педагогических тестов. 8.5. Международные исследования по оценке качества образования Как уже отмечалось, среди международных сравнительных исследований по оценке качества образования выделяются исследования, проводимые Международной ассоциацией 1ЕА, 1АЕР и Службой педагогического тестирования США — ЕТ8. Международные исследования предоставляют странам возможность всесторонне оценить эффективность функционирования своих систем образования и сравнить подготовку своих учащихся с международными стандартами. Характер сравнений может быть прямым, когда сопоставляется эффективность образования по результатам тестирования учащихся, или опосредованным. В последнем случае сравниваются результаты того, как планируемое на государственном уровне содержание образования реализуется в учебном процессе и усваивается учащимися. Каждое международное исследование по оценке качества образования имеет следующие этапы: определение концепции; определение возможных финансовых затрат и возможных спонсоров; подбор кадров в соответствии с задачами исследования; конкретизация плана исследования; выбор методологии исследования; разработка плана формирования выборки (школ, учащихся, учителей и др.); формирование выборки; разработка инструментария (подготовка первого варианта, его экспертная оценка и пилотажная проверка; разработка окончательного варианта инструментария); подготовка к печати и размножение материалов; проведение основного тестирования (подготовка лиц, проводящих тестирование; проведение тестирования); сбор и обработка данных (ввод полученной информации и работа с базой данных, взвешивание); анализ данных и подготовка отчета по результатам исследования [57,60]. Как правило, в разработке инструментария исследования принимают участие все страны. Это позволяет включить в работу ведущие коллективы мира и на основе научного сотрудничества стран поддерживать качество проводимого исследования. Так, в разработке инструментария исследования Т1М88 принимали участие многие универ- 426
ситеты и научно-исследовательские центры мира: Университет Британской Колумбии (Канада), ЕТ8 (США), Мичиганский университет (США), Университет Осло (Норвегия), РАО (Россия), Вильнюсский университет (Литва), Австралийский центр АСЕК и др. Модель анализа результатов исследования на основе современной теории тестирования (1КТ) разрабатывалась в Австралии и США (Бостон), обработка результатов осуществлялась в Германии (Гамбург). В целом можно считать, что рассматриваемый период характеризуется объединением усилий стран в проведении международных сравнительных исследований, которые дают информацию о состоянии образования в различных странах и позволяют сравнить подготовку учащихся отдельных стран с международными стандартами, а также осуществлять мониторинг качества образования в мире. Лидирующая роль в проведении подобных исследований принадлежит Международной ассоциации по оценке учебных достижений (1ЕА — 1п1егпа1юпа1 А$$ос1аиоп Гог 1Ье Ейисаиопа1 АсЫеуетеШ) — независимой организации, объединяющей научные центры более 50 стран мира и проводящей сравнительные исследования по оценке эффективности образовательных систем стран мира, осуществляющих различную политику в области образования. Первые исследования 1ЕА проводились совместно с ЮНЕСКО. За 35 лет существования, начиная с 1959 г., 1ЕА проведено более 15 исследований. Во многих странах мира результаты исследований 1ЕА дали толчок или явились основой для проведения реформ в области образования. Россия стала членом 1ЕА в 1991 г. и с этого времени принимает активное участие во всех ее исследованиях (Т1М88 — третьем международном исследовании по естественно-математическому образованию, ЬЕ8 — исследовании по иностранным языкам и С1У1С — исследовании по социальным наукам) [42]. В конце 80-х годов в связи с необходимостью проведения реформ в стране (как результат обсуждения доклада «Нация в опасности») и потребностью в получении информации о факторах, наиболее эффективно влияющих на качество образования в различных странах мира, Служба педагогического тестирования США организовала два международных исследования по оценке подготовки школьников по математике и естествознанию (1АЕР-1 и 1АЕР-П). Россия принимала участие в исследовании 1АЕР-Н. Многие международные организации, такие как ЮНЕСКО, ООН, ЮНИСЕФ, Всемирный банк, Международный институт планирования образования, ОЕСО (ОгеагияаСюп Гог Есопотю Соорега1юп апй 427
Оеуе1ортеп1), Совет Европы и др., в настоящее время проявляют значительную заинтересованность в получении информации об эффективности систем образования в различных странах мира. Страны ОЕСО объединили свои усилия в разработке индикаторов, характеризующих различные стороны образовательной системы, а также в получении информации по каждому отдельному индикатору. Кроме того, дня проведения региональных международных исследований в области образования страны объединяются в союзы, так, например, европейские страны входят в Европейский союз (Е11), страны Центральной и Восточной Европы в 1ЕАЫСЕЕ и т.д. Выводы 1. Краткий обзор проблем оценки качества образования за рубежом со всей очевидностью свидетельствует о необходимости дальнейшей углубленной их разработки и поисков современных методов их решения. 2. Опыт зарубежных стран говорит о том, что реформирование систем образования принципиально невозможно без реформирования системы оценки и контроля качества образования. 3. Новый этап обновления системы контроля и оценки качества обучения совпадает с введением стандартов образования, сущность которых в формулировании единых требований к минимально необходимой учебной подготовке во всех образовательных областях. Требования к обязательным результатам обучения, зафиксированные в стандартах, становятся объективной основой для разработки критериев эффективности качества обучения, для обновления всей системы оценки и контроля качества. 4. За рубежом существует ряд современных методов оценки качества подготовки обучаемых, разработка которых сопряжена с созданием современного поколения педагогических тестов. 5. Разработка инструментария для оценки качества подготовки обучаемых требует функционирования развернутой системы переподготовки профессорско-преподавательского состава учебных заведений России разного уровня по вопросам теории и методики создания педагогических тестов. 6. Необходимо приступить к созданию специального вида тестов (формирующих и диагностических), предназначенных для формирования качественных знаний у студентов и школьников в процессе текущего контроля и повседневной работы педагога. В целом это говорит о том, что необходимо сместить акценты с процесса оценки качества подготовки обучаемых на процесс его формирования. 428
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 1. Лванесов В. С. Основы научной организации педагогического контроля в высшей школе: Учеб. пособие. М.: МИСиС, 1987. 2. Лванесов В. С. Композиция тестовых заданий. М: Ассоциация инженеров-педагогов, 1996. 3. Амонашвшш Ш. А. Обучение, оценка, отметка. М.: Знание, 1980. 4. Лмонашвили Ш. А. Воспитательная и образовательная функция оценки учения школьников. М.: Педагогика, 1984. 5. Анастазы А. Психологическое тестирование: В 2 т. / Пер. с англ. Предисл. К. М. Гуревича, В. И. Дубовского. М.: Педагогика, 1982. 6. Беспалько В. П. Программированное обучение: дидактические основы. М.: Высш. шк., 1970. 7. Боголюбов Л.И., Дик Ю.И., Иванова Е.О. и др. О подходах к разработке требований к обязательному уровню подготовки выпускников ос новной школы // Перспективы развития общего среднего образования: Сб. науч. тр. М.: ИОСО РАО, 1998. 8. Выготский Л. С. Избранные психологические исследования. М.: Изд-во Акад. пед. наук РСФСР, 1956. 9. Гласе Дж., Стенли Дж. Статистические методы в педагогике психологии/ Пер. с англ. Л. И. Хайрусовой. М.: Прогресс, 1976. 10. Иванова А. Я. Обучающий эксперимент // Вопросы психологии: Сб. науч. тр. М.: НИИ психиатрии МЗ РСФСР, 1970. 11. Клайн П. Введение в психометрическое программирование: Справочное руководство по конструированию тестов. Киев, 1994. 12. Кларин М. В. Инновационные модели обучения в зарубежных педагогических поисках. М., 1994. 13. Концепция оценки достижения учащимися требований общеобразовательного стандарта / Колл. авторов под рук. В. С. Леднева. М. Изд-во РАО, 1993. 14. Кривошеее А. О. Разработка и использование компьютерных обучающих программ // Информационные технологии. 1996. № 4. 15. Кулибаба И. И., Красновский Э.А., Коган Т. Л. Дидактический анализ качества знаний учащихся // Проблемы и методы исследования качественных и количественных характеристик знаний, умений и навыков учащихся. М., 1976. 16. Майоров А. Н. Тесты школьных достижений: конструирование, проведение, использование. СПб.: Образование и культура, 1996. 17. Общая психодиагностика / Под ред. А. А. Бодалева, В В. Столина. М: Изд-во Моск. ун-та, 1987. 18. Омельченко Н. А.,ЛяудисВ. Я. Формирование контрольно-корректированных действий у студентов при обучении с помощью ЭВМ. Воронеж: Изд-во Воронеж, ун-та, 1982. 19. Основы педагогики и психологии высшей школы / Под. ред. А. В. Петровского. М.: Изд-во Моск. ун-та, 1986. 429
20. Поддубная Л. М., ТатурА. О., Челышкова М. Б. Задания в тестовой форме для автоматизированного контроля знаний студентов. М.: МИФИ, 1995. 21. ПойаДж. Математика и правдоподобные рассуждения / Под ред. С. А. Янковской. 2-е изд. М.: Наука, 1975. 22. Психологические проблемы неуспеваемости школьников / Под ред. Н. А. Менчинской. М.: Педагогика, 1971. 23. Родионов Б. У., Татур А. О. Стандарты и тесты в образовании. М.: МИФИ, 1995. 24. Селезнева Н. А., Байденко В. И. Проблема качества образования: актуальные аспекты пути решения // Проблемы качества, его нормирования и стандартов в образовании: Сб. науч. стагей. М.: ИЦ, 1998. 25. Симонов В. П. Педагогический менеджмент: Учеб. пособие. М.: РПА, 1997. 26. Талызина Н. Ф. Теоретическе основы контроля в учебном процессе. М.: Знание, 1983. 27. Ушинский К. Д. Собр. соч.: В 9 т. М.: Изд-во Акад. пед. наук РСФСР, 1949. Т. 8. 28. Хекхаузен X. Мотивизация и деятельность: В 2 т. / Пер. с нем. М.: Просвещение, 1986. 29. Челышкова М. Б. Организация контроля учебной деятельности студентов в условиях педагогического сотрудничества: Дис. канд. пед. наук. Киев, 1990. 30. Челышкова М. Б. Вопросы организации адаптивного тестового контроля знаний студентов// Тез. докл. участников школы-семинара «Научные проблемы тестового контроля знаний». М.: ИЦ, 1994. 31. Челышкова М. Б. Разработка педагогических тестов на основе современных математических моделей. М.: МИСИС, 1995. 32. Челышкова М. Б. и др. Критерии эффективности учебного процесса в высшей школе. Киев: КПИ, 1989. 33. Челышкова М. Б., Савельев Б. А. Методические рекомендации по разработке педагогических тестов для комплексной оценки подготовленности студентов в вузе. М.: ИЦ, 1995. 34. Челышкова М. Б., Ковалева Г. С, ТатурА. О., Хлебников В.А. Концепция аттестационного тестирования выпускников общеобразовательных учреждений на этапе перехода от школы к вузу // Проблемы качества, его нормирования и стандартов в образовании: Сб. науч. ст. М.: ИЦ, 1998. 35. Челышкова М. Б., Хлебников В. А. Основные подходы к оценке качества подготовки обучаемых // Проблемы качества, его нормирования и стандартов в образовании: Сб. науч. ст. М.: ИЦ, 1999. 36. Шторм Р. Теория вероятностей и математическая статистика. Статистический контроль качества. М.: Мир, 1970. 37. Якиманская И. С. Развивающее обучение. М.: Педагогика, 1979. 430
38. Ва(еаоп Р., /УУсо/ С, АсНгоейег Т. АкегпаПуе А$$е$$теп1 апс! ТаЫе$ оГ 8реск1са(юп Гог (ке Тгигс! 1п(егпа(юпа1 Ма(кета(ю8 апс! 8с1епсе 5(ис1у. 1СС 64, 1991. 39. Вегк К. Л. Сгкепоп-геГегепсес! МеавигетегК. Тке 5(а(е оГАг(. Ва1птоге, МО: .1окп8 Норкт$ Угиуегеку Рге88, 1980. 40. Шоот В. 5. е( а1. Тахопоту оГЕс!иса(юпа1 ОЪ|есПуе8: Тке С1а88Шса(юп оГ Ес1исаПопа1 Соа18. НапсНэоок 1: СоёпШуе Оотат. N. V.: Оау1с1 Мскау Со., 1956. 41. Сгоскег Ь., А1&па У. 1п(гос1ис(юп (о С1а881са1 апс! Мос1егп Те8( Ткеогу. иту.оГПогМа. НВЛСР, 1986. 42. Сигпси1ит Ргате>Уогк8 Гог Ма(кетаПс8 апс! 8с1епсе / Сепега1 есН(ог Оау1с1 ЯоккаШе. Т1М88 Мопо^гарк. N0 1. \Уапсоиуег (Сапайа): РасШс Ес1иса(юпа1 Рге88, 1993. 43. СгопШпс! N. Е. Но>у То Соп8(гис( АсЫеуетеп( Те8(. N.1.: Ргеписе На11, 1998. 44. Сш#ог(М. Р. Рипс1атеп(а18(а(18(1С81П Р8уско1о&у апс! Ес1иса(юп. 3 е<1 N.^,1956. 45. СиШкзеп Н. Ткеогу оГМеп(а1 Те8(8. N. У.: \УШеу, 1950. 46. НатЫеЮп К. К. АрНса(юп оП(ет Ке8роп8е Ткеогу. Уапсоиуег: Ес1ис. Ке8.1п81. В. С, 1983. 47. Кее\е$3. Р. (Ее!.) Ес1иса(юпа1 Яе8еагск, Ме(кос1о1о8у апс! Меа8игетеп(: Ап 1п(ета(юпа1 Напс1Ьоок. ОхГогск Рег^атоп Рге88, 1988. 48. Ыпп К. Ь. Ес1иса(к)па1 Меа8игетеп( (Згс1ес1.). N. У.: МастШап, 1989. 49. ЬотрхИег/. Риг Раускок^с с!ег Еегп1а(щкек. ВегНп, 1977. 50. Еогй Р. М., Моугск М. 8(а(18(1са1 Ткеопе8 оГМеп(а1 Те8( 8соге8. Ма88: Ас1сИ80пЛУе81еу РиЫ. Со. ЯеасНпё, 1968. 51. РорИат IV. /. Сгкепоп-геГегепсес! Меа8игетеп(. Епё1е\УООс! С1Ш8, N.1: Ргетюе На11, 1978. 52. КазсИ С. РгоЪак8(ю Мос1е1 Гог 8оте 1п(еШ&епсе апс! А((аттеп( Те8(8. Сгпса&о: Ошу. оГСЫса^о Рге88, 1980. 53. КоШ С. Н., НаШупа Т. V. А Тескпо1о&у Гог Те8(- кет У/гктё. N. X: Асайегтс Рге88, 1982. 54. 8ах С. Рппслр1е8 оГ Ес!иса(юпа1 апс! Р8уско1о&юа1 Меа8игетеп( апс! Еуа1иа(юп. \Уа8кт§(оп, 1988. 55. 8оГ(\уаге апс! Воок8 Гог а11 Уоиг Меа8игетеп( №ес!8 // Са(а1о& А88е88теп( 8у8(ет8 Согрога(юп, 1996. 56. 8(апс!агсН2ес! АсЫеуетеп( Те8(т& т (ке II. 8. А. А ВпеГ Оуетоу. ЗКА/Рег^атоп. 57. Та8к Сгоир оп А88е88теп( апс! Те8(1П§ Кероп. N3(101131 Сигпси1ит. Оераг(теп( оГЕс!иса(юп апс! Заепсе, 1988. 58. ТИотсИке Е. Ь. Арркес! Р8ускоте(пс8. Во8(оп: Нои^гкоп МкШ Со., 1982. 59. тф В.В., ЗЮпе М.Н. Ве8( Те8( Ое8Щп. Ме8а Рге88, 1979. 60. \Ууппе На81ет Еуа1иа(юп оГЯе8и1(8:1_еагшп& ОррогШптез апс! Рирк8 АсЫеуетегК. Рарег рге8еп(ес! а( (ке СопГегепсе «Сгоулщ* ир >укк 8С1епсе». Со(еЬогё, 1995. 431
Учебное издание Мельникова Марина Борисовна Теория и практика конструирования педагогических тестов Учебное пособие Переплет А. М. Ефремова Компьютерная верстка П.Ю. Аборина Корректор Т.М. Толмачева Изд. лиц. ИД № 01670 от 24.04.2000 Подписано в печать 05.07.2002. Формат 60x90/16 Печать офсетная. Бумага офсетная. Печ. л. 27,0 Тираж 3 000 экз. Заказ № 1868 Издательско-книготорговый дом «Логос» 105318, Москва, Измайловское ш., 4 Отпечатано с готовых диапозитивов во ФГУП ИПК «Ульяновский Дом печати». 432980, г. Ульяновск, ул. Гончарова, 14 По вопросам приобретения литературы обращаться по адресу: 105318, Москва, Измайловское ш., 4 Тел./факс: (095) 369-5819, 369-5668, 369-7727 Электронная почта: ишуег8ка8@таП.ги Ч У
ТЕОРИЯ И ПРАКТИКА КОНСТРУИРОВАНИЯ ПЕДАГОГИЧЕСКИХ • Педагогический контроль в современном учебном процессе •Основы теории педагогических измерений • Содержание теста •Формы предтестовых заданий • Статистическое обоснование качества теста •Сотрудничество преподавателей и учеников в процессе контроля •Методы шкалирования и интерпретации результатов тестирования • Основные подходы к оценке качества подготовки 15ВМ 5-94010- 785940