Автор: Шмелёв А. Г.
Теги: язык языкознание лингвистика литература художественная литература психология социальная психология педагогическая психология тестология издательство маска
ISBN: 978-5-91146-892-7
Год: 2013
А. Г. Шмелев
ПРАКТИЧЕСКАЯ
ТЕСТОЛОГИЯ.
Тестирование в образовании,
прикладной психологии
и управлении персоналом.
2013
УДК 882
ББК 84 (2Рос-Рус) 6
Ш72
Научный редактор —
кандидат психологических наук А.С. Науменко
Рецензенты:
Доктор психологических наук Н.А. Батурин
Кандидат психологических наук О.В. Митина
Ш72
Шмелев Александр Георгиевич
«ПРАКТИЧЕСКАЯ ТЕСТОЛОГИЯ. Тестирование в образовании,
прикладной психологии и управлении персоналом.»
М.: ООО «ИПЦ „Маска“», 2013 — 688 с.
ISBN 978-5-91146-892-7
Данная книга представляет собой практическое руководство, адресованное широкому кругу специалистов различного профиля —
вузовским преподавателям и специалистам по оценке персонала,
связанным с разработкой и применением тестов для оценки знаний и профессионально-важных качеств человека. Книга обобщает
тридцатилетний опыт работы автора в данной области — как преподавателя теории тестов и практического разработчика тестовых
методик и компьютеризированных систем тестирования.
УДК 882
ББК 84 (2Рос-Рус) 6
Ш72
ISBN 978-5-91146-892-7
© А. Г. Шмелев, 2013
3
Предисловие
(или краткая аннотация)
Эта книга основана на тридцатилетнем интенсивном опыте автора по созданию и внедрению тестов и компьютеризированных тестовых
систем, а также преподаванию курса «Психологическое тестирование»
на факультете психологии МГУ. Кому адресована эта книга? В настоящее
время эффективная тестовая система создается и внедряется благодаря
содружественной работе специалистов, как минимум, пяти различных
профилей, поэтому этим разным специалистам в разной степени будут
интересны разные главы книги:
1) во-первых, практически ВСЕ главы этой книги адресованы тестологам-психометристам, которые в настоящее время осуществляют не только логико-математическое проектирование тестов, но вынуждены решать
множество управленческих задач в качестве практических менеджеровтестологов: ставят задачу и организуют работу авторов тестовых заданий,
помогают им осмыслить статистические результаты с целью совершенствования тестовых заданий; эти же специалисты в случае экспертных
тестовых систем выполняют функции так называемых «когнитивных
инженеров» и фактически возглавляют проекты по внедрению систем тестирования;
2) главы 1, 2 и 3 будут и полезны, и доступны предметным экспертам — авторам тестовых заданий, которые являются специалистами в
конкретной предметной области; в случае психологических тестов эти
авторы являются психологами, но в случае предметных тестов это специалисты из других наук;
3) главы 5, 6, 7 и 8 будут полезны менеджерам-организаторам, которые
редко оказываются специалистами в двух предыдущих областях, но без
них невозможно решить организационные, юридические и технические
проблемы тестирования в конкретных организационных условиях, хотя
следует учесть, что в небольших организациях функции психометристатестолога и менеджера-организатора часто совмещаются в одном лице;
4) главы 4 и 5 нужны математикам-программистам, которые обеспечивают компьютеризацию многих процессов по подготовке, проведению
и обработке результатов тестирования (эта книга научит их внедрять готовые инструменты, а не изобретать велосипеды);
5) главы 1, 7 и 8 адресованы организационным психологам-консультантам, помогающим персоналу любой организации адаптироваться
4
Практическая тестология
к внедрению тестовой системы, а руководителям — не совершить грубых
ошибок, связанных со скрытыми процессами сопротивления этому внедрению.
Основная задача книги — помочь перечисленным пяти группам специалистов нащупать общий язык для взаимопонимания и продуктивного
взаимодействия. Книга снабжается компакт-диском, на котором собраны
как полезные электронные таблицы (Эксель-модели), иллюстрирующие
простейшие расчеты, необходимые в области практической тестологии,
так и каталог полезных ссылок на важные Интернет-ресурсы. Последнее
объясняет, почему в книге Вы не найдете того, что обычно ищут читатели,
заинтересованные в тестах, — Вы не найдете конкретных тестов. Книга
учит искать их в Интернете, причем искать не все подряд, а именно — качественные тесты, соответствующие требованиям тестологической науки, учит применять к оцениванию и выбору тестов научно-обоснованные
критерии качества.
5
Благодарности
Данное руководство — плод многолетнего сотрудничества автора со
многими замечательными коллегами — сотрудниками, аспирантами,
студентами факультета психологии МГУ, а также сотрудниками Лаборатории «Гуманитарные технологии». Значительное влияние на автора оказал опыт профессионального общения и взаимодействия с более широким
кругом коллег — специалистов в области психологической диагностики
и педагогических измерений.
Автор выражает сердечную признательность Анне Сергеевне Науменко, выступившей в роли литературно-научного редактора всех глав книги. Особой благодарности заслуживают инженеры-разработчики системы
HT-LINE, с опорой на которую выполнена большая часть проектов автора,
освещенных в этой работе: Николай Николаевич Страхов, Алексей Владимирович Орлов, Дмитрий Михайлович Ильиных, Арсений Сергеевич
Белорусец. За разработку конкретных тестовых методик автор благодарит
сотрудников и консультантов научно-методического отдела Лаборатории
«Гуманитарные технологии» Т.А. Преснову, В.В. Одинцову, О.Н. Бардину,
В.В. Алтухова, М.К. Рыбникову, М.А. Болсинову, Д.С. Портнову, И.Н. Осадчего, Д.Б. Резапову, О.А. Осипова, С.В. Зиятдинову. Во внедрение проекта
«Тестовый экзамен в МГУ» большой вклад внесли А.А. Чумаков, Н.Н. Страхов, А.Г. Ларионов, М.В. Васильцов, И.В. Едренкин, Е.В. Печенкова, М.В. Фаликман, Н.Б. Березанская, Б.Б. Величковский, А.Н. Гусев, Т.В. Корнилова,
Д.А. Леонтьев, О.Н. Чернышева; а в развитие проекта «Профориентатор» —
А.Г. Серебряков, О.Н. Кононов, В.Н. Кононова, О.А. Макарова, Е.О. Лукьянова, М.С. Миневич, С.Ю. Манухина, О.Л. Кувшинова, Д.Ф. Аббакумов.
Большую организационно-менеджерскую работу по внедрению коммерческого онлайн-тестирования на основе системы HT-LINE и организационно-техническому обеспечению Лаборатории «Гуманитарные технологии» выполнили А.В. Горбачев, Е.В. Воскресенская, Н.В. Кузьмина,
И.А. Лисица, Н.Б. Волкова, А.А. Сынникова, М.В. Васильцов, М.А. Коняхин,
А.А. Жердев, В.М. Лобов, О.В. Гайдук. Заслуживают упоминания и такие
сотрудники из более раннего состава Лаборатории, как И.В. Бурмистров,
Ю.А. Машинцев, Л.Я. Загорская, М.А. Джерелиевская, И.В. Кладовщикова,
М.А. Трухманова, Д.К. Сатин.
Данная книга не родилась бы без опоры на более ранние тестовые
проекты автора («Телетестинг», сайт ege.ru, компьютерная модель К-ЕГЭ),
в которых, кроме упомянутых выше А.Г. Ларионова и А.Г. Серебрякова, также незаменимую роль сыграли А.С. Соловейчик (спонсор проекта
«Телетестинг» от издательского дома «Первое сентября»), М.В. Фаликман,
6
Практическая тестология
Н.В. Серебрякова, А.И. Бельцер, Д.В. Шаповалов, Т.А. Костромина,
О.И. Виноградова, О.Р. Субхангулов , Д.М. Ильиных, А.А. Чумаков. За содействие в становлении и обеспечении курса «Основы психодиагностики» в МГУ автор благодарит декана факультета психологии МГУ в начале
80-х годов А.А. Бодалева, руководителей практикума Б.М. Величковского,
М.Б. Михалевскую, своего первого научного руководителя В.А. Иванникова, а также руководителя дипломной работы и кандидатской диссертации
Е.Ю. Артемьеву, соавтора по первым учебным пособиям по психодиагностике В.В. Столина, рецензента-консультанта по первой программе курса
К.М. Гуревича, заведующего кафедрой психологии труда Ю.К. Стрелкова,
а также сотрудников факультета психологии МГУ С.Р. Пантилеева, А.И. Зеличенко, И.М. Карлинскую, С.А. Капустина, И.В. Евсевичеву, Е.В. Эйдмана,
И.В. Бурмистрова, Е.А. Орел, А.Г. Ларионова, А.А. Потапкина, В.В. Барабанщикову, О.А. Митину (этот ряд фамилий был упомянут в порядке нечеткой
хронологии). Отдельная благодарность за сотрудничество в рамках проекта «Кейс-тесты» — А.А. Потапкину, Ю.В. Мостепановой, Т.С. Кабаченко ,
Е.А. Орел, А.А. Чумакову, О.Б. Бекасову; за сотрудничество при создании
портала www.ege.edu.ru автор благодарит Б.И. Беспалова, В.Л. Бурцева,
Д.М. Ильиных, А.В. Киреева, Г.А. Краснову, А.Г. Королькова, Т.А. Костромину, М.П. Матекина.
В особой роли надо упомянуть здесь тех руководителей системы образования и отдельных учреждений образования России, которые оказали
организационно-политическую поддержку автору при реализации ряда
основных проектов:
— президент Общества психологов АН СССР в 80-е годы Ю.М. Забродин
(1-й Всероссийский конкурс компьютерных тестовых методик),
— заместитель министра образования РФ в 90-е годы А.Г. Асмолов (сертификационный семинар и экзамен «Психометрические основы психодиагностики»),
— декан факультета психологии МГУ имени М.В. Ломоносова в 90-е годы
Е.А. Климов (проект сети компьютеризированных центров «Профориентатор»),
— заместитель министра образования РФ в 90-е годы В.Д. Шадриков, ректор МГУ В.А. Садовничий, проректоры МГУ А.В. Сидорович и А.В. Михалев (проект «Олимпиада «Телетестинг»),
— заместитель министра образования РФ и первый руководитель Рособрнадзора В.А. Болотов (проект сайта ege.ru, портал ege.edu.ru и «компьютерная модель ЕГЭ»),
— действующий декан факультета психологии МГУ имени М.В. Ломоносова Ю.П. Зинченко (проект компьютеризированного тестового испытания в системе госэкзаменов для студентов-выпускников).
Автор признателен членам комиссии по тестированию при Минобразования РФ (90-е годы), комиссии по ЕГЭ при Рособрнадзоре (2000-е
годы), членам Ученого совета Федерального Института педагогических
Благодарности
7
измерений (ФИПИ) за неоднозначную, но все-таки поддержку в осуществлении целого ряда проектов тестирования в области образования, но
главным образом за возможность спорить и не соглашаться: В.С. Аванесов,
Т.А. Бархатова, В.И. Звонников, А.Г. Ершов, Г.С. Ковалева, Г.А. Краснова,
В.Ж. Куклин, Ю.М. Нейман, Н.М. Розина, А.М. Протасов, О.А. Решетникова,
А.О. Татур, В.А. Хлебников, М.Б. Челышкова, В.Н. Шаулин. Компьютеризированные опросы преподавателей и экспертов-методистов помогали проводить Э.Д. Днепров, Е.Я. Коган, А.Н. Лейбович, А.Н. Майоров, Е.Л. Рачевский, С.А. Сафронов, А.Л. Семенов, В.С. Собкин, В.М. Филиппов, И.Д. Фрумин. Инновационные экспериментальные проекты в области контроля
качества образования (проект «Плагиат-контроль», в частности) поддерживали работники ГУ ВШЭ Я.И. Кузьминов, В.В. Радаев, М.С. Добрякова,
А.К. Болотова, Ю.А. Тюменева.
Следует отметить очень полезный вклад в обсуждение отдельных вопросов, освещенных в книге, таких активных участников экспертного
интернет-сообщества на сайте www.ht.ru, как М.К. Акимова, Т.Ю. Базаров, Т.В. Барлас, Н.А. Батурин, А.В. Булгаков, Л.Ф. Бурлачук, А.Г. Виноградов, А.В. Воробьев, В.А. Дюк, М.С. Егорова, А.К. Ерофеев, В.А. Жильцов,
Г.М. Зараковский, Е.П. Кринчик, А.А. Козяк, А.П. Коняева, С.Г. Костромина, Т.В. Кочетова, Е.А. Куприянов, А.Б. Леонова, Д.А. Леонтьев, Е.В. Лурье,
О.В. Митина, А.Д. Наследов, О.Г. Носкова, А.В. Поддьяков, К.В. Осетров,
В.Е. Орел , А.Ю. Попов, И.В. Рудинский, Л.Н. Собчик, Ю.А. Тукачев,
А.Ш. Тхостов, Д.В. Ушаков, Л.Ф. Чупров, К.Р. Червинская , И.П. Шкуратова, Ю.В. Щербатых. Заслуживают благодарного упоминания и мои соавторы по публикациям в данной области, включая ранние публикации:
М.К. Андреева, И.Ю. Белякова, Н.Б. Березанская, В.С. Болдырева, Е.М. Борисова, И.А. Володарская, С.Э. Габидулина, А.Е. Граменицкий, Г.А. Гребенюк, Н.Н. Данилова, М.А. Джерелиевская, В.Н. Дружинин, Ю.М. Забродин, А.И. Зеличенко, Ч.А. Измайлов , И.М. Карлинская, А.Ю. КозловскаяТельнова, А.С. Кондратьева, М.Е. Кошелюк, Е.А. Куприянов, Т.Р. Лепеха,
Е.Ю. Логутова, Г.Я. Лившиц, Ю.А. Машинцев, А.А. Нистратов, А.Л. Пажитнов, В.Ф. Петренко, Д.С. Портнова, В.В. Похилько, В.С. Собкин, Е.Н. Соколов, Е.Т. Соколова, А.С. Спиваковская, В.В. Столин, О.А. Тихомандрицкая,
Н.Н. Третьяков, Ю.В. Фомичева, Н.В. Цзен , М.Б. Челышкова, Е.В. Эйдман.
В отдельной группе, видимо, следует упомянуть зарубежных соавторов
и коллег, содействовавших выпуску публикаций в международных научных журналах и сборниках: Л. Голдберг, Е. Григоренко, Д. Дигман, Д. Пибоди, Р. Проктор, Н. Хаммонд,
За ценные замечания в период подготовки книги автор обязан поблагодарить Е.И. Рыхлевскую, М.А. Болсинову; за предоставленные иллюстративные материалы — Е.Ю. Карданову, Н.В. Киршеву, Ю.А. Тукачева, за
организационную помощь в издании — В.М. Лобова.
8
Оглавление
Предисловие (или краткая аннотация) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Благодарности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Введение: Тесты могут быть полезны и… вредны . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Глава 1. Определения и классификация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.1. Что такое тест и тестология? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Житейское и научное понимание . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Краткое и полное определение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Тест в ряду других методов:
наблюдение, эксперимент, опрос, анкета . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Тест как часть исследования и часть обследования . . . . . . . . . . . . . . . . . . . . . . 48
Предмет и объект тестирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Предмет и объект тестологии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Тестирование как одна из возможных оценочных процедур . . . . . . . . . 54
Определение понятия «тестовая система» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Практическая тестология
как организационно-технологическая дисциплина . . . . . . . . . . . . . . . . . . . . . 58
1.2. Основные метрологические понятия тестологии. . . . . . . . . . . . . . . . . . . . . . . . . 60
Психометрические тесты и их отличие
от квазиизмерительных тестов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Ключи, нормы, сырые и стандартные тестовые баллы . . . . . . . . . . . . . . . . . . 64
Психометрические свойства тестов в самом простом изложении. . . 67
Надежность. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Валидность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Репрезентативность. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Достоверность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Краткие определения психометрических параметров теста . . . . . . . . . . 71
Прагматическое значение психометрических параметров теста . . . 71
Различение надежности и валидности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.3. Какие бывают тесты (классификация) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Образовательные, медицинские, профессиональные и
психологические тесты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
24 основания для классификации тестов и тестовых заданий . . . . . . . . 82
Являются ли проективные методики тестами? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Оглавление
9
1.4. Место тестов в ряду комплексных систем обследования и
оценивания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Тесты и экспертные оценки. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Достоинства и недостатки тестов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Тесты и кадровый ассессмент (метод «Центр Оценки») . . . . . . . . . . . . . . . . 104
1.5. Тестирование и принятие решений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Модели принятия решений:
житейская логика и одношкальный подход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Недостатки аддитивных моделей принятия решений . . . . . . . . . . . . . . . . 109
Формула взвешенного рейтинга. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Подсчет рейтинг-процента с помощью лимитов по критериям . . . . 113
Формула близости к идеальному профилю
и «логический коридор» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
Планирование этапов тестирования «от целей». . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Глава 2. Конструкция и конструирование измерительных тестов . . . . . . . . . . . . . . . . . 122
2.1. Компоненты теста и порядок их создания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Примеры ключей к психологическим и образовательным тестам 124
Порядок разработки компонентов теста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
НОРТ: статистические тестовые нормы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
КОРТ: критериальные тестовые нормы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
«Прозрачность» квалификационного теста
как один из целевых критериев . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
2.2. Этапы конструирования
и проведения практического теста. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Этап 1. Постановка и уточнение задачи в организационном
контексте. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Этап 2. Методическое решение: статистическая модель теста . . . . . 140
Этап 3. Спецификация, или структурная модель теста . . . . . . . . . . . . . . . . 143
Этап 4. Выбор организационно-технического решения . . . . . . . . . . . . . . . . 147
Этап 5. Авторский цикл подготовки банка тестовых заданий . . . . . . 148
Этап 6. Экспертный цикл подготовки банка заданий и вариантов 149
Этап 7. Первичная апробация теста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
Этап 8. Оргтехническая подготовка тестовой сессии. . . . . . . . . . . . . . . . . . . 158
Этап 9. Пилотное тестирование. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
Этап 10. Массовое обследование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Этап 11. Шкалирование, баллирование и анализ
достоверности результатов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Этап 12. Ревизия теста на основе углубленной статистической
обработки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Специфика этапов для коммерческих тестов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
10
Практическая тестология
2.3. Тест как объект интеллектуальной собственности и «секрет
производства» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
2.4. Процедура тестирования как сценарий и алгоритм . . . . . . . . . . . . . . . . . . . . . 179
Предписывающая информационная технология. . . . . . . . . . . . . . . . . . . . . . . . 181
Экспертная система. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
2.5. Языковая и компьютерная адаптация теста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Компьютеризация бланкового теста. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Чем локализация отличается от адаптации? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Модификация и разработка аналога . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Охраноспособность отдельных компонентов теста . . . . . . . . . . . . . . . . . . . . . . 191
2.6. Профессиональные стандарты и сертификация тестов . . . . . . . . . . . . . . . 193
2.7. Стандарты в области аттестационных экзаменационных
технологий. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Глава 3. Разработка тестовых заданий и образцы заданий . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
3.1. Оперативное конструирование КБТЗ (банка заданий) . . . . . . . . . . . . . . . . . 201
Формирование авторского коллектива . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
Инструкция (памятка) для авторов тестовых заданий . . . . . . . . . . . . . . . . 203
Цель и задачи создания теста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Условия работы авторов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Нормативно-инструктивная база для создания тестовых
заданий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Техническое оформление заданий в электронной форме. . . . . . . . . . . . . 206
Четыре основных правила (для «памятки авторам») . . . . . . . . . . . . . . . . . . . 209
Контроль трудности заданий на авторском этапе . . . . . . . . . . . . . . . . . . . . . . . . 211
3.2. Когда нужны задания различных форматов? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
Задания с выбором единичного ответа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Задания с множественными правильными ответами. . . . . . . . . . . . . . . . . 215
Задания на ранжирование и соответствие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
Задания с кратким свободным ответом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
Задания с развернутым ответом и свободным
структурированным ответом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
Задания с рисуночным ответом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Кластер вопросов на понимание одного текста . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Контекстная вставка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
3.3. Логико-семантическая типология тестовых заданий . . . . . . . . . . . . . . . . . 231
Простейшее деление на 3 категории . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Более полное деление на 15 категорий вопросов: . . . . . . . . . . . . . . . . . . . . . . . . . 233
Фактологические и персонологические . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Терминологические и концептуальные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Логико-теоретические . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Оглавление
11
Методические, конструктивные, процедурные . . . . . . . . . . . . . . . . . . . . . . . . . . 237
На понимание текста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Задания типа «кейс» (случай из жизни) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
3.4. Рефлексивные игры и психологика испытуемых . . . . . . . . . . . . . . . . . . . . . . . 241
Социальная желательность ответов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
3.5. Особые технические проблемы при разработке заданий ................244
Частотно-классификационные таблицы тестовых заданий . . . . . . . . . 244
Двух- и трехсимвольная нотация тестовых заданий. . . . . . . . . . . . . . . . . . . 245
Тематические кластеры заданий в кейс-тестах . . . . . . . . . . . . . . . . . . . . . . . . . . 246
Несовместимые и фасетные задания. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
3.6. Коррекция заданий на основе статистики........................................250
Осторожно: завышенные коэффициенты дискриминативности . . 254
Глава 4. Математическая тестология . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
4.1. Элементарный матминимум практического тестолога................... 257
Подсчет баллов с поправкой на случайное угадывание . . . . . . . . . . . . . . . 258
Процентильные шкалы и процентильные нормы. . . . . . . . . . . . . . . . . . . . . . . 261
Гаусcовская модель и стандартные шкалы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
Форсированная нормализация и конверсионные таблицы . . . . . . . . . . 271
Ошибка измерения и надежность теста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
Числовой пример расчета надежности по формуле Рюлона . . . . . . . . . . 277
Корреляционные методы измерения надежности
и валидности теста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
Четырехклеточная корреляция . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
4.2. Элементы современной психометрики (IRT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
Шкала логитов и метафора взвешивания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
Модель Раша и однопараметрические алгоритмы IRT . . . . . . . . . . . . . . . . . 298
Характеристические кривые тестовых заданий (ICC) . . . . . . . . . . . . . . . . . . 300
Двухпараметрические алгоритмы IRT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
4.3. Рекомендации по измерению психометрических свойств теста ...306
Измерение надежности. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Измерение внешней валидности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
Измерение репрезентативности — перепроверка тестовых норм . . 311
Измерение устойчивости распределения оценок . . . . . . . . . . . . . . . . . . . . . . . . 313
Измерение достоверности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Диссертабельность психометрических исследований. . . . . . . . . . . . . . . . . 320
4.4. IRT-модели за пределами тестов на знания и способности ............. 322
Модифицированная модель Раша для ресурсных кейс-тестов . . . . . 322
IRT-модель для диагностики стилистических черт и установок . . . . 327
4.5. Важные прикладные формулы........................................................... 335
12
Практическая тестология
Оптимальная трудность тестовых заданий
в тестах с выбором ответа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
Подсчет баллов с учетом трудности тестовых заданий . . . . . . . . . . . . . . . . 336
Глава 5. Организационно-технологическое обеспечение тестовых систем. . . . . . . 345
5.1. Системный подход к внедрению тестов в организации. . . . . . . . . . . . . . . 345
Различение понятий обучающей и тестовой системы. . . . . . . . . . . . . . . . . 346
Признаки автоматизированной системы тестирования (TMS) . . . . . 350
Организационно-управленческая модель тестовой системы . . . . . . . 350
Электронный документооборот при создании TMS (АСТ). . . . . . . . . . . . . 351
Электронные онлайн-опросы на этапе подготовки TMS (АСТ) . . . . . . . 356
Кадровое обеспечение и организационные роли . . . . . . . . . . . . . . . . . . . . . . . . . 357
5.2. Классификация программных средств практической тестологии 358
Инструменты подготовки тестовых заданий (IWS-программы) . . . 358
Конструкторы, или редакторы тестов (TCS-программы) . . . . . . . . . . . . . . 363
Тест-плейеры для реализации тестового диалога (TDSпрограммы) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
Инструменты психометрического анализа результатов (IRTпрограммы) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
Инструменты управления тестированием (ТМS-программы). . . . . . . 374
Экспертные системы интерпретации результатов
тестирования (EIS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
Программы управления ассессментом (AMS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
5.3. Особенности компьютерного тестирования в эпоху Интернета . . . 385
Самотестирование в Интернете и проблема достоверности . . . . . . . . . 386
Телетестинг и модель «онлайн-обработка» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
Веб-портфолио результатов тестирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
Распределенные базы тестов и тестовых заданий в Интернете . . . . 394
Виртуальные профессиональные сообщества тестологов. . . . . . . . . . . . . 396
Проблемы супервизии и аутентификации испытуемого. . . . . . . . . . . . . 400
5.4. Модели, алгоритмы и подходы в компьютерном тестировании . . . 401
Случайный выбор из банка заданий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
Контроль времени на компьютерах. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
Адаптивное тестирование (AT-алгоритмы) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
Компьютерные тесты контекстной вставки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
Имитационно-игровое моделирование и его ограничения . . . . . . . . . 416
Новые возможности для контроля достоверности . . . . . . . . . . . . . . . . . . . . . . . 418
5.5. Компьютерная интеграция тестовых и экспертных
оценочных процедур . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
Куб данных и место результатов тестирования . . . . . . . . . . . . . . . . . . . . . . . . . . 420
Оглавление
13
Альтернативные и сквозные подмножества факторов и
критериев . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
Мгновенное тиражирование сложных оценочных проектов . . . . . . . 426
Оперативное управление формулами расчета рейтинга . . . . . . . . . . . . . 427
5.6. Революционный переход к онлайн-тестированию . . . . . . . . . . . . . . . . . . . . . 428
Глава 6. Валидность, рентабельность и достоверность психометрических
тестов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
6.1. Проблема валидизации и виды валидности. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
Экспертная валидизация по содержанию тестовых заданий . . . . . . . 432
Эмпирическая валидность различных тестов
по внешнему критерию . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
Прогностическая валидизация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
Конструктная валидность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
Конвергентная и дискриминантная валидность . . . . . . . . . . . . . . . . . . . . . . . . 443
Экспертная валидизация с помощью оценивания испытуемых . . 446
Дискриминантная валидность тестовых баллов
и экспертных оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448
6.2. Валидность и эффективность профессиональной деятельности ....450
Различные KPI — откуда их брать и как сводить в единый
показатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
Дефекты субъективного оценивания на производстве и
псевдо-KPI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
«360 градусов» как попытка объективизации субъективных
оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
6.3. Упрощенная формула точности бинарного прогноза. . . . . . . . . . . . . . . . . . . 457
6.4. Рентабельность теста. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
Простые формулы для расчета экономического
эффекта тестирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
Расчет рентабельности слабовалидного,
но дешевого инструмента отбора . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
Расчет рентабельности высоковалидного,
но дорогого инструмента отбора . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
Как считать эффективность через производительность труда . . . . . . . 471
6.5. Экологическая валидность и типы диагностических ситуаций. . . . 475
Различение ситуации клиента и ситуации экспертизы . . . . . . . . . . . . . . . 477
Мотивационные искажения, стратегии фальсификации,
их признаки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
Эффект самоорганизующейся выборки (добровольцев) . . . . . . . . . . . . . . . 480
6.6. Мотивационные искажения в тест-опросниках . . . . . . . . . . . . . . . . . . . . . . . . . 481
14
Практическая тестология
Что могут и что не могут шкалы лжи
в личностных тест-опросниках? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
Ипсативные тест-опросники и их недостатки . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
Четырехполюсная модель личностной черты . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
6.7. Технологии обеспечения достоверности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
Технический местный контроль достоверности . . . . . . . . . . . . . . . . . . . . . . . . . 490
Жесткие временные лимиты и стресс дефицита времени . . . . . . . . . . . 492
Утечка, списывание, подсказка,
подставные испытуемые, подтасовка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493
Существует ли рациональная этика честного тестирования? . . . . . . 496
Глава 7. Внедрение тестов в систему вузовских экзаменов. . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
7.1. Тесты и традиционные оценочные процедуры . . . . . . . . . . . . . . . . . . . . . . . . . . 500
Устные экзамены глазами тестолога. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
Являются ли письменные экзамены тестами? . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
Опросы студентов и абитуриентов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507
7.2. Текущий контроль с помощью оперативных онлайн-тестов . . . . . . . . 508
Система накопленных баллов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508
Управление доступом к тестам, имеющим очковый вес в СНБ . . . . . . 511
Трудности применения СНБ в условиях конкуренции
между спецкурсами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
Адаптивное тестирование в тестах допуска «зачет-незачет» . . . . . . . . 513
Баллы самоконтроля или все-таки «данные для экзаменаторов»? . . 517
7.3. Организация компьютерного тестирования на экзаменах . . . . . . . . . . 518
Расписание и самозапись на сеансы тестирования . . . . . . . . . . . . . . . . . . . . . 518
Демоверсия, консультация, предварительная регистрация . . . . . . . . . 521
Должен ли экзаменуемый что-то подписывать? . . . . . . . . . . . . . . . . . . . . . . . . . 522
Соответствие между баллами и оценками . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
Обратная связь после экзамена . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524
Апелляции по процедуре и содержанию экзамена . . . . . . . . . . . . . . . . . . . . . 525
А что, если «нет Интернета»? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525
Как договариваться о вкладе тестовых оценок в итоговую оценку? . . . . 527
Суммировать оценки или баллы?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529
7.4. Опыт валидизации тестовых и традиционных испытаний. . . . . . . . . 530
7.5. Организационное обеспечение тестовых экзаменов . . . . . . . . . . . . . . . . . . . 538
Организация работы авторов и экспертов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539
Сезонная организация работ по обновлению тестов . . . . . . . . . . . . . . . . . . . . 542
Организация работы технического персонала . . . . . . . . . . . . . . . . . . . . . . . . . . . 544
7.6. Образцы нормативных документов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
Соглашение с автором-экспертом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
Оглавление
15
Положение о конкурсе авторов тестовых заданий . . . . . . . . . . . . . . . . . . . . . . 546
Памятка участнику компьютеризированного тестирования. . . . . . . 547
О порядке учета результатов тестового испытания . . . . . . . . . . . . . . . . . . . . . 550
О порядке выставления оценок на основе схемы СНБ (новый
проект) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
Образец ВЕДОМОСТИ с результатами тестирования . . . . . . . . . . . . . . . . . . . 553
7.7. Критический анализ системы ЕГЭ в России . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554
Глава 8. Социально-психологические проблемы внедрения тестовых систем . . . 558
8.1. «Тест как оружие» — эвристическая метафора . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558
Обсуждение тестов в СМИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558
В чем сходство теста и оружия? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561
Тесты и экспертные оценки в логике принятия
кадровых решений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568
8.2. «Песнь о Вещем Олеге», или корни отвержения тестов . . . . . . . . . . . . . . . . 572
Контекст, методика и результаты исследования установок
студентов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572
Форма и способ представления тестовой информации. . . . . . . . . . . . . . . . 585
8.3. Личностная тревожность, экзаменационная тревожность и
тестирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586
8.4. Компьютерная тревожность и тестирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
8.5. Субъективная готовность испытуемых
к оценочным процедурам . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 600
8.6. Тестирование и тестовые шкалы как инструмент конкуренции . . 609
8.7. Природа, причины и факторы сопротивления тестам . . . . . . . . . . . . . . . . 613
8.8. Когда тесты в самом деле вредны . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 618
8.9. Профессионально-этические принципы тестолога . . . . . . . . . . . . . . . . . . . . . 621
Примеры путаницы и «этические конфликты» . . . . . . . . . . . . . . . . . . . . . . . . . . 624
Принципы и требования в ситуации обследования клиента . . . . . . . 625
Принципы и требования в ситуации
профессионального тестирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626
Образец документа «информированное согласие» . . . . . . . . . . . . . . . . . . . . . . 629
Заключение. «Тест как лекарство». . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630
Библиография и веблиография ......................................................... 634
Приложения ...................................................................................... 643
1. Словарь-глоссарий сокращений и основных терминов . . . . . . . . . . . . . . . . 643
2. Контрольные вопросы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
Вопросы к главе 1 «Определение и классификация» . . . . . . . . . . . . . . . . . . . . 652
Вопросы к главе 2 «Конструкция и конструирование» . . . . . . . . . . . . . . . . . 653
Вопросы к главе 3 «Разработка тестовых заданий» . . . . . . . . . . . . . . . . . . . . . . 654
16
Практическая тестология
Вопросы к главе 4 «Математическая тестология» . . . . . . . . . . . . . . . . . . . . . . . . 655
Вопросы к главе 5 «Организационно-технологическое
обеспечение». . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656
Вопросы к главе 6 «Валидность, рентабельность и достоверность» 657
Вопросы к главе 7 «Внедрение тестов в вузы» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658
Вопросы к главе 8 «Социально-психологические проблемы» . . . . . . . . 659
3. Временный стандарт требований к психодиагностическим
методикам . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661
4. Предметно-именной указатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666
17
Введение:
Тесты могут быть полезны и… вредны
К тестам и тестированию отношение у разных людей разное. Да и у
одного и того же человека это отношение зависит от ситуации, а также
от того, что именно тестируется — знания и умения или личностные качества. Например, вряд ли кто в наше время будет оспаривать тесты на
знание правил дорожного движения. Выбор из предлагаемых вариантов в
данном случае вполне оправдан, ведь вариантов у водителя на перекрестке на самом деле немного: стоять либо двигаться — вперед, направо, налево или на разворот... Да и во многих других видах деятельности вариантов возможного поведения вовсе не так много, как кажется. Во всяком
случае правильных способов поведения гораздо меньше, чем ошибочных.
Так что тесты на знания и умения решать задачи более чем естественны
в эпоху мощных автоматизированных систем управления транспортными потоками, потоками людей, потоками информации, потоками денег….
Они позволяют допускать к работе только подготовленных людей, а неподготовленных отправлять на доучивание, то есть не допускать в данный
момент к ответственной деятельности (работе), связанной с риском для
жизни и здоровья людей.
Рассмотрим для начала отношение к тестам с позиции испытуемого — того, кто выполняет тест. Одно дело — пройти тест «для себя», чтобы
получить только самому какие-то сведения о себе. Таких возможностей
с появлением различных Интернет-сайтов все больше у каждого человека. Как правило, на этих сайтах достаточно лишь весьма условной регистрации (можно вводить какие-то псевдонимы, ники и т.п.) или ее вовсе
не требуется. В этих случаях само по себе прохождение теста не вызывает острой тревоги, а скорее провоцирует любопытство, поэтому каждый
день такие тесты «для самопознания и развлечения» в Интернете проходят буквально десятки или даже сотни тысяч людей только в России, а по
планете в целом — это миллионы. Совсем другое дело, когда результаты
тестирования начинают на что-то влиять вне зависимости от желаний
испытуемого. В этом случае тест превращается в инструмент… экзамена.
А кто же любит экзамены? Точнее, экзаменуемые не любят такие экзамены, когда возникает риск «провалиться» — показать низкий результат и
ухудшить для себя жизненную ситуацию. Но ведь если тестирование организовано грамотно, «без дураков», то есть, без сознательных послаблений со стороны экзаменующих, то риск «провалиться» всегда возникает,
18
Практическая тестология
поэтому настоящее тестирование, как и настоящий экзамен (с привлечением независимых и строгих экзаменаторов), всегда вызывает тревогу, а
нередко — скрытый и даже открытый протест1.
В этой книге мы будем не раз рассматривать вопрос об отношении
к тестам и к самой ситуации тестирования со стороны испытуемых, но
главный адресат книги — это тот человек, который проводит тестирование. Назовем его для простоты «тестолог». Чаще всего в роли «тестолога»
в разных организациях выступают разные специалисты, которые сами
себя тестологами не считают. Это педагоги, врачи, психологи, управляющий и вспомогательный персонал (в частности, специалисты по человеческим ресурсам — «эйчары») и т.п. В западной тестологической литературе тех, кто проводит тестирование, называют, как правило, не «тестологами», а «пользователями» или «администраторами» тестов. Но мы чаще
будем использовать термин «тестолог», или «менеджер-тестолог», хотя бы
для того, чтобы читателю было все более и более понятно само название
данной книги. Одним из ключевых принципов для нас является требование к квалификации проводящего тестирование — этот пользователь
тестов должен быть профессионально подготовленным тестологом, иначе
возникает масса ошибок в применении тестов.
Так вот у самих потенциальных «тестологов» (у тех, кому предписывается роль организаторов процесса тестирования) отношение к тестам тоже
часто оказывается разным. Далеко не все врачи и учителя относятся к тестам позитивно, а если их самих отчуждают от проверки результатов, то
большинство относятся к тестам просто негативно (автор этих строк проводил массовые опросы учителей об их отношении к ЕГЭ и другим тестовым проектам). Да и среди психологов очень распространенным является
предубеждение против тестов: мол, тесты не позволяют учесть все тонкости человеческой уникальной индивидуальности, поэтому являются несправедливым и негуманным инструментом.2
Уже здесь, во введении мы сформулируем тезис, в котором очень важно разобраться с самого начала. Это тезис о том, что тесты могут быть И
ПОЛЕЗНЫ, И ВРЕДНЫ.
1
Чтобы прочувствовать этот протест, предлагаю читателю простейший социальный эксперимент: предложить своим коллегам с помощью не шуточного, а достаточно серьезного
теста проверить уровень знаний иностранного языка (или своим однокурсникам) и пронаблюдать за реакцией, при этом результаты каждого предложить сделать публичным достоянием. — Прим. автора.
2 Правда, на фоне этого пафосного осуждения тестов с позиции Высокого Гуманизма редко
ставится вопрос о том, а в какой мере два наугад взятых независимых друг от друга гуманиста ОДИНАКОВО учитывают «уникальную человеческую индивидуальность» в конкретном
случае, или каждый все-таки по-своему? Но сейчас мы отодвинем на время в сторону этот
вопрос –о согласованности экспертных оценок в неформализованных и нестандартизированных оценочных процедурах. По крайней мере, это вопрос не для введения. — Прим. автора.
Введение. Тесты могут быть полезны и… вредны
19
Тезис 1. Тесты могут быть и полезны, и вредны в разных ситуациях, но… различение этих ситуаций осложняется ролевой позицией испытуемого (тестируемого) и тестирующего.
Мне представляется принципиальным найти читателей этой книги
не только среди тех, кто считает, что тесты полезны, но и среди тех, кто
уверен в обратном и относит себя скорее к противникам тестов. Понимаю,
как это непросто, но мне очень хотелось бы с самого начала найти взаимопонимание если уж не с яростными противниками тестов и тестирования, то хотя бы с теми критически мыслящими читателями, которые
видят в этом методе, как и я сам, не только достоинства, но и недостатки.
А для этого я собираюсь детально описать такие ситуации, в которых тесты действительно ВРЕДНЫ.
Итак, всякий метод имеет свои сильные стороны и слабости, так и метод тестов. Написав несколько лет назад статью «Тест как оружие» (Шмелев, 2004), я хотел предельно ясно высветить утверждение: «Тесты — это
острый инструмент, и он может быть опасным, когда применяется неправильно». Впрочем, оружие — это возможно даже избыточная гипербола.
Возьмем обычный бытовой колющий или режущий инструмент — такой
как ножницы или обыкновенная иголка. И этими инструментами можно больно порезаться и уколоться, если держать неправильно (обратным
концом), или применять неумело. Тесты привлекают кажущейся простотой неопытных специалистов и всевозможных дилетантов: начинающих и просто слабых педагогов, неуверенных в себе врачей, застенчивых психологов, малосодержательных журналистов, плохих чиновников,
привыкших скорее имитировать управленческую деятельность, чем осуществлять ее по-настоящему. Многие любители тестирования подобного
рода имеют крайне поверхностные представления о тестах и процедурах
тестирования и не знают о существовании науки тестологии, которую необходимо изучать. Поэтому они совершают грубейшие ошибки, которые,
в свою очередь, приводят к массовой дискредитации самой идеи тестирования. В настоящее время не существует никаких особых квалификационных требований, которые ограничивали бы или пресекали непрофессиональное и неграмотное использование тестов. Остается лишь надеяться, что когда-нибудь эта ситуация изменится, и для проведения массового
тестирования, влияющего на судьбы людей, в нашей стране потребуется
особый «сертификат тестолога» (чтобы понять, почему диплом о высшем
психологическом образовании ныне не может заменить такой сертификат, надо прочесть эту книгу).
Полезно сравнить позицию «тестолога», проводящего тестирование,
с позицией… парикмахера-брадобрея. Может ли неумелый парикмахер
порезать своего клиента, сидящего в кресле? — Может. Это происходило
в истории парикмахерского дела, наверное, много тысяч раз. Но почему
же против опасной бритвы и ножниц не так много протестующих, как
20
Практическая тестология
против тестов? Я имею в виду протестующих среди исполнителей. — Вот в
этом надо бы разобраться, это надо бы понять.
А разница в этих инструментах в том, что тест — это стандартизированный интеллектуальный инструмент, в то время как ножницы и опасная бритва — это «ручные инструменты». 3 «Ручные инструменты», как правило, повышают требования к квалификации мастера
(исполнителя). Поэтому сами мастера любят именно нестандартизированные инструменты: они подчеркивают их незаменимость, их
ценность на рынке. Не всем можно доверить опасную бритву, не всем
можно доверить стричь и брить клиентов. В то же время стандартизированный инструмент нередко воспринимается профессионалами как своеобразная «безопасная электробритва», которой бреют себя
сами миллионы (наверное, миллиарды) людей. Разве могут ценить
электробритвы мастера-парикмахеры? Поэтому-то профессиональные психологи видят в тестах инструмент, который снижает планку
профессионализма. Поэтому они выше ставят методы беседы и наблюдения, или уж такие методики психологической диагностики,
которые тестами можно назвать с определенной натяжкой — это так
называемые «проективные тесты», результаты которых подлежат экспертной (ручной, точнее «глазной»), а не автоматизированной обработке. (Впрочем, про проективные тесты мы еще поговорим подробнее, но не во введении).
Итак, стоит сразу же подчеркнуть, что «тестология» — наука о стандартизированных измерительных тестах, а не вообще обо всех возможных
тестах. Кстати, само слово «тест» дословно переводится на русский очень
просто — это «испытание», поэтому в общем случае можно говорить о
том, что существуют нестандартизированные и неизмерительные тесты.
Но тестология их не изучает, или, скажем точнее, изучает не в первую
очередь. Она пытается для всяких неизмерительных тестов придумать
емкое и общепринятое название, но… оно все еще не утвердилось среди
самих тестологов. Иногда о «других тестах» говорят как о «развлекательных» тестах, иногда их называют «авторские» (имея в виду, что ключи к
этим тестам автор базирует на собственной интуиции и не проверяет статистически, так как не умеет или не хочет этого делать), иногда говорят
про «развивающие тесты самопознания». Есть и такие словечки, как «салонные тесты», «пляжные тесты», «эвристические тесты» (тесты, в основе
которых лежат нечеткие, то есть эвристические правила и алгоритмы). Я
предпочитаю в этой книге использовать термин «спекулятивные». Однако
в этом введении мы говорим не о недостатках «спекулятивных» тестов, но
о пользе или вреде от «измерительных тестов» — как раз от тех, которые
являются предметом тестологии.
3 Мы дальше будем говорить, конечно, не о «ручных инструментах», а об «экспертных процедурах», но пока достаточно понятной будет эта аналогия.
Введение. Тесты могут быть полезны и… вредны
21
Разумеется, не вполне корректно называть «спекулятивными» обширный класс образовательных тестов, которые в настоящее время в массовом порядке производят вузы и техникумы в рамках своих программ по
созданию ФОС — «фондов оценочных средств». Крайне редко тесты в рамках этих фондов достигают уровня психометрических инструментов (измерительных средств). Вероятно, в контексте тестологии для этих тестов
требуется ввести особый термин. Один из вариантов — «контрольно-оценочные тесты» (ибо они входят в состав КОС — «контрольно-оценочных
средств»). При этом мы имеем в виду, что не всякая «контролирующая
процедура» является измерительной. Сможет ли тестология в ближайшем
будущем содействовать доведению КОС до уровня измерительных инструментов? — Это во многом зависит не только от баланса численности
сторонников и противников тестовых технологий как таковых, но и от качества самих создаваемых тестов.
Сколько раз мне доводилось слушать от потенциальных пользователей
или испытуемых такие суждения о тестах (сразу после знакомства с конкретными тестами): «И кто такие глупые задания придумывает?», «Если
вдуматься, то в любом задании невозможно найти ни одного правильного ответа!», «Ваш скоростной тест ставит в невыгодное положение более
глубоких людей, которые думают долго, но в конце дают более точные и
адекватные решения», и тому подобное! Но когда начинаешь анализировать, чем отличаются люди, которые больше критикуют тесты, от людей,
которые спокойно их выполняют, то выясняется, что критики — это чаще
всего либо такие испытуемые, которые очень тревожатся (не без оснований), что их реальный невысокий уровень знаний будет обнаружен, либо
такие специалисты по оценке (в частности, преподаватели-экзаменаторы),
которые боятся потерять часть своего заработка от внедрения тестов.
В этой книге мы подробнее будем обсуждать, какие еще бывают оценочные процедуры, какие складываются взаимоотношения между ними
и тестами в разных ситуациях. А во введении мы приближаемся к другому важнейшему тезису, который также считаем необходимым зафиксировать уже сейчас.
Тезис 2. Стандартизированные тесты по-разному оцениваются теми, кто
по своей квалификации может дать высококачественную оценку человека (они ревниво относятся к тестам), и теми, кто не может дать такую
оценку (они видят в тестах полезный лично для них инструмент, повышающий качество их услуг).
Тесты, конечно, гораздо более интеллектуальный инструмент, чем
бритва и ножницы. Поэтому давайте сравним тесты и… шахматные
компьютерные программы. До изобретения компьютеров у новичка не
было никаких других шансов сыграть с сильным противником, кроме того, чтобы обратиться к живому мастеру-шахматисту. Платные и
22
Практическая тестология
благотворительные сеансы одновременной игры с мастерами и гроссмейстерами были в докомпьютерную эпоху весьма и весьма востребованными. Но теперь можно найти в Интернете и установить на любом домашнем компьютере такую сильнейшую бесплатную шахматную программу,
для которой большинству пользователей в настройках нужно сразу же
«понижать» уровень (установленный по умолчанию), на котором она играет, чтобы надеяться у этой программы выиграть хотя бы раз. Хотя гроссмейстерам-профессионалам такая бытовая шахматная программа, скорее
всего, проиграет, но у всех любителей выиграет надежно и с большим запасом прочности. Как известно, теперь программами, оснащенными базами данных по известным дебютам, пользуются даже самые сильные
гроссмейстеры (втайне от соперников и судей и с помощью различных
уловок, которые изредка всплывают в форме скандалов).
Пример с шахматными программами, помогающими шахматистам,
нам нужен, чтобы ввести важный концептуальный термин — термин
«интеллектуальный инструмент». Что такое шахматная программа? Это
автоматизированный эквивалент мастера-исполнителя, это инструмент
искусственного интеллекта, который заведомо полезен в руках всех слабых и средних специалистов (ибо усиливает их возможности), но с определенной ревностью воспринимается сильными и тем более великими,
чей естественный интеллект до сих пор достоин восхищения. Итак, формулируем важный тезис номер три.
Тезис 3а. Полезный стандартизированный тест — это интеллектуальный
инструмент, который ПОДНИМАЕТ качество оценки в конкретных обстоятельствах, то есть качество оценки в результате внедрения теста оказывается выше, чем качество, которое могут обеспечить другие специалисты
и другие (нетестовые) процедуры оценки в данной организации.
Тезис 3а можно сформулировать и в виде обратного тезиса 3б:
Тезис 3б. Вредный стандартизированный тест — это интеллектуальный
инструмент, который ПОНИЖАЕТ качество оценки в конкретных обстоятельствах, так как его качество ниже, чем качество, которое могут обеспечить другие специалисты и другие (нетестовые) процедуры оценки в данной
организации.
Итак, попробуем теперь просто перечислить, в каких ситуациях (при
каких условиях) измерительные тесты могут быть полезны, то есть эффективны:
1) Тест полезен, если он разработан профессионально — соответствует
нормативным психометрическим параметрам научной тестологии
(о которых пойдет речь в книге). В некоторых книгах по тестологии
Введение. Тесты могут быть полезны и… вредны
2)
3)
4)
5)
6)
4
23
перечень требований к тестам ограничивается, увы, фактически только этим пунктом. Но знакомство с другими пунктами нашего списка
позволит читателю понять, что этого совершенно недостаточно.
Тест полезен, если он адекватен ситуации, то есть по самому содержанию заданий и рекомендаций (интерпретирующих сообщений на
основе результатов тестирования) соответствует ожиданиям и заказчиков (ЛПР — лиц, принимающих решение), и самих испытуемых.
Плохим следует считать тест, который вызывает скрытый (или явный)
саботаж, так как содержит задания, кажущиеся большинству испытуемых «искусственными», «надуманными», «глупыми», «бессодержательными», «не имеющими отношения к делу». Хороший тест требует
от испытуемого выполнять задания, которые моделируют его реальную производственную, учебно-научную или другую деятельность.4
Тест полезен, если организаторами тестирования проделана необходимая подготовительная работа по созданию атмосферы сотрудничества,
причем если и не со всеми потенциальными испытуемыми (этого добиться в принципе практически невозможно!), то с большинством так
называемых «высокоочковых» испытуемых, способных успешно выполнить тест.
Тест полезен, если принципы обработки тестовых результатов и выработки решения на основе этих результатов понятны и прозрачны
для людей, то есть соответствуют имплицитной (подразумеваемой,
обыденной) теории справедливости, принятой в данной социальной
группе.
Тест полезен, если подавляющее большинство испытуемых соблюдает
правила тестирования при его выполнении и не получает односторонних преимуществ в результате определенных приемов фальсификации (люди не списывают, не подсказывают друг другу, не подделывают и не переделывают уже созданные протоколы и подсчитанные баллы и т.п.).
Тест полезен, если его предметом (тестируемыми знаниями, умениями, качествами) оказываются такие свойства людей, которые
тест выявляет и измеряет лучше, чем это делает человек-специалист
Недаром на рынке оценочных услуг в наше время столь ценится так называемый «ассессмент» (или метод Центра оценки): метод, предполагающий наблюдение оценивающего (ассессора) за тем, как выполняет оцениваемый узкоспециальные упражнения, моделирующие (имитирующие) реальные процессы — коллективного обсуждения проблем,
анализа документов, структурирования информации и т.п. (Базаров, 2011). Метод Центра
оценки нередко противопоставляют методу тестирования, банально сводя тесты к выбору из готовых вариантов ответов на вопросы — причем вопросы, касающиеся весьма
отвлеченных теоретических знаний. По убеждению автора этой книги, практическая
тестология и методология ассессмента должны быть интегрированы в едином концептуально-терминологическом поле, чтобы эти методы не исключали, а дополняли друг друга. — Прим. автора.
24
Практическая тестология
традиционными методами (беседа, анализ документации, интуитивная оценка), и при этом у традиционных специалистов остается свой
фронт работы — они выполняют такую оценочную деятельность, которую не может выполнить тест.
7) Тест полезен, если исполнители альтернативных оценочных процедур
(например, интервьюеры-эйчары, которые принимают кандидатов
на работу по результатам собеседования с ними) очевидно уступают
ему по критерию «цена-качество», то есть тест дает прирост в точности
оценок при незначительных затратах на его создание (приобретение)
и применение, в то время как традиционные оценочные процедуры
приводят к большим расходам.
Последние пункты номер 6 и 7 нуждаются в иллюстрации. Возьмем
обыкновенных преподавателей иностранного языка. В ходе своей работы они постоянно проверяют достигнутый уровень знаний и языковых умений учащихся и часто применяют тесты. Но в разных аспектах
языковых способностей тесты в разной степени эффективны. Разумные
преподаватели на уровне здравого смысла понимают, что для проверки
словарного запаса или знания грамматики любой тест сработает лучше,
чем они сами. Почему? По сравнению с устным опросом или нестандартизированной письменной работой тест по грамматике или на знание
слов обеспечит больше разнообразных заданий, расширит охват материала, обеспечит более быструю проверку — путем простого подсчета числа правильных ответов. А в каких случаях тест уступает преподавателю? — В случае проверки коммуникативных навыков устного общения.
Так вот, на этих навыках и нужно сконцентрировать усилия преподавателя в плане оценочной (контролирующей) деятельности. В отношении
этих навыков тесты не очень нужны, ибо их преимущество совершенно
не очевидно, а нередко оно просто отсутствует, ибо тест НЕ МОДЕЛИРУЕТ
живого общения учащегося с человеком, не моделирует особого эмоционального фона, который характерен именно для живого общения (требующего от учащихся преодолевать собственную застенчивость, нерешительность и т.п.).
Резюмируем перечисленные выше 7 критериев эффективности в виде
кратких названий (некоторые могут показаться терминологически сложными и непривычными, но зато эти термины подготавливают читателя
не только к восприятию этой книги, но и для чтения другой профессиональной литературы по этой тематике):
1) Критерий психометрической обоснованности
(надежности, валидности, репрезентативности)
2) Критерий моделирования (очевидной валидности)
3) Критерий кооперативной готовности
4) Критерий субъективной справедливости
Введение. Тесты могут быть полезны и… вредны
25
5) Критерий достоверности (информационной безопасности)
6) Критерий системной дополнительности
(в отношении других оценочных процедур)
7) Критерий рентабельности (конкурирующей эффективности)
И вот теперь мы можем лучше определить и описать ситуации, когда
тесты ВРЕДНЫ. Мы просто «перевернем» предложенный список — опишем такие ситуации, когда эти критерии не соблюдаются:
1) Тесты вредны, если допускаются грубые методические ошибки, то
есть если используются низкокачественные тесты или высококачественные тесты, но с методическими ошибками. Если вы взяли какието тесты, в отношении которых никто никогда не проверял их психометрические свойства, будьте настороже — скорее всего, они подведут
вас. Это все равно, что взять какой-то компьютер, собранный «на коленках» неизвестным производителем, про который нет точной технической информации о том, что этот инструмент прошел технические испытания. Но… вы можете взять и хорошие в психометрическом
плане тесты, но не соблюдать при их проведении то, что называется,
«условия эксплуатации». Например, все тесты требуют, чтобы испытуемый тщательно знакомился с инструкцией, а не «пролистывал» ее.
Некоторые тесты требуют контроля за пониманием инструкции на
пробных заданиях. Если при проведении за этим не следить, то ждите
беды — результаты теста будут ошибочными. Казалось бы, ничего необычного в этом условии номер 1 нет, ведь точно такие же требования
применяются ко всем инструментально-техническим средствам человеческой деятельности: надо использовать качественные инструменты и использовать их правильно. Но… не следует забывать, что именно
тесты вызывают гораздо более сильное сопротивление их внедрению,
чем другие инструменты. Почему? — Потому что оценке подвергается
самое главное для людей — их собственные профессиональные и личные качества. Поэтому-то любые методические ошибки — это колоссальный козырь для тех, кто пытается, прикрывая истинные причины
сопротивления, оправдать необходимость отказа от внедрения тестов.
Поэтому при наличии методических ошибок тесты оказываются не
просто вредны, а вредны «вдвойне», ибо сама тема возможного применения теста после ярких ошибок в организации нередко закрывается
надолго — вплоть до прихода нового состава руководителей.5
5
Кстати, методические ошибки бывают самые разные, но во введении мы их не будем подробно классифицировать. Коротко назовем, например, такой распространенный тип ошибок, как выбор неправильного теста. Например, берут тест, который измеряет временный,
динамически изменяющийся фон настроения (от эмоционально-позитивного до эмоционально-негативного), а использовать данные этого теста пытаются для долгосрочного прогноза. Другой тип методических ошибок — это неправильное принятие решения на основе результатов в виде «сдвига в критерии отсечения». Например, деятельность оператора,
26
Практическая тестология
2) Тесты вредны, если они плохо моделируют деятельность, ради прогноза эффективности которой они созданы. Даже если имеются определенные экспериментально-статистические доказательства, что
какой-то косвенный психологический тест высоко коррелирует с эффективностью деятельности (например, эффективные менеджеры
статистически чаще рисуют «проективное дерево» с ветками, которые
бодро торчат вверх, а низкоэффективные — с ветками, которые понуро опускаются вниз), нельзя всерьез привязывать результаты такого
тестирования к каким-то организационным решениям. Это вызовет
гарантированный протест у большей части испытуемых (а чаще всего и непонимание у ЛПР, то есть у заказчиков). Такие тесты можно
осторожно включать в процедуру консультативно-психологической
помощи, игрового тренинга, но никак нельзя включать в программы
производственной аттестации. Даже если сотрудники смирились под
административным давлением и внешне послушно выполняют подобные тесты, их скрытое сопротивление может приводить к тому, что результаты будут серьезно искажены и будут тем самым не просто бесполезны, а именно вредны: в лучших условиях окажутся те самые испытуемые, которые пошли на скрытый саботаж и обман, а в худших — те,
кто добросовестно и честно старался выполнить тест. Любой скрытый
саботаж против программы тестирования рискует обернуться этими
чудовищными результатами — давать обратный эффект за счет конкурентных преимуществ, которые получают менее лояльные сотрудники по сравнению с более лояльными. Следующий критерий в каком-то
смысле можно рассматривать как более обобщенное продолжение этого правила.
3) Тесты вредны, когда большинство испытуемых не настроены честно
сотрудничать с организаторами тестирования, а главное — не настроена в пользу тестирования ключевая группа наиболее эффективных
и влиятельных (авторитетных) работников в организации (успешных
студентов в студенческой группе и т.п.). Тут определенный нюанс заключается в следующем. От тестов не могут выигрывать все, кто-то
обязательно проигрывает. Тест — это не «миллион в наследство», чтобы
всем нравиться. Но главное, чтобы тесты не вызывали отторжения у
«элиты», чтобы от внедрения тестирования не считали себя в проигрыше те самые эффективные работники, на которых держится производство. Если по каким-то причинам (иногда в результате неадекватных
иллюзий или заблуждений) среди работников распространилось убеждение, что тест — это инструмент незаслуженной дискриминации,
управляющего опасным производством (ядерным реактором), требует безошибочного надежного исполнения, а при отборе применяют не абсолютный, а статистически-относительный критерий отбора — берут высокую группу как 15 процентов лучших (по правилу
«среднее плюс сигма»). — Прим. автора.
Введение. Тесты могут быть полезны и… вредны
27
если не удалось настроить сотрудников еще до массового тестирования
по-другому, то результаты тестирования будут скорее вредны, чем полезны, ибо люди будут выполнять тесты с искаженной мотивацией,
применяя сознательно или чаще даже полубессознательно определенные тактики фальсификации (уклонения от достоверного выполнения
теста). На лекциях в МГУ для иллюстрации этого социально-психологического механизма я нередко привожу для студентов такой грубоватый, зато понятный пример. Это анекдот еще советских времен. Проходя врачебную комиссию в военкомате, призывник послушался совета
друзей и очень вяло дунул в трубочку, чтобы изобразить объем легких
меньше, чем на самом деле. В результате врачебная комиссия приняла решение: «Годен в подводники в силу малого потребления кислорода». На этом примере мы видим, каким тонким психологическим инструментом являются на самом деле даже казалось бы такие простые
медико-физиологические тесты, если учитывать, что объект тестирования — это человек, который применяет рефлексивную активность
и по-своему пытается управлять ситуацией, то есть отражает цели и
возможные последствия тестирования и ведет себя не так, как вел бы
себя в обычной ситуации. Тысячи специалистов — изобретателей тестов — потратили, наверное, миллионы человеко-часов, чтобы изобрести такие тесты, которые бы давали объективные результаты против воли людей, сопротивляющихся тестам. Но… как известно, даже
самые изощренные детекторы лжи («полиграфы», как их сейчас чаще
называют) создают парадоксальные преимущества для тех, кто их не
боится и твердо знает, что любой прибор можно обмануть. В результате тест угрожает обратным эффектом — тем, что будет производиться
«отрицательная селекция» (анти-отбор) — к работе, как уже говорилось
выше, будут привлечены люди, которые не больше, а меньше солидарны с организацией. Применение тестов в режиме волюнтаристического стиля управления «через колено», как правило, создает огромный
риск вредного, а не полезного эффекта тестирования. Самым красноречивым свидетельством того, как плохо работают определенные формальные критерии и инструменты отбора, являются антиэлитные
механизмы, приводящие к выдвижению на руководящие должности
(в масштабах крупных корпораций и даже государства в целом) людей
с паразитарными установками коррупционеров6. Тесты вредны, когда
6
Кстати, вполне возможно, что большинство читателей до этого самого момента вовсе не
задумывалось над тем, что механизмы появления коррупции могут быть последовательно рассмотрены с позиции именно тестологии, которая призвана изучать как полезные,
так и вредные формализованные процедуры оценивания и отбора кадров. По дороге «наверх» людям приходится преодолевать в своей карьере такие испытания («тесты в широком смысле слова), которые дают эффект «отрицательной селекции»: приходится угождать начальству, преувеличивать или имитировать полезный эффект своей деятельности
(ибо реальный скромный эффект нереалистичных начальников не устраивает), вместе с
28
Практическая тестология
по ним принимаются решения, противоречащие субъективным (обыденным) представлениям о справедливости, принятым в организации (или в определенной социальной группе). Тонкость в понимании
этого случая заключается вот в чем. Тут речь не идет о перевернутых
шкалах тестовых баллов (когда лучшим выставляются худшие баллы),
а тут речь идет о том, что решения на основе этих баллов не соответствуют представлениям сотрудников о справедливости. Например, в
организации вдруг возобладали представления о справедливости в логике «уравнительной морали»: «Справедливость — это когда все члены
команды получают равное вознаграждение». В этом случае перспективы успешного внедрения тестов весьма призрачны, ибо любой тест
работает скорее на дифференциацию, чем на уравниловку. В общем
случае можно сформулировать такое правило: дифференциация в решениях по результатам теста не должна резко противоречить представлениям людей о допустимой силе дифференциации. Наиболее
типичная «имплицитная модель справедливости» формулируется,
согласно современным социологическим исследованиям (Ролз, 1995),
в виде «формулы пропорциональности»: люди должны получать вознаграждение, пропорциональное своему вкладу в общее дело. Если по
результатам вполне качественного теста принимается такое решение,
что премируются только «призеры» (тройка лучших), а все остальные
оказываются «за бортом», то это будет, скорее всего, воспринято как
нарушение принципа справедливости и, в свою очередь, усилит сопротивление тестированию на следующем цикле тестирования. Особый случай — конкурсное тестирование. Люди должны участвовать в
нем, разделяя базовые принципы конкурса: награду получают не все,
а только победители. Только создав в организации атмосферу понимания и принятия правил конкурсного тестирования, можно проводить
тесты с резкой дифференциацией благ, выделяемых участникам по их
результатам. 7
непосредственным начальником (или по его указке) обманывать подчиненных и «широкие массы», а также… начальство еще более высокого уровня. И если весь этот обман вполне
устраивает обманутых, не желающих «портить себе настроение» и докапываться до истины, отрицательная селекция торжествует… наверх восходят ТОЛЬКО изощренные лжецы,
имитаторы и интриганы. Если и верхи, и большинство низов устраивает жизнь в «королевство кривых зеркал», то кому нужны в такой обстановке правдивые тесты — испытания, которые трудно обмануть? — Никому. Участь тестолога в этой обстановке — это распознавать
демагогию и профанацию как разновидности социально-психологических механизмов сопротивления и учиться преодолевать это сопротивление.
7 Тут проницательный читатель может мне возразить: «Вы рассказываете о каких-то общих социологических и социально-психологических принципах, которые касаются любых управленческих решений. При чем тут тесты и тестология?» Я частично соглашусь с
этим возражением, но… только частично. Дело ведь в том, что ошибки в принятии решения
по итогам тестирования приписываются не людям, которые эти решения принимают, а…
Введение. Тесты могут быть полезны и… вредны
29
4) Тесты вредны, когда большинство сотрудников в организации (или в
группе тестируемых) знают (или догадываются), как именно можно
обмануть тест, и есть люди, которые обязательно воспользуются этой
возможностью. Таким образом, выражаясь предельно бытовым языком, тут можно сказать так: «Уязвимые тестовые технологии вредны!».
«Дырявые» в том смысле, что тестовая технология содержит лазейки,
гарантирующие безнаказанную возможность для фальсификации. Под
словом «уязвимые» мы имеем в виду уязвимость, которая сознательно
используется фальсификаторами и профанаторами. Но нередко уязвимость возникает непроизвольно — вследствие халатности. Тестовые
технологии по уровню своей защищенности должны соответствовать
профессионально-этической и собственно профессиональной подготовленности пользователей-тестологов. Если в методических указаниях, адресованных пользователю, черным по белому написано: «Вы
должны запрещать списывание», но на самом деле проводящий НЕ
выполняет это требование методических указаний и смотрит на ситуацию массового списывания (со шпаргалок), спустя рукава, то в этом
вреде — в появлении ложных, завышенных результатов — виноват не
столько сам тест (набор заданий в узком смысле), но социально-информационная технология его проведения, не адекватная данным организационным условиям. Кто должен был хранить в тайне «ключи к
тесту»? Заинтересован ли этот персонал (имеющий доступ к ключам) в
том, чтобы добросовестно выполнять свои обязанности? Этими вопросами должен задаваться всякий, кто стремится внедрить тесты не формально, а с целью добиться реального полезного результата. На моих
глазах сплошь и рядом получает доступ к секретной тестовой информации8 самый разный персонал, нередко очень низко оплачиваемый
(например, администраторы и операторы внутренней компьютерной
сети в вузах РФ оплачиваются очень плохо). Что в итоге происходит?
Происходят массовые подтасовки, и достигается обратный эффект —
более высокие результаты показывают не достойные, а как раз менее
достойные люди — более наглые, едва ли не самые некомпетентные,
сплоченные в «паразитарные группировки» — как раз те, которым просто «нечего терять» (ибо при честном выполнении теста им «ничего не
светит»).
чаще всего самим тестовым методикам, самому тестовому подходу, ибо большинство воспринимает ситуацию тестирования не аналитически, а синтетически: «Все, что в результате тестирования ухудшает мое положение, есть свидетельство вреда от тестов». — Прим.
автора
8 Секретной информацией следует считать: задания теста, правильные ответы, то есть
«ключевые ответы», правила шкалирования результатов (перевода сырых баллов в стандартизированные шкалы), тестовые нормы и правила «отсечения» (категоризации результатов).
30
Практическая тестология
5) Тесты могут быть реально вредоносной технологией из-за того, что
они, будучи внедрены как единственная оценочная технология,
измеряют что-то менее важное, но действительно не измеряют и не
могут измерить что-то более важное в человеке. Как уже говорилось
выше, тесты рассматриваются как вредные с позиции тех весьма
влиятельных людей в организации, которые применяли оценочные процедуры до внедрения тестов. Нередко эти люди сопротивляются внедрению тестов в логике «луддитов, ломающих станки»,
ибо видят в этих инструментах конкурирующую силу, заменяющую их труд в организации. Но… не надо рассматривать критику
тестов с позиции этих людей только как проявление защитных эгоистических реакций. В этой критике нередко есть рациональное
зерно и большая ценность. Рассмотрим такой упрощенный пример.
В организации решили внедрить тесты, в которых подавляющее
число тестовых заданий (вопросов) проверяет то, как сотрудник
помнит какие-то мелочи из инструктивных и регламентирующих
документов. И при этом решили… отменить обычный человеческий контроль за тем, насколько работник в ходе живого контакта
с наблюдателем (аналог устного экзамена) может просто показать
(даже не рассказать), в каком порядке он производит те или иные
производственные операции, решая определенную производственную задачу. То есть, подменили контроль за более существенным
качеством (компетенцией) контролем за гораздо менее существенным, но легко формализуемым качеством (память на письменные
документы). Обоснованным ли в данном случае будет протест специалистов по традиционным методам оценки? Да, совершенно обоснованным. Общее правило таково: тесты почти никогда не могут
охватить все существенные качества работника, поэтому их надо
применять в сочетании с традиционными методами, а не вместо
них. Предлагаю читателю оглядеться «вокруг себя» и посмотреть,
часто ли наши практики соблюдают это простое правило? Не соблюдают? Тогда чему удивляться, что внедрение тестов приводит
скорее к вредному эффекту, чем к полезному.
6) Тесты оказываются вредными, если они приводят к неоправданному росту затрат при незначительном повышении точности оценки
(а иногда даже понижении точности!). Если при внедрении тестов
кто-то корыстно рассчитал, что тем самым «освоит определенный
объем финансирования», то, скорее всего, эффект от тестов будет
антиэкономическим (корыстное управление по затратному принципу вовсе не изжило себя вместе с социализмом, а по-прежнему
процветает в больших и бюрократизированных организациях и
суперкомпаниях-монополистах). Необходимо сравнивать затраты
и полезный эффект. Не исключено, что традиционные оценочные
технологии будут все-таки рентабельнее — с учетом того, что они
Введение. Тесты могут быть полезны и… вредны
31
не требуют особых дополнительных вложений. Но тонкости расчета
рентабельности тестов — за пределами настоящего введения. Они
будут рассмотрены в главе 6.
Завершая это введение, мне бы хотелось подчеркнуть следующее.
Нет ни одного узкого специалиста, включенного в процесс тестирования, который бы обращал равное внимание, а главное был одинаково
компетентен решать задачи по обеспечению указанных здесь критериев
1 — 7. Обычно в литературе по тестологии в центре внимания 2 фигуры:
— психометрист-тестолог (это очень часто, прежде всего, специалист по
прикладной математической статистике),
— автор тестовых заданий (это очень часто специалист в какой-то предметной области, а при психологическом тестировании это психолог).
Но едва ли не большая часть указанных критериев не обеспечивается
подготовкой психометриста и автора тестовых заданий. В процессе создания и внедрения тестовой системы требуется особый тип компетентности
и особая ролевая позиция. Это позиция организационного социального
психолога, способного чутко и оперативно отслеживать динамику фактических установок людей в отношении программы тестирования в данной
конкретной социальной группе (организации), а также умело влиять на эту
динамику в позитивном направлении — выстраивать систему конструктивного делового взаимодействия между разными участниками процесса, включая софт-инженеров и собственно администраторов-управленцев
в данной организации. Поэтому, по убеждению автора, уже прошло время
тестологии как науки об отдельных тестах, выхваченных из контекста их
применения в конкретных социально-организационных обстоятельствах.
Пришло время тестологии как науки о создании систем комплексного взаимодействия специалистов разного профиля, внедряющих тестирование в
организации не столько как технологию формального ранжирования или
селекции кадров (учащихся), сколько решающих сложную задачу инновационного управления и принимающих во внимание все идеологические,
политические и эмоционально-психологические факторы происходящих
организационных изменений. Тестирование затрагивает глубинные отношения внутренней конкуренции между людьми в организации (социальной группе), так что существует высокий риск при неграмотном внедрении
обострить эту конкуренцию так, что она может принять деструктивные
формы. В обычной тестологической литературе, включая даже самые современные работы, основное внимание традиционно уделяется более узкой психометрической тематике (см. например, Фер, Бакарак, 2010, Крокер,
Алгина, 2010), а вопросы, от которых зависит судьба внедрения тестовых
технологий, рассматриваются весьма конспективно и поверхностно в небольших главах и параграфах, связанных с профессионально-этическими
нормами «правильного тестирования».
32
В понимании автора развитие практической тестологии должно происходить в ближайшее время в очень тесной методологической и концептуальной связке с развитием психосоциологической теории конкуренции
(Шмелев, 1997; Шмелев, 2012б). Завершим данное введение следующим рабочим определением:
Практическая тестология — это прикладная междисциплинарная
наука, которая базируется на системном анализе и учете всех существенных факторов и ресурсов, обеспечивающих внедрение системы тестирования как организационного инструмента, призванного
обеспечить продуктивную конкуренцию между людьми.
33
Глава 1.
Определения и классификация
Эту главу автор решил оформить как учебник или как некое терминологическое введение. Здесь Вы найдете немало определений ключевых терминов. Наиболее важные из этих определений выделены в рамочку, как и наиболее важные формулировки методологических принципов. Конечно, другие
авторы дают несколько иные определения, но этой разноголосицы в данной
книге очень хотелось бы избежать или, по крайней мере, сократить ее, облегчив для читателя непростую задачу — выявления универсальных понятий
и процедур, характерных для гуманитарной тестологии в любых сферах ее
приложения. В связи с этим глава разгружена от лишних ссылок на работы
других авторов. Другие главы этой книги будут написаны уже в несколько
ином стиле — менее похожем на учебник и более — на практическое руководство, а местами — на монографическое исследование. Но везде, где, по мнению автора, настала пора сформулировать что-то устоявшееся, происходит
сознательная минимизация разнотолков. Эта же первая глава — это введение
в «Практическую тестологию» как универсальную междисциплинарную науку, способную объединить специалистов из области психологии, педагогики, теории управления, инженерии баз данных и баз знаний.
1.1. ЧТО ТАКОЕ ТЕСТ И ТЕСТОЛОГИЯ?
Житейское и научное понимание
Обыденное, житейское значение слова «тест» в русском языке является
гораздо более узким, чем научное понятие в рамках тестологии. При слове
«тест» возникает устойчивая ассоциация с набором вопросов с заданными вариантами ответов, среди которых либо один, либо несколько ответов
являются «правильными» («ключевыми»). Незначительную специфику в
это представление вносят квазипсихологические развлекательные тесты9.
9
Наряду с тестами учебного назначения (образовательными), имеющими вполне определенные «правильные ответы», значительный вклад в обыденные представления о тестах
вносят так называемые «журнальные развлекательные тесты», в большинстве своем квазипсихологические. В этих тестах каждый из ответов может быть связан с разными вариантами интерпретации. Теперь журнальные тесты в массе своей перекочевали на развлекательные сайты, но от этого их содержание не изменилось.
34
Практическая тестология
Рассмотрим более подробно различия в житейской и научной трактовке
понятия «тест» на ряде примеров, в основном связанных с учебными тестами (образовательными, педагогическими).
В переводе с английского слово «тест» означает просто «испытание», однако в обыденной трактовке термина «тест» в русскоязычной культуре полностью отсутствует представление о том, что письменное задание, требующее
развернутого ответа, может быть тоже названо словом «тест». В России все задания, требующие проверки со стороны экспертов (знатоков какого-то предмета), обычно словом «тест» не называются. В ЕГЭ, например, для этого используется понятие «контрольно-измерительные материалы» (КИМ).
В таблице 1.1 приводятся образцы обыденного использования слова
«тест», которые нам позволяют уточнить границу между житейским и научным пониманием.
№
Образец вопроса (задания)
Тест или не тест?
1.
Куда впадает река Волга? а) в Каспийское море,
б) в Черное море, в) в реку Дон, г) в Аральское море.
Да
2.
Чему равно 3 в кубе? а) 9, б) 18, в) 27, г) 36.
Да
3.
Чему равно 3 в кубе? Ваш ответ_________.
Скорее да, чем нет
4.
Куда впадает Волга? Ваш ответ_________.
Скорее нет, чем да
5.
Почему 3 в кубе равно 27? Дайте Ваше объяснение
с помощью операции умножения_____________________.
Нет
Таблица 1.1. Примеры учебных заданий и их обыденная трактовка как «тестовых» или «нетестовых».
Почему пример 5 в таблице 1.1 обычно не относят к числу «тестовых заданий»? Потому что обычными средствами10 ответы на эти задания, имеющие
формат развернутого текста, нельзя обрабатывать формально и автоматически — путем сличения с каким-то единственным и однозначным эталоном.
Это именно КИМы, ответы на которые требуют экспертной оценки. Задания
типа 3 содержат краткий и вполне формализованный числовой ответ, который совершенно нетрудно обрабатывать автоматически, но эти задания,
включенные в набор других, нетестовых заданий, часто не вызывают ассоциаций со словом «тест». Задания типа 4 в большинстве случаев не рассматриваются как тестовые, ибо правильные ответы могут быть даны в различной
грамматической и лексической форме, а иногда возможны описки (например, «каспийское море» может быть написано с маленькой, строчной буквы
или с пропуском какой-то буквы из-за волнения) или менее частотные, но по
смыслу правильные ответы («Каспийское озеро»). Для заданий типа 4 трудно
10
Под «обычными средствами» имеется в виду тестирование без создания изощренных
экспертных систем — программ, основанных на сложных умозаключениях экспертов.
Глава 1. Определения и классификация
35
написать «на коленках» такую компьютерную программу, которая корректно
интерпретирует все возможные правильные ответы, к тому же с поправками
на возможные описки. Но в том же Едином государственном экзамене в РФ
эти задания встречаются часто (во второй части «В»), и компьютерную программу обработки специально «настраивают», расширяя после апробации
первоначальный круг возможных правильных ответов, предусмотренный
автором такого задания.
Таким образом, граница, различающая «тест» и «не тест», так или иначе
оказывается практически связанной с возможностью компьютеризации в
процессе обработки результатов: мы говорим о том, что имеем дело с тестом,
если нам легко написать элементарную программу (владея программированием на самом начальном школьном уровне) или создать электронную таблицу, которая будет автоматически подсчитывать число правильных (ключевых) ответов. Таким образом, в узком научном толковании понятие «тест»
оказывается близким к его житейской трактовке — это такая оценочная процедура, которую можно автоматизировать. Хотя эта научная трактовка все же
шире, так как не сводит тест только к процедуре выбора из заданных вариантов ответа, то есть задания с кратким свободным ответом, которые могут
подвергаться полностью машинной обработке,— это тоже тест.
В таблице 1.2 это представление о месте и роли компьютеризации в понятии «тест» систематизируется.
№
Проведение
(предъявление
заданий)
Описание ответов
и процедуры
их обработки
Шкала
результатов
(баллов)
Тест
или методика?
1.
Стандартизировано
Формализовано
Есть
Тест
2.
Стандартизировано
Неформализовано
Нет
Методика
(но потенциально тест)
3.
Нестандартизировано Неформализовано
Нет
Методика
Таблица 1.2. Признаки, облегчающие различение тестовых и нетестовых
оценочных (диагностических) методик11.
Итак, таблица 1.2 иллюстрирует связь понятия тест с более общим и
родовым понятием «методика». Имеется в виду в данном случае не «методика вообще», а методика оценки12. Как мы знаем из области традици11
Как мы видим из содержания таблицы 2, четвертая комбинация (формализованная обработка нестандартизированных заданий) вообще не рассматривается, так как считается
невозможной.
12
Кстати, в общем случае понятие «методика оценки» относится вовсе не только к оценке
свойств человека. В эконометрии интенсивно развиваются, например, такие отрасли оценивания как «оценка стоимости компаний», «оценка стоимости объектов недвижимости», «оценка
36
Практическая тестология
онной логики понятий, научное, логически структурированное определение предполагает отнесение понятия к родовому (более старшему в родо-видовой иерархии) с указанием видовых отличий. С этой точки зрения
мы видим, что видовыми отличиями более частного понятия «тест» от более общего понятия «методика оценки» являются 3 признака:
а) наличие стандартизации в процедуре проведения (прежде всего, за
счет стандартизации предъявляемых заданий),
б) наличие формализации в процедурах обработки, которые, в свою
очередь, могут быть сведены к однозначным алгоритмам, если формализована структура возможных ответов (протокол теста),
в) наличие связи ответов с определенными, заданными тестовыми
шкалами (введен «ключ к тесту»).
Таблица 1.2 позволяет понять, почему для выражения результата в
количественной форме — в виде баллов на какой-то тестовой шкале — необходимо, во-первых, иметь стандартизированный набор заданий, а вовторых, — формализованный протокол ответов.
Крайние случаи 1 и 3 в таблице 1.2 нам, я думаю, понятны с первого взгляда и не так интересны, как средний случай 2. Именно этот случай более ярко
позволяет рассмотреть логические тонкости, связанные с проведением научной границы между понятием «тест» и «методика вообще», а также между
«тестом в узком смысле» и «тестом в широком смысле». Рассмотрим ситуацию с заданиями типа 4 из таблицы 1.1. В этом случае вопрос (тестовый материал) является вполне однозначным и фиксированным, то есть он стандартизирован — именно в таком виде «Куда впадает Волга?» он предъявляется всем
без исключения учащимся (испытуемым). Но… пока мы не имеем полного
перечня возможных ответов или хотя бы полного перечня такого подмножества как «ключевые ответы», мы не можем создать формальную процедуру обработки ответов и подсчета тестовых баллов — процедуру прибавления
очка (или очка с весовым коэффициентом) в сумму баллов по серии заданий.
То есть, пока у нас нет четкого оформления множества «ключевых ответов»
(эталонных ответов), мы должны считать задание данного типа нетестовой
методикой. Но при этом надо учитывать, что потенциально эта методика содержит в себе возможность доведения ее до тестовой формы, если мы четко
оформим множество «ключевых ответов». Итак, мы приходим к определению понятия «тест в широком смысле слова»:
Тест в широком смысле — это оценочная методика, которая предусматривает стандартизированную процедуру проведения и структурированную
стоимости земельных участков». В когнитивной эргономике мы находим «эргономическую
оценку программных средств». Хотя некоторые из этих методик оценивания тоже в обиходе называют «тестами», но все эти виды деятельности оценивания, несмотря на их сходство с «практической тестологией», мы выводим за пределытого определения термина «тест», которое предусматривается в данной книге. В данной книге объект тестирования — человек, который отвечает на тестовые задания.
Глава 1. Определения и классификация
37
процедуру обработки, которая базируется на полной систематизации категорий ответов для машинного или экспертного анализа результатов.
Тут же интересно заметить, что в области психологического (не образовательного) тестирования заданиям типа 2 из таблицы 1.2 соответствуют весьма
популярные и широко известные «проективные методики», некоторые из которых в настоящее время по степени систематизации категорий ответов вполне подходят под определение понятие «тест в широком смысле». Но это только некоторые, меньшая часть проективных методик. Почему же мы в случае
большинства проективных тестов все-таки говорим о «тестоподобной методике», а не о тесте как таковом? Все дело опять-таки сводится к возможностям
полной или неполной автоматизации (компьютеризации) всех этапов проведения и обработки. Если алгоритм категоризации любого возможного «сырого
ответа» (исходного, еще не отнесенного ни к одной из возможных категорий)
можно формализовать в виде программы на определенном языке программирования для ЭВМ, то есть полностью автоматизировать, то мы вправе говорить
о тесте без всяких кавычек и оговорок. Но… если эту процедуру категоризации — преобразования сырого ответа в определенную категорию ответа (интерпретируемый вариант) — может реализовать для некоторых типов ответов
только человек (эксперт), то эту методику корректнее называть «экспертной
оценочной шкалой», но не тестом в узком смысле — уберите эксперта из технологической цепочки, и методика без него не будет работать. Хотя весьма существенно, что эксперт может выставлять в общем случае свои оценки не только
в виде качественных суждений, но и в количественной форме.
В таблице 1.3 перечислены некоторые примеры тестовых и нетестовых проективных методик, разделенных на том основании, что в одних
присутствует полная формализация множества возможных ответов, а в
других ее нет (и в принципе не может быть).
№
Пример методики
Множество ответов
Статус
методики
1.
Тест цветовых предпочтений (самый популярный — восьмицветовой
тест Макса Люшера)
Формализовано: исчислимы все возможные перестановки (ранжировки) заданного
и ограниченного набора цветовых стимулов
Тест
2.
Методика цветовых
ассоциаций (в ответ
на слово-стимул надо
дать слово, обозначающее возможный цвет)
Неформализовано: нельзя исключить, что
испытуемый даст какое-то неожиданное
комбинированное прилагательное («сероНе тест
буро-малиновый») или выразит цвет через
отнесение к предмету-носителю («цвет морской волны», или «цвет квашеной капусты»).
3.
Тест предпочтения
фотопортретов (самый
известный — тест
Сонди)
Формализовано, если все ответы испытуемого сведены к баллам предпочтения,
выставляемым по отношению к фиксированному набору фотографий.
Тест
Таблица 1.3. Примеры тестовых и нетестовых проективных методик.
38
Практическая тестология
Завершая этот параграф, давайте вернемся к вопросу о том, входит или
все же НЕ входит в круг научного понятия «тест» задание, предполагающее
развернутый нестандартизированный ответ. В строгом смысле эти задания
не являются тестовыми. Для них также можно и нужно рассчитывать психометрические параметры, хотя относятся они не к формализованным ответам испытуемых, а к оценкам, выставленным экспертами этим неформализованным ответам. Материал данной книги, как я надеюсь, позволит читателю понять, почему при условии привлечения нескольких независимых
экспертов к оцениванию ответов на подобные задания, а также при условии
применения определенных статистических процедур к анализу экспертных
оценок эти задания можно называть также «квалиметрическими» и «инструментальными», хотя и не являющимися тестовыми в узком смысле слова. Завершая этот параграф, процитируем определение «квалиметрии»:
Квалиметрия — научная дисциплина, изучающая методологию и
проблематику количественного оценивания качества объектов любой
природы — абстрактных и конкретных, продуктов труда и продуктов
природы, материальных и идеальных, одушевленных и неодушевленных, товаров и услуг, предметов и процессов (цит. по статье Г.Г. Азгальдова, А.В. Костина, Журнал «Мир измерений», 2010), Таким образом, когда эксперты выставляют какие-то объектам количественные экспертные
оценки, мы также можем работать с этими оценками квалиметрическими методами, включая методы тестологии.
Краткое и полное определение
Итак, мы подошли к ответственному моменту — рабочему определению понятия «тест», на которое автор будет опираться на протяжении
всей книги. Вначале сформулируем это определение в краткой форме, а
затем — в более полном и комплексном виде.
Краткое определение. Тест — это стандартизированная методика
оценки.
Уже в этом кратком определении мы видим отнесение к родовому понятию — «методика оценки» — и сформулированное видовое отличие —
«стандартизированность».
Именно в силу стандартизации тест обнаруживает такое свое важнейшее прагматическое свойство (конкурентное преимущество перед
другими методиками оценки): тест НЕ требует от исполнителя такой же
высокой квалификации, которой владеет сам разработчик теста. Тем самым тест позволяет избежать при массовых обследованиях определенных ошибок, связанных с субъективизмом, риск которых при низкой
квалификации оценщиков резко возрастает. Тем самым тест оказывается более объективированным и независимым методом оценки, особенно
Глава 1. Определения и классификация
39
эффективным в случае массовых обследований в кратчайшие сроки13.
Чего же нам не хватает в нашем кратком определении? Не хватает как раз
того самого содержания, к раскрытию которого мы уже приступили, рассматривая примеры в таблицах 1.1 — 1.3, позволяющие уточнить различительные признаки тестовых и нетестовых методик. Перечислим еще раз
эти признаки, прежде чем сформулировать полное определение:
1) Стандартизированный набор тестовых заданий (в крайнем случае, это
одно строго-определенное задание, как это редко, но бывает в тестах на
сложность, а не на скорость);
2) Исчерпывающее описание всех возможных ответов на каждое задание
(или, по крайней мере, всех, за которые присваиваются баллы по измеряемой шкале);
3) Наличие определенной шкалы измеряемого свойства (в вырожденном
случае это качественная, номинальная шкала, построенная по принципу «есть качество — нет качества», но тогда все-таки тестовая оценка
тоже должна выражаться неким числом, указывающим на вероятность
проявления качества);
4) Наличие измерительного правила или «ключа к тесту», то есть формализованного алгоритма отображения возможных ответов на шкалу измеряемого свойства (или нескольких свойств для многошкального теста);
5) Независимость от профессионального опыта и личных предпочтений
оценщика (как следствие стандартизации и формализации), свобода от
ошибок, связанных с действиями оценщика.
Полное определение. Тест — это измерительная методика оценки,
основанная на стандартизованном наборе заданий и формализованных правилах анализа ответов, дающая в результате объективированную оценку испытуемого на определенной количественной
шкале, указывающей на выраженность измеряемого свойства или
вероятностное отнесение к определенной, заранее заданной диагностической категории.
При этом под объективированностью имеется в виду получение оценки, независимой от каких-либо предпочтений или ограничений, связанных с субъективными особенностями оценивающего и ситуационными
обстоятельствами.
Вооружившись этим определением, мы теперь сможем более уверенно
различать тестовые и нетестовые методики. Важнейший операциональный
13 На вводных лекциях по тестологии я часто спрашиваю начинающих слушателей: «Сколько людей, по-вашему, надо обследовать, чтобы оправдать затраты на интеллектуалоемкие
процессы конструирования настоящих психометрических тестов?» Называют, как правило, десятки человек, редко — сотни. Я объясняю, что суммарная тиражеспособность психометрического теста должна измеряться ТЫСЯЧАМИ. А явный экономический эффект достигается, если только в ОДИН день тестированию подвергаются десятки людей, а лучше —
сотни. — Примечание автора.
40
Практическая тестология
критерий — возможность компьютеризации: полной в случае «тестов в узком» смысле и частичной в виде диалоговых «человеко-машинных систем»
для тестов, сохраняющих при анализе результатов элементы стандартизированных экспертных оценок. Если этой возможности нет, если в каком-то компоненте методика требует определенных нестандартизированных, творческих действий оценщика, то эта оценочная методика, согласно нашему определению, не является тестовой ни в широком, ни тем более в узком смысле.
Еще раз рассмотрим задания из части «С» — третьей части обычного
Единого госэкзамена (ЕГЭ) для выпускников школ в Российской Федерации.
Напомним, что эти задания требуют от испытуемого (экзаменуемого) дать
развернутый ответ. Несмотря на наличие в методических материалах для
экспертов достаточно однозначных инструкций по проверке и оцениванию,
эталонов правильных ответов, а также образцов ответов, получающих оценки, отличающиеся от максимального балла, у эксперта есть определенная
свобода совершать определенные ошибки — и непреднамеренные, и преднамеренные в том числе. Иначе не объяснишь, почему достоверность именно
этой части «С» в ряде краев, областей и особенно в национальных республиках РФ оказывается сниженной по сравнению с достоверностью частей «А»
и «В» Единого экзамена, реализованных в тестовом формате. Эта низкая достоверность проявляется в глобальной тенденции к завышению оценок «для
своих» — в феномене «группового фаворитизма», как этот эффект называют
социальные психологи. В значительном числе протоколов ЕГЭ мы обнаруживаем такой парадокс: низкие баллы за элементарные, очень легкие задания
части «А», но высокие баллы для тех же испытуемых за весьма сложные задания части «С». Причем эта диспропорция быстро устраняется, если экзамен
проводят независимые экзаменаторы (которые не дают списывать) и проверяют независимые эксперты из других республик (у которых нет мотива завышать оценки своим). Вывод таков: задания части «С» не являются тестовыми, и уж совершенно точно этот элемент методики ЕГЭ не является тестовым,
если к проверке привлекаются заинтересованные эксперты, то есть проверка не удовлетворяет критерию «независимость». Следует при этом обратить
внимание на то, что автор не утверждает, что это плохо или хорошо, я просто
настаиваю на определенном четком и ясном разграничении понятий «тест»
и «нетестовая оценочная методика». ЕГЭ во всех своих частях остается оценочной методикой с ясной схемой ее исполнения, но не вполне тестовой, поскольку включает элементы интегральной (не аналитической, не поэлементной) экспертной оценки. Вот так и только так мы можем об этом говорить.
В противном случае, если терминами пользоваться не аккуратно, если все
время сужать или расширять их в угоду каким-то политическим интересам,
то последствия этого терминологического произвола оказываются слишком
дорогостоящими — люди перестают понимать друг друга, ибо слова перестают значить что-то определенное.
Другое важное следствие нашего полного определения теста связано с
обязательным требованием количественной шкалы или количественной
Глава 1. Определения и классификация
41
оценки. Именно вследствие этого признака тестовая методика называется
нами ИЗМЕРИТЕЛЬНОЙ, то есть попадающей в разряд объектов такой научной дисциплины, которую можно было бы назвать термином «гуманитарная метрология» — наука об измерениях гуманитарных объектов и их
свойств. В нашем понимании, гуманитарная метрология отличается от
квалиметрии более узкой областью приложения. Из-за этой области приложения гуманитарную метрологию, а, следовательно, и гуманитарную
тестологию заведомо надо отличать от физической метрологии, хотя она
имеет с ней много общего. По убеждению автора, любая методика до тех
пор остается именно «метрической» (измерительной), пока в ее результатах в числовом выражении присутствует мера уверенности (вероятностная, или статистическая надежность) в определенных выводах. 14
Есть немало авторов и практикующих специалистов по оценке, которые
и в настоящее время любят противопоставлять измерение и качественную
диагностику, заявляя себя сторонниками последней: мол, диагностика, в
отличие от измерения,— это порождение качественного описания, это отнесение обследуемого (в данном случае уже не «испытуемого») к определенной диагностической категории. Например, по совокупности качественных признаков-симптомов (фактов биографии обследуемого; наблюдаемых
признаков из его речи во время собеседования, включая не только содержание, но интонации и жесты; фактов, вытекающих из выполнения им свободных текстовых или графических заданий) диагност делает качественный вывод: «Наблюдается синдром дефицита внимания» (вывод в логике
психолого-педагогического обследования) или другой качественный вывод: «Наблюдается склонность к суицидальному шантажу близких на фоне
истероидно-нарциссической акцентуации характера и трудностей адаптации» (вывод в логике медико-психологического обследования). Но лично у
меня в этом случае всегда возникает вопрос: «А какова количественная мера
вероятности того, что этот вывод сделан с ошибкой, что в действительности нет ни синдрома, ни склонности?». Сам-то диагност, если это честный
специалист, допускает или нет, что может с определенной вероятностью
ошибаться? Ибо со стопроцентной уверенностью формулируют свои выводы лишь шарлатаны, но не честные специалисты. А все честные должны допускать вероятность ошибки. Какова она? Ну, хотя бы в процентах, хотя бы
14
Коротко в этой сноске прокомментируем соотношение понятий «гуманитарная тестология», «гуманитарная метрология», «квалиметрия» и «физическая метрология». По нашему
мнению, «практическая гуманитарная тестология» — это часть «гуманитарной метрологии». Также очевидно, что можно считать «гуманитарную тестологию» подмножеством квалиметрии. Но когда мы говорим о квалиметрии, мы делаем скорее акцент на определенном
характере процедуры (протекающей во многом с участием человека-эксперта) и сложности
объекта оценивания-измерения, а когда говорим о «гуманитарной тестологии», то хотим
подчеркнуть, что объектом оценивания-измерения является именно человек, причем не как
организм (как в биометрике и медицинской квалиметрии), а как сознательная личность, использующая определенную стратегию поведения при выполнении тестов. — Прим. автора.
42
Практическая тестология
чисто субъективно ее можно допустить? И если мы все-таки допускаем вероятность ошибки, то в любом качественном обследовании возникают количественные элементы и та же самая проблема измерения надежности и
валидности методик (уже нетестовых), которыми мы пользуемся15. А для измерения надежности и валидности любых оценочных методик как раз создана и развивается такая наука о гуманитарных измерениях — тестология.
Итак, сформулируем важный вывод, касающийся неизмерительных,
экспертных и качественных методик оценки и диагностики:
Принципы тестологии, в частности, методы измерения надежности
и валидности, применимы и для нетестовых методик оценки и диагностики, но из этого не следует, что эти методики мы должны называть тестовыми, их целесообразнее называть экспертно-рейтинговыми методиками оценки.
Надо сказать, что ситуацию с различением тестовых и нетестовых
методик изрядно запутывает тот факт, что ряд нетестовых оценочных методик тоже решает задачу измерительной количественной оценки, но не
тестовыми методами. Что это за методики? — это методики экспертного
рейтингования (шкалирования): эксперты тоже выносят количественные
суждения на достаточно дифференцированных шкалах (например, во
многих вузах внедряются для оценивания достижений учащихся уже не
четырех-пятибалльные шкалы, а десятибалльные и более дробные шкалы). Но сам факт использования дробных шкал с большим числом количественных градаций не должен вводить в заблуждение — это не тестовые
методики. Для иллюстрации соотношения тестовых методик с понятиями «оценочная методика», «диагностическая методика», «рейтинговая методика» мы приводим ниже схему на рисунке 1.1:
Рис.1.1. Схема родо-видовых отношений в системе понятий «оценочная методика», «тестовая методика», «диагностическая методика».
15 Здесь мы забегаем немного вперед, употребляя понятия надежности и валидности. Для
знакомства с этими терминами смотрите раздел этой же первой главы под названием
«Психометрические свойства тестов в самом простом изложении». — Прим. автора.
Глава 1. Определения и классификация
43
Итак, нам важно в этой книге различать рейтинговые и диагностические методики, которые в общем случае дают пересекающуюся классификацию с различением оценочных методик на тестовые и «нетестовые».
Во многих образовательных тестах (возьмем те же самые части «А» и «В»
из ЕГЭ) не ставится задача качественной диагностики, а ставится задача
только количественной оценки — построения рейтинга учащихся (ранжирование мы рассматриваем в этом случае как частный случай рейтинга, только с использованием шкалы порядка, а не шкалы интервалов). Рейтинговый балл ничего не говорит о причинах его появления (какие факторы и механизмы привели к высокому или низкому баллу). В этом смысле
рейтинговая оценочная методика не решает задачу диагностики, а решает
другие, как правило, более прагматические задачи — первичной селекции
успешных и неуспешных работников (учащихся, пациентов и т.п.). Диагностическая задача возникает, как правило, на втором этапе — после построения рейтинга (впрочем, мы будем ниже говорить о множестве таких
ситуаций, когда диагностику хотят провести ВМЕСТО рейтингования).
Что стоит за низкой успеваемостью у конкретного учащегося N? Дефицит
виимания? Плохая зрительная память? Недостатки фонематического слуха и развития речи? Дефицит учебной мотивации и произвольной саморегуляции? Все это диагностические вопросы, на которые может ответить
и экспертное диагностическое обследование, и тестовое диагностическое
обследование тоже.
Так вот, хотелось бы подчеркнуть, что, несмотря на количественный
характер, тестовые методики служат не только задачам количественного
рейтинга (количественной оценки), но и задачам диагностической оценки (распознавания по категориям): выделяя определенные пики-провалы
в диагностическом профиле по многошкальному диагностическому тесту,
тестолог констатирует определенные качественные факторы, которые стоят в случае конкретного обследуемого за его успехами или неудачами в
деятельности.
Тест в ряду других методов:
наблюдение, эксперимент, опрос, анкета
Понятие «тест» не будет достаточно полным, если мы не сопоставим
его с другими методами сбора данных, используемыми в психологии, педагогике, медицине и других социально-гуманитарных науках и сферах
практической деятельности.
Не претендуя здесь на то, чтобы исчерпывающим образом определить
другие методы, просто сформулируем, чем именно метод тестов отличается от других эмпирических методов:
Тесты и наблюдение. Наблюдение — это базовое понятие для всех
экспертных технологий оценивания. Именно из наблюдения черпают
44
Практическая тестология
эксперты свои оценки. Проводя собеседование или устный экзамен, интервьюер или экзаменатор (это все частные случаи экспертов) осуществляют в ходе беседы живое наблюдение (включенное в диалог с наблюдаемым). Наблюдение, как правило, не ставит своей непосредственной
задачей оценку степени выраженности того или иного свойства, хотя дополненное задачей экспертного рейтинга или экспертной диагностики,
оно может и должно содействовать этой оценке. Прямой задачей наблюдения как такового является обнаружение эмпирических индикаторов
(признаков, симптомов, явлений, фактов), но, как правило, в отсутствие
у наблюдателя определенной оценочной или диагностической задачи (в
отсутствие концептуального контекста и диагностической гипотезы) сам
наблюдатель оказывается слишком пассивным и пропускает слишком
много фактов, которые работают «за» или «против» определенной диагностической гипотезы. Для нас важно подчеркнуть, что, в отличие от теста,
в ходе наблюдения сама регистрация первичной информации (эмпирических фактов) лежит на человеке — на наблюдателе. Выполнение теста
НЕ требует наблюдателя. В этом и сила, и слабость теста по сравнению с
наблюдением: тест оказывается гораздо объективнее уже по кругу фиксируемых фактов, ибо множество регистрируемых событий резко ограничивается только теми ответами, которые предусмотрены тестовой процедурой. Таким образом, и тест, и наблюдение — это определенные эмпирические методы, которые могут иметь много общего, например, решать
задачу оценивания одного и того же свойства (дефицита внимания), но
при этом реализуются они в совершенно различных процедурах и скорее
должны дополнять, а не исключать друг друга (если это только возможно
практически).
Тесты и эксперимент. Тест может быть встроенным в экспериментальное исследование, а может стать частью самостоятельного тестового
обследования. Различая задачи и методы экспериментирования и тестирования, мы волей-неволей пришли к различению целей исследования и
обследования. Эксперимент — это всегда эмпирическая часть определенного исследования, то есть деятельности специалиста, направленной на
выявление некоторых общих закономерностей. Эксперимент может решать определенную прикладную, а не теоретическую задачу, но все-таки
это часть исследования. Тесты, встроенные в эксперимент, выполняют
роль инструментов регистрации эмпирической информации. Например,
прикладной эксперимент, направленный на исследование эффективности какой-то инновации (эффекта от внедрения определенной компьютерной системы в учебную или производственную деятельность), может
представлять собой проведение тестовых измерений на «экспериментальной» и «контрольной» группах: на тех, кто подвергся воздействию инновации, и на тех, кто действовал в прежних условиях (Кэмпбелл, 1980). От
тестов, встроенных в эксперимент, нередко требуются особые свойства —
быть чувствительными именно к тем переменным, которые важны
Глава 1. Определения и классификация
45
именно для данного эксперимента, и быть защищенными от факторов, от
которых данный эксперимент призван абстрагироваться. Разумеется, не
всякий эксперимент требует применения тестов. Многие эксперименты
опираются на другие, нетестовые методы сбора данных: аппаратурную
регистрацию поведенческих реакций, наблюдение и экспертные оценки,
опросы и т.п. Но главное отличие тестирования от экспериментирования
в том, что само по себе тестирование, не встроенное в эксперимент, решает задачу обследования, а не исследования — оно дает конкретную и частную информацию о конкретных людях, которая может ничего не менять
в плане нашего познания каких-либо закономерностей общего характера.
Тесты и опросы. Нередко методически малограмотные люди понятие «тест» и «опрос» используют едва ли не как синонимы, которые повсюду, в любом контексте могут заменять друг друга. Правда, при этом
имеется в виду письменный, а не устный опрос, то есть опрос, опирающийся на опросник или вопросник, но путаница от этого не уходит. Чем
же тесты отличаются от опросов? Ведь опросы, так же как и тесты, могут
включать в себя вопросы с заданными вариантами ответов. Но есть существенное различие, которое в этой книге будет применяться всегда
как главный различительный признак, хотя некоторые читатели могут с
ним и не согласиться. Опрос выявляет ответы, но сам по себе не ставит
целью приписывание опрашиваемому (обследуемому) какого-либо тестового балла по какой-либо шкале. Опрос дает нам статистику ответов, но
не дает распределение испытуемых на какой-то тестовой шкале. Нередко
опрос может предшествовать тесту и является этапом его разработки — по
выявленной частоте ответов выбираются «правильные ответы», а также
наиболее частотные (популярные) дистракторы — неправильные ответы.
Но опрос — это инструмент изучения обследуемой группы, групповой частотности определенных ответов на вопросы, но не инструмент изучения
индивидуальных испытуемых. Во многих организациях мы можем проводить опрос «Что Вы думаете о руководстве»?, при этом респонденты, отвечающие на опрос, будут ставить руководству даже какие-то порядковые,
квазиколичественные оценки по определенным шкалам. Но… это опрос, а
не тест, так как в тесте (так мы определяем сам термин «тест») баллы выносятся самому респонденту, а не тому, кого респондент оценивает. На некоторых сайтах, посвященных рейтингу определенных товаров, Вы можете
найти так называемые «тесты» и с их помощью оценить какой-то товар
(например, «протестировать холодильник»), но это пример безграмотного,
неправильного применения слова «тест». В данном случае мы имеем сбор
оценок пользователей, но никак не тест. Оценка ставится объекту, но не
самому субъекту, выполняющему методику. Но… возможны ли при этом
опросники, в которых субъект оценивает самого себя? Конечно. Вот их-то
мы и называем сложным словом «тест-опросники». То есть два понятия
имеют область пересечения в виде «тест-опросников». Вся эта нехитрая
комбинаторика из трех случаев описывается в виде таблицы 1.4.
46
Практическая тестология
Субъект суждений
и оценок
Объект суждений и оценок
Балл
Название
Респондент
Другой человек
Другому
человеку
Опрос1
Респондентиспытуемый
Сам респондент
Самому
респонденту
Тест-опрос
Испытуемый
Задание (касается неодушевленных объектов и т.п.)
Самому
испытуемому
Тест
Таблица 1.4. Признаки, облегчающие различение опросов и тестов.16
Во многих организациях ныне все шире применяется техника социометрического опроса под названием «360 градусов» — круговая оценка
работника несколькими другими людьми, знающими его в организации
с разных сторон. Так вот зададимся простым вопросом — это тест или
опрос? Конечно, опрос, но никак не тест, хотя бы потому, что оцениванию
подвергается не тот, кто отвечает. В некоторых частных модификациях
этой эмпирической технологии множество оцениваемых и оценивающих
вообще никак не совпадают между собой: например, в тех случаях, когда оцениваемые — это только руководители подразделений, а оценивающие — это только рядовые работники.
Тесты и анкеты. Нередко и термин «анкета» используется как
ситуационный синоним для слова «тест», что верно только для очень
узкого круга частных случаев, но в целом глубоко неверно и приводит к небезобидной терминологической путанице — такой, которая
влечет за собой методические ошибки. Какие ошибки? Если, предъявляя анкету или опрос, мы думаем, что это тест (или просто бездумно включаем в документацию это слово), то мы невольно ожидаем,
что запустили какую-то объективную измерительную процедуру (и
провоцируем эти ожидания у других работников, далеких от методологии оценивания). Бывают, конечно, тесты, которые сами разработчики называют «анкетами», но в общем случае анкета — это такой
частный случай опроса, когда респондент описывает сам себя, но отвечает большей частью на открытые, а не закрытые вопросы. Именно
так я считаю необходимым определить термин «анкета» и буду применять в этой книге именно такое определение. В таблице 1.5 приводятся признаки, которые позволяют надежно различать термины
«тест», «тест-опросник» и «анкета».
16 Опрос, в ходе которого респонденты выставляют объекту количественные оценки, часто
называют рейтинговым опросом, хотя автор предпочитает в этом случае термин «шкалирование». Если вы оцениваете, например, автомобиль чисто внешне, но не испытываете его
ходовые качества за рулем, то это правильнее называет оцениванием, но неправильно называть тестом (испытанием). — Прим. автора.
Глава 1. Определения и классификация
47
Объект суждений
и оценок
Тип вопросов (ответов)
Балл
Задание
Закрытые
(заданные)
Ставится испытуемому Тест
Сам респондент
Закрытые
(заданные)
Ставится респонденту
Сам респондент
Открытые и смешанные
(не заданные ответы)
Не ставится (или ставит- Анкета
ся не автоматически)
Название
Тест-опросник
Таблица 1.5. Признаки, облегчающие различение тестов, тестов-опросников
и анкет.
Итак, опросники бывают тестовые и нетестовые. Мы предпочитаем
определять термин «анкета» следующим образом. Анкета — это нетестовый опросник с открытыми или смешанными вопросами, которые позволяют получать не количественную, а качественную информацию от
респондента о самом респонденте.
В заключение этого параграфа важно подчеркнуть, что в настоящее время
различение тестов, опросов и анкет имеет вовсе не абстрактно-теоретическое
значение, а совершенно конкретный практический смысл. Речь идет о терминологической поддержке пользователей таких инструментальных компьютерных систем, как, например, модульная система Интернет-сервисов
оценки HT-LINE (автор книги — руководитель проекта HT-LINE). В ходе разработки и развития этой системы возникла практическая задача разделения
для пользователей таких инструментальных модулей оценки, как модуль
Тестов, модуль Опросов и модуль Анкет. Тесты — это такие опросы, которые
требуют простановки «ключей» (пометок, какие ответы являются ключевыми), а опросы в узком смысле этого не требуют. В свою очередь, анкеты — это
такие опросы, которые предполагают ввод свободных ответов в открытые
строки ввода, возможность прикрепления файлов-документов (например, резюме кандидата-соискателя, сведений об образовании и достижениях, фотографий и т.п.).17 При этом важно подчеркнуть, что дело не в том, как названы
данные модули именно в системе HT-LINE, а в том, что данное различение
работает на определенную намечающуюся терминологическую традицию,
связанную и с другими подобными системами. Чаще всего они присутствуют в составе так называемых learning management systems (LMS) — систем
дистанционного обучения (см. об этих системах в главе 5).
17
Впрочем, в системе HT-LINE предусмотрен так называемый «анкетный рейтинг» — ранжирование кандидатов по степени соответствия их ответов на анкету неким ответам «идеального кандидата». В этом смысле тут имеется определенный частичный отказ от одного
из признаков анкеты (столбец «Балл» в таблице 5), но при этом не следует забывать, что автоматически свободные ответы никак системой не обрабатываются, и пользователь-оценщик
(владелец кабинета) должен самостоятельно оценивать эти анкеты или привлекать кого-то
другого в роли эксперта-оценщика. — Прим. автора.
48
Практическая тестология
Тест как часть исследования и часть обследования
В некоторых вузах (в частности, на факультете психологии МГУ, где всю
жизнь проработал сам автор данной книги) ключевыми и важнейшими задачами, на которые студентов явно или неявно ориентируют, оказываются
задачи научного исследования. Это происходит вследствие того, что сами
преподаватели вуза заняты прежде всего решением исследовательских
задач и в меньшей степени решают практические задачи: они руководят
аспирантскими исследовательскими работами и структурируют отчетность о своей работе прежде всего сквозь призму целей и приоритетов научно-исследовательской деятельности — другой системы целей и приоритетов, чем в практической тестологии. В этой логике тест — это инструмент
исследования. Под стандарт аспирантских диссертаций все чаще подгоняются в таких вузах и дипломные, и курсовые работы студентов (везде во
введении требуются различные бюрократизированные формулировки, касающиеся «предмета» и «объекта» исследования, например). Это приводит
к серьезным следствиям, которые нуждаются в обсуждении и различении.
Например, этика научно-исследовательской деятельности является
совершенно иной в отношении правил и норм распространения научнометодической информации. С точки зрения ученого-исследователя, тест
подлежит обязательной полной, исчерпывающей публикации в научном
журнале — так, чтобы научное сообщество могло перепроверить экспериментальный результат, полученный автором-исследователем с помощью данного теста. Другое важное следствие — несколько иные, в чем-то
более высокие, а в чем-то даже сниженные требования к психометрическим свойствам тестов, встроенных в исследовательскую деятельность.
Для этих тестов их пользователи (нередко они же являются разработчиками этих тестов, но чаще они берут для своих исследований готовые
тесты, разработанные другими авторами) просто обязаны очень глубоко
анализировать и обсуждать содержательную валидность — определенную структуру и механизм функционирования психического свойства
(фактора), на диагностику которого направлен тест18. И при этом иссле18
Нередко возникают неоправданные трудности при утверждении тем и защите работ у
студентов, выполняющих в ходе курсового и дипломного проекта классическое тестологическое исследование по изучению психометрических свойств определенного теста. В контексте тестологии, казалось бы, очень просто определить предмет этой работы в терминах
того психического свойства, на которое направлен тест, но… это не всегда устраивает комиссию, привыкшую к логике экспериментального исследования, — они ждут формулировку
предмета в терминах целей и задач экспериментального исследования и научных гипотез
(о связи одних переменных с другими). Для того чтобы разъяснить коллегам, в чем заключается их заблуждение, автору, наверное, будет мало писать статьи и книги — надо убедить
включиться практически хотя бы в один проект не Исследования, а Обследования, ибо
только опыт практического выполнения другой задачи может трансформировать стереотипы сознания и шаблонные сценария поведения.
Глава 1. Определения и классификация
49
дователи менее, чем практико-ориентированные разработчики, обязаны доказывать репрезентативность тестовых норм на огромных выборках и устойчивость теста к фальсификациям (см. ниже). В практической
тестологии тест рассматривается как средство ОБСЛЕДОВАНИЯ — решения практической задачи по получению конкретной информации о
степени выраженности тех или иных свойств у конкретных людей, взятых из определенной группы. Отсюда возникает ряд иных требований
к тестам в практической тестологии и к использователям этих тестов:
1) В обосновании валидности практико-ориентированных тестов важна не столько теоретическая логика анализа содержательной области
валидности, сколько эмпирико-статистический поиск значимых связей между тестовыми баллами и внешними критериями эффективности деятельности (учебной или производственной) — то есть проверка
внешней прагматической валидности. Если эта проверка дает положительные результаты, то менеджер-тестолог может смело оставить
задачу «теоретического анализа» другим специалистам и двигаться
дальше — по пути совершенствования данного теста или разработки
других тестов.
2) Чтобы давать достоверные результаты (защищенные от риска
фальсификации), практико-ориентированные тесты должны содержаться в организации в «режиме ноу-хау » — в режиме секретной информации с четко ограниченным доступом (раньше на изданиях методической литературы стоял гриф «ДСП — для служебного пользования»). Такие тесты нельзя публиковать в открытых
источниках (обычных научных журналах), контроль за которыми
никто персонально не ведет. В противном случае они попадают на
пиратские сайты и становятся «добычей» потенциальных испытуемых и перестают работать.
3) Практико-ориентированные тесты требуют для обоснования тестовых
норм на порядок более многочисленные выборки — это всегда сотни
человек (а нередко требуются тысячи), хотя для многих научных экспериментов можно получить статистически достоверные связи и различия на десятках испытуемых.
4) Практико-ориентированные тесты требуют от пользователей особой
социально-психологической подготовки, поскольку их применение сопряжено с ситуациями открытого, но чаще скрытого сопротивления
(саботажа), ибо тестирование нередко проводят прямо на рабочих местах, а не в научных лабораториях.
5) Практико-ориентированные тесты очень часто должны быть совместимы и сравнимы по формату своих результатов с другими оценочными процедурами, включенными в комплексные программы оценки (как, например, в методе «Центр оценки»).
Итак, еще раз о задачах «практической тестологии»:
50
Практическая тестология
Практическая тестология рассматривает тесты в контексте решения
практических задач обследования, а не в контексте научно-исследовательской работы.
Предмет и объект тестирования
Хотя методологическое различение объекта и предмета не является
ключевым для успешного решения задачи обследования, все же это различение может помочь молодому специалисту не только формально пройти через какую-нибудь приемочную комиссию при сдаче аттестационноквалификационной работы, но и самому поглубже разобраться, что именно он обследует.
Встроенное в задачи обследования тестирование как вид профессиональной оценочной деятельности имеет совершенно определенные предмет и объект. Если Вы тестируете техническое устройство (например,
компьютер или автомобиль), то объектом вашей оценочной деятельности
является само техническое устройство, а предметом — та его функция, которую Вы в данный момент оцениваете (проверяете). Хотя проблематика
технической тестологии выходит за рамки данной книги, тем не менее,
некоторые примеры из области тестирования (диагностики) технических
устройств бывают полезными для лучшего понимания того, что происходит в областях, нами рассматриваемых, — в областях психологического,
образовательного и кадрового (профессионального) тестирования. Во всех
трех перечисленных случаях объект тестирования один и тот же — это
человек, рассматриваемый как эмпирический носитель какого-то интересующего нас свойства или функции19. Но вот предметы в этих случаях
оказываются несколько разными. В случае психологического тестирования (или в случае психодиагностики) предметом являются психические
свойства человека: в частности, такие как константность восприятия, объем внимания, прочность памяти, креативность мышления, черты темперамента, характера и мотивации и т.п. В случае образовательного тестирования предмет — это знания, умения, навыки и познавательные способности, впрочем, в последнее время объединенные одним родовым и более
комплексным понятием — «образовательные компетенции». В случае кадровой (профессиональной) тестологии предмет — это профессиональные
и производственные компетенции, то есть свойства, которые влияют на
эффективность профессиональной деятельности. На рис.1.2 представлена
19
Кстати, человек как объект тестирования предстает и при реализации инструментальных методов медицинского обследования, которые не так часто, но и не редко оформляются
как методы тестирования. Но проблематика медицинской диагностики находится за пределами настоящей книги.
Глава 1. Определения и классификация
51
схема отношений между объектом и предметом в этих трех разных областях практической тестологии.
Рис.1.2. Соотношение предмета и объекта в разных отраслях практической
гуманитарной тестологии.
Пересекаются ли предметы психологического, образовательного и
профессионального тестирования? Несомненно. Именно поэтому мы
вправе объединить эти три разные ветви тестологии в единую научную
дисциплину — практическую гуманитарную тестологию.
Определение. Практическая гуманитарная тестология — это наука
о применении тестов для измерения и диагностики индивидуальных свойств человека, проявляющихся в различных видах деятельности — учебной, профессиональной, общественной, семейно-бытовой, досугово-развлекательной.
Хотя в учебной и профессиональной деятельности общие способности
человека нередко напрямую не влияют на эффективность деятельности в
конкретных ситуациях, а проявляются лишь косвенно — через конкретные умения и навыки, тем не менее более универсальная и более глубокая образовательная или профессиональная диагностика восходит к уровню общих способностей и личностных черт (качеств) человека.
Анализируя иерархию образовательных и профессиональных компетенций, мы вынуждены констатировать, что наиболее общие и универсальные образовательные и профессиональные компетенции фактически
смыкаются с психическими свойствами, то есть предметы образовательного и профессионального тестирования сближаются с предметом психологического тестирования. Эту иерархию в простейшей форме мы посчитали
необходимым схематически проиллюстрировать на рис.1.3.
52
Практическая тестология
Рис.1.3. Иерархические взаимосвязи между частными компетенциями и
универсальными психическими свойствами.
Для того чтобы абстрактная схема на рис.1.3 наполнилась более конкретным содержанием, рассмотрим в качестве примера такое психическое свойство (способность), как «память на цифры и даты». Проявляется
ли это свойство в учебной деятельности? Разумеется, без него трудно добиться успехов, например, при изучении такого школьного предмета, как
история, хотя в ходе учебной деятельности эта способность сращивается в
единую компетенцию с еще весьма неустойчивой ситуационной мотивацией — «показать знание дат исторических событий по конкретной исторической теме на конкретном уроке истории конкретному преподавателю
и получить от него оценку «отлично». А вот в контексте профессиональной
деятельности под эту способность может быть постепенно (не сразу) подведена некая устойчивая кросс-ситуационная мотивация, которая обрастает для человека личностным смыслом и становится его личностным
достоянием: «Я помню даты рождения своих сослуживцев и коллег на работе, и это позволяет мне укреплять и улучшать отношения с коллегами».
Это, кстати, вполне полезная компетенция для специалиста по человеческим ресурсам («эйчара»). А уровень конкретных навыков, или способов
реализации общей функции? Он опять-таки может быть специфическим.
Кто-то напрягает свою натуральную память, кто-то умело пользуется
Глава 1. Определения и классификация
53
внешними запоминающими устройствами — делает пометки в бумажном блокноте или пользуется функцией «календарь» в мобильнике или
той же функцией в программе-органайзере на персональном компьютере
или функцией особого приложения в социальной сети.
Конечно, теория взаимосвязей различных свойств может быть существенно иной, чем это показано на рис.1.3, на котором лишь иллюстрируется возможность некого общего подхода, объединяющего предмет и
задачи различных видов и ветвей тестологии. Разработка подобных теорий — это задача дифференциальной психологии, научной дисциплины,
рассматривающей структуру и связи индивидуально-особенных свойств
человека. Достижения этой науки весьма важны для общего успеха тестирования, но тестология по традиции обычно занимается не столько
структурированным описанием предмета измерения, сколько качеством
самих инструментов измерения — тестовых методик. Впрочем, если с
какой-то методикой связана развитая теория «содержательной валидности» измеряемого свойства (диагностического конструкта), то мы получаем достаточно объемный фрагмент дифференциально-психологической
теории, посвященный структуре и функционированию измеряемого
свойства, — концептуальную схему, подобную изображенной на рис.1.3.
Предмет и объект тестологии
Не следует смешивать тестирование и тестологическое исследование — это два разных, хотя и связанных между собой вида деятельности.
Предмет и объект в тестологии как в методологической науке несколько
иные, чем предмет и объект практической программы обследования (тестирования). Непосредственным объектом в тестологическом исследовании является методика или методики (во множественном числе), а предметом — функциональные свойства этого объекта, то есть психометрические (метрологические) качества тестовых методик.
Таким образом, методологическая тестология — это особая наука,
ориентированная на технологические процессы, на технологическую
(методическую) вооруженность практических пользователей тестовых
методик. В отличие от практического пользователя методики, имеющего
объектом каждый раз конкретного человека, объектом ученого-тестолога
является именно инструмент деятельности — методика. Он вычленяет и
рассматривает его как особый профессиональный объект, который также
должен обладать определенными полезными свойствами — функциями.
Ученый-тестолог, изучая свойства тестовой методики, решает не
столько практическую задачу обследования конкретных людей, сколько
научно-методическую задачу исследования возможностей определенной
методики. В ходе проверки психометрических (тестологических) свойств
54
Практическая тестология
методики исследователь-тестолог руководствуется определенными научными гипотезами — о том, что данная методика обладает (или не обладает) таким-то и таким-то функциональным свойством. Здесь присутствует
и привычная для любого исследования допустимая альтернативная гипотеза — о том, что «методика НЕ обладает искомым свойством», а при статистической проверке появляется определенная статистическая достоверность в принятии-отвержении этих гипотез.
Кстати, тут же стоит сказать хотя бы два слова, почему функциональные качества тестовых методик в тестологии принято называть «психометрическими»? Не сужает ли эта терминологическая традиция область тестологии в целом до более узкой области психологического тестирования?
Мое предложение в этой книге состоит в том, чтобы отнестись к такому
терминологическому сужению с определенным снисходительным терпением и пониманием его происхождения. Просто наиболее популярные
понятия и процедуры для тестологии в целом были предложены разработчиками-психометристами, занимавшимися измерением именно психических свойств. Поэтому, хотя в общем виде надо было бы пользоваться
универсальными тестологическими терминами, все-таки надежность,
валидность и репрезентативность конкретной методики принято называть ее психометрическими свойствами (параметрами).
Тестирование как одна из возможных оценочных процедур
Как уже говорилось выше, применение изолированного теста — это роскошь, которую может позволить себе скорее исследователь, чем практик.
Практик стремится связать тестовую информацию с другими видами и
каналами информации: например, с биографическими данными об обследуемых. Но главное — это сочетание тестовых и нетестовых оценочных
процедур. Слишком много достоинств у метода тестов, чтобы в настоящее
время производить серьезную массовую оценку без использования тестовых технологий. Но… у этого же метода тестов слишком много недостатков,
чтобы ограничиваться только тестами. Тестовые и нетестовые оценочные
методики отлично могут и должны дополнять, а не заменять друг друга.
Какие оценочные методики могут быть нетестовыми? Вопрос звучит
немного парадоксально. Это все равно, что попросить человека отчитаться,
когда именно он говорит прозой. А ведь это все традиционные методы! Нетестовые методы педагогической оценки — это всем известные со времен
собственного обучения в школе методы устного опроса, контрольные задания с развернутым ответом (контрольные работы), устные и письменные
ответы «по билетам» (экзамены). В вузах это рефераты, доклады, устные
выступления на семинарах, коллоквиумы, решение кейсов (практических
задач), практикумы, проектные работы. Как совместить тестовые баллы и
Глава 1. Определения и классификация
55
методы нетестовой оценки в общем журнале (ведомости успеваемости)? Об
этом пойдет речь в этой книге. Но сейчас можно в двух словах обрисовать
самый простой и понятный метод совмещения: первичные тестовые баллы
(очки, соответствующие проценту правильных ответов) переводятся определенным образом в традиционную пятибалльную или другую шкалу, которая используется в нетестовых методах. И тогда в журнале в столбце «тестовая проверка» появляется точно такая же отметка, как и в других столбцах, соответствующих традиционным методам проверки.
Но… является ли такой способ совмещения тестов и традиционных
оценок правильным? Не теряется ли при этом часть той ценной информации, которую дает тест? Как правильно переводить тестовые баллы в
словесные категории («отлично», «хорошо», «удовлетворительно», «неудовлетворительно» и т.д.)? Об этом пойдет речь в соответствующих главах и
параграфах этой книги (см. 1.3 и весь раздел 7).
Тесты используются в настоящее время весьма широко не только в образовании. Весьма своеобразное место занимают тесты в комплексных
системах оценки персонала (в кадровом ассессменте, или в рамках метода
«Центр оценки»). Там также весьма важно уметь сочетать тесты и нетестовые технологии — и по времени проведения, и по массовости охвата, и по
способам совместного представления и интеграции результатов в рамках
итогового рейтинга. Суммирование баллов за тесты и за другие оценочные технологии — это самая простая, но далеко не единственная процедура интеграции. Другой способ, нередко гораздо более осмысленный, заключается в том, чтобы использовать тестовые шкалы в качестве «логикоколичественного фильтра» в ходе поэтапной, многошаговой процедуры
отбора. Тест эффективнее (просто дешевле, практичней) на первых этапах
как раз в качестве инструмента быстрого «сужения воронки отбора». То
есть гораздо правильнее его использовать как инструмент отсева на ранних этапах, а не инструмент отбора на окончательном этапе. Тест — не
слишком надежная и валидная оценочная технология для различения
«сильных» и «средних» работников, но отлично справляется с выделением группы «слабых» (низкой группы). Еще неизвестно, что стоит за высоким баллом, полученным в ходе автоматизированного массового тестирования сотен и тысяч людей, — возможно, это артефакт, произошедший
из-за утечки ключей (люди подобрались к правильным ответам и банально списывали). Но вот низкий тестовый балл — это чаще всего точное свидетельство принадлежности к «низкой группе» (даже списать не сумели).
Определение понятия «тестовая система»
Для того чтобы минимизировать риски «утечки ключей» и
фальсификации, к тестовым методикам следует применять логику и требования, которые предъявляются к «информационным
56
Практическая тестология
системам», — понятия информационной безопасности, защиты информации, разграничения доступа и т.п. Но тут же стоит задаться таким вопросом: правильно ли ставить полный знак равенства
между понятиями «тестовая система» и «информационная система
тестирования»? К такому отождествлению нередко склоняются ИТспециалисты (софт-инженеры, системные администраторы, эксплуатирующие компьютерные тестовые системы во внутренних компьютерных сетях организации). Такое отождествление, по моему
убеждению, будет не чем иным, как технократической редукцией
понятия «тестовая система». С моей точки зрения, тестовая система — это не только аппаратное и программное обеспечение, но и другие, зачастую более важные компоненты: это люди, обеспечивающие
работу «тестовых систем», это нормативно-инструктивные документы, обеспечивающие юридические и организационно-методические
регламенты функционирования тестовых систем, а главное — это
коммуникативная инфраструктура, которая либо помогает (если она
оптимально организована), либо мешает взаимодействию всех перечисленных компонентов. Итак, сформулируем рабочее определение
тестовой системы.
Тестовая система — это системная совокупность методической и организационной документации, человеческих ресурсов, программных и материально-технических средств, а также каналов коммуникации, связанных с подготовкой, проведением тестирования и использованием его результатов.
Тут же встает такой вопрос: а может ли «практическая тестология» заниматься только самой тестовой методикой, но абстрагироваться от других компонентов «тестовой системы», без которых даже очень хорошая
методика оказывается практически бесполезной, не работает? Вопрос,
впрочем, задан в риторической форме и предполагает только один ответ —
«нет, не может».
Таким образом, чуть подробнее опишем основные компоненты тестовой системы:
1) нормативная база и программно-целевая документация (юридические, организационные и этические ограничения, цели и критерии,
положения и регламенты);
2) человеческие ресурсы (лица, принимающие решения (ЛПР), или заказчики результатов, тестологи, софт-инженеры, менеджеры-администраторы, авторы тестовых заданий, эксперты, испытуемые);
3) материально-техническая база (помещение, оборудование, физические линии связи);
4) информационные ресурсы (методические материалы, банки тестовых заданий, программные средства проведения тестирования,
Глава 1. Определения и классификация
57
программные средства обработки результатов тестирования, компьютерные сети, программные средства коммуникации);
5) фактические работающие каналы и способы коммуникации (реальная
коммуникативная инфраструктура).
Немедленного разъяснения тут, очевидно, требует различение
программных средств коммуникации и реальных каналов коммуникации. Чтобы система тестирования не превратилось в бюрократическо-технократическую фикцию, обязательно необходимо различать потенциальную возможность использования сотрудниками,
организующими тестирование, тех средств коммуникации, которые
как бы имеются у них в распоряжении, и тех реальных способов, к использованию которых они фактически подготовлены, склонны, привыкли. Казалось бы, это такое самоочевидное требование! Но сколько
раз автор книги видел, как в наших организациях сами первые лица
подают своим подчиненным пример крайне поверхностного понимания ситуации под лозунгом «выдадим желаемое за действительное!».
Заместители этих незадачливых руководителей выдают им формальную отчетность: «Внедрена обучающая и тестовая система с полным
охватом всего контингента потенциальных учащихся (тестируемых) — все снабжены учетными записями, паролями, виртуальными
рабочими местами (индивидуальными веб-страницами), системами
внутренней почты, связывающими учащихся с преподавателями
(экзаменаторами)» и т.д. и т.п. И сплошь и рядом руководитель, который втайне не только от окружающих, но и от самого себя пребывает
в тихой панике от собственной компьютерной безграмотности, начинает действовать по принципу: «Обманите меня, пожалуйста, я сам
обманываться рад!». Ему бы провести независимый опрос этого «всего контингента» о том, кто реально воспользовался новыми каналами
коммуникации для выполнения своей служебной деятельности, но
нет… Если не принято добывать реальную информацию о реальных
процессах в организации, то ничего не поделаешь — сам начальник
будет отгорожен от реальности частоколом формальных бумажек и
декларативных документов. А отсюда — от рассогласования формальных и реальных компонентов системы тестирования — до получения
абсурдных, недостоверных, фиктивных результатов тестирования
уже рукой подать!
Люди стремятся общаться между собой на работе по старинке —
подскакивая друг к другу для короткого обмена словами (и файлами) на
рабочих местах: просто один работник дает флешку, которая вставляется в компьютер другого работника, вот и передана информация! А соблюдены ли при этом определенные нормативы конфиденциальности
и ответственности? Оформлен ли акт приемки-передачи, означающий
передачу ответственности за материал от одного исполнителя другому?
58
Практическая тестология
Защищен ли паролем сам файл или та директория, куда он попал? А теперь нередко сотрудники пользуются для передачи своим личными почтовыми адресами — сотрудники, которым трудно встретиться друг с
другом в офисе (работают в разных зданиях или в разное время появляются в офисе, будучи телекомьютерами, совместителями, фрилансерами и т.п.). Они привыкли и освоили почту на mail.ru, yandex.ru или
gmail.com и вовсе не склонны задумываться, насколько на этих серверах в их почтовых ящиках кто-либо всерьез гарантировал информационную безопасность. А никто, оказывается, не гарантировал! Даже пароли, полностью повторяющие ники на этих ящиках, некоторые «горепользователи» не меняют просто годами. Берем адрес ivanovsi@yandex.
ru, а пароль к ящику такой — ivanovsi. Спрашиваю: «Кто придумал Вам
этот ник и этот пароль?» Ответ: «Это мой внук мне помог, уже давно это
было, он у меня такой толковый, он и для сына моего все на его компьютере устанавливает и налаживает…». Конечно, в серьезных организациях, имеющих средства на высокие ставки для ИТ-специалистов (например, в банковском секторе), такую ситуацию встречаешь редко, но в
российских вузах это сплошь и рядом именно так. Стоит на какой-то кафедре настольный компьютер, на котором работает малоответственный
секретарь-лаборант. Когда она убегает на свои занятия (будучи, как правило, еще и студентом вечернего отделения), то каждый может включить ее компьютер и что-то туда «закачать» или что-то оттуда «скачать».
В том числе и студенты, которые заходят на кафедру, тоже все файлы
могут оттуда скачать, включая «секретные» билеты к госэкзамену и т.п.
А преподаватели только рады, что появляются студенты, которые умеют найти все что надо и помочь справиться с техническими проблемами… Вот и вся песня про информационную безопасность!
Практическая тестология
как организационно-технологическая дисциплина
Приближаясь к завершению раздела «Что такое тест и тестология?», автор
хотел бы еще раз резюмировать некоторые важные тезисы, которые уже в той
или иной степени прозвучали, но менее явно в предыдущих параграфах.
В нашей трактовке понятие «практическая тестология» шире, чем более традиционное понятие «психометрика», как минимум, по двум основанием:
1) Измеряются (тестируются) не только психические свойства, но знания, умения, навыки, которые важны для учебной и профессиональной деятельности.
2) Сами процедуры тестирования рассматриваются в более широком контексте, учитывающем материально-технические и организационнопсихологические условия, в которых это тестирование производится.
Глава 1. Определения и классификация
59
Совершенно блистательная, отвечающая всем требованиям психометрики тестовая методика может давать бесполезные и даже вредные
результаты, если она помещена в неблагоприятный контекст, то есть
без учета готовности организационно-технических и организационно-психологических условий ее проведения в реальной организации.
Причем речь идет не только об адекватном поведении испытуемых
или практических тестологов, администрирующих (организующих)
процесс тестирования. Оно может быть вполне адекватным, но… важно, чтобы руководство (ЛПР) было подготовлено адекватно воспринимать результаты тестирования. Вот провели игровую компьютерную
методику на измерение уровня мотивации достижения работников, но
если руководство, глядя на списки наиболее и наименее мотивированных работников, совершенно не знает, «что теперь с этим делать», то
даже вполне адекватное исполнение всеми участниками процесса тестирования всех предписанных им действий на самом деле НЕ меняет
ситуацию к лучшему.
Если ни организаторы, ни руководство не продумали заранее, что они
будут делать с результатами, то решения, принятые уже по факту определенных полученных результатов, могут оказаться психотравмирующими
для работников и вызвать протест и рост недоверия к руководству. Этот
общий негативный эффект, затрагивающий и тех, для кого ничего в данный момент формально не изменилось, может полностью перевесить незначительный позитивный эффект от селективных решений по какой-то
части работников.
Тезис о необходимости упреждающего планирования управленческих решений: возможные варианты управленческих решений по
результатам тестирования должны быть явно сформулированы для
участников тестирования еще ДО самого тестирования.
Подобный тезис не входит в компетенцию узко понятой психометрики, но входит в компетенцию широко понятой «практической тестологии», которая не может реализовать свои цели, не будучи дисциплиной,
учитывающей достижения организационной психологии.
Тестирование в организации — это определенная программа мероприятий, это комплексный проект, который можно успешно внедрить
и реализовать только с учетом организационного контекста, понятого в
самом широком смысле. Поэтому-то «практическая тестология» должна и будет развиваться как смешанное сочетание психометрики (науки о гуманитарных измерениях), с одной стороны, и организационной
психологии — с другой. На выходе мы должны получать определенные
проекты, представляющие собой комплексные оргтехнологические
решения, адекватные наличным возможностям конкретной организации.
60
Практическая тестология
1.2. ОСНОВНЫЕ МЕТРОЛОГИЧЕСКИЕ
ПОНЯТИЯ ТЕСТОЛОГИИ
Психометрические тесты и их отличие
от квазиизмерительных тестов
Переходя к более сложным понятиям тестологии, мы не можем обойтись без определения понятия «психометрические тесты». Чтобы внятно
сформулировать отличие психометрических тестов от других, фактически неизмерительных тестов, надо так или иначе вводить понятие психометрических свойств теста (см. следующий параграф), но первый шаг
можно сделать и без этого. Впрочем, только первый и не дающий исчерпывающего представления.
Самый поверхностный отличительный признак психометрического
теста — число заданий в нём (и, соответственно, продолжительность сеанса тестирования). Психометрические тесты, как правило, не бывают длиной менее 30 заданий-вопросов, а развлекательные сплошь и рядом содержат не более 15 вопросов (не дай бог утомить развлекающегося испытуемого, ведь когда ему будет скучно, он просто бросит проходить тест и все).
Но, конечно, это слишком поверхностный и не надежный различающий
признак. Иногда в популярные журналы попадают даже профессионально
разработанные тесты, но там им дают более грубую, более резкую и более
игривую интерпретацию.
Когда Вы открываете раздел «тесты» в каком-нибудь популярном журнале (или посещаете сайт с развлекательными тестами), то Вы, как правило, обнаруживаете такую особенность в интерпретации результатов
тестирования: каждому интервалу на шкале тестовых баллов приписывается какой-то определенный, чаще всего яркий и забавный вывод-рекомендация. Вспоминаю развлекательные тесты моей школьной юности в
советском очень популярном журнале «Наука и жизнь». Когда-то там был
опубликован в рубрике «Психологический практикум» тест-опросник
Ганса Айзенка «Какой у Вас темперамент?». На последней странице журнала приводилась расшифровка (правильные ответы) к ребусам, кроссвордам и заодно к тестам. Так вот я помню следующий способ различения
«экстравертов» и «интровертов»: если количество баллов по первой шкале
от 13 до 24, то Вы — экстраверт, а если от 0 до 12, то Вы — интроверт. Вот как!
Никакой средней группы, а жесткое деление по полюсам — либо один полюс, либо другой20. Получается, что достаточно по-разному ответить всего лишь на один какой-то вопрос, и… ты вместо категории «интровертов»
20 Сам по себе тест-опросник EPIГ. Айзенка создан автором как психометрический, но при
такой вульгарной интерпретации результатов он переходит в ранг развлекательно-спекулятивных тестов. — Прим. автора.
Глава 1. Определения и классификация
61
сразу переходишь в категорию «экстравертов». Также вспоминаю и другой
эпизод с другим шуточным журнальным опросничком (эпизод еще из
времен моей студенческой молодости): как я был удивлен, когда изучил,
чем ответы моего отца отличаются от ответов моей мамы. Мама получила
диагноз «Боец за правду», а отец — «Боец за правду с мелочным уклоном».
Оказалось, что их ответы на 12 вопросов отличались всего лишь в одном
случае: отец ответил, что он делает по утрам зарядку регулярно, а мама —
что нерегулярно. И вот она желанная «хохма» для компании, собравшейся
в «салоне»: всего лишь один признак меняет скрыто иронический, «героический» вывод-диагноз на явно иронический.
Серьезные психометрические (или метрологические) тесты базируются
на статистических тестовых нормах, в которых центральный интервал (средние значения, так называемый «коридор нормы») не предполагает, строго говоря, никакой однозначно-определенной интерпретации. Попадание в этот
интервал может означать сразу несколько совершенно разных вещей:
1) Гармоничный характер (человеку в самом деле не свойственны никакие полярные черты, характерные для полюсов шкалы, то есть в нашем
примере с опросником типов темперамента он является одновременно
и умеренным экстравертом, и умеренным интровертом, меняя гибко
по ситуации свою стратегию поведения и оказываясь вполне адаптивным человеком),
2) Скрытый отказ от диагностики, проявляющийся в двух возможных
стратегиях уклонения от достоверных ответов: стратегии случайного выбора ответов (в правильно составленных тест-опросниках, содержащих как прямые, так и обратные вопросы, эта стратегия всегда
автоматически приводит к попаданию в центральный интервал) или
стратегии чередования и балансирования ответов «верно-неверно» (эта
стратегия иногда называется словом «медианная» -это сознательная
ориентация на попадание в центр шкалы).
Таким образом, в профессионально сконструированных, метрологически калиброванных (нормированных) тестовых шкалах применяется
не двузначная логика выводов типа «экстраверт — интроверт» или «знающий — невежда», а трехзначная логика типа «экстраверт — средне-неопределенный — интроверт», «знающий — средне-неопределенный — невежда».
Как видим, для тестов, построенных на статистически-нормированных шкалах (основанных на гауссовой модели нормального распределения), средняя группа содержит значительно больше испытуемых, чем
две крайние — примерно 68 процентов против 32. Но ведь это же очень
скучно — отпустить почти две трети испытуемых без всякого «веселого
диагноза». Мастера развлекательного тестирования не могут себе этого позволить, ибо в противном случае тест лишается главного смысла — быть
дополнительной коммерческой приманкой для покупателя журнала (посетителя сайта).
62
Практическая тестология
Рис.1.4. Трехзначная логика диагностического вывода на базе шкалы тестовых баллов, построенной по принципу нормативно-ориентированного тестирования (НОРТ)21.
Но, конечно, квазиизмерительные тесты не сводятся только к развлекательным тестам. Есть немало книг, в которых авторы настаивают на
том, что они создали вполне серьезный тест, и приводят массу аргументов, что тестовые нормы (то есть критические точки, разделяющие определенные интервалы на шкале тестовых баллов) должны быть расположены именно так, как считают сами авторы. При этом статистические
данные они не считают нужным собирать и анализировать вовсе. В этом
игнорировании статистических фактов, как правило, проявляется определенный когнитивный стиль, который в научном творчестве характерен
для «воинствующих теоретиков». Этот стиль нередко в дискуссиях получает следующую ироническую характеристику — «склонность к теоретическим спекуляциям», то есть к умозрительным построениям, ориентированным на доверчивую публику, не обладающую критическим мышлением и не способную строго потребовать от автора, чтобы он предъявил
реальные и убедительные эмпирико-статистические доказательства. Поэтому нередко в контексте данной книги эти квазиизмерительные тесты
мы будем называть «спекулятивными».21
Для желающих судить о качестве теста по внешним признакам ситуация значительно осложняется тем, что есть такие спекулятивные тесты,
которые по всем внешним признакам обладают очень большим сходством
с серьезными многофакторными психометрическими тестами: много
разнообразных вопросов-заданий, охватывающих широкую смысловую
область (область валидности), сложный многофакторный ключ, проецирующий разные ответы на разные шкалы теста, весовые коэффициенты
при подсчете баллов по шкалам, причудливые нелинейные границы неравных интервалов на шкалах для интерпретации, анализ сочетаний
разных шкал (этот подход иногда называют «конфигурационный анализ
21
Тут следует сделать важную оговорку, что пока мы не будем подробно обсуждать различия тестовых шкал, построенных по принципу НОРТ (нормативно-ориентированного
тестирования) и по принципу КОРТ (критериально-ориентированного тестирования). Об
этом пойдет речь в более продвинутых главах книги. — Прим. автора.
Глава 1. Определения и классификация
63
тестового профиля»), но… за этим всем нет главного — нет ни одного эмпирического исследования достаточно обширной (репрезентативной) выборки реальных испытуемых.
Поэтому, прибегая вдруг из каких-то соображений к спекулятивному
тесту, пользователь на самом деле должен быть, как в формуле аутогенной
тренировки, «готов ко всему». Он должен быть готов и к тому, что этот тест
будет работать отлично и будет хорошо различать разных людей (и такое
бывает), но и к тому, что 95 процентов испытуемых вдруг получат… одинаковый тестовый балл, сместятся все к какому-либо полюсу, и никаких разумных решений на основании этих результатов принять не удастся вовсе,
ибо нельзя все 95 процентов людей ни назначить на одну вакансию, ни
всем сразу отказать, ни всех отправить на обучение (возможны и другие
типы решений, о которых мы будем говорить в разделе 1.4).
Граница между психометрическими и квазиизмерительными тестами воспроизводит незримую разграничительную линию между наукой
и… искусством. При этом я совершенно не утверждаю, что искусство —
это бесполезная вещь. Оно может быть даже более полезным, чем наука,
особенно в отношении развития и саморазвития личности. Но это просто не наука — вот в чем дело. Если автор сам рассматривает свой тест как
продукт, прежде всего, литературного творчества, если он позиционирует его при публикации подобно тому, как это делают авторы повестей,
детективов или юмористических рассказов, если он утверждает, что его
тест — это, прежде всего, инструмент для каждого, желающего заняться
самопознанием (поэтому в этом же издании каждый найдет все ключи,
все нормы, все тексты интерпретирующих сообщений), то для меня этот
жанр ближе к искусству, чем к науке. Ибо наука — это возможность воспроизводить определенные статистические паттерны (закономерности)
с помощью различных специалистов, которые следуют независимо друг
от друга только отчуждаемым строгим методическим предписаниям.
Наука — это определенный барьер, разделяющий посвященных и остальных — тех, кто должен оставаться в позиции наивного испытуемого и не
иметь доступа к техническим компонентам теста. И если тест, по которому можно собирать подобные статистические массивы, самим автором не
анализируется статистически, то это скорее род литературного творчества, чем научный инструмент. Итак…
Квазиизмерительные, спекулятивно-умозрительные тесты могут
быть полезным инструментом самопознания, но они не являются
инструментом для научного измерения и прогнозирования поведения людей в определенном классе ситуаций, ибо вероятность ошибки в такого рода прогнозах для квазиизмерительных тестов просто
не установлена по определению.
64
Практическая тестология
Ключи, нормы, сырые и стандартные тестовые баллы
Основной измерительной процедурой в тестологии является не столько
проведение теста (сбор ответов), сколько обработка полученных ответов. При
обработке результатов тестирования и реализуется некий метрологический
алгоритм, приводящий к отображению заданного протокола ответов в определенное значение (точку) на шкале тестовых баллов. В простейшем и самом
типичном случае этот алгоритм сводится к подсчету суммы правильных ответов на тестовые задания. При этом неявно предполагается, что чем выше
эта сумма, тем выше тестовый балл на шкале измеряемого свойства, хотя
предполагаемая причинная связь, лежащая за этим утверждением, имеет
скорее обратное направление: чем выше у испытуемого выражено измеряемое свойство, тем больше заданий он готов решить правильно.
Такой тривиальный способ подсчета тестового балла скрывает от пользователя само понятие «ключ к тесту», и оно не формируется в виде универсального концепта.
Ключ к тесту — это формула или алгоритм отображения протоколов
ответов в точку на шкале тестовых баллов.
Более универсальное представление о «ключах» появляется, когда
мы рассматриваем не самые простые учебные тесты, а, например, тестопросники для измерения личностных черт или социальных установок.
В этом случае часто используются так называемые «обратные вопросы» —
такие, по которым формируется «обратный ключ»: балл по шкале суммируется в случае ответа «неверно» (в случае несогласия с утверждением,
содержащемся в вопросе), а не в случае ответа «верно», как для «прямых
вопросов». Пример обратного вопроса в тест-опроснике на склонность к
риску: «Вы согласны с поговоркой «Семь раз замерь, один — отрежь?».
В общем случае с различными ответами могут быть связаны как положительные, так и отрицательные баллы, причем различающиеся по
весу в зависимости от значимости данного вопроса (точнее ответа) для измеряемого свойства. Одна из формул подсчета баллов по ключу, имеющая
универсальное значение, — это формула поэлементного «логического» произведения матрицы ответов |Rik| и матрицы ключевых ответов |Pik|:
(1.1)
Xj =
,
где Xj — суммарный балл j-го испытуемого,
Pik — весовой коэффициент для k-го ответа на i-й вопрос теста,
Rijk — числовой код k-го ответа j-го испытуемого на i-й вопрос теста
(Rijk=1, если данный ответ выбран, Rijk=0, если данный ответ не выбран).
n — число вопросов (заданий) в тесте, m — число ответов на каждое задание.
Глава 1. Определения и классификация
65
Как правило, формула (1.1) на практике в таком универсальном
виде не применяется, так как чаще всего испытуемый выбирает только один ответ из m возможных и только один ответ считается «ключевым» (правильным). Таким образом, в частном случае, если числовой
код ответа принимает значения «1» или «0», и при этом ключ также
принимает значения «1» или «0», то сам балл по тесту интерпретируется очень просто — как число совпадений ответов данного испытуемого с ответами некого «идеального испытуемого» — такого, который
получает максимальный балл по шкале измеряемого свойства. В этом
случае матрица ключей легко упаковывается в вектор |Pi|, как и матрица ответов |R i|, то есть суммирование числа совпадений номеров
ответов и номеров ключей производится по одному индексу i — по
номеру вопроса. Тогда формула (1.1) принимает следующий упрощенный вид:
(1.1б)
,
Pi — это номер ключевого ответа на i-й вопрос,
Rij — это номер ответа, выбранный j-м испытуемым,
а выражение (Pi=Rij) принимает значение 1, если оно истинно, и значение 0, если оно ложно.
Таким образом, не всегда ключ описываются такими чисто арифметическими формулами, как формула (1.1). Для понимания легче трактовать ключ не как вектор идеальных ответов, а как некий логический
фильтр, который выделяет в протоколе все «релевантные ответы» (имеющие отношение к измеряемому свойству), а лишь после этого применяется некоторая процедура взвешенного суммирования — с учетом множества весовых коэффициентов Pi. При этом в случае так называемых
«матричных» (или решеточных) тестов протокол ответов имеет формат
не вектора, а целой матрицы ответов, а ключ имеет форму матричного
фильтра.
Кстати, до сих пор любители бланковых тестов (бумажных) прибегают к такой бумажной технологии подсчета баллов по ключу, которая
хорошо иллюстрирует представление о ключе как о логическом фильтре:
на стандартизированный бланк ответов накладывается некая «трафаретка» с прорезями в тех местах, через которые должен быть виден на
бланке именно ключевой ответ — ответ идеального испытуемого. Все
другие ответы (неключевые) при таком наложении трафаретки просто
зрительно маскируются — отфильтровываются.
Подсчет по ключам, как правило, не дает окончательного результата, а
дает лишь первичный, или, как его называют на профессиональном жаргоне, «сырой тестовый балл» (raw test score). Сам по себе этот сырой балл
еще нельзя никак проинтерпретировать, если мы не имеем тестовых
66
Практическая тестология
норм или некоторой шкалы стандартизированных баллов (standard test
score), тесно с ними связанной.22
Тестовые нормы — это границы на шкале тестовых баллов, которые
разделяют интервалы (области шкалы), связанные с определенными
диагностическими выводами или управленческими решениями.
Процедура построения формулы или таблицы перевода сырых баллов
в стандартные называется шкалированием23. Простейший способ шкалирования (и наиболее распространенный) — это линейная стандартизация
на основе статистических параметров выборочного среднего и стандартного отклонения.
(1.2)
Zi = (Xi — Xm) / S,
где Zi — стандартизированный тестовый балл, соответствующий i-му
сырому баллу,
Xi — сырой тестовый балл для i-й градации шкалы сырых тестовых
баллов,
Xm — среднее арифметическое сырых баллов,
S — эмпирическое стандартное отклонение распределения частот сырых баллов.
Наиболее простые граничные «точки отсечения» (cut score) на тестовых шкалах — это точки, определенные границами интервала (Xm–S,
Xm+S). Группа испытуемых, которые попадают в этот интервал, называется средней, выше интервала — высокой, ниже интервала — низкой. Но в
общем случае правила определения «точек отсечения» могут быть, конечно, другими. Целесообразно их определять, исходя не из модели нормального распределения (как это делается при нормативно-статистическом
подходе), а исходя из объективированных требований к уровню подготовленности испытуемых к определенной учебной или производственной
деятельности (как это делается при так называемом «критериально-ориентированном подходе»).
Здесь мы изложили простейшие, основные формулы тестологии без
особых комментариев и примеров. Во-первых, их можно найти в любом
22 Понятие «standard test score» в английском языке имеет более узкое значение, чем в русском, и фактически сводится только к Z-баллам (см., например, http://en.wikipedia.org/wiki/
Standard_score). То, что мы называем стандартизированными баллами, имея в виду приведение к определенной, удобной нам шкале баллов (с произвольным средним и стандартным
отклонением), в англоязычной литературе принято называть scaled test score. — Прим. науч.
редактора.
23 Это, конечно, упрощенное понимание шкалирования. В общем случае к шкалированию относится не только перевод сырых в стандартизированные баллы, но и подсчет по
ключам. — Прим. автора.
Глава 1. Определения и классификация
67
другом учебнике или справочнике. Во-вторых, в приложении к данной
книге на компакт-диске даются Эксель-файлы с комментариями, с помощью которых можно более подробно познакомиться с тем, как работает
формула подсчета по ключу сырого тестового балла (1.1б) или формула подсчета стандартизированного z-балла (1.2), точнее формула перевода сырого
балла в стандартизированный.
Психометрические свойства тестов в самом простом изложении
Итак, в ходе различения психометрических и спекулятивных тестов мы приходим к необходимости рассмотрения психометрических
свойств (параметров) тестов, которые мы уже упоминали выше неоднократно.
Основные психометрические свойства теста — это надежность, валидность, репрезентативность и достоверность.
Надежность
Надежность теста — это устойчивость результатов теста к воздействию со стороны различных случайных факторов-помех, то есть помехоустойчивость. Существует великое множество этих неконтролируемых и варьирующих факторов, и они в каждой конкретной ситуации
воздействуют в непредсказуемой комбинации, которая проводит к появлению ошибки измерения, или стохастической погрешности истинного
значения тестового балла. Надежность измерения — хорошо известное
и изученное свойство в рамках физической метрологии. Для простоты
поясним «надежность» на примере физического измерения линейных
размеров земельных участков. Если мы берем для этого легкую и растяжимую «резинку» (вместо более твердой металлической рулетки), то она
оказывается в большей степени подверженной воздействию ветра, изгибов поверхности земли, силе натяжения со стороны двух участников,
которые держат ее с двух концов, и т.п., то есть воздействию со стороны
множества факторов, которые вносят погрешность в результат измерения. Примеры факторов-помех, которые воздействуют на испытуемого
в момент выполнения им тестовых заданий: посторонние отвлекающие
звуки речи и шумы, различия в освещенности, мелькание каких-то посторонних предметов в фоновом зрительном поле, вибрация, возможные
сбои в электросети — все, что мешает концентрации внимания на задании. От испытуемого к испытуемого и от сеанса к сеансу различаются
освещенность, время суток, время, отведенное организатором тестирования для вводной информации (устной части инструкции), интонации, с которыми произносится эта вводная информация, и множество
68
Практическая тестология
других случайных факторов, которые также приводят к ошибке измерения, разбросу значений вокруг истинного показателя.
А вот страх перед самой ситуацией тестирования, также затрудняющий концентрацию внимания на смысле задания, — это уже фактор
другого типа, который приводит к изменению результатов в определенном направлении, порождая систематический искажающий эффект. Для подобных факторов в тестологии используется другой термин — валидность. В этом кратком введении в психометрику мы не
приводим никаких формул для измерения надежности теста. Об этом
пойдет речь в соответствующей математической главе данной книги (в
главе 4). Но общая идея обратной зависимости между величиной ошибки измерения и надежностью может быть сформулирована и усвоена
просто на концептуальном, нематематическом уровне: чем меньше интервал, в котором находится истинное значение тестового балла, тем
выше точность измерения, тем выше стабильность процедуры — при
каждом последующем тестировании результаты оказываются ближе к
предыдущим.
Понятие «надежность» на примере. Возьмем простейший хронометричекий
тест, измеряющий время простой моторной реакции: появился сигнал, и надо нажать на одну кнопку. Измеренное время (латентный период) этой простой реакции будет существенно отличаться от одной попытки к другой в рамках одного
сеанса у одного испытуемого. Конечно, есть субъективные факторы, которые могут увеличить разброс (индивидуальные различия в колебании внимания). Но есть
и объективные – в шумном помещении этот разброс будет выше. Шум и есть фактор, повышающий ошибку измерения и снижающий надежность (точность и стабильность).
Валидность
Валидность теста — это устойчивость результатов к воздействию
со стороны других психических свойств и компетенций (деловых качеств), не являющихся предметом измерения (оценки, диагностики) в
данном сеансе тестирования. Другими словами, валидность отражает степень сфокусированности теста именно на заявленном свойстве,
степень соответствия целевой направленности измерения (оценивания). Сама по себе любая ситуация тестирования (оценивания, экзамена) содержит в себе больший или меньший стресс для испытуемого.
Поэтому у испытуемых, обладающих слабой стрессоустойчивостью,
результаты по рейтинговым шкалам оказываются низкими (снижается измеренный уровень способности). В каждой отдельной ситуации
тестирования могут сложиться своеобразные «сцепления» различных
измеряемых и фоновых свойств, но если эти сцепления не приводят к
Глава 1. Определения и классификация
69
систематическому сдвигу у большинства испытуемых, мы говорим
скорее о низкой надежности, чем о низкой валидности. А вот, например, слабое владение клавиатурой может быть причиной низкой валидности компьютерных тестов — особенно тех, которые предполагают не
выбор из заданных ответов, а ввод слов. Почему валидности, а не надежности в данном случае? Потому что этот фактор производит направленный эффект воздействия на измеряемое свойство, равно как и страх показать низкий результат.
Невалидный тест можно проиллюстрировать на следующем несколько искусственном примере некорректного физического измерения: допустим, не имея весов, мы взялись измерять вес однородных
предметов (например, ящиков, набитых фруктами) через их объем
(произведение линейных размеров ящиков). Понятно, что объем является невалидным показателем для веса предмета, так как вмешивается такая неучитываемая переменная как плотность вещества, которая
«искажает» (опосредует) связь между измеряемым свойством (в данном
случае «весом») и эмпирически регистрируемым свойством (в данном
случае «объемом»).
Понятие «валидность» на примере. Продолжим рассмотрение теста простой моторной реакции, но в варианте компьютерной игры: игрок-подросток
должен «выстрелить» с помощью клавиши «пробел» (или с помощью кнопки джойстика) по движущемуся объекту. Смысловая категоризация этого игрового объекта оказывается важным фактором, повышающим или понижающим валидность данного теста. Одно дело — стрельба по абстрактным прямоугольникам,
другое — по летящим уткам, третье — по «вражеским крылатым ракетам». В
последнем случае достигается более высокая валидность тестовой модели — сходство с реальной деятельностью. Впрочем, это самый простой вид валидности —
«очевидная» валидность, это кажущееся самому испытуемому сходство условной
тестовой задачи и реальной задачи.
Репрезентативность
Репрезентативность тестовой шкалы — это степень соответствия реальных тестовых норм, полученных на выборке стандартизации (на которой тестовые нормы были получены), тем идеальным тестовым нормам,
которые были бы получены, если бы была протестирована вся популяция
испытуемых, на которых планируется тест использовать.
Синоним для слова «репрезентативность» — это представительность, или представленность. Наличие репрезентативности главным
образом зависит от сходства демографических характеристик, которыми обладает выборка стандартизации, с той социально-демографической группой, на которой применяется тест. Если тестовые нормы
70
Практическая тестология
определены для студентов психологического факультета, а тестировать
предполагается военнослужащих, то, скорее всего, тест не сработает
именно в силу нерепрезентативности тестовых норм. Солдаты срочной
службы — это в основном лица со средним образованием, и уже хотя бы
по одному признаку («образование») две группы существенно различаются между собой.
Понятие «репрезентативность» на примере. Возьмем половозрастной
состав Госдумы Российской федерации. Очевидно, что в этом составе относительно мало представлено (репрезентировано) молодых людей (перекос выборки
по признаку «возраст») и женщин (перекос выборки по признаку «пол»). Если мы
возьмем эту выборку в качестве «выборки стандартизации» для получения тестовых норм по тесту на структуру интеллекта, то мы получим смещение в
нормах к профилю «возрастного мужчины».
Достоверность
Кроме стрессоустойчивости, имеется другой универсальный фактор, присутствующий во всякой ситуации тестирования и снижающий
валидность результатов, — желание показать высокий или социальноодобряемый результат (фактор социальной желательности). Когда страх
низкий, а желание высокое, это приводит к использованию различных
стратегий фальсификации, вплоть до откровенного обмана (списывания,
подсказок, подтасовок и т.п.). Я считаю целесообразным выделять эту
группу факторов, снижающих валидность, в отдельное психометрическое
свойство теста «достоверность», ибо контроль и измерение степени выраженности этого свойства производится с помощью особых процедур. Таким образом, понятие «достоверность теста» имеет строго определенное,
особенное операциональное содержание, хотя многие авторы до сих пор
включают достоверность в валидность теста. Позднее — в главе, посвященной математическим основам тестологии, — мы рассмотрим процедуры
измерения достоверности, равно как и процедуры измерения других психометрических свойств.
Понятие «достоверность» на примере. Продолжим пример с игровой стрельбой по движущимся мишеням. Возьмем призывника, которому совсем не хочется
служить в ракетно-зенитных частях, да и вообще служить. Может ли он начать
в таком тесте специально промахиваться по мишеням? Вот эта возможность
искажать результаты тестирования с помощью сознательной ложной стратегии
и приводит к низкой достоверности теста. Как мы видим на примере этого игрового теста, проблема достоверности и защиты от фальсификаций возникает не
только в случае тест-опросников.
Глава 1. Определения и классификация
71
Краткие определения психометрических параметров теста
Иногда, чтобы не путаться в длинных формулировках, полезно выписать, осмыслить и даже заучить краткие определения психометрических
параметров:
Надежность — точность и стабильность процедуры измерения.
Валидность — соответствие теста измеряемому свойству.
Репрезентативность — точность определения тестовых норм.
Достоверность — устойчивость теста к фальсификации.
Прагматическое значение психометрических параметров теста
Зачем нужны перечисленные понятия и термины разработчикам
тестов, понятно всем. А вот зачем нужны эти весьма сложные понятия
пользователям теста? Это многим далеко не очевидно. Я объясняю слушателям на лекциях это так: чтобы надежно отличать психометрические тесты от спекулятивных. Как правило, авторы спекулятивных тестов либо
вообще не оперируют этими понятиями в своих методических руководствах (если вообще имеются такие руководства), либо иногда оперируют,
но очень фрагментарно и неквалифицированно — ограничиваются одним понятием надежность, либо путают надежность и валидность и т.п.
Не имея возможности перепроверить самостоятельно эти свойства (это
слишком трудоемкая задача), пользователи теста, как и пользователи любого технического устройства, должны уметь судить о качестве этого «измерительного прибора» по его техническому паспорту. Надо понимать,
что написано в этом паспорте и что там в принципе должно быть написано. В случае коммерческого теста это необходимо хотя бы для того, чтобы
понять, стоит ли тест тех денег, за которые он продается (точнее, в юридическом смысле продаваться должен не сам тест, а лицензия — право его
использовать). Дело в том, что качественные психометрические тесты,
как правило, на ДВА порядка дороже, чем спекулятивные тесты, ибо в
них вложено примерно в 100 раз больше усилий при разработке. Спекулятивные тесты мы можем обнаружить в обычном книжном магазине и
на книжном развале нередко по цене той бумаги, на которой тест отпечатан, плюс компенсация издержек на систему доставки до покупателя, то
есть по цене обычной книжки — от 200 до 500 рублей за целый сборник тестов. Тот же самый принцип ценообразования фактически применяется к
сборнику тестов на компакт-диске, цена на который редко отличается от
цены на нелицензионную цифровую запись какого-нибудь фильма. В то
же время лицензия на современный не самый дорогой психометрический тест может стоить от 20 до 50 тысяч рублей. Причем чаще всего это
не есть неограниченная лицензия, а лишь лицензия на право обследовать
100 человек (на право запустить 100 раз программу тестирования на своем
72
Практическая тестология
компьютере или обработать на сервере разработчика 100 протоколов). И
это лишь типичный ценовой интервал, но далеко не предел.
Увы, приобретение такой лицензии в нашей стране пока себе вряд ли
может позволить рядовой индивидуальный пользователь или малообеспеченное учреждение (отдельная школа, в которой работает школьный психолог). Определенные ценовые разрывы между низким платежеспособным спросом и высокими ценами, обусловленными высокими издержками на производство психометрических тестов, — это едва ли не основной
фактор, сдерживающий распространение психометрических тестов в
нашей стране (сами разработчики вынуждены держать высокие цены изза низкой тиражеспособности психометрических тестов). Но другой фактор — это низкая культура пользователей, незнание ими элементарных
вещей, позволяющих различать любительскую и профессиональную тестовую продукцию.
Отсутствием тестологической грамотности пользуются недобросовестные производители подделок под психометрические тесты. Образно
выражаясь, они льют из-под крана обычную воду в красивые бутылки, а
на этикетках пытаются написать что-то «мудреное» про состав микроэлементов в «минеральной воде», будто она добыта из скважины, а не из-под
крана. Так вот один самый дешевый и доступный способ распознать подделку — это уметь читать то, что написано на этикетках, уметь потребовать от разработчика-поставщика технико-методический паспорт к тестовой методике и уметь прочесть ту информацию, которая в этом паспорте
содержится. А в этом паспорте (в методическом руководстве) разработчик
обязан представить данные о психометрических испытаниях созданного
и распространяемого им теста, данные о том, какую независимую сертификацию прошла методика (хотя бы независимое рецензирование), в
каком рецензируемом издании опубликованы научные сведения о ней,
имена авторов-рецензентов и т.п.
Ныне трудно представить себе, чтобы какой-либо автовладелец был
настолько безграмотен, чтобы потратить большие деньги на покупку автомобиля, совершенно не владея такими базовыми техническими понятиями, как «литраж и мощность двигателя в лошадиных силах», «скорость
разгона до 100 км/час в секундах», «расход топлива на 100 км пробега в
литрах», «полезный объем багажника в литрах» и т.п. Также трудно представить себе такого пользователя персонального компьютера, который
бы совсем не разбирался, чем быстродействие в гигагерцах отличается от
объема памяти в гигабайтах. Однако в нашей стране в силу вековой тестологической отсталости сплошь и рядом встречаются такие пользователи
тестов, которые для суждения о качестве тестов сами могут использовать
фактически только 3 критерия:
1) количество заданий (ну, наверное, более длинный тест как-то… э… «понадежнее будет»; хотя некоторых длинные тесты отпугивают тем, что
«испытуемым скучно будет»),
Глава 1. Определения и классификация
73
2) внешнее оформление и репутация производителя (хорошо, когда производитель теста — это какая-нибудь иностранная фирма с англоязычным названием, которая достаточно богата, чтобы издать тест в качественном полиграфическом оформлении, снабдить результаты яркими иллюстрациями и подробными интерпретациями),
3) единичные личные впечатления о том, «работает» или «не работает»
тест — совпадение субъективных впечатлений от результатов тестирования с собственной самооценкой, а также результатов одного-двух
знакомых с субъективным образом этих знакомых.
Для того чтобы отчетливо понимать, что перечисленных трех критериев вовсе недостаточно, чтобы избегать подделок, самому пользователю нужно быть грамотным — владеть психометрическими понятиями,
иметь представление, в каких реальных границах эти параметры могут
принимать значения для тех или иных типов тестов.
Вот попадается вам личностно-характерологический тест-опросник,
а про его уровень надежности-гомогенности вы читаете в паспорте такую
информацию — 0,93. Надо бы сразу насторожиться, ибо для этого класса
методик надежность-гомогенность большинства тестов (разработанных
честными учеными) находится в диапазоне от 0,7 до 0,8. Но если Вы этого
не знаете, то Вы, увы, можете даже обрадоваться, увидев в паспорте такое
высокое значение. А ведь это все равно, что купить автомобиль, у которого мощность двигателя «надута» до 300 лошадиных сил при малой колесной базе и малой ходовой массе (что на самом деле говорит только о
низкой ходовой надежности при такой мощности, а, возможно, просто о
вранье — сознательно и цинично преувеличенной мощности в расчете,
что «никто не проверит, ибо не знает, как это делается»).
Таким образом, надо научиться, не вникая в сложные математические формулы, понимать смысл психометрических параметров и знать
диапазоны вероятных значений у добросовестных разработчиков.
Различение надежности и валидности
Самое сложное для понимания и малознакомое слово — это «валидность». Хотя в наше время так называемые «валидаторы» можно встретить
на каждой станции метро — они помогают проверить, сколько поездок
осталось на выданной Вам проездной электромагнитной карте. Как правильнее перевести на русский язык это слово, чтобы облегчить для себя
его понимание? Чаще в наших учебных пособиях его переводят как «обоснованность». Но я в последние годы предлагаю другую трактовку, которая позволяет начинающим быстрее понять суть дела:
Валидность — это пригодность теста для тех целей, для которых он заявлен разработчиком.
74
Практическая тестология
Всем с раннего детства известно слово «инвалид». А ведь это как раз о
том: «инвалидом» мы называем человека, не пригодного для определенной
деятельности в силу какого-то физического недостатка. Инвалид по зрению
не может видеть. Инвалид с дефектом опорно-двигательного аппарата не
может бегать. Поэтому вполне уместно говорить не только о «валидных тестах», но и об «инвалидных» — не пригодных для заявленных целей. Если
какой-то тест «на интеллект» дается в слишком стрессовых условиях — на
компьютере со слишком жестким ограничением времени (50 заданий за
15 вместо 25 минут), то такой тест, скорее всего, окажется «инвалидным» —
даст нам информацию не об интеллектуальных способностях, но в большей
степени о стрессоустойчивости испытуемых к дефициту времени.
А вот перед нами тест на психологическую совместимость. В него вошли только вопросы о ценностно-мотивационной ориентации двух кандидатов в супружескую пару. И простейшая формула совместимости: дали
кандидаты определенный процент совпадающих ответов, значит, совместимы. Но… что мы видим: одна супружеская пара со 100-процентной
совместимостью разводится вскоре после брака, затем — другая, третья.
Почему же этот тест совместимости оказался «инвалидным» — на самом
деле не пригодным для прогноза совместимости? Ах, вот оно в чем дело!
Оказывается, «область валидности» оказалась слишком узкой (множество
регистрируемых в методике психических свойств оказалось недостаточным по объему), не учтены темперамент, психофизиологические свойства, психосексуальные стереотипы поведения («стили любви»), стили бытового поведения и распределения ролей в семье и т.п.
Другой пример «инвалидности» дают нам тесты по предметам
школьной программы, которые до сих пор используются как единственный инструмент отбора поступающих в вузы. Вспомним-ка, что
тот же ЕГЭ ограничен только тестами на знание предметов из школьной
программы (математики, родного языка, истории, физики)24. А почему
это вдруг обладатель высоких баллов по сумме предметных тестов, попав в вуз, начинает прогуливать и проваливает первую же сессию? Оказывается, эта батарея тестов тоже сужает «область валидности», и за ее
бортом остаются определенные личностные качества, которые оказываются так называемыми «некогнитивными компетенциями» (востребованными качествами для успешного обучения в вузе): самостоятельность, ответственность, целеустремленность, планомерность, волевой
самоконтроль (готовность к планированию собственного времени, готовность ставить и достигать промежуточные учебные цели в отсутствии ежедневного внешнего контроля со стороны «заботливой школьной учительницы» и т.п.).
24
В строгом смысле мы должны говорить не столько об «инвалидности» тестов ЕГЭ, сколько об «инвалидности» самой системы отбора в вузы по результатам ЕГЭ. Но это уже весьма
тонкое различение для первой главы. — Прим. науч. редактора.
Глава 1. Определения и классификация
75
Для схематической иллюстрации понятия «валидность» удобно использовать следующую схему, с которой я в свое время начинал учебное
пособие «Основы психодиагностики» (Шмелев, 1996).
ИНДИКАТОРЫ И ФАКТОРЫ
ИНДИКАТОР 1
ИНДИКАТОР 2
ИНДИКАТОР 3
ПОВЕРХНОСТЬ
НАБЛЮДЕНИЯ
ФАКТОР 1
ФАКТОР 2
Рис.1.5. Взаимосвязи между эмпирическими индикаторами и факторами.
Измеряемые свойства в тестологии сами по себе не являются наблюдаемыми явлениями. Они скрыты под «поверхностью наблюдения» и
представляют собой так называемые «латентные переменные» — факторы. То, что мы можем непосредственно наблюдать и измерять, — это эмпирические индикаторы. В случае метода тестов эмпирические индикаторы — это ответы на тестовые задания. Связь между индикаторами
и факторами не является взаимно-однозначной. Вот отсюда и возникает
проблема валидности. На схеме 4 индикатор 2 оказывается под воздействием сразу двух факторов — фактора 1 и фактора 2. В зависимости от
цели измерения мы можем назвать фактор 1 целевым, а фактор 2 — фоновым, а может быть и наоборот. Фоновый фактор — это как раз тот фактор, который снижает валидность, вносит систематическое искажение в
результаты.
Так что же такое валидность с точки зрения последующего управления результатами тестирования? Это пригодность теста к прогнозированию совершенно определенного будущего социально-значимого поведения испытуемого. Нам редко когда нужна информация,
которая завтра устареет, а имеет смысл только сегодня. Мы проводим
тесты для того, чтобы спрогнозировать, что будет завтра. Поэтому самые ценные тесты — это те, которые прошли проверку на «прогностическую валидность», то есть на значительной статистической выборке проверена их способность предсказать какое-то будущее событие:
76
Практическая тестология
«провалит ли студент первую сессию?», «случится ли развод в течение
уже первого года после свадьбы?», «выдаст ли какое-то изобретение
или открытие подающий надежды молодой ученый?» и т.п. Все эти
значимые события называются в тестологии критериальными событиями. На рис.1.5 проиллюстрированы связи между тестами и критериальными событиями.
ПРОГНОЗ ПОВЕДЕНИЯ
НАСТОЯЩЕЕ
ТЕСТОВЫЙ БАЛЛ
БУДУЩЕЕ
КРИТЕРИАЛЬНОЕ СОБЫТИЕ.
ПОВЕРХНОСТЬ
НАБЛЮДЕНИЯ
ФАКТОР
Рис.1.6. Способность теста к прогнозу критериального события. Отсутствие причинной связи «фактор — критерий» может быть причиной отсутствия связи (корреляции) между тестовым баллом и критериальным
событием.
Для того чтобы в паспорте теста появилась информация о его прогностичности, тест должен пройти длинные и дорогие по затратам
испытания. Это можно сравнить с «обкаткой автомобиля»: автомобиль надо проверить в многодневном трудном пробеге, пройти через эксплуатацию в разные сезоны (и зимой, и летом), чтобы реально
выяснить его надежность, ремонтопригодность, безопасность и т.п.
Кстати, а как различить между собой «надежность» и «валидность»,
пользуясь метафорой автомобиля? Надежность — это ответ на вопрос,
доедет ли автомобиль, не развалится ли по дороге, а валидность — доедет ли он именно туда, куда вначале планировал попасть водитель (и
пассажиры).
Впрочем, для различения валидности и надежности по-прежнему сохраняет актуальность метафора «стрельба по мишеням», которую я изобрел уже очень давно (с тех пор не раз ее встречал, включенную в презентацию чужих докладов).
Глава 1. Определения и классификация
77
Рис.1.7. Метафора «Мишень» — иллюстрация различий между надежностью и валидностью теста: надежность — это кучность стрельбы, валидность — близость к десятке (к центру мишени).
1.3. КАКИЕ БЫВАЮТ ТЕСТЫ (КЛАССИФИКАЦИЯ)
Классификация существующих тестов — одна из основных задач
тестологии. Без создания эффективной классификации крайне трудно ориентироваться в тысячах различных тестов, разработанных к
сегодняшнему дню и опубликованных в различных изданиях, сборниках, на сайтах и т.п. Как выбрать тест, соответствующей не только целям и задачам тестирования, но соответствующий условиям и
ограничениям, имеющимся в конкретной организации? Это хорошо,
когда работника можно отвлечь на целый час, а то и на два, а если руководство выделяет для этого только… 20 минут? Что делать? Можно ли
выбрать такой экспресс-тест, который будет небесполезен и будет соответствовать этому требованию? А если большая часть потенциальных испытуемых совершенно не владеет компьютером, тогда поле сужается до области «бумажно-карандашных» тестов (paper-and-pencil).
А если значительная часть обследуемого контингента вообще читать
не умеет? Можно ли найти такой тест, который можно предъявлять
на слух? А можно ли при этом использовать компьютерный «генератор речи», чтобы диктор не вносил от себя разнообразие в своих интонациях в разные сеансы тестирования? На все эти и другие вопросы
помогает ответить подробная классификация тестов. Она является на
сегодняшний день многоплановой, то есть опирается на различные
пересекающиеся основания классификации по совершенно разным
признакам и принципам.
78
Практическая тестология
Образовательные, медицинские,
профессиональные и психологические тесты
Одно из базовых оснований классификации, которое мы уже фактически затронули выше, обсуждая предмет тестирования, касается сферы
применения теста. Образование, здравоохранение и промышленное производство — это «три кита» для прикладной психологии. Если в качестве
«четвертого кита» к этому добавить сферу частного психологического
консультирования (по поводу, например, семейно-личностных проблем),
не относящуюся в строгом смысле ни к одной из трех предыдущих сфер,
то мы получим достаточно полную картину без излишней детализации
(хотя, конечно, есть своя специфика в тестировании в рамках психологи
спорта, в рамках судебно-юридической психологии, в рамках политической психологии и т.п.). Внутри каждой большой сферы существует своя
логика применения тестов, сложилась своя особая терминология, работают свои особенные классификации, и есть немало других существенных
различий, главным из которых является, очевидно, содержание тестов:
1) Большинство образовательных тестов — это так называемые «предметно-ориентированные» тесты знаний. Это типичный пример
ТРМ — «тестовых рейтинговых методик» (по нашей классификации на
рис.1.1) — в отличие от ТДМ (тестовых диагностических методик). Задания в этих тестах относятся к определенным традиционным академическим предметам — математике, родному языку, истории, физике
и т.п. Это тестирование в условиях образовательных учреждений организуют и проводят не школьные психологи, а, как правило, сами педагоги-предметники. В то же время школьные психологи могут проводить психологические тесты — на умственное развитие (вариации на
тему IQ), профориентационные тесты, учитывающие более или менее
широкий комплекс факторов: интересы, мотивы, акцентуации характера и т.п.
2) В профессиональном тестировании большую роль играют тесты профессиональных знаний, в которых в последнее время на место теоретических вопросов все чаще приходят так называемые «кейсзадания» — задачи, описывающие практические производственные
ситуации и предлагающие выбор способа действия в этой ситуации
(решения задачи). И здесь в ходе тестирования ключевая роль не за
«индустриальными психологами» и даже не за эйчарами как таковыми (специалистами по отбору и мотивации персонала), а за специалистами по производственному обучению (в больших организациях для
этого существуют самостоятельные подразделения, которые выделены
из структуры эйчар-службы и иногда называются «корпоративными
университетами»). В программах тестирования персонала также часто используются психологические и психофизиологические тесты —
на свойства внимания и рабочей памяти, скорость обработки новой
Глава 1. Определения и классификация
79
информации (IQ на рабочем месте), особенности трудовой мотивации
и т.п. Психологическое и предметное тестирование в одной и той же
организации обычно проводят разные люди.
Различия в профессиональной подготовке специалистов и разобщенность сфер тестирования замедляют формирование общей культуры тестирования в стране в целом. Носителями этой общей культуры
должны по идее являться особым образом подготовленные практические тестологи, хотя в настоящий момент таких специалистов явно недостаточно.
3) Тестирование в здравоохранении чаще всего слишком глубоко сцеплено с теми задачами медицинской диагностики, которые решают медики. Качественное диагностическое мышление диагностов-медиков,
как правило, доминирует над измерительной логикой тестирования.
Недаром в этом контексте говорят о «клиническом методе диагностики», который противопоставляется по многим признакам «методу измерения». Очень сходная ситуация наблюдается, впрочем, и в области
психологического консультирования. Необходимость максимальной
точности в каждом индивидуальном случае доминирует над строгостью в выдерживании принципов стандартизации. По этим причинам, особые задачи и особые методики медицинской и консультативной тестовой диагностики во многом оказываются за пределами настоящей книги. Различия между указанными прикладными сферами так
серьезны, что большинство тестологических статей и книг, как правило, встраиваются в один из обозначенных выше четырех контекстов и
почти не претендуют на то, чтобы вывести какие-то общие принципы
и распространить свои выводы на другие сферы. Данная книга в этом
смысле является некоторым исключением из этого общего правила. Да
и то автор, как уже сказано, старается здесь воздержаться от обсуждения специфики медицинской сферы и фактически не затрагивает ее.
Редкое исключение, пожалуй, составляет этот параграф.
Какие различия в условиях тестирования между указанными сферами серьезно повлияли на приоритеты в развитии тех или иных методов?
Первое, на что надо обратить внимание, — в этих разных областях у тестолога есть совершенно разные возможности по продолжительности обследования. Во многих этих отраслях роль практических тестологов выполняют практические психологи. Самыми продолжительными сеансами
располагает клинический психолог, которому пациент, особенно если он
госпитализирован в какой-то клинике, дается на «растерзание» на такое
продолжительное время, которое позволяет не только применять стандартизированные тесты, но и проводить клиническую беседу, выполнять
сложную комбинацию из различных интерактивных и проективных
методик, иметь немало времени для индивидуального анализа полученных результатов. Поэтому именно в условиях медицинских учреждений
80
Практическая тестология
максимально востребованными являются «ручные», нетестовые методы
психодиагностики (экспертно-диагностические методики, согласно нашей классификации на рис.1.1). Таким является, например, ТАТ (тематический апперцептивный тест). На этом фоне успешную конкуренцию им
могут составить лишь такие мощные многошкальные тест-опросники, которые опираются на большие банки данных уже обследованных и продиагностированных пациентов, каким многие годы является во всем мире
тест-опросник MMPI (Минессотский многофакторный личностный перечень). По соотношению используемых тестовых и нетестовых методик
частная консультативная практика приближается к сфере медицинской
психодиагностики — здесь также гораздо выше вес нестадартизированных, нетестовых методик, для проведения и анализа которых у частного
психолога-консультанта есть, как правило, больше времени.
Уже в образовательных учреждениях, в отличие от медицинских, у
психолога-тестолога гораздо меньше возможностей для продолжительной индивидуальной работы с учащимся. У одного школьного психолога
под опекой оказываются уже не единицы и десятки пациентов (из которых далеко не все нуждаются в психологическом тестировании), но сотни школьников, с которыми надо работать иной раз на условиях «сплошного обследования» (а не выборочного). Возьмем недавно внедренную в
школах РФ практику обследования на предмет риска раннего употребления наркотиков и ранней наркотической зависимости. Нормативы
предписывают школьному психологу проводить какие-то опросники и
анкеты на эту тему буквально для всех и в ограниченные сроки. Психолог в этих условиях вынужден прибегать к стандартизированным
опросникам и тестам, которые он предъявляет для группового выполнения: школьники целыми классами размещаются в аудиториях во время «классного часа», получают тестовые буклеты и заполняют ответные
листы все вместе одновременно. Углубленные индивидуализированные
сеансы обследования возникают в условиях образовательных учреждений по специальному запросу: на них направляются, как правило,
проблемные учащиеся, у которых намечается либо общее отставание в
учебе, либо выраженная однобокость (по одним предметам блестящие
успехи, по другим — полный провал), требующая принятия решения о
переходе в профильную школу (или профильный класс). Впрочем, в этом
параграфе автор не ставил перед собой целью перечислить все задачи
школьной психодиагностики и школьной тестологии (проведение предметного контроля в тестовой форме не назовешь собственно психодиагностикой). Главная цель здесь — указать на специфику этой сферы по
сравнению с другими прикладными областями. Хотя сразу же при этом
важно подчеркнуть, что, кроме специфики, во всех этих сферах есть и
общие черты, общая логика решения диагностических и управленческих задач, о которой, впрочем, мы будем говорить не в этом параграфе,
а в разделе 1.4 «Принятие решений».
Глава 1. Определения и классификация
81
Еще меньше возможностей для длительного обследования и использования нестандартизированных методов у специалистов по оценке персонала в производственных организациях. Начальство нередко выделяет не
более получаса на одного работника (а то и еще меньше). При этом ставятся
жесткие сроки: обследуйте сотни (или тысячи) работников и предложите
индивидуальные рекомендации за 2—3 недели! Некоторые принципиальные приверженцы глубоких подходов в этих условиях просто отказываются от работы и уходят, но… не следует забывать о том, кто приходит на
их место! Это нередко энтузиасты-дилетанты, которые искренне верят в
совсем плохие лобовые опроснички, не снабженные никакими сведениями об их научно-метрологическом качестве. С помощью этих опросничков
быстро собирают массовую информацию, и формально ее предоставляют
в требуемые сроки. Подчеркнем, впрочем, что это характерно для оценки
персонала на массовых низовых позициях. Для менеджеров среднего и
высшего звена разработан другой подход — так называемый «Ассессментцентр» (или «Центр оценки»), предполагающий применение дорогих технологий главным образом в формате ЭРМ (экспертных рейтинговых методик, или экспертной оценки работников по шкалам-компетенциям). При
этом к реализации подобных методов подготовлен лишь очень узкий круг
специалистов-оценщиков (ассессоров), работающих в специализированных компаниях — консалтингово-оценочных агентствах.
Итак, неподготовленные, не просвещенные в области тестологии специалисты-эйчары в случае необходимости массовой оценки персонала
нередко прибегают к социологическим опросничкам, крайне слабо защищенным от фальсификаций (даже ребенок знает, как надо отвечать
на большинство вопросов, чтобы понравиться начальству). А не лучше ли
вместо таких опросничков воспользоваться этой ситуацией, чтобы применить реальные кейс-тесты, требующие решать стандартизированные производственные задачи? Пусть работники выбирают из готовых ответов,
но рискуют сделать ошибки — выбрать глупые ответы. Получая подобные
заказы в нашей лаборатории, мы не раз предлагали быстро реализовать
такое решение — использовать реальные тесты на производственную компетентность, но нередко само начальство отказывалось от этого решения.
Почему? Опасалось дружного сопротивления внедрению реальных тестов
со стороны персонала; другого объяснения просто нет, хотя представители заказчика редко говорят об этом вслух.
Таким образом, значительная специфика в тестологии на производстве заключается в том, что, в отличие от пациентов и учащихся, работники гораздо сильнее тревожатся по поводу результатов тестирования и
оказывают сопротивление проведению тестирования (чаще всего, не называя истинных причин отказа, а иногда занимаясь фактическим саботажем). Поэтому многие методики, которые применимы в других сферах
и отраслях тестологии, на производстве не работают — сказываются временные ограничения, а более всего — сопротивление со стороны самих
82
Практическая тестология
испытуемых и неготовность руководства к принятию адекватных управленческих решений по результатам тестирования.
Например, некоторые поклонники тест-опросника MMPI (в России он
известен больше под именем таких адаптированных версий, как СМИЛ,
ММИЛ и т.п.), считают эту методику совершенно универсальной — пригодной для любой сферы тестологии. Но на самом деле в ситуации профотбора
соискатели воспринимают многие вопросы медицинского характера, явно
пришедшие из психиатрии, как нарушение их личностного суверенитета.
Тезис-вывод. И в клиниках, и в школах, и в вузах, и на производстве,
как правило, требуются специализированные методики, почти не
существует таких методик, которые бы одинаково эффективно работали сразу во всех этих сферах.
Да, методики различны, но… логика их отбора и применения в разных отраслях имеет столь много общих черт, что компетентный тестолог
может эффективно использовать свой опыт, обретенный в одной отрасли,
для работы в другой. Я надеюсь, что в этом поможет и данная книга, которая посвящена формулированию общих методических принципов практической тестологии.
24 основания для классификации тестов
и тестовых заданий
За полтора (без малого) века в мире созданы десятки тысяч тестов, отличающихся друг от друга по множеству самых разных оснований. Во
многих классификациях тестов явно недооценивается число независимых параметров. Автор книги предложил в своей классификации 24 независимых основания (Шмелев, 2012а). Ниже мы перечислим эти основания
для классификации тестов. Но и этот перечень, очевидно, не является полным, а служит лишь определенным ориентиром для дальнейшего углубленного изучения тестов.
Вначале перечислим цели данной классификации тестовых методик:
Цель 1 — ориентировка специалистов-пользователей в мире методик
для обоснованного и эффективного выбора среди существующих.
Цель 2 — ориентировка специалистов-разработчиков в том, где «пустые
места» в классификации — с целью разработки оригинальных методик.
Цель 3 — определение степени оригинальности или вторичности той
или иной методики по отношению к какому-либо известному эталону
(для определения вопросов авторства и лицензионной чистоты).
Основной подход в данной классификации заключается в формулировании независимых оснований классификации, которые в своем сочетании позволили бы не только различать существующее многообразие
Глава 1. Определения и классификация
83
методик, но и проектировать методики из новых, еще нереализованных
сочетаний.
1. Предметная типология методик. Это наиболее популярное, общепринятое основание классификации. В случае образовательных тестов
здесь говорят о традиционных предметных дисциплинах, в случае с психологическими тестами — о классах психических свойств, на выявление
(измерение) которых направлена тестовая методика. Типы и классы психических свойств мы перечислим ниже лишь в качестве примера, ибо тут
трудно дать полную классификацию и общепринятый перечень:
а) Черты и типы (темперамента, характера, мотивационные, стили поведения) — тесты MMPI, 16PF, NEO-PI («Большая пятерка»), CPI, EPI;
б) Способности (общие, частные, специальные и ситуационные, они
же компетенции) — тесты интеллекта Векслера, Амтхауэра, Равена,
Вандерлика и т.п.;
в) Состояния (функциональные, эмоциональные);
г) Отношения (установки, оценки).
2. Операционально-технологическая классификация тестовых методик по уровню зависимости процедуры и результата от субъективного
опыта испытуемых и диагностов:
а) Поведенческие тесты с элементами сопутствующей психофизиологической регистрации. Компьютерно-игровые тесты — частный
случай этого класса тестовых методик, в них доля субъективизма в
результатах минимальна — и со стороны испытуемого, и со стороны тестирующего.
б) Объективные тесты — существуют варианты правильных ответов,
обусловленные культурными нормативами и научной истинностью (на базе корпуса общепринятых научных знаний). На результаты скорее оказывает влияние субъективность авторов тестовых
заданий, чем собственно диагностов.
в) Тесты-опросники — в этом случае возможное влияние субъективности испытуемого достигает, пожалуй, максимума (ответы нередко зависят от рефлексии испытуемым целей и задач тестирования).
г) Методики шкалирования — прямые и косвенные методы, включая
парные сравнения и т.п. В ходе прямого шкалирования испытуемый отчетливо дифференцирует объекты и инструменты оценки —
шкалы (в отличие от тест-опросников). В этом случае испытуемый
занимает субъективную позицию «эксперта» по анализу собственного опыта и собственных предпочтений (оценок).
д) Проективные техники — эти методики являются гораздо более косвенными, скрытыми от прямой рефлексии испытуемого, чем тестопросники и методики шкалирования, но их недостаток — зависимость от субъективизма диагностов.
84
Практическая тестология
3. Преобладающий формат тестовых заданий. Ниже будут перечислены лишь самые популярные форматы, чтобы опять-таки скорее проиллюстрировать данное основание классификации, чем дать исчерпывающий перечень его внутренних номинаций.
а) Контрольные списки суждений или закрытые тесты с ответами на
«да-нет» (в современных компьютерных интерфейсах испытуемый
должен расставить «галочки в чек-боксы» рядом с теми пунктами
теста, с которыми согласен);
б) Списки суждений с дробной шкалой согласия (иногда используется
не только три градации, подразумевающие нейтральный ответ «не
знаю», но и пять, и семь градаций по степени согласия);
в) Закрытые вопросы, предполагающие качественно-различные ответы. Это тест со множественным выбором: на один вопрос предлагается несколько готовых качественно различных ответов, из которых
надо выбрать только один (multiple-choice). В этом случае на компьютерном экране ответы снабжаются так называемыми «радио-кнопками» — поставить можно только одну точку в наборе кружочков;
г) Закрытые тест-вопросы, допускающие выбор нескольких качественно-различных готовых ответов. Это вопросы со множественным ответом (multiple-response); на компьютерном экране перед
каждым ответом размещается чек-бокс, и галочку можно поставить
сразу перед несколькими ответами;
д) Открытые тест-вопросы с кратким свободным ответом (в виде числа, в виде одного слова); некоторой визуальной модификацией этого типа вопросов являются суждения с пропусками (gap-filling); на
экране компьютера для таких заданий используется «строка ввода»
(кстати, в структуре ЕГЭ этот тип заданий обозначаемся буквой B и
относится ко второму блоку-субтесту);
е) Открытые тест-вопросы с развернутым ответом; в этом случае на
компьютере используется «окно ввода» (в ЕГЭ эти задания обозначаются буквой «С», относятся к третьему субтесту и дают максимальное количество очков, то есть оцениваются экспертами по многобалльной шкале);
ж) Задания на ранжирование: в этом случае испытуемому предлагается выстроить определенное множество элементов в определенной
последовательности (присвоить ранги); для этого типа заданий при
компьютеризации требуется нестандартное программное решение, поэтому часто бывает гораздо практичнее изобразить несколько последовательностей в качестве возможных вариантов ответа и
свести этот тип заданий к формату «в» (multiple-choice);
з) Задания на соответствие: в этом случае испытуемый должен сравнить
два множества объектов и установить попарные соответствия для всех
элементов; по моему убеждению, опять-таки гораздо практичнее свести
возможные парные сочетания к набору готовых вариантов на выбор.
Глава 1. Определения и классификация
85
Данная классификация, разумеется, опять-таки не является полной.
Хотя основные форматы здесь перечислены, вполне возможно, что некоторые компетентные читатели предложат еще пару форматов тестовых
заданий к этому списку.. Начинающим проектировщикам важно посоветовать не увлекаться разнообразием форматов тестовых заданий в рамках
одного субтеста. Существует обманчивое впечатление, что таким образом
можно бороться с монотонией, которая, несомненно, присутствует при
выполнении любого длинного однородного теста. Но нежелательный эффект монотонии возникает скорее при выполнении обучающих тестов, а
не аттестационных и не психодиагностических. При аттестации и психодиагностике испытуемые гораздо сильнее мотивированны, им достаточно смыслового разнообразия в вопросах, а разнообразие в форматах тестовых заданий лишь забирает излишний ресурс их внимания — привлекает
к форме, а не к содержанию заданий. Вообще-то лучше использовать разноформатные задания в структуре разных субтестов. Как это и сделано,
например, в структуре ЕГЭ, что является одним из немногих достоинств
этой тестовой технологии (при наличии множества недостатков)25.
4. Классификация по семиотическому (знаковому) статусу тестового материала:
а) Вербальные тестовые задания — это вопросы, утверждения, словесные описания проблемных ситуаций и т.п.;
б) Невербальные тестовые задания — это зрительные, слуховые, мультимедийные стимулы и т.п.
Этот перечень опять-таки является несколько условным, ведь всевозможные невербальные тесты сильно различаются между собой по модальности стимула. Это вовсе не обязательно должны быть зрительные
(графические) стимулы, а могут быть объемные фигурки на столе, из которых надо собрать сложную деталь (задача на конструктивный праксис,
или наглядно-действенное мышление). Это могут быть и звуки, то есть
аудио-стимулы. Но все-таки модальная и семиотическая классификации
тестов — это несколько разные вещи.
5. Классификация по уровню продуктивности в деятельности испытуемого:
а) Реактивные, репродуктивные;
б) Продуктивные.
Подобно тому, как при слове «птица» у нас возникает образ малиновки или воробья (с такими типичными признаками, как «летает», «сидит
на ветке», «поет» и т.п.), но не образ пингвина или страуса, так и при слове
25 Например, разноформатные субтесты нужно проводить с раздельным контролем времени, а в ЕГЭ на все части экзамена отводится единый временной лимит. — Прим. автора.
86
Практическая тестология
«тест» у нас возникает образ последовательности заданий с выбором из готовых вариантов ответа. В то же время существуют продуктивные экспертные методики, где ответ — это развернутый текст, рисунок (как в графических тестах), «продукт конструктивно-механической работы» (о таких
тестах уже шла речь немного выше — тесты по сборке из деталей какой-то
сложной фигуры, сложного механизма) и т.п. Продуктивные тесты обычно
относятся к тестам на сложность, а не на скорость, и предполагают индивидуальный хронометраж времени, потраченного испытуемым на решение.
6. Классификация по хронометрическим свойствам:
а) Тесты на сложность: в этом случае не задается лимит на продолжительность сеанса тестирования, а время решения тестового задания, напротив, оказывается регистрируемой переменной, так что
скорость решения задачи интерпретируется как индикатор уровня развития измеряемой способности (или другого психического
свойства);
б) Тесты на скорость: задается одинаковое для всех испытуемых ограничение на длительность сеанса тестирования, и регистрируемой
переменной оказывается число задач (тестовых заданий), которые
испытуемый успевает за это время решить. Тесты на скорость, как
правило, состоят из большого числа достаточно простых заданий.
На фоне этого различения стоит заметить некий парадокс: на многих образовательных олимпиадах (или на вступительных экзаменах с высоким конкурсом) испытуемым предъявляют небольшое
число сложных задач, но индивидуальные затраты времени не регистрируется, а используется общий лимит. С тестологической точки зрения это определенное «смешение жанров», которое ведет к некоторым потерям в информативности;
в-г-д) Особые разновидности хронометрической структуры: краткие
экспресс-тесты (менее 30 минут) — полномасштабные (часовой сеанс) — пролонгированные (несколько сеансов).
7. Классификация по числу заданий в тесте:
а) монолитные тесты состоят из единственного задания (пример —
«Тест рамки», когда испытуемого просят провести линию, имея на
листе перед собой прямоугольную рамку, или тест «Нарисуй дерево»);
б) составные тесты состоят из многих заданий.
Подавляющее большинство тестов относится именно к категории 7б
и является последовательностью отдельных тестовых заданий (items).
Именно благодаря эффекту повторения различных заданий тесты обретают большую часть своих психометрических свойств. В частности, возможность для проверки внутренней надежности (однородности), которая
Глава 1. Определения и классификация
87
достигается путем расщепления составного теста на две половины — «четные» и «нечетные» задания (метод half-split, см. главу 4).
8. Классификация по однородности-разнородности заданий:
а) гомогенные тесты;
б) гетерогенные тесты.
Простейший пример гомогенного теста — тест простой моторной реакции. В каждой попытке испытуемый должен как можно быстрей прореагировать (нажать кнопку) при появлении какого-то сигнала. Для вербальных
тестов, содержащих в каждом задании некое утверждение или вопрос с вариантами ответов, уровень гомогенности и гетерогенности — это понятие
относительное. В некоторых случаях тест объявляется гомогенным по содержанию, если все задания относятся к какой-то одной тематике, хотя внутри
данного тематического блока задания могут различаться по формату (см. классификацию по формату ниже). В других случаях такой же тест может быть
объявлен гетерогенным по формату. Если тест состоит из заданий, различных
по трудности, то его называют гетерогенным по трудности. В общем случае
целесообразно различать слабо- и сильно-гетерогенные тесты: в последних
соседние задания отличаются друг от друга сразу по многим признакам (по
тематике, по формату, по трудности, по семиотическому статусу заданий). Например, из двух одношкальных тестов, родственных по своей содержательной
направленности, тест IQ Айзенка является более гетерогенным, чем тест КОТ
Вандерлика, так как включает как задания с выбором ответа, так и задания с
«пропусками» (gap filling), как вербальные задания, так и невербальные.
9. Классификация по количеству тестовых шкал (факторов):
а) одношкальные (однофакторные), все задания направлены на измерение одного интегрального показателя, например, уровня интеллектуального развития, тесты КОТ Вандерлика, IQ Айзенка;
б) многошкальные (многофакторные), измеряют несколько факторов:
например, тесты-опросники «Большой пятерки».
Не следует считать, что любой многошкальный тест всегда лучше
одношкального: некоторые многошкальные короткие тесты содержат так
мало заданий на одну шкалу (один фактор), что надежного измерения не
происходит. За это (за наличие по шкалам только 10—13 заданий) критиковали автора 16PF Р. Кэттелла многие психометристы, начиная с Анны Анастази — автора известного учебника (Анастази, 1982, Анастази, Урбина,
2001). В некоторых случаях тест содержит главную интегральную шкалу
(все задания работают на эту шкалу), но также каждое задание отнесено к
отдельной частной «маленькой» шкале, которая в этом случае часто называется «субшкалой» (название подчеркивает ослабленность требований к
психометрическим свойствам таких шкал).
88
Практическая тестология
10. Классификация по наличию-отсутствию блочно-батарейной
структуры (по наличию субтестов):
а) составной гетерогенный тест, в котором на протяжении сеанса тестирования вперемешку чередуются задания, работающие на все
шкалы;
б) тестовая батарея — задания многошкального теста группируются в
относительно гомогенные блоки, которые в этом случае нередко называются субтестами, а сам интегральный тест называется «тестовой батареей».
Пример тестов второго типа — батарея Векслера. Этот тест включает, в
частности, такие субтесты, которые предлагают выполнение определенных механических заданий (кубы Кооса). Естественно, что такие задания
так сильно отличаются от других вербальных и невербальных заданий,
что они просто не могут предъявляться «вперемешку» с другим заданиями и образуют отдельный субтест. Один из признаков субтеста заключается в том, что его можно предъявить отдельно от основного теста. Таким
образом, не следует ставить знак равенства между «субшкалой» и «субтестом» (хотя часто этими терминами пользуются как фактическими синонимами). В субтесте должно быть достаточно много заданий, так что субтестом можно при необходимости пользоваться как автономным тестом.
Задания, которые относятся к одной субшкале, могут быть разбросаны в
некоторых случаях по разным блокам теста.
Вообще для описания внутренней структуры теста (расположения в
нем разнотипных заданий) целесообразно ввести понятие «модель теста»
(иногда говорят о «спецификации теста»). В модели каждое задание описывается набором признаков, которые говорят о следующих его свойствах:
— тематике (t1 — отнесенность задания к тематическому блоку 1, t2 — к
теме 2 и т.п.);
— формате (f1 — задание в формате 1, f2 — задание в формате 2);
— трудности (d1 — легкие, d2 — средние, d3 — трудные задания);
— шкале-факторе (s1 — задание на шкалу 1, s2 — задание на шкалу 2).
Модель теста, являющегося гомогенным по формату и трудности, но
гетерогенным по тематике и шкальному ключу, может быть описана таким образом:
1) t1f1d1s1
2) t2f1d1s1
3) t1f1d1s2
4) t2f1d1s2
5) t1f2d2s1
ит. п.
Глава 1. Определения и классификация
89
11. Классификация тестов по особой ситуационно-целевой направленности (по содержанию решаемой диагностической задачи):
а) тесты предметных знаний (например, в РФ это школьные выпускные тесты ЕГЭ или ГИА);
в) тесты достижений (примеры: TOEFL или SAT фирмы ETS);
г) тесты ценностно-мотивационных ориентаций (примеры: EPPS,
шкала Рокича -Ядова);
д) тесты межличностных оценок (тест-опросник Лири);
е) тесты социальных установок (F-шкала Адорно);
ж) парные (диадические)
тесты психологической совместимости и
срабатываемости (например, «гомеостат Горбова», ТПСС Лаборатории Human Technologies и др.);
з) тесты креативности (принципиально продуктивные, в отличие от
репродуктивных традиционных тестов интеллекта с выбором ответа, пример — тесты Торранса)
и т.п.
Как говорилось выше, этой классификации тестов — по содержанию
и целевой направленности — во многих психодиагностических учебниках и руководствах уделяется больше всего внимания. Это характерно
для психологов — приоритет содержания над технологией. Но в данном
случае автор книги намеренно не ставит эту классификацию на первый
план, рассчитывая добиться тем самым внимания к технологическим
аспектам тестирования. Одни и те же по своей содержательной направленности тесты могут быть реализованы с помощью различных технологических процедур (в разных форматах). И это является важным источником повышения валидности (адекватности) комплексного результата:
если испытуемый демонстрирует лидерские тенденции и при применении традиционного тест-опросника закрытого типа, и в тесте неоконченных предложений, и в проективном тесте (основанном на приписывании
черт другим людям), то у нас появляется уверенность, что мы делаем правильный вывод.
12. Типология тестовых ключей. Здесь идет речь о классификации
тестов по их отношению к социокультурным и индивидуально-личностным нормативам (по принципу формирования ключа к тесту):
а) Объективные тесты — это тесты, в которых есть неоспоримый правильный ответ — либо в логике определенной науки, либо в логике
особого вида деятельности, которую моделирует тест;
б) Тест-опросники — это тесты, в которых нет как таковых правильных ответов, а есть ответы, согласованные с высоким или низким
полюсом по определенной диагностической шкале;
в) Методики шкалирования, или «матричные тесты» — это тесты, в которых некое подобие «ключа» рождается внутри логики сравнения
90
Практическая тестология
между собой столбцов или строк матрицы, в которую укладываются ответы испытуемого; один из самых известных примеров — популярный со времен К. Роджерса тест на измерение самооценки,
в котором испытуемый ранжирует качества личности вначале по
критерию «Идеальное Я», затем по критерию «Реальное Я». Балл
теста операционально предстает как мера сходства (коэффициент
ранговой корреляции, в частности)
столбцов матрицы n*2
(где n — это число качеств, по которым производится ранжирование, число 2 — это число инструкций или объектов шкалирования),
это, конечно, почти вырожденный случай матрицы, минимальной
по числу столбцов;
г) Ипсативные тест-опросники — это определенная техника, близкая
к шкальной технике «парных сравнений», испытуемому ставится задача предпочесть одно из нескольких возможных одинаково
позитивных (или одинаково негативных) суждений о нем самом,
либо выбрать один из нескольких предметов или одну из нескольких ценностных категорий и т.п. Здесь применяется логика внутриличностных нормативов: предпочитая ответы определенного
типа, испытуемый обнаруживает логику собственных предпочтений.
13. Классификация по принципу формирования тестовых норм:
а) Нормативно-ориентированные тесты (НОРТ);
б) Критериально-ориентированные тесты (КОРТ);
в) Ипсативные тестовые нормы.
Тесты типа 13а являются наиболее распространенными. В этом случае
тестовые нормы формируются на основе статистического распределения
реальных тестовых баллов: выделяется область вокруг медианы, которая
называется «статистической нормой» (по границам «плюс-минус сигма»
или по границам квартилей Q1 и Q3, отсекающих слева и справа четверть
выборки стандартизации).
При критериально-ориентированном подходе нормы задаются из экспертно-предметных соображений. Или можно сказать, что они базируются на культурных или производственных нормативах. Например, известно, что надежный оператор практически не должен совершать ошибок
в критериально-ориентированном тесте, имитирующем различных нештатные ситуации. В этом случае неважно, что по тесту не проходит большинство испытуемых — важно обеспечить безопасность опасного транспортного или энергетического объекта.
Случай ипсативных норм (13в) касается тестов, чувствительных к
динамике и внутренней логике саморазвития испытуемого как личности: в качестве эталона (базы сравнения) в этом случае принимаются результаты того же самого испытуемого в ходе прежнего выполнения теста
Глава 1. Определения и классификация
91
или по другим субтестам. Например, общий подъем профиля MMPI может указывать на несколько ажитированное состояние, в которое впал
испытуемый в ситуации выполнения данного тест-опросника, — настолько, что он стал обнаруживать у себя несуществующие недостатки
и проблемы. В применении, например, к стандартному профилю MMPI
логика ипсативных норм позволяет выявить относительные «пики» и
«провалы» на профиле: в частности, это достигается путем параллельного переноса всего профиля на несколько пунктов ниже по шкале Т-баллов
(как известно, в MMPI применяется нормализованная шкала стандартизированных Т-баллов с параметрами: среднее = 50, стандартное отклонение = 10).
14. Классификация по техническому способу предъявления тестового материала:
а) Бланковые (тестовый материалы на бумажных бланках);
б) Компьютеризированные (статический тестовый материал на экране монитора);
в) Устные (тестовый материал зачитывается вслух диагностом);
г) Настольные (тестовый материал — это предметы на столе, карточки
с картинками, например, как в тесте свободной сортировки);
д) Ситуационно-поведенческие: в реальной для испытуемого ситуации действуют подставные лица, которые ведут себя определенным образом (происходит социальное моделирование);
е) Компьютерно-игровые, имитационные (на экране монитора динамическая игровая ситуации, то есть происходит компьютерное моделирование).
Очевидно, что и классификация тестов по данному основанию не является полной (исчерпывающей), но принцип перечисления достаточно
ясно проиллюстрирован названными образцами.
15. Классификация тестов по трудности:
а) Легкие тесты — в этих тестах задания специально подобраны как
легкие, чтобы большинство испытуемых с ними справилось; такие
тесты более точно (статистически надежно)
выявляют слабых испытуемых, они более уместны в «ситуации отсева» (когда
важнее отсеять слабых, чем отобрать самых сильных, то есть когда
процент отобранных высок — больше 50%.).
б) Трудные тесты — в этих тестах предъявляются трудные задания, подобранные так, чтобы большинство с ними не справилось; такие более точно выделяют сильных испытуемых и
уместнее в ситуации, когда процент отобранных низок — менее 50% (когда высокий конкурс на место и важнее отобрать немногих сильных).
92
Практическая тестология
16. Классификация по количеству участников:
а) Одиночные, или индивидуальные (тестовый материал предъявляется каждому испытуемому независимо от других испытуемых);
б) Парные (ставятся определенные задания сразу для пары участников);
в) Групповые (задания должна решать группа).
17. Классификация по степени открытости-скрытности ключа
(правильных ответов):
а) Прямые, или лобовые тест-опросы: сколько-нибудь рефлексивный испытуемый, заинтересованный в определенном результате тестирования, без труда может определить направленность отдельных заданий-вопросов и всего теста в целом; такие
тесты, однако, могут быть уместны в ситуации добровольного
запроса на оказание психологической помощи (ситуация клиента), хотя неуместны в ситуации экспертизы — отбора, аттестации и т.п.;
б) Косвенные, скрытные (поведенческие): в этом случае даже самые
рефлексивные испытуемые не могут понять, какой ответ срабатывает на высокий или низкий результат, как именно называются
диагностические шкалы и т.п. Такие тесты особенно востребованы
в ситуации экспертизы, требуют от пользователя соблюдения режима «профессиональной тайны», таких тестов очень мало. За рубежом в настоящее время такие тесты нередко называют «имплицитными» (неявными).
в) Сопутствующая физиологическая регистрация: пока испытуемый
выполняет какие-то тестовые задания, с помощью аппаратуры (полиграф) снимаются определенные показатели жизнедеятельности
его организма (ЧСС — частота сердечных сокращений, КГР — кожно-гальваническая реакция и т.п.).
В отсутствие косвенных, остроумных поведенческих тестов многие
уповают на тесты с элементами физиологической регистрации (полиграф), хотя нет никаких гарантий, что эти физиологические тесты будут
всегда давать надежную и валидную информацию. Сам факт применения специализированной аппаратуры (исключая редкие случаи привычной хронической телеметрии, как например, у космонавтов) определенным образом настраивает испытуемых, у кого-то повышается фон
тревожности и физиологической активации просто при виде этой аппаратуры, а опытные, владеющие элементами аутотренинга люди (прошедшие специальную подготовку), напротив, в этот момент концентрируют внимание на физиологической саморегуляции и добиваются более
глубокой гармонизации и релаксации именно в ситуации подобного обследования.
Глава 1. Определения и классификация
93
18. Классификация по степени ситуационной детализации вопросов:
а) Ситуационная детализация отсутствует в большинстве типичных
тестов;
б) Кейс-тесты, или SJT (situational judgement tests) — тесты ситуационных суждений: в этом случае вопрос начинается с весьма развернутого и подробного описания проблемной ситуации (ряд деталей призван
маскировать значимую информацию), а в качестве вариантов готовых
ответов предлагаются возможные действия в проблемной ситуации
(популярны также и кейс-тесты с открытым полем ответов).
В последнее время кейс-тесты набирают особую популярность в рамках компетентностного подхода к диагностике управленческого (менеджерского) потенциала. Кейс-тесты тесно связаны с ситуационной теорией
личности (она методологически противостоит теории черт) и ситуационной теорией управления.
19. Классификация по учету текущих ответов испытуемого в ходе
тестирования:
а) «Обычные» тесты (неадаптивные) никак не меняют последовательность тестовых заданий в зависимости от ответов испытуемого;
б) Адаптивные тесты: в этом случае в зависимости от ответов испытуемого предлагаются разные задания.
В адаптивных тестах способностей и знаний после правильного ответа (или серии правильных ответов) предъявляются более трудные тестовые задания, а после ошибочного ответа — более легкие тестовые задания.
20. Классификация по стратегии конструирования тестовых шкал
и ключей:
а) Теоретико-дедуктивные тестовые шкалы: вначале формулируются
диагностические конструкты, а затем под них подбираются эмпирические индикаторы (тестовые задания);
б) Эмпирико-статистические тестовые шкалы: вначале создается обширный пул (банк) тестовых заданий, по которым собирается репрезентативный массив данных (тестируется многочисленная выборка), а затем с помощью эксплораторного (поискового) факторного
анализа (или с помощью кластерного анализа) матриц интеркорреляций между вопросами отыскиваются факторы, подвергающиеся
последующей интерпретации;
в) Критериально-эмпирические тестовые шкалы: из пула вопросов
отбираются такие, которые дают высокую корреляцию с внешним критерием (например, срабатывают на предсказание более
высокой производительности труда); при такой прагматической
94
Практическая тестология
стратегии конструирования некоторые шкалы не имеют вовсе
никакой научно-психологической интерпретации и получают
наименование в терминах того критерия, на предсказание которого они срабатывают Далее во второй главе мы подробнее остановимся именно на этой стратегии, которая является специфичной
именно для «практической тестологии» и обеспечивает при грамотном подходе менее острое сопротивление внедрению тестовой
системы в организации..
Например, тестовая шкала супружеской совместимости может быть
создана из тех тестовых вопросов, по которым благополучные пары отвечают иначе, чем разведенные.
21. Классификация по контингенту обследуемых:
а) Детские тесты;
б) Взрослые тесты;
в) Студенческие тесты;
г) Медико-психологические тесты (для пациентов, а не для клиентов).
Опять-таки я даю здесь подчеркнуто неполный перечень, а лишь образцы возможных группировок тестов по этому основанию.
22. Классификация по ситуации обследования:
а) Ситуация клиента (клиенто-ориентированные тесты или ориентированные на индивидуально-консультативную практику);
б) Ситуация экспертизы (тесты в интересах организации — корпоративно-ориентированные).
ВНИМАНИЕ: клиенто-ориентированные тесты в ситуации экспертизы часто НЕДОСТОВЕРНЫ!
Данное основание классификации подробно рассмотрено в трудах
безвременно ушедшего отечественного психолога Владимира Николаевича Дружинина, уделявшего особое внимание проблемам экологической
валидности тестов (Дружинин, 1996)..
Например, особая ситуация возникает, когда родители приходят на
профориентационное тестирование и консультацию вместе со своим ребенком-подростком. Это не вполне ситуация клиента, ибо подросток чувствует определенное давление родителей и предвидит «разбор полетов»
с их участием, но это и не вполне ситуация экспертизы. Психологу-консультанту приходится гибко ориентироваться, с каким типом родительских установок он имеет дело в конкретном случае: если это «преследующий родитель» (привыкший выступать в отношениях со своим ребенком
в роли «прокурора»), то этот сеанс тестирования несомненно становится
ситуацией экспертизы.
Глава 1. Определения и классификация
95
23. Классификация по типу «производственной» или «социальной» задачи:
а) Тесты профотбора (с целью приема на работу на определенную позицию-должность);
б) Тесты профориентации (с целью проектирования карьеры человека
внутри организации, например);
в) Тесты медико-профилактического скрининга (с целью предоставления внеочередного восстановительного отдыха);
г) Тесты мониторинга функционального состояния человека-оператора
(с целью допуска к работе с особо опасными объектами управления)
и т.п.
24. Классификация по уровню формализации процедуры обработки:
а) Формализованные тесты: процедура обработки ответов полностью
формализована, так что может быть целиком компьютеризирована.
б) Неформализованные тесты: процедура обработки ответов включает в той или иной степени экспертную категоризацию ответов, так
что обработка не может быть полностью осуществлена без участия
человека.
Являются ли проективные методики тестами?
Последнее основание классификации тесно связано с дискуссионным вопросом о том, считать ли проективные методики тестами. Этот
вопрос так или иначе мы уже затрагивали выше — с целью сформулировать определение теста и провести более четкую границу между тестовыми и нетестовыми методиками. Приведем наиболее известные примеры
проективных методик: это «Пятна Роршаха», «Тематических апперцептивных тест» (ТАТ), фрустрационный тест Розенцвейга, рисуночные техники (продукт — рисунок испытуемого) вроде «Дом-Дерево-Человек», «Несуществующее животное» и т.п. Часто к числу проективных относят тест
цветовых предпочтений Люшера или портретных предпочтений Сонди,
но, по моему мнению, эти методики являются проективными по способу
интерпретации, предложенному авторами, но не по способу проведения
и обработки результатов. В случае этих методик и то, и другое легко подвергается полной алгоритмизации и автоматизации, так что с операциональной точки зрения эти методики следует отнести к методикам шкалирования (например, таким как, «семантический дифференциал»), а не к
проективным методикам.
Как правило, во многих проективных методиках диагностический
материал является стандартизированным: это строго определенный набор словесных стимулов (например, неоконченных предложений) или
96
Практическая тестология
рисунков (например, пятен Роршаха). Но если множество ответов, которым
приписывается определенная интерпретация, не описано исчерпывающим образом, то мы, конечно, не вправе называть такую проективную методику тестовой, ибо оказывается невозможным формализовать и алгоритмизировать правила обработки — отображения ответов на шкалу тестовых
баллов (подсчета тестовых баллов). Неслучайно разработчики многих проективных методик описывают рекомендации по интерпретации результатов как набор соответствий между определенными образцами ответов и
определенными качественными формулировками возможных выводов без
всякой попытки явного введения понятия «шкала результатов» Но… в ряде
случаев разработчики проективных методик проделали значительную работу по превращению методики в тест. При этом оказываются кодифицированными (то есть формализованными) ВСЕ возможные варианты ответов
(путем разработки категориальной сетки так называемого «контент-анализа» — анализа содержания возможных ответов), и каждому варианту предписан определенный балл по определенной шкале, соответствующей уровню измеряемого свойства. Если в руководстве по проективной методике
существует раздел, выполненный в таком формате, то мы вправе называть
данную проективную методику тестоподобной или экспертно-зависимой
тестовой методикой, включающей в себя блок экспертных оценок (другой
вопрос — о качестве данной тестовой методики, но формальным признакам
теста эта методика уже будет соответствовать).
Таким образом, анализируя проективные тестоподобные методики,
мы обнаруживаем, что имеется немало пограничных случаев. Такие методики названы нами «экспертными тестами».
Итак, у проективных методик имеются одновременно черты и тестовых,
и экспертных методик. Что сближает проективные методики с тестами?
1) Наличие стандартизированного тестового стимульного материала;
2) Наличие стандартизированной инструкции;
3) Нередко присутствует формализованная оценочно-диагностическая
шкала (чаще всего это номинально-качественная шкала, но бывает и
порядковая).
Что отдаляет проективные методики от тестов?
4) Протокол ответов не является формализованным и подлежит не алгоритмической обработке, а экспертной оценке-интерпретации. При этом
в случае «шкальных версий» эксперты применяют более строгую и эксплицитную схему анализа (собственно экспертная квалиметрия), а в
случае «клинических версий» работают с более свободной системой категорий и схем анализа (описательная, неквалиметрическая диагностика).
5) В интерпретацию результатов проективных методик нередко разрешается включать (подмешивать) определенную информацию, извлеченную не из самой методической продукции (ответов испытуемых),
а из материала живого наблюдения за поведением испытуемого.
Глава 1. Определения и классификация
97
Если присутствует в явном виде 5-й признак, то проективная методика сближается скорее с наблюдением и беседой и перестает быть тестом в
собственном смысле слова.
1.4. МЕСТО ТЕСТОВ В РЯДУ КОМПЛЕКСНЫХ
СИСТЕМ ОБСЛЕДОВАНИЯ И ОЦЕНИВАНИЯ
В ходе психологических исследований и обследований психолог-диагност обладает значительной свободой в том, чтобы проектировать всю
программу тестирования по собственному усмотрению, а также вносить
в нее различные модификации и отклонения (творческие вариации) уже в
ходе самого процесса исполнения программы.
Другая ситуация складывается, когда организатор тестирования действует не индивидуально, а в тесном взаимодействии с другими сотрудниками в организации — в рамках образовательного или кадрового тестирования (оценивания). Во втором случае тестовые методики должны быть определенным образом встроены в более широкую программу обследования, в
которой участвуют другие исполнители — прежде всего, это эксперты.
Тесты и экспертные оценки
Вначале дадим определение самому термину «эксперт», хотя мы не
раз использовали этот термин выше:
В этой книге под «экспертами» мы имеем в виду любых специалистов,
которые выносят людям оценки на основании своего личного профессионального опыта.
Таким образом, к числу экспертов относятся педагоги-экзаменаторы,
которые оценивают учащихся на устных или письменных экзаменах.
К числу экспертов относятся линейные руководители на производстве и
мастера производственного обучения, которые оценивают качество работы своих работников (подмастерьев) — по критериям, тесно связанным
со спецификой особых производственных технологий. К числу экспертов
относятся врачи-клиницисты, которые выносят обобщающие оценки,
учитывающие опыт наблюдения за пациентом и многообразную (иногда даже противоречивую) картину из разнообразных медико-биохимических анализов. Все перечисленные категории экспертов, включенные
в определенные производственные процессы (обучения, промышленного
производства, торговли и лечения), нередко называются «внутренними
экспертами» — в том смысле, что они главным образом задействованы
в определенных основных бизнес-процессах, характерных для той или
иной организации, а экспертные функции для них являются не первичными, а вторичными.
98
Практическая тестология
Другая категория экспертов — это внешние эксперты, которые не включены в основные бизнес-процессы организации. К их числу можно смело
относить, например, специалистов по кадровой оценке — ассессменту (ассессоров). Это, как правило, сотрудники независимой консалтинговой организации, которая оказывает организации-заказчику услуги по договору. В роли
внешнего (независимого) эксперта, кстати, может выступать коллега-психолог, интерпретирующий результаты психологического обследования, проведенного другим психологом, не знакомый с гипотезами и ожиданиями автора программы обследования. В случае привлечения внешних (независимых)
экспертов достигается, как правило, эффект большей объективности оценок,
так как субъекты оценивания не связаны своими финансовыми (и жизненными) интересами с объектами и заказчиками оценивания: их гонорары не
зависят от того, оценят ли они того или иного работника (учащегося, пациента) высоко или низко по определенным оценочным шкалам.
Этот кратчайший экскурс в методологию экспертных оценок нам необходим в данном параграфе, чтобы читателю было более понятно, с какими именно экспертными оценками надо сочетать тестовые методики.
Теперь сформулируем главный тезис для данного параграфа:
От сочетания тестовых результатов и экспертных оценок выигрывают и те, и другие — совокупный результат оказывается более объективным и полным.
Раскроем этот общий тезис более подробно. Существует, как минимум, четыре способа сочетания тестов и экспертных оценок:
Наложение (совпадение, тождество). И тесты, и экспертные оценки
направлены на одну и ту же переменную (измеряемое свойство) или переменные (множество свойств). Пример: и тест измеряет фактологические
знания по предмету, и эксперт оценивает фактологические знания, но делает это в ситуации устного опроса (интервью). В тесте задается вопрос по
истории «Когда произошла Куликовская битва?», и эксперт-экзаменатор может задать точно такой же вопрос. Другой пример: и психологический тест
измеряет стрессоустойчивость, и эйчар-интервьюер (специалист по оценке персонала) ставит перед собой такую же задачу — задает в ходе стрессинтервью особые вопросы, провоцирующие ситуационную тревожность:
«Как Вы оправдываетесь, когда в Вашей работе возникает явный провал?».
Включение. Множество свойств, измеряемых с помощью тестов, полностью включено в то множество, которое подвергается экспертному оцениванию, но экспертное множество еще шире. Например, в тестах проверяются
только знания фактов, но устный экзаменатор ставит вопросы не только на
фактологические знания, но и на конструктивно-плановое мышление в
предметной области: «Предложите план решения задачи и обоснуйте его».
На практике именно такое сочетание «областей валидности» (содержательной
направленности) тестов и экспертных оценок является наиболее типичным.
Глава 1. Определения и классификация
99
Если задачи экспертов не формализованы и не структурированы, если эксперты при этом выступают в роли «опрашивающих» (как экзаменаторы на
устном экзамене), то их фокус внимания трудно ограничить (в то же время
тематически формализовать и сфокусировать тест проще).
Пересечение. Два множества свойств пересекаются. В этом случае и
тесты, и экспертные оценки затрагивают ряд общих свойств, но явно имеются такие свойства, которые не попадают в область «пересечения». Стихийно такая ситуация возникает в том случае, если тесты измеряют чтото такое, что заведомо не может оценить эксперт «на глазок». Например,
тестовая компьютерная программа измеряет скорость реакции и объем
кратковременной (рабочей) памяти.
Дополнение. Это весьма искусственная и редкая ситуация. На практике она может возникнуть лишь в результате специальных усилий, нацеливающих экспертов на оценку именно и только таких свойств, которые
не оцениваются с помощью тестов. Например, экспертам выдают такие
оценочные шкалы (на экспертном бланке), куда никак не входит знание
тех же фактов (в тесте об этом десятки и сотни вопросов, которые не может и не должен задавать эксперт), но встречаются только такие шкалы
(компетенции, критерии оценивания), которые в принципе не затрагивает тест: например, «способность грамотно ставить вопросы» (в ходе живой
коммуникации с коллегами) и т.п.
Включение
Пересечение
Дополнение (рядоположность)
Рис.1.8. Возможные отношения между областью валидности для тестов и
экспертных оценок (рисунок, соответствующий наложению, носит вырожденный характер — это два круга, сливающиеся в один).
Итак, мы перечислили возможные логические комбинации, но и из
факта этого перечисления никак сам по себе не вытекает вывод о том, какая же комбинация является наиболее оптимальной. Очевидно, сама эта
оптимальность зависит от ситуации — от доступности тех или иных тестов или экспертов, от конкретных организационных условий проведения тестирования и экспертного оценивания.
Имеет ли смысл в каких-то ситуациях наложение и в каких? Очевидно,
да. В тех ситуациях, когда нам особенно важно максимально объективно
и точно оценить какие-то наиболее важные одно-два качества. Например,
надежность оператора при решении вопроса о его допуске к управлению
опасным объектом (когда цена ошибки оператора оказывается чудовищно
100
Практическая тестология
высокой, как это имеет место во время катастрофических аварий на АЭС
и т.п.). Для точной и объективной оценки в таком случае мы будем использовать и тест (и не один!), и экспертов. А решение о допуске следует принимать, если «дает добро» каждая из использованных процедур. А в том случае, если хотя бы одна из процедур дает основания для сомнения, лучше
перестраховаться и отправить на объект другого — безупречного оператора.
Второй класс ситуаций, где необходимо наложение,— это ситуации
проверки (валидизации) одного из источников информации. Допустим, мы
не полностью доверяем тесту (он просто новый, и его валидность надо изучать). В этом случае экспертные оценки (особенно со стороны людей, хорошо знающих тестируемых) — это критериальный (эталонный) источник
информации по отношению к тесту. Если есть корреляция (сходство тестовых и экспертных оценок), то мы делаем в этом случае вывод о том, что тест
валиден, то есть валидизирован по критерию «экспертные оценки». Но возможна и такая ситуация, когда мы не слишком доверяем экспертам (это новички или слишком по-новому сформулировано оцениваемое свойство) и
берем известный нам вполне убедительный и объективный тест в качестве
критерия (эталона) для валидизации (проверки) экспертных оценок.
Рис.1.9. Сочетание тестов и экспертных оценок по типу «наложение»: если
между баллами и оценками обнаруживается значимая связь (статистическая корреляция), то значит, тест и эксперт (группа экспертов) оценивают
одно и то же свойство (поясним, что направленность стрелок на рисунке
весьма условна, она обозначает направленность индикаторов на измерение определенного свойства, но, разумеется, не причинную зависимость).
Если связь между тестами и экспертными оценками сознательно проектируется по типу «наложение», то между результатами тестирования и
результатами экспертного оценивания обязательно должна обнаружиться
Глава 1. Определения и классификация
101
корреляция. В противном случае мы не имеем права считать, что два источника дают нам информацию об одном и том же свойстве (см. об этом
подробнее в разделе, посвященном проверке валидности тестов).
Как уже отмечалось выше, ситуация по типу «включение» наблюдается
на практике очень часто, по-видимому, чаще других, если происходит стихийное применение этих двух методов оценивания. Например, в ходе интервью с кандидатом-соискателем при приеме на работу любой руководитель,
имеющий представление о технологических процессах (а это все линейные
руководители), пытается оценить одновременно и уровень профессионализма, и уровень пригодности кандидата по «человеческим» (личностным) качествам. Его интегральный балл, который он ставит соискателю, подразумевает и то, и другое. В то же время если в системе отбора применяется только
квалификационный тест (учитывающий уровень профессиональной грамотности соискателя в технологических процессах), но не применяется тест
на личностные качества, то балл по тесту отражает более «узкую область валидности». Тут же возникает вопрос: а должен ли тогда балл по тесту учитываться в общей итоговой рейтинг-оценке соискателя с таким же весом, что и
экспертная оценка? На уровне здравого смысла понятно, что нет. Экспертная
оценка, если она охватывает более широкий круг свойств (качеств, компетенций), должна вносить в итоговый балл вклад с большим весом. Например, с
весом в 70 процентов, тогда как тест — с весом в 30 процентов. Впрочем, модели принятия решений на основе многокритериальной (многофакторной информации) будут обсуждаться в следующем разделе 1.5.
Если тест и экспертные оценки измеряют совсем разные аспекты (случай «дополнение»), то их вклады в итоговый рейтинг-балл также должны
быть явным образом сформулированы и обоснованы — в зависимости от
важности свойств, измеряемых тем или иным способом, а также в зависимости от надежности-объективности источника информации.
Наиболее сложен для грамотного совместного анализа случай «пересечение». Здесь все свойства нужно отдельно классифицировать на три подгруппы — измеряемые только с помощью теста, измеряемые только с помощью
экспертных оценок, а также измеряемые «наложением» (область пересечения). И для каждой подгруппы свойств надо строить свою обоснованную формулу и процедуру учета при построении интегрального рейтинг-балла.
Проблема интеграции тестовых баллов и экспертных оценок обсуждается на более операционализированном уровне в главе 6.
Достоинства и недостатки тестов
Более подробный анализ экзаменационных технологий с позиций
тестологии предусмотрен в этой книге в главе 7. Здесь же сформулируем главные особенности метода тестов по сравнению с традиционными оценочными процедурами, среди которых мы все (еще в роли
102
Практическая тестология
экзаменуемых учащихся) более всего знакомы с устными и письменными экзаменами.
Вместо «лотерейности» устного экзамена метод тестов предлагает тестируемому большое количество вопросов, равномерно охватывающих
фактически все темы учебной программы. В современных серьезных тестовых сеансах число вопросов, как правило, превышает 50, а нередко переваливает за 100 (а в сертификационных западных тестовых экзаменах
это число приближается к 300, к чему наши испытуемые еще не готовы ни
морально, ни физически!).
Чем больше по численности и разнообразнее по тематике вопросы-задания теста, тем выше валидность, а, следовательно, объективность тестовых результатов.
Вместо слишком доброжелательного или слишком хмурого предвзятого экзаменатора учащийся имеет дело с тестовым буклетом или с компьютерным монитором.
Он может не бояться чем-то задеть такого «экзаменатора» (нестандартным внешним видом, например). Тестовый диалог
деперсонализирован, и в этом смысле он является более объективным. Но
с этим же достоинством связан и недостаток, который мы уже фактически
прокомментировали в предыдущем параграфе в виде главного достоинства устного экзамена.
Итак, метод тестов не панацея от всех бед, он имеет и достоинства, и
недостатки. Сведем и те, и другие в две колонки следующей таблицы 1.6:
Достоинства тестов
Недостатки тестов
— широта охвата знаний
— объективность
— автоматизация обработки результатов
— автоматизация подготовки и проведения (при компьютеризированном тестиро-вании)
— количественное представление
результатов
— массовость охвата, низкая цена
при проведении
— точечная, не системная и поверхностная
оценка знаний (нет оценки «корней дерева»)
— формально-репродуктивный характер диагностируемых знаний и умений
— высокая цена на этапе разработки
— риск массовых подтасовок
— неспособность учитывать состояние экзаменуемого и вносить поправки на экзаменационный стресс
— требование высокой переключаемости с
одного тематического контекста на другой
Таблица 1.6. Шесть достоинств и шесть недостатков метода тестов.
Приведенные в таблице 1.6 перечни главным образом ориентированы на применение тестов в сфере образовательного и квалификационного тестирования, но они же во многом применимы и к областям частного
психологического консультирования, организационно-психологического
обследования и др. Следует также сделать оговорку, что в качестве модели
взят наиболее распространенный тип тестов — с выбором из заданных ответов (multiple choice), так как некоторые недостатки в меньшей степени
свойственны другим типам тестов (см. параграф 5.4, посвященный методу
контекстной вставки, например).
Глава 1. Определения и классификация
103
Особого комментария заслуживают такие недостатки тестового метода, которые не в одинаковой мере проявляются для всех тестов и всех
видов тестирования, но риск появления которых весьма велик, и они являются вполне типичными:
1) Точечная оценка. Тесты с выбором ответа, как правило, выхватывают
какой-то один вопрос из сложного, связанного концептуального контекста.
Насколько при этом стройной и целостной является вся система знаний по
данному предмету в голове тестируемого? Это с помощью данного метода понять трудно. Логическое рассуждение в ходе устного или письменного экзамена — более валидный источник информации об этих параметрах субъективной структуры знаний (ССЗ). Если в отношении ССЗ применять метафору
«дерева» (а так и делается в когнитивных моделях, которые так и называются
«категориальные деревья»), то мы с помощью метода тестов в большей степени касаемся отдельных листьев и веток кроны, но добраться до корней, оценить глубину и прочность корневой системы — это очень трудно. Тестовые
результаты — это мера широты и богатства кроны, она лишь коррелирует с
качеством корневой системы, но непосредственно ее не отражает.
2) Репродуктивный характер. Есть два вида памяти, которые могут
работать с разной эффективностью у разных людей и на разных стадиях усвоения материала: память узнавания и память воспроизведения. При неглубоком, поверхностном и неустойчивом знании учащиеся могут достаточно
легко «узнавать» правильные ответы (особенно если слабенькие дистракторы — неправильные ответы — ничего не требуют от логического мышления
испытуемого). А вот если они сталкиваются с открытым и достаточно общим
вопросом, то сразу видно, что учащиеся не могут активно воспроизводить логически упорядоченную систему фактов, терминов, имен, событий, не могут
построить связную цепочку аргументации. Продуктивные (в противоположность репродуктивным) компетенции в мышлении и речи — это совсем другое. Как говорят специалисты по обучению иностранным языкам, слушать,
читать, говорить и писать — это четыре разных навыка (компетенции) в овладении языком, и высокий уровень развития одного из них не гарантирует
высокий уровень развития другого. Что такое на этом фоне письменный тест
с выбором из предлагаемых ответов? Это лишь один навык — «читать» (ну и
понимать, разумеется, имеется в виду понимающие чтение). Но уметь читать не означает уметь слушать, говорить и писать. С этим пунктом в перечне
недостатков тесно связан такой недостаток, который может быть сформулирован несколько иным способом: «Тест не моделирует ситуацию профессиональной коммуникации — живого, неформального устного диалога по предмету». Именно ситуация живой, неформальной коммуникации несет в себе
(при позитивных и честных установках экзаменаторов) возможности учета
субъективного состояния экзаменуемого, о которых мы писали выше, и т.п.
3) Риск массовых подтасовок. Вот этот недостаток заслуживает особого
комментария. В случае утечки ответов (в виде готовых шпаргалок) к одномудвум билетам устного экзамена этот риск не так велик, ибо экзаменатор
104
Практическая тестология
обычно просто видит, что экзаменуемый при ответе глазами привязан к своим заготовкам (списанным со шпаргалок). Достаточно одного-двух дополнительных вопросов, и фальсификация раскрыта. Но… если идет массовое списывание по шпаргалкам-ключам к тесту, то это зло, которое весьма трудно
формальными методами вскрыть и опровергнуть,— признать результаты тестового экзамена недействительными. Поэтому-то тест требует совершенно
другого уровня организованности при подготовке и проведении — организаторы должны освоить и внедрить целую технологию обеспечения информационной безопасности (см. главу 6 — разделы про достоверность).
4) Требование высокой переключаемости. Даже в весьма однородном
тесте каждый следующий вопрос, как правило, относится к несколько иной
теме, чем предыдущий. На эту новую тему надо успеть переключиться и,
как говорится на студенческом сленге, «въехать». Более медлительные учащиеся, которым на это нужно больше времени, начинают проигрывать от
такого скоростного режима. Подробнее о преодолении этого недостатка см.
параграф, посвященный методу контекстной вставки (раздел 5.4).
Итак, использовать метод тестов следует так, чтобы максимально реализовать достоинства этой формы контроля и нивелировать недостатки.
Но даже самый искусно сконструированный тест не свободен от недостатков, обусловленных ограниченностью самого метода. Поэтому-то тесты
нельзя использовать изолированно для серьезной аттестации студентов и
работников — только в сочетании с другими методами.
Комплексный подход, основанный на сочетании метода тестов и разнообразных модификаций метода экспертных оценок, — это базисный методологический принцип данной книги.
Тесты и кадровый ассессмент (метод «Центр Оценки»)
На производственных предприятиях, в отличие от учебных учреждений,
имеется определенный «козырь» для осуществления более валидных процедур оценивания. Здесь не надо делать особых усилий по моделированию
профессиональной деятельности, не надо делать вид, что учебная деятельность — это тоже некоторый вариант профессиональной работы (а учебные задачи — имитация профессиональных задач). На этих предприятиях сама по
себе профессиональная (в том числе управленческая) деятельность ежедневно
осуществляется. Важно организовать наблюдение за этой деятельностью и ее
оценивание, которое с недавних пор называется «ассессмент» (assessment) —
не только из-за любви к англицизмам, но и из-за прямого заимствования из
англоязычных стран особых технологий наблюдения и оценивания.
Основным методом сбора данных в случае применения так называемого «ассессмента» является непосредственное наблюдение и оценивание
либо производственного поведения, либо особых упражнений, имитирующих производственное поведение. Именно наблюдение за особыми
Глава 1. Определения и классификация
105
упражнениями является главным ядром более комплексного понятия
«Ассессмент-центр» (или по-русски лучше выразиться так — метод «Центр
оценки», сокращенно в этой книге МЦО).
Состав процедур, входящих в МЦО, у разных авторов описывается
несколько по-разному. Но заслуживает внимание тот перечень, который
опубликован в русскоязычной Википедии, где, как известно, действует
принцип «скорее добавить, чем убавить»:
— интервью с экспертом, в ходе которого идет сбор данных о знаниях и
опыте сотрудника;
— психологические, профессиональные и общие тесты;
— краткая презентация участника перед экспертами и другими участниками;
— деловая игра (под руководством наблюдателя группа сотрудников или
кандидатов разыгрывает бизнес-ситуацию по заранее подготовленному сценарию);
— биографическое анкетирование;
— описание профессиональных достижений;
— индивидуальный анализ конкретных ситуаций (бизнес-примеров) —
участнику предлагается выбрать определенную стратегию и тактику
действий в предложенной ситуации;
— экспертное наблюдение, по результатам которого составляются рекомендации для каждого сотрудника.
Таким образом, уже на втором месте в этом перечне мы находим упоминание тестов, причем различных тестов. А вот то, какие именно компетенции оцениваются с помощью разных упражнений и процедур, включая тестирование, зависит от конкретной программы «центра оценки»,
которая разрабатывается исполнителем по согласованию с Заказчиком по
принципу «индивидуального пошива» — для каждого Заказчика своя программа, учитывающая определенную специфику предприятия, отрасли,
стадии развития предприятия, текущие управленческие задачи в области
персонала и т.п. В одной программе в отношении экспертных оценок и
тестов может быть реализован принцип наложения, в другой — принцип
дополнения, в третьей — пересечения. Но автор этой книги хотел бы подчеркнуть некий принцип, который, по сведениям самого автора, не всегда учитывается практиками (из бесед с практиками ассессмента более,
чем из анализа литературы, в которую выносятся, как правило, примеры
более продуманных и рафинированных программ МЦО):
В рамках программы МЦО (центра оценки) должен быть обоснованным образом сформулирован подход к сочетанию тестовых и нетестовых (экспертных) методов оценивания персонала: для каких
именно компетенций (важных качеств работников) требуется принцип наложения, для каких — дополнения.
106
Практическая тестология
Приведем один пример, который, как я надеюсь, поможет читателям,
пока еще далеким от МЦО, понять, о чем тут идет речь. Допустим, мы проводим тестирование с помощью модного тест-опросника эмоционального
интеллекта (допустим, с помощью теста Дж. Мэйера, П. Сэловея и Д. Карузов
русскоязычной адаптации Сергиенко Е.А., Ветрова И.И., 2009). Параллельно
с этим организаторы в рамках МЦО провоцируют (имитируют) конфликт
в деловой дискуссии, и эксперты (ассессоры) оценивают эффективность поведения тех же самых лиц по шкале «Самообладание в ситуации открытого
делового конфликта». Имеется очевидный пример схемы наложения — и тест,
и экспертная оценка адресуются фактически к одному и тому же измеряемому (диагностируемому) свойству на одной и той же группе обследуемых. Но…
при подсчете корреляций между тестовыми баллами и экспертными оценками получена вдруг низкая корреляция, значимо не отличимая от нулевой. Каким данным отдать предпочтение? Можно ли их механически суммировать
(усреднять)? Уточним, что в применении к отдельному обследуемому некому
г. Иванову И.И. это отсутствие корреляции может означать прямое противоречие: по тесту выявлен высокий уровень эмоционального интеллекта, а по экспертным оценкам — низкий (!). Правильно ли в этом случае руководствоваться стратегией «решаем в пользу человека» (засчитывать ему высший из двух
проставленных баллов)? Или всегда надо отдавать предпочтение экспертным
оценкам, считая, что тест — это менее надежный и достоверный источник информации? По нашему мнению, нельзя во всех ситуациях подобного рода действовать однотипно, автоматически следуя одной заранее выработанной стратегии. Само противоречие — это повод задуматься и дополнительно изучить
ситуацию. Более вероятно, что в ситуации экспертизы испытуемые не слишком откровенно отвечали на вопросы тест-опросника. Но… нельзя исключить
и того, что эксперты неправильно проинтерпретировали сам оцениваемый
конструкт — шкалу. А также нельзя исключить того, что игровая имитация
конфликта оказалась слишком условной и искусственной, она не затронула
жизненные интересы людей, и участники вели себя в этом упражнении вовсе
не так, как они ведут себя в аналогичных реальных ситуациях.
О том, какие данные по исследованию сравнительной прогностической валидности экспертных оценок (ассессмента) и различных тестов получены в зарубежных и отечественных исследованиях, речь пойдет в данной книге далее — в разделах, посвященных проблемам прогностической
валидности (см. раздел 6.1).
1.5. ТЕСТИРОВАНИЕ И ПРИНЯТИЕ РЕШЕНИЙ
Для того, чтобы эффективно применять метод тестов в комплексе с
другими методами и процедурами оценки, надо обязательно продумать
ЗАРАНЕЕ определенную систему (модель) принятия решений — тех решений, которые предусматриваются по итогам программы оценивания.
Глава 1. Определения и классификация
107
По опыту автора очень часто именно отсутствие продуманного, спланированного подхода на данном этапе и является препятствием для грамотного
комплексного использования и сочетания различных методов оценки. Многие специалисты до сих пор являются специалистами по... одному какомуто методу, а не по комплексному использованию разных методов, поэтому
для них задача интеграции данных, полученных по разным методам, как
бы фактически и не стоит. Для них принятие решений — это довольно-таки
тривиальная умственная операция, связанная с прямым применением категориальной системы интервалов на одной шкале (см. рис.1.4). Эта логика
принятия решения отменяет процесс принятия решения как отдельную интеллектуально-сложную процедуру. Решение сводится при этом к применению тестовых норм, то есть системы интервалов на ОДНОЙ ШКАЛЕ. Уже переход от двухзначной логики (выбор из двух решений) к трехзначной (выбор
из трех) является для специалистов такого типа (назовем их с долей иронии
«одношкальники») значительным шагом в сторону НАУКИ.
В этом разделе 1.5 мы ставим своей задачей сформировать у читателя
базовое, хотя бы самое схематичное представление о том, что такое многошкальный (многокритериальный) подход к принятию решений. Ибо без
этого представления читателю останется совершенно непонятным, почему переход от изолированной методики к комплексу методик — это качественный скачок, который меняет логику работы с данными именно и
прежде всего на этапе принятия решений.
Пример прототипической категоризации. Женщина подает заявление на
развод и объясняет таким образом для других и самой себя свою «ошибку
молодости»: «Он показался мне похожим на моего кумира–киноактера (Алена Делона, Штирлица, неважно. - Прим. автора). Под влиянием влюбленности я совсем не замечала таких его недостатков (пьяница и сибарит, который даже тюбик с пастой не закрывает сам), с которыми просто невозможно
мириться». Таким образом, сработал фактически один единственный синтетический критерий — «сходство с кумиром», при этом никакого взвешенного анализа по отдельным параметрам не происходило.
Модели принятия решений:
житейская логика и одношкальный подход
Как показали многочисленные исследования по психологии принятия
решений (Козелецкий, 1979, Strack, Deutsch, 2004), житейская логика — это
чаще всего интуитивно-импульсивная стратегия принятия решений. Эта
стратегия, как правило, состоит в том, чтобы упростить ситуацию, особенно
в случае сложного и противоречивого набора данных, затрудняющего принятие однозначного решения. Как упростить? Путем сведения множества
108
Практическая тестология
различных критериев к какому-то одному, который вдруг объявляется «самым главным». Впрочем, при принятии эмоционально-синтетических решений критерии вообще не вычленяются и не анализируется как отдельные,
не происходит «параметризации вариантов», а работает некий синтетический подход, основанный на прототипической категоризации.
Итак, сформулируем это сложное утверждение в виде некоего более
короткого и упрощенного тезиса:
Обычные пользователи тестов объединяют подсчет баллов по тесту
(тестам) с принятием решения на одной шкале.
То есть обычные пользователи стремятся к тому, чтобы на основе всей
программы проведенного обследования (оценивания), включающей или
не включающей тестирование (это неважно), оперировать одношкальным,
однокритериальным сводным показателем, таким, что все группы обследованных, по которым планируются разные решения, будут расположены в
некотором порядке одна за другой, разделенные «точками отсечения». Сама
мысль о существовании многих критериев, по которым возникает противоречивая картина, доставляет таким пользователям дискомфорт, от которого
они сознательно (но чаще бессознательно!) пытаются уйти.
Тем не менее, несмотря на критику, мы должны зафиксировать как вполне существующий такой подход к сопряжению решений с результатами тестирования — «одношкальные решения» (или «однопараметрические решения»). В общем виде эта логика может быть описана в виде такой таблицы 1.7:
Тестовый балл\Решение
Решение №1
(допустить
к работе
или учебе)
Решение №2
(взять на доучивание — подготовительное
отделение)
Решение №3
(не принимать
вовсе)
Высокая группа (балл выше
верхней границы средней
группы)
+
-
-
Средняя группа (внутри
границ средней группы)
-
+
-
Низкая группа (балл ниже
нижней границы средней
группы)
-
-
+
Таблица 1.7. Иллюстрации логики одношкальных решений на материале
производственного или учебного конкурсного балла.
Важно обобщить эту логику на множество случаев, где она применяется.
Например, мы проводим тест супружеской совместимости (по желанию молодоженов). Если мы применяем эту логику, то на некой интегральной шкале по тесту совместимости мы хотим обозначить две
Глава 1. Определения и классификация
109
«разделяющие точки», а затем решения вырабатываются для трех групп:
высокой группе мы рекомендуем заключать брак, средней — подождать,
но не отказываться от такого плана (продлить «испытательный срок»),
низкой — отказаться от самого плана заключать брак.
Другой пример. Рассмотрим тестирование на наркозависимость (или
стадию алкоголизма). Три группы в этом случае таким образом могут
быть связаны с решениями: а) высокая группа (высокая степень зависимости) — госпитализация, то есть лечение в условиях стационара, б) средняя группа — диспансерный учет и амбулаторное наблюдение (лечение на
дому), в) низкая группа — снятие с диспансерного учета (или «непостановка на учет», что в данном случае одно и то же).
Важно подчеркнуть, что обычно множество групп и множество решений вовсе не представлены в сознании испытуемых в виде отдельных
входов в некую комбинаторную матрицу, в которой они являются РАЗНЫМИ множествами (как в таблице 1.7). Решения просто «накладываются» на
множество интервалов на шкале тестовых баллов как некие «категории»
к интервалам (как на рис.1.4). Это, конечно, затрудняет осознание того,
что по каким-то параметрам отображение множества групп на множество решений может быть иным, чем взаимно-однозначное, или «тождественное» (все единички стоят только по главной диагонали матрицы).
А ведь при подборе кадров на определенные позиции мы сталкиваемся
на практике с таким понятием как «избыточная компетентность» (overqualified), что практически означает приоритет средней группы не только
над «низкой», но и над «высокой». Возьмем уровень знаний иностранного языка. Для многих видов деятельности практически оказывается невостребованным язык на уровне «свободный разговорный», достаточно
«чтения литературы по специальности». Избыточность этой компетенции
у исполнителя будет оставлять волей или неволей определенную неудовлетворенность работой, которая не полностью востребует все конкурентные преимущества данного исполнителя. Вот так через некоторые особые
ситуации и примеры мы выходим на проблему «весовых» или «профильных» моделей принятия решений (см. ниже). Но вначале рассмотрим так
называемые «аддитивные модели».
Недостатки аддитивных моделей принятия решений
Очень часто на место однопараметрических, совсем уж однобоких
житейских решений приходят упрощенные «аддитивные многокритериальные модели решений» — путем суммирования (или усреднения)
набора показателей, каждый из которых по факту вносит равный вклад в
итоговый балл. Это уже некая многокритериальность, но в контексте этого
упрощенного подхода по-прежнему маскируется проблема взвешивания
критериев, присвоения им разных весовых коэффициентов.
110
Практическая тестология
Рассмотрим типичную модель принятия решения при проведении
конкурсных вступительных испытаний в вузы Российской Федерации
(еще до и без всякого участия ЕГЭ, хотя появление баллов ЕГЭ не сильно
изменило в этом плане логику подхода). Всех абитуриентов надо разбить
на три категории: а) зачисляемые на бесплатные (бюджетные) места, б) зачисляемые на платные места, в) не прошедшие по конкурсу (непринятые
в вуз). Соответствующие три категории в советские времена звучали так:
а) зачисляемые со стипендией, б) зачисляемые без стипендии, в) не прошедшие по конкурсу. Задача, кажется, в этих условиях сводится только к
одному — разместить на одной шкале конкурсного балла две «точки отсечения-разделения»: первую — отделяющуюя группы а и б, и вторую — отделяющую группы б и в.
Таким образом, каждый абитуриент набирает баллы по некоторому
набору вступительных экзаменов. Это, как правило, три или четыре показателя, измеренных на шкале от 3 до 5, хотя в последнее время в моде
более дробные шкалы — десятибалльные, двенадцатибалльные, стобалльные — о них подробнее в другом месте. При получении балла «2»,
или «неудовлетворительно» (провал на одном из экзаменов), вся сумма
обнуляется. То есть срабатывает некое логическое условие (простейший
логический фильтр): если «провалился» на одном экзамене, сумма сгорает (на самом деле не допускаешься до следующего, но в данном контексте
эти нюансы не существенны). Кроме этого исключения, в остальном работает очень простая формула суммирования: все оценки по всем экзаменам просто складываются. И хотя возникает очень непростая проблема
«полупроходных баллов» (из-за низкой дифференцирующей способности такой грубой шкалы), это еще не самая серьезная проблема, как мы
увидим ниже. Удобство этой модели подсчета — в том, что ее может применить сам абитуриент, знакомый с математикой на уровне начальной
школы.
Проиллюстрируем вопрос о значимости критериев на следующем
простом примере. Допустим, два абитуриента — Петров и Сидоров — набрали оба «полупроходной» балл 18 из 20, но по разным предметам они
набрали разные баллы. Петров получил четверки, например, по математике и физике, а Сидоров — по русскому языку и иностранному языку.
Кого предпочесть? Зачислить сразу двоих не получается — не хватает вакантных мест. Тут логично обратиться к приоритетам конкретного вуза
(факультета) с учетом профиля специалиста, которого вуз готовит. Если
это физмат-факультет, то, конечно, логично отдать предпочтение Петрову, который больше набрал по более значимым предметам — профильным для данного факультета. Ну, а если это какой-нибудь военно-инженерный факультет технических переводчиков (не имею в виду сейчас
буквально какую-то реальную специальность, важна лишь логика примера), то лучше предпочесть Сидорова, который продемонстрировал более высокоразвитые лингвистические способности.
Глава 1. Определения и классификация
111
Пример расчета по модели взвешенного рейтинга. Пусть какой-то абитуриент Семенов С.С. сдал три экзамена, получив на первом оценку X11= 5,
на втором – X21= 4, на третьем – X31= 3, а другой абитуриент Андреев А.А. получил оценки X12= 3, X22= 4, X32= 5. В случае аддитивной модели конкурсные
итоговые баллы у обоих абитуриентов были бы равны 12. Но если первому
экзамену мы присваиваем вес вдвое больше, чем остальным, то получаем преимущество Семенова над Андреевым. Итак, пусть W1=0,5, W2=0,25,
W3=0,25. В этом случае мы получаем рейтинг Андреева равным R2=3,75, а
рейтинг Семенова равным R1=4,25.
Формула взвешенного рейтинга
В наше время в педагогической литературе в контексте растущей популярности так называемой «модульно-рейтинговой системы» сам термин
«рейтинг» нередко воспринимается именно в смысле «взвешенный рейтинг»,
хотя буквально значение слова «рейтинг» гораздо шире — это любые процессы и процедуры приписывания каким-то объектам числовых значений. Экспертный рейтинг — это частный случай, когда числовые значения приписывают эксперты26. В спорте (шахматах, теннисе, футболе) известны рейтинговые системы, основанные на определенных процедурах анализа результатов
парных поединков, фактически это модификация метода «парных сравнений» (как, например, система американо-венгерского физика Арпада Эло).
Обобщенная и упрощенная формула взвешенного рейтинга может выглядеть так:
(1.3)
,
где Rj — рейтинг j-го участника (обследуемого),
Xij — оценка j-го участника по i-й процедуре из общего числа в k возможных процедур,
Wi — весовой коэффициент i-й процедуры,
Mx — масштабирующий коэффициент, который равен максимально
возможному показателю рейтинга R i до его умножения на масштабный
сомножитель (L/Mx),
L — длина шкалы рейтинга (например, для стобалльного рейтинга L=100, для тысячебалльного L=1000).
В приложении к данной книге на диске приводится Эксель-модель для
подсчетов по формуле (1.3), а также на других листах этого же Эксель-файла конкретные примеры того, как это формула работает.
26
Рейтинг в англоязычной литературе чаще, чем в русской, обозначает не только результат
количественной оценки, но и процесс оценивания. — Прим. автора.
112
Практическая тестология
Очень часто для практического упрощения расчетов удобно давать весовым коэффициентам значения на интервале (0,1) и такие, чтобы в сумме
все коэффициенты давали 1. Это так называемая «процентованная шкала
весовых коэффициентов». В этом случае Mx=1 и, как правило, L=1, то есть
фактически подсчитывается некий средне-взвешенный балл по всем оценочным процедурам. О том, как работает такая формула, см. пример во
вставке к этой странице (в рамке)27.
Итак, что нам дает формула взвешенного рейтинга (1.3) для понимания принципов использования тестов в системе комплексного обследования, в котором также участвуют и экспертные процедуры? Очень многое!
Достаточно понять и поработать с этой формулой на ряде примеров (лучше
всего с использованием автоматических расчетов в Эксель), чтобы ухватить и прочувствовать главную мысль:
Тестовые процедуры, равно как и другие различные экспертные оценочные процедуры, должны участвовать в итоговом рейтинге с весом,
пропорциональным нашей степени доверия этим процедурам.
Вместо того чтобы предаваться часто бесплодным дискуссиям о том, какая процедура лучше, гораздо проще и рациональнее решить проблему следующим образом — за счет коллегиальной оценки весовых коэффициентов для
формулы (3). Пусть некто Иванов И.И. в Вашей организации вообще ни за что не
хочет верить никаким тестам, а некто Петров П.П. — горой стоит за внедрение
тестов и считает все экспертные оценки «лукавыми», в то же время среднее положение между этими полярными персонажами готовы занять остальные члены некой коллегии лиц, принимающих решение (например, члены Ученого
совета вуза или Правления (дирекции) на предприятии). Тогда проще организовать сбор субъективных экспертных оценок, при котором каждой процедуре
будет выставляться субъективный весовой коэффициент на процентной шкале с градацией в 10 процентов. Получится что-то вроде таблицы 1.8:
Подсчет рейтинг-процента с помощью лимитов по критериям
На практике нередко отказываются от явного применения в формулах подсчета рейтинговых весовых коэффициентов Wi, ибо это слишком
математизирует всю процедуру (очень многих гуманитариев коэффициенты со значениями меньше 1 просто пугают своей «страшной сложностью»). В целях упрощения формулу приспосабливают так: по каждой
из процедур задают ЛИМИТ ВКЛАДА — максимально возможный балл,
27
Не хотелось бы утомлять здесь читателя формализмами из области математической теории
многокритериальной оптимизации, но следует упомянуть здесь понятие «множество Парето»,
названное так в честь известного математика, его описавшего. В приведенном примере абитуриенты Семенов и Андреев относятся к множеству Парето (спорные кандидаты на зачисление):
по одному критерию превосходит Семенов, а по другому — Андреев. — Прим. автора.
Глава 1. Определения и классификация
Вес
теста
Эксперт
Вес письменного экзамена (вес интервью)
113
Вес устного решения кейсзадачи (Вес деловой игры)
Иванов И.И.
0%
50%
50%
Петров П.П.
80%
20%
0%
Сидоров С.С.
20%
50%
30%
Васильев В.В.
20%
40%
40%
Результат усреднения
30%
40%
30%
Таблица 1.8. Экспертная оценка значимости и усредненные веса различных
оценочных процедур.
выраженный в процентах, то есть лимиты по всем процедурам подбирают так, что их сумма дает 100 процентов. Как этот подход работает арифметически, покажем на простом числовом примере в виде таблицы 1.9:
Эксперт
Лимит теста
Лимит письменного
экзамена
(вес интервью)
Лимит устного
решения кейсзадачи (вес
деловой игры)
Итоговый
Рейтинг
Лимит по
разделу
30%
40%
30%
100%
Оценка
(из 5)
Вклад
Оценка
(из 5)
Вклад
Оценка
(из 5)
Вклад
Участник 1
4
24
3
24
5
30
78
Участник 2
5
30
4
32
2
12
74
Таблица 1.9. Пример подсчета рейтингового балла на основе упрощенного
принципа — использовании вместо весовых коэффициентов соответствующих лимитов для вкладов (в процентах).
Важно подчеркнуть, что итоговые рейтинг-баллы в таблице 1.9 можно
также получить и с помощью формулы (3), если вставить в нее следующие
параметры: все значения соответствующих лимитов для критериев поделить на 10, L=100, Mx=5. Соответствующие расчеты предложены также в
Эксель-модели, прилагаемой к данной главе на диске.
Формула взвешенного рейтинга, основанная на лимитах, применена нами в онлайн-системе дистанционного обучения, тестирования и
ассессмента HT-LINE. Задача администратора системы, настраивающего
параметры проекта обучения или оценки, заключается в том, чтобы ввести определенные лимиты (максимальные вклады) для соответствующих
разделов и на всякий случай включить опцию «нормировки к 100», которая будет гарантировать, что самый высокий рейтинговый итоговый балл
не превысит 100.
114
Практическая тестология
Удобство работы экспертов-гуманитариев со шкалами лимитированной длины было нами фактически установлено при внедрении методики
взвешенной многокритериальной оценки курсовых и дипломных работ на
кафедре психологии труда и инженерной психологии МГУ (там эта система
работает уже много лет). Вместо того чтобы какой-то «оператор» неочевидным образом умножал оценки самих преподавателей на какие-то весовые
W-коэффициенты (с дробными значениями), им гораздо проще и наглядней
работать с таблицами, в которых сразу указано, каким значением ограничен
самый высокий балл по данному критерию (Шмелев и др., 2007). В каждую
ячейку своей таблицы-протокола член комиссии не может поставить балл
выше того лимита, который указан в самой таблице. В результате такие критерии, которые сильнее коррелировали с общей интегральной оценкой («содержание работы» и особенно «ответы на дополнительные вопросы комиссии»), получили вес в полтора раза более весомый, чем другие критерии оценивания.
ФИО преподавателя_________________ Дата ___________________
Содержание
работы
Оформление
работы
Качество
презентации
(устного доклада)
Ответы на
дополнительные вопросы
комиссии
Суммарный
балл (выставленный
данным преподавателем)
От 1 до 6
От 1 до 4
От 1 до 4
От 1 до 6
Макс = 20
Дипломант
1 (ФИО)
Дипломант
2 (ФИО)
Дипломант
3 (ФИО)
Таблица 1.10. Образец бланка-протокола для экспертных оценок члена комиссии
по защите дипломных работ на кафедре психологии труда и инженерной психологии МГУ (в настоящее время число критериев оценивания расширено).
Стоит также обратить внимание на то, что разрешенный максимальный суммарный балл (20 в данном случае) целесообразно делать не равным сумме разрешенных максимальных баллов по каждому из критериев оценки. Это вынуждает экспертов снижать оценку по какому-то из критериев, а, следовательно, начинать думать (по какому же снизить).
Формула близости к идеальному профилю и «логический коридор»
Формула взвешенного рейтинга (3) не позволяет учесть уже описанный выше эффект «избыточной квалификации». Кроме того, по целому
Глава 1. Определения и классификация
115
ряду характерологических качеств эффективный работник должен попадать не на верхний «полюс шкалы», а находиться где-то в районе центрального коридора, то есть в средней группе. Например, еще в середине
90-х годов автор книги вместе с А.А. Крымовым разрабатывал многофакторный тест профпригодности страховых агентов СПОТ (Крымов, 2003).
Анализ связей между баллами по шкалам теста СПОТ и эффективностью
работы агента показал, что не все рабочие шкалы теста должны вносить
линейный вклад в суммарный балл. Для шкалы «интеллект» максимальную эффективность в роли агента показывали не самые большие интеллектуалы (эти, как выяснилось, могут довольствоваться ролью агента
лишь временно), а те лица, чей тестовый балл находится в пределах средних границ — от 4 до 7 стенов включительно (о шкале стенов см. словарьглоссарий). Другой пример из нашей собственной практики дала разработка специализированной тестовой батареи ТУТ — «Тест устойчивости
к травматизму» (совместно с В.В. Моргуновой из системы МосЭнерго).
По двум субшкалам «Самоконтроль» и «Избегание риска» выявилась более высокая надежность-эффективность в деятельности именно тех испытуемых (в данном случае монтажников силовых линий), которые попадали в среднюю группу.
В таких случаях надо построить так называемый «идеальный профиль» — набор (вектор) показателей по шкалам тестовой батареи, который
характеризует идеального испытуемого — того, для которого характера
максимальная эффективность деятельности.
Для этих ситуаций формула рейтинга, очевидно, должна выглядеть
по-другому. Рейтинг подсчитывается с помощью меры близости реального и идеального профиля по набору показателей-критериев (основана на
известной формуле евклидова расстояния, или метрики Минковского с
показателем степени 2):
(1.4)
Sj = Dmax —
где Sj — рейтинг j-го реального испытуемого (мера близости к идеальному профилю),
Xjk — стандартизированный тестовый балл j-го испытуемого по k-му
критерию (тестовой или экспертной шкале),
Yk — стандартизированный тестовый балл «идеального испытуемого»
по k-му критерию (тестовой или экспертной шкале),
∑k — знак суммирования по всем критериям (шкалам-осям пространства критериев),
Dmax — максимально возможное расстояние, полученное путем подстановки на место X и Y максимальных и минимальных значений по
каждой шкале.
116
Практическая тестология
Кстати, мера близости (или расстояния) легко интуитивно осваивается пользователями тестов (это автор увидел на слушателях многочисленных семинаров по тестологии) с помощью визуальной иллюстрации. На рисунке 1.9 изображены один реальный профиль (допустим
некого испытуемого Петрова П.П.) и два идеальных (идеального полицейского — штрих-пунктирная линия и идеального психолога — штриховая линия). Очень легко визуально оценить, что данный реальный
профиль ближе к профилю «идеального полицейского», чем «идеального психолога». Правда, это легко пока число шкальных показателей невелико (на рисунке 1.9 их только четыре), но когда в тестовой батарее их
насчитывается около 20, и профили оказываются сложно-переплетенными, то визуальная оценка близости резко уступает компьютерным
расчетам.
Рис.1.10. Визуальное сравнение реального профиля и двух идеальных — на примере набора из четырех показателей многошкального психологического теста.
Но сравнительно простая и легко программируемая формула (1.4),
так же как и формула (1.3), во многих практических ситуациях осложняется целым рядом математических и логических условий и ограничений. Во-первых, на практике для каждой шкалы нужны опять-таки
весовые коэффициенты Wi, которые учитывают ее значимость. Не будем
здесь переписывать формулу (1.4) c весовыми коэффициентами, чтобы
не утомлять читателей математикой (там возникают не самые простые
Глава 1. Определения и классификация
117
нормирующие поправки). Во-вторых, нужно учитывать логические
ограничения, подобные тому, о котором мы говорили в связи с «провалом на экзамене», — любая оценка «неудовлетворительно» обнуляет всю
конкурсную сумму.
Самое простое и наглядное решение в плане «Логического фильтра»
можно назвать «логический коридор»: на каждой шкале идеальный профиль обозначается не как точка, а как допустимый интервал, в который
обязательно должна попасть точка из реального профиля (вектора) испытуемого. В этом случае «узость коридора» на шкале — это параметр,
аналогичный по смыслу весовому коэффициенту Wi, то есть значимости
данного критерия, но действует он более жестко по типу «да-нет» (не попал в коридор, и рейтинг обнулился). В случае «безразличных шкал» коридор допустимых значений простирается от нижнего полюса по шкале
до верхнего.
Разумная узость коридора по разным шкалам-критериям зависит от таких параметров ситуации отбора, как количество кандидатов на вакансию
(величина конкурса). Если кандидатов мало и никто фактически не вписывается в слишком узкий коридор, то границы коридора следует гибко расширять, чтобы в рейтинг-лист попали какие-то кандидаты, недостатки которых можно уже рассматривать и обсуждать на качественном уровне.
Ⱦɨɜɟɪɢɟ
–
ɫɤɥɨɧɧɨɫɬɶ ɩɪɢɧɢɦɚɬɶ
Ɍɚɤɬɢɱɧɨɫɬɶ
–
ɤɨɪɪɟɤɬɧɨɟ ɩɨɜɟɞɟɧɢɟ,
Рис.1.11. Образец более широкого (для шкалы «тактичность») и более узкого коридора (для шкалы «доверие») в тесте, разработанном для отбора на должность
«менеджер по работе с клиентами» компанией Profiles International (публикуется с любезного разрешения редакции сайта www.globalconsulting.ru).
Таким образом, логика применения подхода под названием «логический коридор» — это яркая иллюстрация двухэтапной стратегии принятия решений на основе любой системы тестирования и/или автоматизированной системы сбора и анализа экспертных оценок:
Первый этап — автоматическое построение рейтинг-листа, второй
этап — рассмотрение «верхушки» рейтинг-листа (ограниченного списка
кандидатов) на качественном уровне.
118
Практическая тестология
Планирование этапов тестирования «от целей»
Итак, уже в этой первой главе мы произвели серьезный экскурс в теорию и практику построения рейтингов и моделей принятия решений.
Почему бы не перенести этот материал в главу, посвященную математической тестологии? Ведь здесь получилось немало формул, и использовано
немало чисто математических понятий. Но это сделано намеренно. Тем
самым мы хотели бы подчеркнуть, что планирование тестовой программы и включение тестов в более широкую программу комплексного обследования (образовательного или кадрового ассессмента) — это задача, которая требует двигаться «с конца к началу» — от продумывания вариантов
принятия решений к подбору тестовых и экспертных шкал и инструментов для измерения людей по этим шкалам. Это планирование от целей к
средствам. Увы, нередко этого планирования «от целей» не происходит.
Сплошь и рядом наблюдается другое: работники владеют какими-то излюбленными инструментами (хорошо знают, например, пару проективных методик) и сразу же применяют их, а только потом начинают думать,
что делать с полученными результатами.
Логика экспертно-диагностического мышления кажется столь различной для разных ситуаций применения тестов в разных отраслях, что
на первый взгляд кажется, что не существует единой схемы, которая описывала бы общие этапы в этих разных отраслях. Однако можно и нужно
разглядеть и выделить общие этапы, чтобы уверенно работать в качестве
«практического тестолога» в любой прикладной отрасли.
Таким образом, чтобы стать универсальными тестологами, нам надо
выделить типовую схему из разнотипного контекста внешне совершенно
разных условий. Чтобы сформулировать, в чем эта логика этапов проявляется, давайте определим, в чем мы находим сходство в медицинской и образовательной практике тестирования. Затем, если подобная логика будет
нами обнаружена и в промышленности, то мы посчитаем, что сформулировали общие принципы правильно. Впрочем, этапы несложно выявить,
если и там, и там мы имеем дело с конкурсом (образовательным или в ситуации профотбора на вакансию). Возьмем более сложную ситуацию, чем
проведение конкурса. Возьмем ситуацию, которая ближе к медицинской
практике.
Этап 1. Обследуемый (тестируемый) обнаруживает нестандартную,
атипичную картину в своем поведении (или как пациент, или как учащийся — неважно). Эта картина не позволяет с достаточной уверенностью
применять к нему стандартные программы воздействия-управления (или
программы лечения, или программы обучения — неважно). Формулируется задача углубленного обследования с использованием более строгих
измерительных методик — таких, которые позволили бы лучше проанализировать показатели этого человека и точнее выявить его потенциал
(ресурс здоровья у пациента, потенциал обучаемости у школьника).
Глава 1. Определения и классификация
119
Этап 2. Анализируется содержательный смысл задачи и практические условия ее выполнения, в частности, ограничения по срокам — когда
именно должна быть представлена эта информация (например, в случае
суицидальных попыток пациента антикризисного стационара необходимо срочно обследовать с помощью стандартизированной тестовой шкалы
суицидального риска — нет времени растягивать эту историю на несколько часов, а тем более на несколько дней).
Этап 3. Подбирается методика или набор методик (чаще всего из доступного готового набора), которые соответствуют содержательной задаче,
условиям, а также уровню готовности психолога-тестолога к ее корректному использованию (например, применительно к младшему школьнику хороша методика «Рисунок семьи», ибо с помощью беседы или стандартного
опросника не получишь сведений о наличии серьезной дисгармонии во
внутрисемейных взаимоотношениях, но необходимо проходить специальную подготовку по интерпретации этих рисунков, и если такой подготовки
нет, то пользователю не следует браться за эту методику). Отсутствие сертифицированного специалиста, способного фактически и юридически применять сложные нестандартизированные методики, должно служить основанием для предпочтения стандартизированных тестовых методик.
Этап 4. Проводится обследование, результаты которого обрабатываются и сравниваются с нормативными. Для срочных и массовых случаев
именно на этом этапе огромную экономию во времени приносят стандартизированные тестовые методики.
Этап 5. При наличии готовой схемы принятия решения заранее
определяются различные интервалы на шкале тестовых баллов, и решение принимается очень быстро: если испытуемый попал в «верхнюю»
группу (группу испытуемых с высокими баллами), то к нему применяют одно решение, если в «среднюю группу» — другое, если в «низкую
группу» — третье.
Этап 6. Дополнительное обследование. Как правило, в среднюю группу попадают все случаи «неопределенности», которые сохраняются после
обследования, и этому случаю соответствует «отсрочка в принятии определенного решения». Пример тройственной логики в принятии решения:
а) высокая группа — допуск к стандартной программе (лечения, обучения), б) низкая группа — недопуск к стандартной программе (лечения, обучения), в) средняя группа — дополнительное обследование и временный
отказ и от допуска, и от недопуска.
Теперь посмотрим, а применима ли эта же самая логика к персоналу
производственной организации? (Госучреждение можно рассматривать
как частный случай — как организацию, которая производит определенные «бумажные решения» — выдает свидетельства, лицензии, паспорта,
разрешения, справки, письменные отказы и т.п.).
Этап 1. Обследуемая группа работников (тестируемых) обнаруживает
нестандартную, атипичную картину в своем поведении — не справляется
120
Практическая тестология
с работой должным образом (теперь они называются не пациентами, не
учащимися, а работниками, но для общей логики это неважно). Эта картина не позволяет с достаточной уверенностью применять к группе стандартные программы воздействия-управления (нельзя сразу же решить,
что делать — доучивать или увольнять). Формулируется задача углубленного обследования с использованием более строгих измерительных методик — таких, которые позволили бы лучше проанализировать показатели
этой группы и точнее выявить ее неиспользованный производственный
потенциал. Следует пояснить, что в ситуации оценки персонала мы, как
правило, имеем чаще дело именно с группой, а не с отдельным работником (часто это плохо работающее целое подразделение).
Этап 2. Анализируется содержательный смысл задачи и практические условия ее выполнения, в частности, ограничения по срокам — когда именно должна быть представлена эта информация (например, если
решение о выходе на какой-то новый для этого работника ответственный
участок взамен заболевшего сотрудника нужно принимать уже к завтрашнему утру, то времени на какие-то длительные программы обследования
просто не остается).
Этап 3. Подбирается методика или набор методик (чаще всего из доступного готового набора), которые соответствуют содержательной задаче,
условиям, а также уровню готовности психолога-тестолога к ее корректному применению (например, хороша методика, требующая от нового кандидата на руководящую позицию написать сочинение на тему «Технологические и кадровые резервы, позволяющие улучшить производственные
показатели», ибо с помощью отвлеченной беседы или стандартного опросника не получишь сведений о наличии реальной компетентности работника в организации производства; для того, чтобы оценить смысл этого
эссе, надо проходить специальную подготовку в инженерно-организационных вопросах, и если этой подготовки нет, то использовать эту методику не стоит). Отсутствие сертифицированного специалиста, способного
фактически и юридически применять сложные нестандартизированные
методики, должно служить основанием для предпочтения стандартизированных тестовых методик.
Этап 4. Проводится обследование, результаты которого обрабатываются и сравниваются с нормативными. Для срочных и массовых случаев (если имеется много кандидатов на место заболевшего) именно на этом
этапе огромную экономию во времени приносят стандартизированные
тестовые методики.
Этап 5. При наличии готовой схемы принятия решения заранее определяются различные интервалы на шкале тестовых баллов, и решение
принимается очень быстро: если испытуемый попал в «верхнюю» группу
(группу испытуемых с высокими баллами), то к нему принимают одно
решение, если в «среднюю группу» — другое, если в «нижнюю группу» —
третье.
Глава 1. Определения и классификация
121
Этап 6. Дополнительное обследование. Как правило, в среднюю группу
попадают все случаи «неопределенности», которые сохраняются после обследования, и этому случаю соответствует «отсрочка в принятии определенного решения». Пример тройственной логики в принятии решения: а)
высокая группа — допуск к работе на новой позиции, б) низкая группа —
недопуск к работе на новой позиции, в) средняя группа — дополнительное
обследование и временный отказ и от допуска, и от недопуска.
Конечно, любой разумный читатель, прочитав описание этих этапов,
поймет, что мы здесь допустили массу огрублений и довели дело до грубого схематизма. Но как по-другому «увидеть лес за деревьями»? Вначале необходимо освоить какой-то базовый маршрут, чтобы затем уверенно вносить в него изменения и вариации.
По нашему убеждению, дисциплинировать пользователей тестов,
привить им логику планирования «от целей», может помочь инструментальная компьютерная система, требующая вначале сконструировать
проект — спланировать набор оценочных процедур (по разделам проекта)
и придать им весовые коэффициенты для построения итогового рейтинга.
Но о такой системе у нас пойдет речь в других главах книги (в частности,
в главе 5).
122
Глава 2.
Конструкция и конструирование
измерительных тестов
Эта глава, в отличие от предыдущей, в большей степени адресована
тем читателям, которые либо уже пытались сами создавать тесты, либо
планируют это делать, то есть разработчикам тестов. Хотя многие разделы этой главы (особенно связанные с массовым проведением) крайне
полезны и для «чистых» пользователей — организаторов тестирования,
применяющих готовые тесты. Автор сознательно поставил эту главу про
конструирование перед главами, посвященными деталям разработки тестовых заданий (глава 3) и математико-статистической обработки результатов тестирования (глава 4). Это логика движения от задачи к средствам,
а не наоборот. Надо вначале понять и осмыслить, где и когда на этапах
подготовки и проведения тестирования возникает потребность в тщательном продумывании самих тестовых заданий (глава 3) и тщательном выборе алгоритмов обработки (глава 4), а потом будет яснее, зачем нужны все
эти «детали» и «частности».
Разработчиков тестов часто объединяют с авторами тестовых заданий, но в случае больших современных проектов это не вполне верно. Разработчики — это проектировщики теста, они могут не составлять сами ни
одного задания, но ставят задачу авторам. Такая схема разделения труда
особенно характерна в наше время для тестов профессиональных знаний,
основанных на широких банках вопросов (заданий). Разработчик продумывает модель теста и соответствующую структуру банка заданий и привлекает авторов — знатоков предметной области. В этой главе мы прежде
всего будем подразумевать именно такое разделение труда.
Повторим здесь — в начале второй главы — перечень критериев, который мы сформулировали во Введении и которому должен соответствовать
качественный тест, встроенный в эффективную целостную тестовую систему с учетом социально-организационных требований:
Критерий психометрической обоснованности
(надежности, валидности, репрезентативности)
Критерий моделирования (очевидной валидности)
Критерий кооперативной готовности
Критерий субъективной справедливости
Глава 2. Конструкция и конструирование измерительных тестов
123
Критерий достоверности (информационной безопасности)
Критерий системной дополнительности
(в отношении других оценочных процедур)
Критерий рентабельности (конкурирующей эффективности)
Итак, в этой главе мы будем объяснять, почему при конструировании
тестов необходимо следовать определенным технологическим принципам и стратегиям, чтобы обеспечить соответствие продукта указанному
перечню из 7 критериев.
2.1. КОМПОНЕНТЫ ТЕСТА И ПОРЯДОК ИХ СОЗДАНИЯ
Выше в разделе 1.2 мы уже дали основные представления о таких компонентах теста, как тестовые задания, ключи и нормы. Здесь кратко повторим
базовые определения этих компонентов, чтобы затем перейти к методам их
разработки. Мы проходим этот материал как бы «по второму кругу», но в расчете подняться на более высокий уровень обобщения и добиться одновременно
более высокого уровня операционализации, чтобы перейти от понятий к описанию способов действия — способов и методов создания компонентов теста.
Тест в общем случае создается из двух групп компонентов — основной
и вспомогательной:
Основная группа включает такие три компонента:
— тестовые задания (вопросы),28
— ключи,
— тестовые шкалы.
Если присутствуют эти три компонента, можно говорить о наличии теста, хотя его еще очень неудобно проводить и особенно интерпретировать.
Вторая вспомогательная группа:
— предтестовая инструкция испытуемому (по выполнению теста),
— тестовые нормы,
— тексты и правила интерпретации результатов,
— методическое руководство (инструкция пользователю по проведению теста входит сюда, как и психометрический отчет)29.
Сами тестовые задания, в свою очередь, могут иметь различную
по сложности структуру. В самом простом варианте это суждения,
28
При наличии банка тестовых заданий этот компонент разделяется на 2 — структуру банка и структуру сеанса (варианта), но об этом пойдет речь ниже. — Прим. автора.
29 Некоторые авторы (Батурин, Мельникова, 2012) выделяют среди вспомогательных материалов в отдельный документ «технический отчет», но, с нашей точки зрения, достаточно
предусмотреть соответствующий раздел в методическом руководстве. — Прим. автора.
124
Практическая тестология
рассчитанные на ответ типа «да-нет», то есть так называемые «ли-вопросы».
Пример: «Хотели бы Вы прыгнуть с парашютом?» (вопрос-утверждение из
теста на склонность к риску). Более сложная конструкция задания — это вопрос, предполагающий выбор не одного, а сразу нескольких ответов. Чтобы
посчитать баллы по этому вопросу, требуется иметь какое-то ключевое значение (весовой коэффициент) для каждого ответа.
Примеры ключей к психологическим и образовательным тестам
Ключи — это правила соответствия ответов на задания и тестовых
шкал. Важно понимать, что ключи задаются не для самих вопросов,
а именно для ответов на тестовые задания. Ключ указывает, сколько
именно очков и на какую шкалу надо добавить, если испытуемый выбрал данный ответ. Таблица 2.1 на материале тест-опросника 16РФ30 дает
пример сложного многошкального ключа для заданий с выбором из нескольких ответов. Для более простых тестов (одношкальных с выбором
одного ответа) ключ легко задать как частный случай этой более универсальной структуры.
Текст вопроса
Подавать милостыню — значит баловать
попрошаек, поэтому я
этого не делаю.
Когда близкие делают
мне замечание, то
я стараюсь тут же
обратить внимание на
недостатки в их собственном поведении.
Тексты
ответов
Шкала 8
Шкала 9
Шкала 12
«Сензитивность»
«Подозрительность»
«Ранимость»
Да, верно
-1
1
0
Затрудняюсь
ответить
0
0
0
Нет, неверно
1
-1
0
Да, верно
0
1
1
Затрудняюсь
ответить
0
0
0
Нет, неверно
0
-1
-1
Таблица 2.1. Описание ключа к тесту в матричной форме на примере двух
вопросов и трех тестовых шкал 16PF из психологического тест-опросника
16РФ (Шмелев, 2002).
30 Опросник 16РФ разработан автором книги в лаборатории «Гуманитарные технологии» в
1996 году на основе оригинального набора в 300 заданий-вопросов, спроецированных опятьтаки на оригинальную, разработанную автором систему русскоязычных факторов 16РФ, а
также на международную систему факторов 16PF(Шмелев, 2002). — Прим. автора.
Глава 2. Конструкция и конструирование измерительных тестов
125
Рассмотрим таблицу 2.1. Цифровое значение +1 в клеточке матрицы, стоящей на пересечении определенного ответа (по строкам) и
определенной шкалы (по столбцам), означает, что за этот ответ данный испытуемый получит +1 очко при подсчете «сырого балла» именно по данной шкале. Например, согласие с суждением «Когда близкие
делают мне замечание…» прибавляет очки сразу к двум шкалам — 9
и 12. А цифровое значение «-1» в данном случае означает вычитание
одного очка из суммы по шкале. Это, например, происходит по шкале
№9 «Подозрительность» в случае ответа «неверно» на вопрос «Подавать
милостыню…». 31
Важно отметить, что в общем случае совершенно не обязательно
за один из ответов давать очки с противоположным знаком. За них в
определенных случаях вообще можно не давать очки, но это означает, что с точки зрения подсчета нейтральный ответ «затрудняюсь ответить» признается эквивалентным более информативному ответу
«неверно» (или, в случае с «обратными» вопросами, ответу «верно»).
Впрочем, о том, какие алгоритмы позволяют присваивать нелинейные весовые коэффициенты («ключевую функцию») разным ответам, пойдет разговор в разделе четвертой главы, посвященном IRTтеории (теории тестовых заданий). А сейчас нам важнее привести
пример того, как аналогичная матрица ключей (точнее, ее фрагмент) выглядит для многошкальных образовательных, а не психологических тестов. В таблице 2.2 видно, что очки в этом случае, как
правило, даются только за так называемый «правильный ответ ». Эта
упрощенная традиция идет, конечно, от бланкового тестирования,
когда по-другому подсчитывать баллы было бы слишком трудоемким делом. Но сейчас во времена компьютерных программ ничего
не стоит приписать разные весовые коэффициенты разным ошибочным ответам (дистракторам), ибо, как говорится, «ошибка ошибке
рознь»: одна ошибка является почти правильным ответом (за нее
можно дать, например, не целое очко, но пол-очка), а другая ошибка
является столь грубой, что за нее впору давать отрицательные очки
(штрафовать).
Как видим из примера, приведенного в таблице 2.2, в первом
задании оба дистрактора (ошибочных ответа) являются грубыми,
за них не дается ни одного очка. А вот во втором задании за ответ
номер 3 все-таки дается «половинка» (в данном случае одно очко
вместо двух, которые можно получить за полноценный правильный ответ).
31 При ручных подсчетах, чтобы сырая сумма баллов по шкале была числом положительным, вместо значения +1 добавляют 2, вместо 0 — значение 1, вместо -1 добавляют 0 очков.
Но в целях концептуальной прозрачности лучше использовать для обратных пунктов ключ
«-1». — Прим. автора.
126
Текст вопроса
Критериальное
поведение — это:
В психодиагностике тест — это:
Практическая тестология
Тексты ответов
Шкала-тема 1
«Основные
понятия»
поведение испытуемого в ходе выполнения теста,
которое находится в рамках критерия достоверности
0
поведение экспериментатора-диагноста по отношению к испытуемому, которое соответствует
критериям профессиональной этики
0
такое реальное социальное (производственное,
учебное и пр.) поведение, которое дает вероятностный критериальный показатель для проверки
валидности теста
2
любая психодиагностическая методика
0
краткое стандартизированное испытание с количественным результатом
2
набор заданий с вынужденным выбором из заданных ответов
1
Таблица 2.2. Описание ключа к тесту в матричной форме на примере двух
вопросов одной тематической шкалы из образовательного теста на знания
студентов в области тестологии (Шмелев, 2002б).
Порядок разработки компонентов теста
Итак, вернемся к главному вопросу этого параграфа: «В каком порядке разрабатываются компоненты теста?». Ясно, что основные компоненты
создаются до вспомогательных. А каков порядок внутри основной группы компонентов? На первый взгляд, кажется, что ключи — это некая вторичная конструкция, возникающая после того, как имеются уже шкалы
и вопросы с ответами. Но… это упрощенное и неверное понимание. Есть
3 стратегии разработки тестов, в которых порядок действий оказывается
различным:
1) Теоретико-дедуктивная стратегия «от шкал — к вопросам»;
2) Эмпирико-индуктивная стратегия «от вопросов — к шкалам».
3) Прагматическая стратегия «от квотированнных грейдов к шкалам»
На уровне здравого смысла более понятной и естественной кажется
первая стратегия. Именно ей следуют, когда разрабатывают абсолютное
большинство образовательных и интеллектуальных тестов (тестов на интеллектуальные способности). Задается тема (знания в определенной области в рамках образовательного предмета или обобщенное умение решать
определенный тип задач в тестах на способности). Эта тема и есть шкала.
Под нее подбираются вопросы (задания), так чтобы по всем тематическим
Глава 2. Конструкция и конструирование измерительных тестов
127
разделам (блокам теста) было примерно одинаковое количество вопросов. В случае образовательных тестов ситуация с «ключевыми ответами»
наиболее прозрачная — это те правильные суждения, которые даются в
учебниках (и других хрестоматийных текстах по учебной дисциплине).
Труднее подобрать или сочинить дистракторы (ошибочные ответы). Особенно трудно это сделать, когда нет педагогического опыта; тогда задания
выглядят искусственными, и многие учащиеся, даже знающие предмет
поверхностно, чувствуют это. Но последовательность все равно такова:
шкала — правильный (ключевой) ответ — дистракторы. То есть ключ рождается не третьим, а как бы вторым в этой триаде, а эмпирические индикаторы (ответы-дистракторы), подбираются уже под заданный ключ.
Сходным образом происходит порождение заданий и ключей и в случае
психологических тестов: ключи к заданиям придумываются не позднее, а
в процессе работы над заданиями-вопросами.
Менее понятной и естественной для здравого смысла кажется эмпирико-индуктивная стратегия конструирования теста «от вопросов — к
шкалам». Она главным образом применяется при конструировании психологических тестов личностных черт и социальных установок. Здесь
нередко возникает такая ситуация, что некий банк «суждений» (или утверждений) рождается как бы сам собой — из бесед с испытуемыми, из
анализа прессы (а ныне — стихийных текстов на форумах и блогах в Интернете). В этих суждениях выражаются определенные полярные (альтернативные, дискуссионные) точки зрения по какому-то вопросу, дается
спорная аргументация и т.п. Это могут быть, например, суждения, выражающие установки по поводу абортов (разрешать или запрещать) или
по поводу трудовых мигрантов (приглашать или выгонять). Исследователю бывает непонятно, как именно группируется этот эмпирический
материал. Он предлагает эти суждения широкому кругу респондентов
и затем анализирует полученные данные с помощью таких методов (например, поискового факторного и/или кластерного анализа), которые позволяют осуществить эмпирико-статистическую группировку этих суждений. Суждения, на которые одни и те же люди склонны статистически
часто отвечать одинаковым образом, объединяются в подгруппы. Понять
смысл группировки суждений в результате такого подхода бывает непросто — для этого нередко приходится попросить дать свою интерпретацию
нескольких специалистов. В этом подходе факторные шкалы оказываются вторичными по отношению к банку вопросов. Такую стратегию построения теста реализовал, например, американский психолог Раймон
Кэттелл — автор знаменитого на весь мир теста-опросника «Шестнадцать
личностных факторов» 16PF (одна из первых подробных книг на русском
языке об этой методике написана Мельниковым и Ямпольским, 1975). Есть
определенные модификации эмпирической стратегии, которые сближают ее с первой — «теоретической стратегией». Например, при создании
знаменитого психологического тест-опросника MMPI (Миннесотского
128
Практическая тестология
личностного перечня) банк суждений группировался по шкалам не с помощью эксплораторного (поискового) факторного анализа, а по принципу
принадлежности к определенной группе пациентов со сходным клиническим (психиатрическим) диагнозом, то есть работал метод «известных
групп». Но… если вдуматься, откуда взялись сами эти группы, то следует
признать, что при их формировании сработали определенные теоретические воззрения — определенная классификация типов психических заболеваний (психиатрическая нозология), которая на момент создания теста
MMPI доминировала в американской психиатрии. 32
Интересно, что эмпирико-индуктивная стратегия предусматривает появление такого компонента теста, как «типовая предтестовая инструкция испытуемому» еще до… появления тестовых шкал. Ведь для того, чтобы собрать
ответы респондентов, им так или иначе надо объяснить, что за вопросы им
предложены, зачем на них надо отвечать, как отвечать, если вопрос не вполне
понятен, когда и в какой форме они получат результаты. То есть определенный вспомогательный компонент теста появляется до основного. 33
А вот такие компоненты, как тестовые нормы и правила интерпретации, появляются, как правило, позднее других при любой стратегии конструирования. Подведем определенный итог этого параграфа в виде следующей таблицы 2.3.
Теоретико-дедуктивная стратегия конструирования теста
Эмпирико-индуктивная стратегия конструирования теста
Шкалы теста (диагностические конструкты)
Вопросы-задания и ключи
Инструкция испытуемому
Тестовые нормы
Правила интерпретации
Методические указания по проведению.
Вопросы-задания
Инструкция испытуемому
Шкалы теста (диагностические конструкты)
Тестовые нормы
Правила интерпретации
Методические указания по проведению.
Таблица 2.3. Последовательность разработки компонентов при разных
стратегиях конструирования тестов.
Рассмотрение этих двух стратегий и порядка создания компонентов
теста, как мы увидим в дальнейшем, — это не праздный интерес ученого,
32
Есть немало примеров в истории разработки тестов, когда две указанные стратегии применялись в определенном сочетании на разных этапах первичной разработки и модернизации уже созданного теста: вначале эмпирическая, затем — дедуктивная. Но рассмотрение
этих примеров (исключений из более простых правил) слишком усложнит для читателя
ориентировку в материале. — Прим. автора.
33
Но у готового теста, для которого будет отобрана, скорее всего, лишь часть из первоначального банка заданий, будет уже другая инструкция, поэтому, строго говоря, первоначальная предтестовая инструкция не будет компонентом финального теста... — Прим. науч.
редактора.
Глава 2. Конструкция и конструирование измерительных тестов
129
классифицирующего методы. Это имеет прямое практическое отношение
к тому, в каком порядке и как проверять определенные психометрические
параметры (свойства) теста, добиваясь их оптимизации.
Проверка надежности теста имеет прямое отношение к конструированию ключей, проверка валидности — к конструированию тестовых
шкал и наполнению диагностических конструктов определенной интерпретацией, проверка репрезентативности — к созданию тестовых
норм, проверка достоверности — к разработке методических предписаний по проведению теста. То есть проверка психометрических свойств
при конструировании психометрического теста производится уже не
ПОСЛЕ того, как созданы все компоненты теста, а в ПРОЦЕССЕ создания
и уточнения этих компонентов. Недостаточность каких-то психометрических свойств — это сигнал о том, что определенный компонент теста
нуждается в переработке.
НОРТ: статистические тестовые нормы
Во многих книгах по тестологии читатель найдет немало материалов, посвященных резкому и острому разграничению двух подходов к построению
тестовых норм,— КОРТ, или критериально-ориентированное тестирование,
и НОРТ, или нормативно-ориентированное тестирование (например, Гуревич, 2008). Давайте вначале разберемся в том, что это за подходы, чем они различаются, а затем постараемся понять, почему на практике приходится их
разумным образом сочетать, а не противопоставлять друг другу.
Итак, после того, как более или менее стабилизировался набор вопросов и сформировались ключи, становится понятным, что сырые тестовые
баллы принимают значения по каждой шкале в определенном диапазоне,
обусловленном количеством заданий, связанных с этой шкалой. Например, в том случае, если за один правильный ответ дается ровно 1 сырое
очко, а со шкалой связаны ровно 20 заданий, то сырой балл, разумеется,
будет принимать значение на отрезке [0, 20] — от нуля правильных ответов до 20 правильных ответов. Если за правильный ответ дается максимум 2 очка, то в этом случае диапазон значений будет шире — от 0 до 40.
Что же такое КОРТ и НОРТ применительно к способам определения
«разделяющих точек» на сырой шкале от 0 до 40? КОРТ — это установка
границ на основе некоторых теоретических или практических соображений (на основе критериев), но не на основе статистических данных,
НОРТ — это, напротив, установка границ на основе статистических данных34. Долгое время в тестологии (в середине прошлого века) доминировал подход НОРТ. В этом случае тестовые нормы основывались на стати34 Сходство слов «нормы» (в значении «тестовые нормы») и «нормальное распределение» (подлежащее нормальному закону) не должно вводить в заблуждение. КОРТ тоже
130
Практическая тестология
стическом распределении тестовых баллов и его параметризации на основе гауссовой модели нормального распределения. Модель нормального
распределения принималась за истинную модель измеряемого свойства,
а любые эмпирические отклонения от нее — за погрешность инструмента измерения. Тем самым шкала сырых баллов разбивалась не на интервалы равной длины, а на интервалы разной длины, так чтобы на каждый
интервал приходилось ровно столько испытуемых (частота наблюдений),
сколько положено согласно нормальной модели. Более подробно о процедуре форсированной (табличной) нормализации написано в главе 4 данной книги (см. раздел 4.1). Ее суть в том, что процентильные доли подгоняются под модель нормального распределения.
Рассмотрим ситуацию, когда у нас не три категории «высокая-средняя-низкая», а четыре группы для проставления неких «категорий-отметок» (грейдов) и, соответственно, четыре категории возможных решений,
то таблица долей у нас может иметь, например, такой вид:
Отметка
Отметка
«неудовлетворительно» «удовлетворительно»
Отметка
«хорошо»
Отметка
«отлично»
15%
35%
15%
35%
Таблица 2.4. Процентильные доли для четырех категорий-отметок (грейдов) в соответствии с моделью нормального распределения (доли округлены
с точностью до 5 процентов).
То есть получается, что заранее известно: в результате тестирования
отметки «отлично» получат ровно 15 процентов тестируемых (15 лучших
из каждой сотни); отметок «хорошо» будет ровно 35% и т.п.35
Такой подход в ряде случаев удобен тем, что он дает полную предсказуемость в плане ресурсного обеспечения возможных управленческих
решений. Если всем «отличникам» обещана, например, стипендия (или
повышенная стипендия), то можно заранее, еще до проведения тестирования, подсчитать, сколько именно будет отличников и каков должен
быть стипендиальный фонд. Ну, а если этого фонда будет не хватать? Тогда можно и подвинуть границу в процентильном выражении так, чтобы
точно хватило. Например, известно, что 12 процентам лучших хватит, и…
устанавливает нормы, но эти нормы не подчиняются закону нормального распределения. — Прим. автора.
35 Доли выборки, лежащие слева от точки отсечения, мы в этой книге называем «процентильными», а между двумя разделяющими точками — «процентажными». В других книгах
для обозначения долей, лежащих слева, читатель найдет термин «кумулятивный процентаж», а термин «процентиль» там используется только в смысле «персентиль» — точки на
шкале тестовых баллов, отсекающих слева определенный «кумулятивный процентаж». Но
в данной книге мы предпочитаем именно термин «процентильные доли» вместо «процентажные доли». — Прим. автора.
Глава 2. Конструкция и конструирование измерительных тестов
131
«отсекающая точка» переезжает точно на столько сырых пунктов вправо
(к высокому полюсу шкалы), сколько обеспечивает нам ровно 12% отличников.
В опыте автора имелся значительный по масштабам экспериментальный проект «Олимпиада Телетестинг», в котором для простановки отметок использовалась именно такая модель НОРТ, описанная в таблице 2.4
(Шмелев, Серебряков, Ларионов, 2000—2001). Использование НОРТ в формате олимпиады (как и любого соревнования, или конкурса) — это вполне
естественная вещь, так как в соревнованиях нас интересует прежде всего
не абсолютные достижения, а относительная позиция участника (относительный рейтинг-балл, или процентильный балл).
Но следует учесть, что НОРТ-подход имеет существенные ограничения и недостатки, в том числе иногда рождает протесты со стороны самих
тестируемых. Он не вызывает особых протестов, если само эмпирическое
распределение на шкале сырых тестовых баллов оказывается близким к
нормальному, в частности, не имеет выраженной асимметрии — скоса к
правому полюсу (высоким баллам) или к левому полюсу (низким баллам).
Но если в эмпирическом распределении наблюдается явная асимметрия
(из-за того, что преобладают сильные, хорошо подготовленные участники,
или из-за того, что, наоборот, преобладают слабые участники), то жесткое
квотирование долей отметок воспринимается и испытуемыми (например, студентами), и преподавателями (руководителями на производстве)
как необъективность и несправедливость. Это обстоятельство во многом
подтолкнуло очень многих специалистов во второй половине прошлого
века к «критериально-ориентированному тестированию» (КОРТ).
КОРТ: критериальные тестовые нормы
В простейшем случае критериальные тестовые нормы вводятся как
постулат: формулируются как «точки разделения» прямо на шкале сырых
баллов, а не на стандартизированной и нормализованной шкале.36 Чаще
при этом сырые баллы переводятся в так называемые «первичные». Будем называть «первичными» такие сырые баллы, которые выражаются
числом в процентах от максимально возможного сырого балла. Очевидно,
что при таком подходе шкала первичных баллов принимает значения на
отрезке от 0 до 100. Каким же образом первичные баллы преобразуются в
«категории-отметки» (грейды или ранги, которые на Западе чаще получают буквенные обозначения A, B, C, D и E)? Еще раз повторим, что «грейды» («отметки») позволяют принимать какие-то определенные решения
36
В этом случае тестовые нормы было бы правильнее называть скорее «абсолютными», чем
«критериальными», так как эмпирико-статистическая связь с внешним прагматическим
критерием не устанавливается. — Прим. автора.
132
Практическая тестология
(применять меры воздействия) к тем учащимся (работникам), которые попадают в соответствующие интервалы-категории,.
Один из самых традиционных способов отображения зафиксирован в
таблице 2.5 (Gronlund, Linn, 1990).
1—20
21 — 40
41 — 60
«Двойка»,
«Единица»
неудовлетвори- «Тройка»,
удовлетвори(E, значительно тельно
тельно
ниже среднего) (D, несколько
ниже среднего) (C, средне)
61 — 80
81 — 100
«Четверка»,
хорошо (B,
несколько
выше среднего)
«Пятерка», отлично (А, значительно выше
среднего)
Таблица 2.5. Отображение стобалльной шкалы «первичных баллов» в традиционные вербальные категории-отметки (или ранги, или грейды, обозначенные латинскими буквами).
Как видим, подход к формированию такой шкалы грейдов нехитрый:
стобалльная шкала просто делится на пять равных интервалов — по числу
ступеней (грейдов) в пятибалльной традиционной (школьной) шкале оценок. Наш опыт показывает, что такой способ отображения вызывает меньше всего вопросов и возражений у самих тестируемых (студентов). Поэтому он вполне приложим к ситуации перевода суммы накопленных баллов
(СНБ) по комплексному экзамену (или модульному курсу обучения) в традиционные оценки (категории-отметки).
Правда, в отличие от учащихся, у многих преподавателей таблица 2.5 вызывает недовольство. Опросы преподавателей, которые мы проводили и на специализированных конференциях по образовательному оцениванию, и в Интернете на портале ege.edu.ru37, показали, что более осмысленной границей для
оценки «удовлетворительно» преподаватели считают 50-процентный уровень
усвоения номинального объема знаний. Поэтому, по мнению российских преподавателей, более логичным выглядит вариант а (Челышкова, Шмелев, 2004).
А в ряде вузов (например, в СПбГУ) в настоящее время используется вариант б:
Вариант а
1 — 25
26 — 50
51 — 70
71 — 90
91 — 100
Вариант б
1 — 25
26 — 50
51 — 65
66 — 80
81 — 100
Удов (C)
Хорошо (B)
Отлично (А)
Неуд (D)
Таблица 2.6. Варианты отображения стобалльной шкалы «первичных баллов» в традиционные вербальные отметки-категории, основанные на требовании: положительная оценка — это усвоение не менее половины от объема материала обучения.
37 Автор книги — редактор-составитель портала ege.ru, а также первой версии портала ege.
edu.ru.
Глава 2. Конструкция и конструирование измерительных тестов
133
Но… к чему приводит бездумное (слепое) следование определенным формальным шаблонам критериального подхода? В одной из своих статей (Болотов, Шмелев, 2005) мы описывали трагикомичную ситуацию, возникшую в
одном из российских вузов, где Ученый совет, не глядя на реальную статистику трудности созданных тестов знаний (еще до получения этой статистики), проголосовал за то, что граница «тройки» должна быть даже не 50%,
а 65% от максимального сырого балла. Это решение пришлось с позором для
Ученого совета немедленно отменять, когда 80% студентов получили оценку
«неудовлетворительно» и вышли на демонстрацию протеста.
Таким образом, разумная практическая стратегия в этом вопросе должна сочетать априорное (до сбора статистики) ориентировочное объявление
определенных границ, но с предупреждением о том, что эти границы будут
подвижными и будут уточнены по факту получения реальной статистики
тестовых баллов после самого тестирования. Собственно именно такую смешанную стратегию вынуждены фактически применять многие разумные
вступительные комиссии вузов уже много-много лет. Только в традиционных
экзаменах (например, по математике) им приходится оперировать меньшим
числом заданий, чем в тесте, но логика примерно такая же. Вначале объявляется, за какое количество решенных заданий ставили оценки «отлично», «хорошо» и «удовлетворительно» в прошлом году, но делается оговорка, что прошлогодние границы — это только предварительный ориентир. Если же в этом
году количество абитуриентов возрастает, а также иным оказывается соотношение «уровень среднего абитуриента — трудность среднего задания», то
прошлогодние границы приходится корректировать. Ибо если вдруг происходил наплыв реально сильных абитуриентов-медалистов и количество оценок «отлично» оказывалось больше, чем число бюджетных (бесплатных) мест
на первом курсе, то приходилось повышать границы безусловной оценки «отлично», вводить идею «полупроходного балла» и придумывать дополнительные критерии, различающие права разных абитуриентов, набравших одинаковый полупроходной балл. Конечно, 100-балльная (более дробная) тестовая
шкала снимает проблемы большого количества абитуриентов, набравших
одинаковый «полупроходной» балл (еще лучше в этом плане 1000-балльная
шкала или стобалльная с десятичными значениями — проценты с десятыми), но логика учета априорных критериальных и апостериорных статистических тестовых норм остается прежней — их приходится разумно сочетать!
Возникает вопрос, как это сделать более тактично (политически грамотно) в отношении участников тестирования — так, чтобы окончательное решение не выглядело с их точки зрения произволом и несправедливостью? Не умея решить эти острые вопросы, руководители некоторых
образовательных учреждений просто отказываются порой от дальнейшего использования метода тестов после первого скандала. А ведь этого
скандала можно и нужно было избежать с помощью правильного планирования этой работы — за счет правильной психометрической (статистической) адаптации теста к организационно-управленческим задачам
134
Практическая тестология
организации. Как это сделать? Для этого разработку теста надо начинать
не с выбора шкал или создания банка заданий (как при использовании эмпирико-индуктивной стратегии, описанной в таблице 2.3 и отражающей
весьма характерный традиционный подход к конструированию тестов), а
с проектирования приемлемого распределения тестовых первичных баллов с учетом принятой еще до тестирования системы перевода первичных
баллов в отметки (грейды). Этот подход мы назовем «прагматическим» и
будем именно его описывать в следующих параграфах этой главы. Можно сказать, что этот подход составляет сердцевину того, что должно быть
в понимании автора «практической тестологией». Суть прагматической
стратегии состоит в том, что вначале задаются квотированные грейды (то
есть, процентажи для оценок), а лишь затем шкалы и задания теста.
Итак, подведем итоги обсуждения противоречий между НОРТ- и КОРТподходами. Оба подхода пригодны для исследовательской работы, но и
тот, и другой в чистом виде имеют серьезные недостатки при решении
практических управленческих задач. Особенно ситуация усугубляется,
если до тестирования декларируют использование КОРТ, а после тестирования полученные результаты вынуждают вносить в заявленные правила
существенные коррективы, то есть частично принимать принципы НОРТ.
Если от такой коррекции страдает более пяти процентов участников и их
абсолютное число не менее десяти человек38, то вероятность того, что хотя
бы один из десяти поднимет скандал (будет апеллировать, если разрешена
апелляция, будет грозить судом, если нет апелляционных механизмов),
приближается к 100 процентам (!). Что мы получаем как вывод из этого печального опыта? Следующий принцип «практической тестологии»:
Тесты должны включать тестовые задания такой трудности, чтобы
расхождения между реальными и ожидаемыми процентильными
долями для «отметок-категорий» не составляли более 5 процентов в
пересчете на общую выборку протестированных участников.
Подробнее о том, как реализовать на практике этот принцип, мы будем говорить в следующем разделе 2.3, посвященном этапам конструирования практико-ориентированного теста.
«Прозрачность» квалификационного теста
как один из целевых критериев
Проектируя новый тест, разработчик должен обязательно учитывать,
в какой социально-психологической ситуации и кто конкретно будет его
38
Цифра пять процентов примерная, точно не вычислялась, но соответствует моему экспертному опыту. — Прим. автора.
Глава 2. Конструкция и конструирование измерительных тестов
135
применять и выполнять. Если по результатам тестирования НЕ будут приниматься какие-то особенные ответственные решения, касающиеся судеб людей, то можно себе позволить в гораздо большем объеме использовать такие
современные методы, как адаптивное тестирование (см. словарь-глоссарий),
подсчет баллов с помощью алгоритмов IRT, учитывающих разный вес разных
заданий, и другие вещи, сложные для понимания неспециалистами. Но если
это ситуация, в которой принимаются жизненно важные решения (поступление в вуз, прием и увольнение с работы и т.п.), и при этом сам авторитет
метода тестов в данной социальной группе не высок, то следует предпочесть
менее эффективные (менее точные), но более прозрачные методические и
технические решения, понятные для организаторов и участников.
Возьмем, например, калибровку заданий по трудности. Конечно, можно и нужно повышать точность тестирования за счет того, чтобы при подсчете баллов суммировать не просто число правильных ответов, получая
натуральное число, а использовать дробные весовые коэффициенты, учитывающие трудность разных заданий. К тому же лучше по-разному штрафовать испытуемых за ошибки — за более грубые ошибки больше, а за менее грубые — меньше, то есть учитывать ошибочные ответы с отрицательным знаком, но с разным весом по модулю. Но… при всем при этом надо
задаться таким вопросом: а сможет ли рядовой, но пытливый испытуемый
сам подсчитать свой тестовый балл, получив на заседании апелляционной
комиссии доступ не только к собственному протоколу (заполненному бланку или файлу со своими ответами), но и к «ключу к тесту»? Если все испытуемые получают одинаковый вариант — это еще полбеды, тогда можно взять
калькулятор и убедиться, что для двух разных протоколов (свой собственный и протокол «друга») получаются закономерным образом разные баллы.
Ну, а если протокол скандалиста и протокол «друга» соответствуют разным
вариантам, и максимальная сумма весовых коэффициентов для этих разных вариантов различается? Крайне трудно объяснить, что в эти разные
коэффициенты для разных вариантов уже заложена поправка на неизбежное различие в трудности вариантов. Шутки шутками, но опыт развитых
в тестологическом плане стран показал, что даже в суде (а ведь дело может
дойти и до судебного спора) крайне трудно убедить участников процесса
(начиная с судьи), что Вы поставили испытуемых не в разные, а в одинаковые условия, и разные коэффициенты означают, напротив, ваше искреннее
стремление к объективности и справедливости.
Вот почему в ответственных ситуациях приходится отказываться
от использования самых передовых научных достижений тестологии в
пользу более грубых, но понятных, прозрачных решений. В чем они заключаются? Попробуем здесь сформулировать в самом кратком виде основные требования:
1) Единообразие заданий в вариантах. В ходе сеанса тестирования испытуемым должны быть предложены тесты, одинаковые по структуре,
с одинаковым общим числом заданий и одинаковым числом заданий
136
Практическая тестология
по разным тематическим блокам и категориям трудности. Надо уметь
доказывать на апелляции, что все испытуемые имели дело со строго
одинаковой структурой теста. В самых острых случаях (если предвидится острейшее сопротивление тестированию) надо добиваться того,
чтобы в разных вариантах на одном и том же месте стояли задания,
одинаковые по формату, теме и уровню трудности, то есть соответствующие одной строгой модели теста.
2) Подсчет балла «на пальцах». Сырой балл должен быть целым положительным (натуральным) числом, лучше всего, соответствующим
традиционной и понятной «сумме правильных ответов». Испытуемый
должен иметь возможность без всяких сложностей подсчитать свой сырой балл, имея на руках 2 вещи: свой собственный протокол с ответами и ключ, указывающий на правильные ответы.
3) Простая формула или таблица для стандартизации. Перевод сырого
балла в стандартизированный тестовый балл должен производиться с
помощью простого и понятного однозначного монотонного преобразования, которое может выполнить сам испытуемый (а также любой из его
«горячих сторонников» — учитель, родитель, опекун, покровитель). Лучше всего, если это линейная формула, в которую надо ввести не более
двух параметров (а — стандартное отклонение, b — средний сырой балл).
Но если распределение сырых баллов сильно отличается от нормального (не видно колоколоообразной формы на кривой распределения), то
лучше не предлагать сложную нелинейную формулу39, а дать таблицу
соответствия сырых и стандартных баллов, то есть применить формулу
один раз для себя и построить для пользователей готовую таблицу. Неслучайно клерков в банках, налоговых агентов и другие массовые категории служащих снабжают таблицами (с грубой ступенчатой, но понятной функцией расчета прогрессивных налогов и т.п.).
4) Одинаковая обработка разных вариантов. Одинаковые сырые баллы, полученные по разным вариантам, должны соответствовать одну и
тому же стандартизированному (вторичному) тестовому баллу. То есть
никакой поправки на трудность варианта не должно быть. Единая таблица перевода должна действовать для всех вариантов.
Ниже мы увидим, что такая система требований накладывает очень
серьезные ограничения не только на методы обработки, но и на методы
представления тестовой информации (приходится отказываться от таких
типов заданий, которые порождают непрозрачную обработку, приходится
отказываться от эффективных алгоритмов рандомизации и адаптации).
Но… все эти ограничения необходимо применять первые 2–3–4 года. Достаточно пережить этот первый период без особых скандалов, и постепенно
39 Экспоненциальные и логарифмические преобразования обычно вызывают не меньшую
агрессию, нежели утрата монотонности. — Примеч. автора.
Глава 2. Конструкция и конструирование измерительных тестов
137
все в организации привыкают к тому, что система тестирования работает и
никого не обманывает. Только после этого можно осторожно пробовать внедрять нововведения, которые снижают уровень «прозрачности».
Итак, подведем итог в виде важного тезиса:
Субъективная справедливость системы тестирования — это во многом прозрачность принципов построения и обработки тестов для самих тестируемых. Все, что непонятно, вызывает недоверие и опасение того, что при этом нарушается справедливость.
Если тот, кто разрабатывает и внедряет систему тестирования, сам не будет путать цели и средства, то ему будет просто и понятно, почему на первое
время надо смириться и использовать принципы прозрачности, каким бы
при этом «туповатым» не казался получающийся методический продукт.
Ведь, в самом деле, что является целью, а что средством, или что для чего работает? Система тестирования ради роста взаимного доверия в социальной
группе? Или доверие — это лишь одно из средств внедрения системы тестирования? По моему убеждению, верно только первое утверждение. Система
тестирования должна внедряться для повышения субъективной уверенности всех участников процесса в том, что от этого ПОВЫШАЕТСЯ СПРАВЕДЛИВОСТЬ. Именно это главная цель, а все методические и технические решения — лишь средство. Надо понять, что неготовность людей воспринять
какое-то нововведение как более справедливое во многом обесценивает социально-психологический (политический) эффект от нововведения.
К сожалению, неучет приведенных выше принципов (из-за неразумных амбиций ряда технократически мыслящих разработчиков) стал
одним из источников серьезных трудностей при внедрении тестовой системы ЕГЭ в нашей стране. О том, насколько бурный протест вызывали
у участников непрозрачные решения в ЕГЭ, автор знает как основатель и
первый модератор форумов на сайте ege.ru, а также на портале ege.edu.ru
в 2001 — 2003 гг.
2.2. ЭТАПЫ КОНСТРУИРОВАНИЯ
И ПРОВЕДЕНИЯ ПРАКТИЧЕСКОГО ТЕСТА
Итак, в случае практического теста, в отличие от академического, мы
должны начать с проработки тех организационных целей, для обслуживания которых тест создается в качестве организационного инструмента.
Важная оговорка. В данном случае этапы разработки теста в основном ориентированы на квалификационное тестирование с использованием технологии КБТЗ — компьютерных банков тестовых заданий. Но не следует думать,
что при разработке короткого психологического теста, который кажется гораздо более простым по структуре и технологии применения, этапов существенно
138
Практическая тестология
меньше. Просто некоторые этапы оказываются свернутыми и основываются
на некоторых «подразумеваемых решениях». Хотя бывает очень полезно и эти
этапы развернуть и подумать более тщательно о том, например, каковы технические ограничения, на которые должен быть сориентирован тест (по способу предъявления тестовых заданий, по ограничениям на время их решения
и т.п.), какова должна быть статистическая структура распределения тестовых
баллов. Очень полезно разделить авторскую подготовку заданий и их последующую экспертизу, не смешивая их в один этап. И так далее.
Этап 1. Постановка и уточнение задачи
в организационном контексте
Итак, на первом этапе следует четко сформулировать задачу. И лучше
всего это сделать в терминах множества управленческих решений, которые руководство организации хотело бы принимать по результатам тестирования. Для этого грамотный менеджер-тестолог должен провести как
минимум одно результативное совещание с участием руководства (управленческого штаба организации). Уже на этом этапе целесообразно четко
сформулировать «допустимые квоты» участников, которые могут попасть
в ту или иную категорию, соответствующую тому или иному управленческому решению, — желательно и в процентах, и в абсолютных числах (в
натуральном выражении). Крайне желательно, чтобы эти квоты формулировались не в виде точечных значений, а в виде допустимых интервалов,
оставляя определенную свободу для разработчика теста (тестовой системы). Например, пусть по результатам теста в производственной организации планируется выдвижение в так называемый «кадровый резерв». Надо
добиться ясности по двум цифрам:
1) Сколько всего кандидатов в кадровый резерв (численность тестируемых, или обследуемой выборки),
2) Сколько будет зачислено в кадровый резерв — в натуральном выражении (количество человек).
Ясно, что долю в процентах после этого легко вычислить путем деления второго числа на первое и умножения результата на 100.
Надо также добиться ясности в отношении полного состава оценочных процедур и их количественного вклада в итоговый рейтинг-балл:
3) Сколько будет весить тест в итоговом рейтинг-балле (лучше в процентах)?
4) Сколько будут весить другие оценочные процедуры (весьма вероятно,
что их будет не одна, а еще две или даже три)?
Если решений (категорий обследуемых) планируется три и более, и они
образуют градации (грейды), то надо сразу же прояснить, каковы допустимые доли (квоты) по каждой градации, то есть надо заполнить процентами
или интервалами в процентах строку «Процентили» в таблице 2.7а:
Глава 2. Конструкция и конструирование измерительных тестов
Градации
Неуд (D)
Удов (C)
139
Хорошо (B)
Отлично (А)
Процентажи
(процентильные доли)
min? — max?
min? — max?
min? — max?
min? — max?
Первичные
баллы (проценты)
min? — max?
min? — max?
min? — max?
min? — max?
Таблица 2.7а. Проектирование квот и первичных баллов (критериальных
норм) при создании практического теста.
Таким образом, для грамотного пользования таблицей 2.7 уже требуется овладение понятием «процентили» (см. приложение-словарь и главу
4) и различение процентилей (долей выборки) и процентов (первичных
баллов).
Если не сформировать уже на первом этапе приемлемую для руководства статистическую модель (распределение) результатов предполагаемого тестирования, то с большой вероятностью Вы получите тест, который
по статистической структуре получаемых результатов руководство НЕ
устроит никак. Но… выяснится это уже слишком поздно — когда затраты
на создание (или закупку) теста будут понесены, когда конкретные люди
будут уже протестированы и т.п.
Приведем пример разумного (возможного) заполнения таблицы 2.7
еще на первом этапе. Пусть решение «А» в какой-то производственной
организации (думаю, вузовские читатели легко найдут для себя соответствующие аналоги) — это отправка «отличников» для обучения за
границей (или на платное обучение в престижный вуз и т.п.). Пусть решение «В» — это предоставление короткого отпуска для самообучения
(или назначение небольшой стипендии). Пусть решение «С» — это отсутствие каких-либо изменений в статусе участника. Пусть решение
«D» — это слишком низкий балл, который нельзя обойти вниманием
и который требует «вызова на аттестационную комиссию» с целью
анализа квалификации работника. Тогда руководство теоретически
может сформулировать такие конкретные квоты, которые указаны в
таблице 2.7б:
Градации
Неуд (D)
Удов (C)
Хорошо (B)
Отлично (А)
Процентажи
(процентильные доли)
10 — 20%
60 — 70%
10 — 15%
3 — 5%
Первичные баллы
(проценты)
min? — max?
min? — max?
min? — max?
min? — max?
Таблица 2.7б. Пример проектирования квот категорий (грейдов). На этом
этапе соответствие первичных баллов этому решению еще не найдено.
140
Практическая тестология
Конечно, кроме целевых ориентиров на первом этапе надо прояснить
еще и такие важные организационно-технические условия (ограничения):
А) сроки реализации (к какому сроку все должно быть завершено),
Б) время на сеанс тестирования, на которое можно оторвать участника от
обычного производственного (учебного) процесса,
В) помещения и оборудование, которое можно задействовать в процессе
тестирования,
Г) кадровая поддержка тестирования (каким инженерам, операторам,
менеджерам будет поручено готовить и поддерживать процесс — приглашать тестируемых, обеспечивать их посадочными местами, сохранять и обрабатывать результаты и т.п.),
Д) статус нормативного (руководящего) документа, регламентирующего мероприятие, распределяющего ответственных за его проведение,
лиц, имеющих доступ к секретным материалам, и анализ результатов
(что это будет — Положение, Приказ, Распоряжение?).
Некоторые аспекты этой работы по уточнению и обеспечению условий еще будут обсуждаться нами в других главах этой книги.
Этап 2. Методическое решение:
статистическая модель теста
Только выяснив целевые функции и условия проведения тестирования, надо переходить к выработке методического решения — поиску готового теста или созданию нового теста. Вот тут важно, чтобы выбранный
тест:
А) соответствовал поставленной задаче,
Б) был бы воспринят контингентом тестируемых как разумный инструмент, соответствующий задаче (условия А и Б не тождественны друг
другу!),
В) соответствовал организационным ограничениям (если тест по времени не может уложиться в короткие отведенные сеансы, то его нельзя
использовать, если тест требует такого оборудования, которого нет в
организации, то его тоже нельзя использовать).
Но… сосредоточимся в данном контексте на главной линии наших
рассуждений и рекомендаций, касающихся проектирования разумного распределения квот и разумной конструкции шкалы первичных
баллов.
После второго этапа — выбора методического решения — третья строка в таблице 2.7в должна получить некую проектную (хотя бы интервальную) определенность.
Глава 2. Конструкция и конструирование измерительных тестов
141
Градации
Неуд (D)
Удов (C)
Хорошо (B)
Отлично (А)
Процентажи
(процентильные доли)
10 — 20%
60 — 70%
10 — 15%
3 — 5%
Ниже
55 — 60
Выше
55 — 60
Выше
80 — 85
Выше
90—95
Первичные баллы
(проценты)
Таблица 2.7в. Пример проектировочного соответствия квот для категорий и
первичных баллов по тесту.
В строке «Первичные баллы» указаны возможные допуски для нижних границ интервалов на шкале первичных баллов с расчетом на среднее арифметическое первичного балла в диапазоне 70—75 и стандартное
отклонение 12. В приложении к книге на диске дается Эксель-модель, позволяющая без особых сложных математических формул самым простым
путем — путем подбора — рассчитывать, каким должно быть среднее
арифметическое первичного балла при заданных квотах (процентилях)
и определенных значениях нижних границ на шкале первичного балла.
В основе этой модели лежит статистическая формула, которая в русской
версии программы Эксель называется НОРМРАСП40.
Интересно заметить: если Вы подставите в соответствующие клеточки расчетной Эксель-модели верхние значения допустимых интервалов (60, 85, 95 соответственно), то среднее арифметическое первичного балла поднимется и примет значение 75 (то есть надо будет
сделать тест более легким), а если Вы подставите нижние значения
допустимых интервалов (55, 80, 90 соответственно), то среднее арифметическое примет значение 70 (то есть тест надо будет сделать несколько более трудным).
Создав желаемую вероятностно-статистическую модель теста, Вы теперь сможете грамотно поставить задачу и перед авторами, и сами провести грамотный отбор тестовых заданий после первичной апробации,
так, чтобы получить тест с заданными психометрическими (статистическими) свойствами — порождающий категории испытуемых в нужных
пропорциях по численности, с критериальными границами, разумно соответствующими этим долям.
В примере из таблицы 2.7в Вы должны поставить перед авторами тестовых заданий задачу таким образом: «Формулируйте, пожалуйста, задание-вопрос так, чтобы примерно 70 процентов испытуемых (из известного
40 Почему все-таки именно нормальное распределение я рекомендую брать в качестве инструмента для расчета по квотам? Дело все в том, что при наличии значительного количества независимых друг от друга тестовых заданий с исходом по типу «да — нет» (решил —
не решил) мы получаем известную стохастическую модель биномиального распределения
(описанного Бернулли), которая, согласно предельной теореме Муавра-Лапласа, в пределе
дает хорошее приближение к нормальному распределению (особенно в тех случаях, когда
вероятности исходов p (правильный ответ) и q (ошибка) равны между собой). — Прим. автора.
142
Практическая тестология
Вам контингента студентов такого-то вуза или сотрудников такой-то компании) решали данное задание правильно».
Важно отметить, что если Вы сформулируете задачу в типичном виде
для академических тестов: «Постарайтесь создать задания, которые разделят выборку пополам — ровно 50 процентов будут давать правильный ответ», то Вы получите в результате тест, который окажется слишком трудным
и не обеспечит нужные квоты. Хотя ситуацию еще можно будет исправить
с помощью снижения нижних критериальных границ для соответствующих групп (рангов) А, B, C. Пример необходимого снижения указан в таблице 2.7г, которая дает нам картину, соответствующую требованиям:
Градации
Неуд (D)
Удов (C)
Хорошо (B)
Отлично (А)
Процентильные доли
20%
60%
15%
5%
Первичные баллы
(проценты)
Ниже
35
Выше
35
Выше
65
Выше
80
Таблица 2.7г. Пример ожидаемого соответствия квот для категорий и первичных баллов по тесту, дающему приближенно-нормальное распределение с параметрами на шкале первичных баллов: среднее =50, стандартное отклонение = 18.
Таким образом, мы видим, что существует три взаимосвязанных друг
с другом системы показателей:
А) квоты (процентильные доли) испытуемых, попадающих в определенную ранговую группу (грейд),
Б) критериальные границы для этих групп, выраженные в процентах
от максимального балла, — на шкале «первичных баллов»,
В) реальная трудность-легкость большинства тестовых заданий, из которых состоит тест.
Эти системы показателей должны быть заранее приведены в соответствие друг с другом — еще до создания теста. В противном случае, если
для указанного теста с параметрами (50, 18) Вы зафиксировали критериальные границы как (55, 80, 90), вы получите совсем нежелательную численность ранговых групп, которая приводится в таблице 2.7д:
Градации
Неуд (D)
Удов (C)
Хорошо (B)
Отлично (А)
Процентильные доли
60%
35%
4%
1%
Первичные баллы
(проценты)
Ниже
55
Выше
55
Выше
80
Выше
90
Таблица 2.7д. Пример плохого, крайне неудачного соответствия между процентилями и процентами для теста с параметрами: среднее = 50%, стандартное отклонение = 18%.
Глава 2. Конструкция и конструирование измерительных тестов
143
Как видим из таблицы 2.7д, тест данной трудности может привести к
проблемам: либо 60% обследованных считать «двоечниками», либо резко
снижать нижнюю границу для оценки «удов» — сразу на 20 пунктов (!).
Приведенный пример иллюстрирует опасность использования критериального подхода в практических ситуациях, когда заранее неизвестно,
насколько трудным окажется тест на данном контингенте испытуемых —
каков будет средний процент правильных ответов на среднее задание из
данного теста.
Таким образом, этап 2 — этап проектирования статистической структуры теста — должен быть нацелен прежде всего на критерий субъективной справедливости — в том виде, в каком она понимается в организации.
Этап 3. Спецификация, или структурная модель теста
В ходе разработки модели теста тестологу надлежит выполнить непростую роль координатора, привлекающего к работе на этом этапе специалистов различного профиля и представителей руководства (заказчика).
При этом важно учесть, что участие на этом этапе создает необходимое
ощущение сопричастности и облегчает в последующем принятие этими
людьми итогового продукта — теста и тестовой системы.
Вначале надо определить, каковы будут шкалы теста и какие части теста (субтесты, тематические блоки) будут работать на эти шкалы, какого
типа задания будут использованы в этих частях. Так как мы рекомендуем
применять тесты не изолированно, а в комплексе с другими оценочными процедурами, то разработку системы тестовых шкал следует сразу же
связывать с разработкой всего комплекса шкал, включающего и тестовые
(которые измеряются с помощью теста), и экспертные. К числу вторых относятся такие профессионально-важные качества (ПВК) или такие компетенции, которые трудно (или попросту невозможно) оценить с помощью
теста (например, навыки публичного выступления, умение рассуждать и
аргументированно доказывать свою точку зрения и т.д.).
Для формирования шкал теста и критериев для экспертной оценки
может быть проведена фокус-группа, в состав которой, помимо координатора-тестолога, должны быть включены:
1) преподаватели той предметной области, для которой создается тест
(сотрудники — внутренние эксперты в компании);
2) руководители подразделения (кафедры, факультета, компании), для
которого создается тест (по возможности);
3) внешние консультанты-эксперты (если таковые привлекаются).
Фокус-группа — это метод качественного социально-психологического исследования. Представляет собой полустандартизированное интервью, проходящее в форме групповой дискуссии. В ходе дискуссии
144
Практическая тестология
участники фокус-группы под руководством ведущего обмениваются мнениями о том, какие области знаний важны для будущих специалистов по
данному направлению обучения. Современные веб-платформы для блогов
и форумов позволяют проводить дискуссии в удаленном и асинхронном
временном режиме, то есть фактически это тоже фокус-группы с достаточно определенной модерацией, но не требующие одновременного присутствия участников в каком-то одном месте. Для этого целесообразно
использовать закрытые (непубличные) ресурсы, в противном случае потенциальные испытуемые слишком рано узнают о структуре разрабатываемого теста.
В любом случае основные задачи фокус-группы таковы:
а) формирование списка оценочных шкал,
б) разделение этого списка на «тестовые» и «экспертные»,
в) приписывание весовых коэффициентов и тестовым, и экспертным
шкалам (так, чтобы в сумме веса всех критериев давали бы 100 баллов,
а в случае наиболее дифференцированных оценочных систем — 1000
баллов).
В последнее время разработку системы шкал (субшкал) теста пытаются
напрямую связать с разработкой модели компетенций работника (модели
выпускника вуза). В тех случаях, если эта модель уже принята в организации,
шкалы подстраиваются под уже существующие разделы этой модели. Но нередко аналитическая работа экспертной группы, собранной на этом этапе,
если она организована правильно, вскрывает недостаточную определенность
и двусмысленность номинально существующей (формально принятой, но не
работающей реально) модели компетенций. В Лаборатории «Гуманитарные
технологии» на этом этапе под руководством автора книги нередко использовался особый сервис-модуль системы HT-LINE под названием «Шкалирование». Эксперты должны оценивать значимость и оригинальность существующих наименований шкал (компонентов модели компетенций), добиваясь
согласованного приписывания шкалам их расшифровок (операциональных
определений, выраженных на языке эмпирических индикаторов). Появление в этом случае отдельных экспертов, не дающих согласованных результатов,— это лишь самый незначительный «сюрприз», который сулит подобная
серьезная работа. Бывает и так, что по каким-то шкалам-компетенциям вообще не достигается никакой согласованности в экспертных оценках, что говорит о заведомой бесперспективности любых усилий по измерению баллов
на этой шкале (с помощью тестовых или нетестовых процедур — неважно) ДО
особой работы по уточнению смысла самой шкалы.
После того, как работа по составу шкал (субшкал) теста завершена,
необходимо создать структурную модель теста (или того варианта, который будет предъявлен в одном тестовом сеансе на основе банка заданий). В разделе 1.3, посвященном классификации тестов на гомогенные и
гетерогенные, мы уже приводили примеры того, как должны выглядеть
Глава 2. Конструкция и конструирование измерительных тестов
145
спецификации (структурные модели) для статических тестов. Приведем
ниже еще один пример:
Группа
заданий
Тематика
заданий
Форма (тип)
заданий
Трудность
Расчетное
время, минуты
1—4
Шкала 1
Тип А
Легкие
2
5—8
Шкала 2
Тип А
Легкие
2
9 — 12
Шкала 3
Тип А
Легкие
2
13 — 16
Шкала 4
Тип А
Легкие
2
17 — 20
Шкала 1
Тип А
Средние
2
21 — 24
Шкала 2
Тип А
Средние
2
25 — 28
Шкала 3
Тип А
Средние
2
29 — 32
Шкала 4
Тип А
Средние
2
33 — 36
Шкала 1
Тип Б
Трудные
4
37 — 40
Шкала 2
Тип Б
Трудные
4
41 — 44
Шкала 3
Тип Б
Трудные
4
45 — 48
Шкала 4
Тип Б
Трудные
4
49
Умение 1
Тип В
Трудные
10
50
Умение 2
Тип Д
Трудные
10
ИТОГО
52 минуты
(16+16+20)
Таблица 2.8. Статическая модель (спецификация) теста возрастающей
трудности, в котором трудность связана с определенными типами тестовых заданий.
Поясним, что в таблице 2.8 самые трудные задания — это задания кейсового типа: В — требующие выбора из готового набора с аргументирующим комментарием, Д — требующие свободного развернутого решения
без опоры на готовые варианты. Буквенная маркировка может быть различной, и в настоящее время нет универсальных рекомендаций, какой
она должна быть в каждом отдельном случае.
Особого внимания в этой книге заслуживает проектирование «динамической модели теста» — когда вариант формируется «на лету» из банка
заданий (компьютер по определенному блочно-случайному алгоритму на
каждом шаге подбирает определенное задание из банка). В этом случае модель выглядит как некая матрица с несколькими входами, а в каждой клеточке — число заданий в банке и варианте, соответствующих смыслу строк
и столбцов матрицы. См. пример такой матрицы-формуляра в таблице 2.9.
146
Практическая тестология
Тематический блок
(из теста для учащихся
по специальности
«Управление персоналом»)
Легкие
задания
Задания
средней
трудности
Трудные
задания
Банк
Вариант
Банк
Вариант
Банк
Вариант
1.
Системы оплаты труда
50А
10А
20В
4В
10С
2С
2.
Модели компетенций и KPI
50А
10А
20В
4В
10С
2С
3.
Стратегия отбора новых
сотрудников
50А
10А
20В
4В
10С
2С
№
Таблица 2.9. Пример соотношения численности заданий в банке и в индивидуальном варианте теста: число заданий в банке для каждой категории заданий в пять раз превосходит число заданий в варианте.
В таблице 2.9 заглавными буквами после численности заданий указан
их тип (формат): А — с выбором ответа, В — с кратким свободным ответом,
С — кейсовое задание со свободным развернутым ответом (в других случаях может быть использована другая буквенная маркировка типов заданий, тут главное — дать образец самой структуры матрицы).
Еще один важный шаг в создании модели теста — это проектирование
бюджета времени по каждому разделу (блоку) теста. В таблице 2.8 в последней колонке показано, как специфицируется расчетное время на каждом
однородном отрезке теста.
Из-за того, что общее время на все разделы теста (тестовой батареи) часто бывает ограничено по организационным причинам, не все разделы
оказываются психометрическими. Таким иногда удается сделать лишь
раздел, связанный с общетеоретическими знаниями — фактов и терминологии.
При этом для экономии времени и увеличения количества заданий
в шкалы общетеоретической подготовленности целесообразно включать
самые простые по формату задания с выбором из предложенных ответов
(multiple choice) — они позволяют измерить фактор-компетенцию с высокой точностью за достаточно короткое время. Вполне реально предъявить
испытуемому 50 заданий такого типа всего лишь за 20—25 минут (примерно полминуты на одно задание). А вот задания по типу «кейсов» часто требуют слишком много времени и формируют шкалы, которые не вполне
соответствуют психометрическим требованиям, — шкалы для оценивания способностей (компетенций) или умений испытуемых решать частные профессиональные задачи. Положим, на каждую такую кейс-задачу
требуются до 10 минут времени, а на тест в целом задано ограничение —
не более 1 часа. При этом на теоретическую часть уходит уже около 30 минут (по полминуты на каждое из 60 заданий). Как следствие, мы получаем
ограничение — не более 3 заданий кейсового типа в одном варианте. Иначе в один час мы просто не уложимся. А если мы хотим предъявить не 3, а
хотя бы 5—6 заданий кейсового типа, мы обязаны спроектировать их так,
Глава 2. Конструкция и конструирование измерительных тестов
147
чтобы средняя продолжительность решения занимала не более 5 минут.
И все равно число заданий в одном варианте оказывается недостаточным,
чтобы работать с этой частью теста как с полноценной психометрической
шкалой. Но это и не надо пытаться делать — любой ценой гнаться за увеличением количества заданий в трудоемкой части теста. Если число таких
заданий в одном варианте достигнет 10 (и всего они будут занимать 10*5 =
50 минут), то придется сократить число простых заданий до 20 (так, чтобы
эта часть занимала не более 20*0,5 = 10 минут). И здесь при больших выборках мы оказываемся перед риском случайного угадывания половины
правильных ответов в укороченной психометрической части квалификационного теста (именно такую ошибку совершили разработчики модели
теста по многим предметам ЕГЭ, что потом привело к неправомерному отказу от заданий типа А, например, по такому предмету, как математика).
С проектированием временной структуры теста тесно связан вопрос
о том, кто и как будет контролировать общий лимит времени на сеанс
тестирования и лимит на отдельное задание. Практическая реализация
этих вопросов связана с выбором определенного технического формата
проведения теста — на бланках или на компьютерах. Введение лимита на
каждое отдельное задание и хронометраж расходов времени на каждое отдельное задание требует проведения тестирования на компьютерах.
Этап проектирования содержательной структуры теста и формата тестовых заданий должен быть нацелен не только на критерий научной валидности, но и на критерий моделирования (на «очевидную валидность»).
Никому — ни экспертам, ни авторам, ни разработчикам-технологам — не
стоит забывать, что без признания определенной очевидной валидности
теста (face validity), без обнаружения участниками сходства деятельности
при выполнении теста со своей основной деятельностью сами участники,
скорее всего, будут скрыто (иногда открыто) саботировать тестирование.
Этап 4. Выбор организационно-технического решения
Иногда материально-технические условия тестирования оказываются столь стесненными, что приходится учитывать эти ограничения при
создании структурной модели. В некоторых организациях есть большая
аудитория, но компьютеров мало. Напрашивается такое решение: всех посадить в эту большую аудиторию и предложить одновременно выполнять
тесты на бланках. Но тут же надо ответить себе на вопрос, а не приведет
ли такая экономия времени и технических ресурсов к снижению достоверности: люди будут друг у друга списывать, пользоваться шпаргалками,
а ряды стульев расположены так, что наблюдатели даже не смогут оказаться за спиной у каждого…
В большинстве случаев жесткие материально-технические ограничения скорее присутствуют в головах организаторов, чем на самом деле.
148
Практическая тестология
Нередко тестирование в организации поручают настолько неопытным сотрудникам, что они сами себя (а затем и руководство) настолько поражают
своей беспомощностью, что тихая паника возникает в организации еще
задолго до того, как начинается само тестирование. Например, не знают,
что сделать, если не хватает свободных компьютеров и помещений в организации. А это для производственных компаний вполне типичная ситуация. Но ведь можно очень дешево и просто арендовать компьютерные
классы в соседних образовательных учреждениях, где по выходным эти
классы просто простаивают! Впрочем, рассмотрим детали технического
обеспечения в особой главе 5.
Этап 5. Авторский цикл подготовки банка тестовых заданий
Обратите внимание: мы только на пятом шаге дошли до того этапа, с
которого многие незадачливые организаторы тестирования пытаются начинать работу — с постановки задачи авторам тестовых заданий. Как видим, до этого надо проделать, как минимум, четыре шага (этапа), каждый
из которых завершается своим продуктом — документом того или иного
статуса: начиная от приказа по учреждению и завершая техническим регламентом или протоколом согласования.
В данном контексте мы, впрочем, не будем подробно обсуждать особенности подготовки банка заданий, ибо этому будет фактически посвящена отдельная глава (глава 3). Здесь важно подчеркнуть, что продукт этого этапа — не техническое задание для авторов. ТЗ для авторов — это входное условия для начала работ в рамках «авторского цикла». Продукт этого
цикла — банк заданий, но еще не окончательный. Он должен быть еще
подвергнут тщательной селекции на следующем цикле работ — на этапе
экспертной оценки заданий.
Особый вопрос, касающийся авторов, который стоит поставить и рассмотреть уже здесь, не откладывая до главы 3, касается принципов формирования авторской группы. Один-единственный автор, входящий в состав авторской группы, — это наихудший вариант, хотя на практике так
очень часто и случается. Иллюзорная легкость управления одним автором
не должна заслонять от координатора (тестолога) издержки такого выбора.
Автор не может сам для себя оказаться в роли «независимого эксперта».
Так что для поиска эксперта (рецензента) все равно потребуются дополнительные усилия, и стоит с самого начала подумать о том, а нет ли возможности сразу привлечь не одного, а хотя бы двух авторов, чтобы на следующем этапе они оба приняли участие в качестве независимых экспертов —
независимых друг для друга. Конечно, такую схему удается реализовать
далеко не всегда. Иногда камнем преткновения оказываются статусные
претензии и предрассудки: эксперт хочет быть только экспертом — критиковать других, но не создавать своего продукта, чтобы не подвергаться
Глава 2. Конструкция и конструирование измерительных тестов
149
критике самому. Но в борьбе с различными амбициями и сопротивлением потенциальных авторов-экспертов координатору этой работы надо
проявить политическое чутье и грамотность: надо своевременно задействовать административный ресурс в виде приказа, подписанного первым лицом (или, в крайнем случае, профильным замом), в котором однозначно перечислены ФИО сотрудников, которые привлекаются к работе и
в качестве авторов, и в качестве экспертов.
И еще раз — не следует пренебрегать значимостью этих казалось бы
не вполне «тестологических» аспектов работы по созданию системы тестирования. Выработка правильной ролевой позиции авторов и экспертов в проекте, правильное и гармоничное распределение прав и обязанностей («хочешь оценивать продукцию других, тогда создай собственную
продукцию») — это важнейшее условие, которое напрямую отражается
на качестве банка тестовых заданий, на качестве главного инструмента
в системе тестирования — самого контента (содержания) тестовых заданий. Конечно, в ряде случаев, чтобы выйти из организационного тупика,
следует идти на то, чтобы привлекать значимых специалистов хотя бы в
роли экспертов, но в общем случае лучше ориентировать на схему «оцениваешь, если создаешь».
Этап 6. Экспертный цикл подготовки банка заданий и вариантов
После создания авторами тестовых заданий необходимо провести
экспертизу собранного материала с целью очистки банка заданий от ошибок, неточностей и некачественных заданий. Целесообразно различать 2
разные цели экспертизы тестов в зависимости от базовой технологии:
1) Для традиционной технологии (варианты тестов создаются вручную
авторами) цель экспертизы — проверка теста именно в той версии, в
какой он будет предъявляться испытуемым, то есть в форме конкретных вариантов.
2) Для технологии, основанной на КБТЗ (автоматизированная сборка вариантов на основе банка заданий), цель экспертизы — проверка отдельных тестовых заданий, входящих в банк.
В последующих абзацах данного параграфа изложен материал, из которого должно быть понятно, что эти указанные цели не противоречат
друг другу, а могут быть достигнуты просто на разных этапах экспертизы
тестовых материалов.
Вначале надо сформировать контингент экспертов. Для проведения
экспертизы привлекаются эксперты двух типов:
А) Из числа внутренних специалистов организации (или преподавателей
учебного заведения), где работают (учатся) тестируемые. Если эти же
специалисты участвовали в создании банка заданий, то целесообразно
150
Практическая тестология
привлекать к экспертизе самих авторов для перекрестной оценки созданных заданий.
Б) Внешние эксперты — представители других вузов или организаций, в
том числе специализирующихся на производстве тестов и обучающих
материалов в данной области знаний. Внешние эксперты, в свою очередь, также могут совпадать с авторами заданий.
Одним из самых существенных является вопрос о необходимом количестве экспертов. Расчет количества экспертов зависит от нескольких
факторов, включая доступный объем работ в заданные сроки. Если запланировать слишком большой объем работы, предполагающий, например,
оценку одним экспертом в течение одного рабочего дня свыше 200 тестовых
заданий, то (как это уже изучено) качество работы экспертов резко падает
из-за утомления. Оптимальное количество тестовых заданий самого простого типа (с выбором одного верного ответа из нескольких предложенных;
multiple choice) за один день работы эксперта — от 100 до 150. Продолжительность такой работы — два сеанса по 2—3 часа с перерывом между сеансами.
Но более важный критерий при наборе экспертов определяется необходимым количеством экспертов на одно задание. Целесообразно организовать экспертизу заданий так, чтобы на каждое задание приходилось
не менее трех независимых экспертов (в общем случае, чем больше, тем
лучше), НЕ СЧИТАЯ АВТОРА. Тогда при случайной ошибке одного эксперта
(возникающей при снижении уровня внимания в результате утомления)
совпадение мнений двух других экспертов может считаться решающим
фактором в пользу или против того или иного задания. При минимальном
количестве экспертов в число этих трех стараются включить и самого автора тестового задания, но автор по определению не может находиться в
критической позиции в отношении разработанных им заданий. Так что
ясно, что, кроме автора, должны быть подключены на экспертном цикле
еще 3 независимых специалиста, и возможность отсева задания возникает в том случае, если хотя бы двое из трех этих независимых специалистов усматривают в этом задании недочеты, хотя автор их не усматривает.
Следует сделать специальную оговорку о том, что такого количества
экспертов, очевидно, не хватает для создания банка аттестационных заданий — заданий, предназначенных для решения более ответственных задач. По опыту автора книги, если задания оценивают два эксперта, на 200
заданий они совершают 1—2 ошибки, тогда как, например, четыре эксперта уже почти на порядок улучшают качество теста — 1—2 ошибки на 1000
заданий.
Для второго этапа — экспертизы целостных вариантов — можно использовать как экспертов-авторов (уже привлекавшихся на первом этапе), так и «свежих экспертов», которые, однако, должны быть даже более,
чем авторы, подготовлены с точки зрения тестологии: должны понимать, как устроена модель теста в целом, соотносить цели тестирования
Глава 2. Конструкция и конструирование измерительных тестов
151
с содержанием заданий, принимать обоснованное решение о нормативах
(интервальных категориях), а также отслеживать и формировать временные параметры тестовых сеансов и тематических блоков.
В соответствии с особенностями базовой технологии (традиционная
и технология КБТЗ) следует выделить, как минимум, 2 разные методики
для проведения экспертизы тестов:
1) Традиционная технология. Экспертам предъявляются тесты в том
виде, в каком их планируется предъявлять испытуемым. Как правило, в
этом случае перед экспертами ставится задача комплексной оценки теста
в целом по следующим обобщенным критериям:
А) соответствие теста целям и задачам профессиональной подготовки
учащихся или работников;
Б) соответствие модели теста перечню профессионально-важных знаний, умений, качеств (компетенций);
В) соответствие теста организационно-технологическим условиям проведения тестирования;
Г) оценка качества отдельных заданий (и поиск ошибок) — эта задача оказывается для такой обобщенной экспертизы в некоторой степени на
«втором плане».
2) Технология КБТЗ. В этом случае приоритет задач, поставленных
перед экспертами, сдвигается на выявление ошибок в отдельных заданиях. Причем эти ошибки выявляются не «на глазок», с помощью поверхностного общего взгляда на тест, а за счет постановки перед экспертом той
же задачи, которая стоит и перед испытуемым, — отыскать правильный
ответ. Таким образом, по отношению к каждому отдельному тестовому заданию эксперт должен в этом случае сделать следующее:
А) найти правильный ответ (для заданий со свободным ответом — сформулировать);
Б) оценить качество задания, включая формулировку вопроса и формулировки всех ответов (это качество, как показывает реальный экспериментальный опыт, эксперты легче и точнее оценивают именно после
того, как они в некоторых случаях обнаруживают, что не могут найти
ни одного правильного ответа, или сразу несколько ответов выглядят
как правильные в задании, в котором должен быть лишь один верный
ответ, и т.п.);
В) оценить трудность тестового задания (по трехбалльной или по пятибалльной шкале);
Г) отнести задание к определенному тематическому разделу.
Обратим внимание на то, что при втором подходе сами эксперты
не становятся владельцами тестов в том виде, в каком они будут предъявлены испытуемым. В этом смысле на этапе экспертизы рассекречивания самих тестов не происходит. Но все-таки лучше организовать работу
152
Практическая тестология
экспертов в особом помещении (в кабинете координатора проекта). Хотя
при высоком уровне доверия известным экспертам можно допустить их
работу на дому (по линиям Интернет-коммуникации). Важно подчеркнуть, что при втором подходе, при технологии КБТЗ, эксперты НЕ видят
помеченным правильный ответ. Они внимательно отсматривают все дистракторы. Без этой работы нередко именно в дистракторы «просачиваются» совершенно глупые ошибки и просто опечатки. Начинаешь после конфуза выяснять, почему это произошло, и выясняется, что в дистракторы
просто никто не вчитывался.
Основной смысл любой процедуры экспертных суждений о качестве
заданий заключается в том, что эта процедура направлена на измерение
уровня согласованности («конкордации») экспертных оценок. В том случае, если эксперты согласованно отвергают задание, оно исключается из
банка. В том случае, если эксперты согласованно признают его качественным, оно остается. Но есть еще и промежуточные случаи, когда не достигается согласие ни в одну, ни в другую сторону. Для таких заданий требуется редакционная доработка. Вот почему в ходе экспертизы перед экспертами ставится задача предложить свои варианты коррекции задания,
если в нем обнаружены недостатки.
Очень удобные возможности для работы с внешними экспертами (с
теми, которых организационно трудно пригласить в реальный кабинет к
координатору проекта) открывает система экспертных Интернет-опросов.
Именно Интернет-опросы в данном случае позволяют разрешить следующие организационно-технологические проблемы:
а) обеспечение авторизированного (защищенного логином и паролем),
подконтрольного (по IP-адресам) и частичного доступа самих экспертов к банку заданий, который должен быть в целом непрозрачным для
всех, в том числе для экспертов41;
б) обеспечение удаленного и распределенного доступа, позволяющего привлечь к этой работе чрезвычайно занятых квалифицированных специалистов, которых крайне трудно собрать в определенном месте в определенное время. Эксперты могут выполнять свою работу в режиме Интернет-опросов в прямом смысле «в свободное от основной работы время»;
в) сохранение анонимности экспертов по отношению к другим экспертам и авторам заданий. Эта технология является наиболее удобным
инструментом обеспечения анонимности (по сравнению с очными собраниями, на которых эксперты перестают быть независимыми, оказывают на других давление и подвергаются давлению сами и т.п.).
41
Особая проблема при разбиении банка заданий между экспертами — это задача обнаружения «связанных по смыслу» заданий (дублирующих друг друга или содержащих друг
для друга подсказки). Приходится предварительно разбить весь авторский банк так, чтобы
одному эксперту попались ВСЕ задания, которые могут быть «связанными по смыслу» — например, все задания из одного тематического блока.
Глава 2. Конструкция и конструирование измерительных тестов
153
Внимание! Процедура экспертизы тестовых заданий обязательно
должна проходить анонимно. Координатор сам должен взять на себя обязательство о конфиденциальности имен экспертов. И это положение должно быть донесено до экспертов, которые принимают участие в оценке.
В противном случае эксперты в силу опасения показаться некомпетентными будут неправомерно затягивать выполнение своей работы и, возможно, вся процедура будет носить недостоверный характер.
Для лучшей организации процесса рекомендуется использовать автоматизированный метод шкалирования, который уже упоминался выше в
разделе «Спецификация, или структура теста». При этом эксперты выносят свои оценки тестовым заданиям, как минимум, по двум критериям:
«Качество» и «Трудность». Если задание не соответствует сформулированным критериям, эксперт выносит заданию низкую оценку.
Признаки некачественного задания, на которые должны обращать
внимание эксперты:
●
●
●
●
●
задание не относится к заявленной тематике теста;
задание содержит несколько ответов, которые могут считаться правильными;
задание не имеет ни одного правильного ответа;
задание имеет неточности в формулировках самого вопроса или вариантов ответа;
задание фактически дублирует другое вполне качественное задание,
которое уже имеется в банке; и т.д.
Если экспертиза происходит в автоматизированном режиме, для каждого задания должно быть предложено поле для ввода комментария (в
свободной форме): если у эксперта есть какие-либо замечания и особенно
если выставлена низкая оценка, он должен внести свои комментарии в
строчку ввода на экране.
Ниже приводится пример того, как выглядит экранный интерфейс в
модуле «Мастер-тесты» HT-LINE, созданном для подобных работ в Лаборатории «Гуманитарные технологии» и предусматривающем особый режим
экспертной оценки качества тестовых заданий (см. рис.2.1).
Инструкции к полюсам пятибалльной шкалы должны быть сформулированы таким образом, чтобы было легче исключать слишком легкие
и слишком трудные задания по итогам экспертизы. Главная цель при обработке результатов экспертных оценок — выявление «спорных тестовых
заданий», по которым среди экспертов не наблюдается необходимого консенсуса. Для того чтобы провести такой анализ, можно просто вывести на
экране компьютера «гистограммы экспертного голосования», из которых
наглядно видно, сколько экспертов выбрали тот или иной ответ на данный
вопрос (тестовое задание). Ниже приводится пример такой гистограммы
для тестового задания по психологии восприятия (см.рис.2.2):
154
Практическая тестология
Рис.2.1. Онлайн-интерфейс в режиме «Экспертиза качества тестовых заданий» в системе HT-LINE (на материале банка тестовых заданий по общей
психологии).
В данном примере только три из шести независимых экспертов согласились с автором в том, что правильным является ответ номер 2. На самом
деле анализ ответов экспертов позволяет понять, что правильным в какойто мере является и ответ номер 4, и в целом вопрос нуждается в коррекции.
Подобный анализ заданий может (и должен) быть подкреплен анализом заданий по убыванию средних оценок качества и трудности. При такой сортировке заданий легче увидеть, какие именно задания не достигают заданного уровня качества и трудности. Например, если значимое
большинство (две трети) экспертов сошлись в том, что задание следует отнести к категории «слишком легкое» или к категории «слишком трудное»,
то задание следует удалить из банка. В противном случае обилие таких заданий создаст перекос в распределении тестовых баллов испытуемых, и
возникнет нарушение баланса в квотах на ранговые группы (грейды).
Итогом экспертной оценки трудности являются введенные в банк
индексы трудности заданий, которые позволяют при использовании особых алгоритмов сборки вариантов автоматически обеспечить равенство
вариантов по уровню их трудности (хотя бы с точностью до экспертных
суждений о трудности). Но не стоит обольщаться, что эксперты умеют достоверно оценивать трудность заданий. Лучшая мера трудности — эта та
статистика реальных ответов, которую можно получить от реальных испытуемых.
Глава 2. Конструкция и конструирование измерительных тестов
155
Рис.2.2. Гистограмма частот ответов экспертов на тестовое задание,
проходящее экспертизу.
Вторым важным направлением в анализе результатов экспертизы является оценка уровня компетентности самих экспертов. Основной принцип этой оценки таков: чем более согласованные оценки дает эксперт с
оценками остальных независимых экспертов, тем более компетентным
следует его считать. Специализированная программа обработки результатов, предусмотренная в сервис-модуле «Онлайн-шкалирование» в HTLINE, обеспечивает упорядочивание (ранжирование) всех экспертов по
убыванию их согласованности с оценками остальных — с указанием самих индексов согласованности (в виде соответствующих значений коэффициентов статистической корреляции). Тем самым можно легко обнаружить экспертов, которые явно «выпадают из коллектива».
Обоснованный ориентир для «исключения эксперта» — уровень согласованности 0,3 и ниже. Но этот ориентир действителен только в том случае, если средний коэффициент корреляции (согласованности) всех экспертных оценок оказывается не ниже 0,6.
Третьим направлением в анализе результатов экспертизы является
получение данных, которые позволяют совершенствовать сам процесс не
только экспертизы тестовых заданий, но и их создания. Это анализ уровня согласованности экспертов по отдельным критериям, которые они
156
Практическая тестология
применяют к оценке тестовых заданий. Если выясняется, что эксперты
дают более или менее согласованные оценки по критерию «Трудность»
(средняя согласованность выше 0,6), но явно расходятся в оценках заданий
по критерию «Качество» (допустим, средняя согласованность около 0,3),
то следует обязательно дать возможность экспертам обсудить, что они вообще понимают под качественными тестовыми заданиями в данной области.
После отбора (отсева) заданий целесообразно привлечь экспертов к
оценке тех вариантов теста, которые будут предъявлены испытуемым.
На этом этапе эксперт должен оценить:
А) соответствие теста целям и задачам, поставленным перед программой
тестирования,
Б) соответствие модели теста перечню профессионально-важных знаний, умений, качеств (компетенций),
В) соответствие теста организационно-технологическим условиям проведения тестирования,
Г) независимость отдельных заданий (поиск ошибок взаимозависимости, когда одно задание служит подсказкой к ответу на другое),
Д) уточнение тестовых нормативов — граничных значений (интервальных категорий) для принятия решения (вполне возможно, что первоначальные критериальные интервалы после анализа реальных заданий в реальном варианте будут скорректированы).
По итогам экспертизы ее участники должны оформить экспертное заключение по указанным выше задачам. Такой документ может служить для
координатора) (менеджера-тестолога) важнейшим аргументом в тех случаях, когда при появлении каких-то нареканий на качество теста возникнет
потребность в поиске ответственных за допущенные ошибки и промахи.
Этап 7. Первичная апробация теста
До проведения теста на основном контингенте испытуемых целесообразно провести его апробацию (пробное испытание) на особой выборке, которая не будет совпадать с целевой популяцией, но по каким-то
параметрам будет ее моделировать. Конечно, в огромном большинстве
практических ситуаций возможности для проведения такой апробации
внутри самой организации (учебного заведения) просто нет. Как можно
сформировать подобную пилотную выборку, не рассекретив при этом содержания теста? Это сделать часто фактически невозможно. Но в наиболее ответственных случаях (особенно в случаях массового тестирования,
на результаты которого делается ставка в отсутствие контрольных экспертных процедур) надо искать возможность каким-то образом все-таки
найти пилотную выборку и организовать апробацию теста. Хотя бы на 10
Глава 2. Конструкция и конструирование измерительных тестов
157
испытуемых, невзирая на то, что при этом не удастся измерить психометрические свойства теста.
В настоящее время определенным подспорьем в решении этой задачи
стал Интернет. Как раз для этих целей удобно иметь освоенную специализированную систему онлайн-тестирования. В вузах этот вариант апробации вполне пригоден для базовых предметов на массовые специальности.
Для HR-служб этот вариант подходит при тестировании персонала на массовые специальности. Конечно, и у «эйчаров» возникают особые трудности с организацией апробации в случае квалификационных тестов, нацеленных на такую узкую профессиональную группу, что найти пилотную
выборку ПРОСТО НЕВОЗМОЖНО. Но все-таки надо планировать эту задачу, чтобы пытаться решать ее или отказываться от решения осознанно.
Очень часто в планах создания квалификационных тестов разработчики
и менеджер-координатор проекта просто-напросто не предусматривают
времени на апробацию теста.
В чем же заключаются цели апробации, какие результаты она может дать разработчикам теста? На поверхности лежит очевидная задача: поиск возможных ошибок, таких, которые может не увидеть «замыленный взгляд» самих авторов теста или экспертов, но увидит «свежий
взгляд» непредвзятого испытуемого-добровольца, свободного от какихлибо мотивационных напряжений, связанных с организацией тестирования. Но кроме поиска текстуальных ошибок, сама по себе апробация дает возможность выявить еще до массовой эксплуатации если
не психометрические свойства теста (надежность и валидность), то, по
крайней мере, избежать грубых ошибок в определении процентильных квот (долей) по интервалам на шкале первичных баллов. А вдруг
получится так, что все авторы и эксперты ошиблись, и все 10—20 человек из апробационной выборки попадут в самый высокий интервал —
получат ранг A (аналог отметки «отлично»), потому что тест оказался
слишком простым?
Тут уместно сформулировать важное различение между психологическими тестами (нацеленными на измерение психологических свойств)
и квалификационными тестами (нацеленными на измерение уровня
специальных знаний и умений). В случае квалификационных тестов измерение психометрических параметров теста НЕ является главной задачей апробации, как в случае с психологическими тестами. Чаще всего
возможность измерения этих параметров возникает уже после того, как
собраны результаты на самой целевой группе — после того, как проведено официальное квалификационное тестирование. Но в результате такого
подхода, конечно, мы должны понимать, что оценка качества теста превращается из априорной (до опыта применения) в апостериорную (после
применения), то есть возможные коррективы на основе этой оценки фактически будут распространяться лишь на следующие туры тестирования
(если таковые планируются).
158
Практическая тестология
Нередко в тестах на скорость (но не на сложность) после апробации
практически удобнее корректировать не количество и состав заданий в
варианте, а временной лимит на выполнение сеанса тестирования. В случае слишком трудного теста этот лимит надо увеличить (вместо 40 минут
дать 50 минут на выполнение всего теста), а в случае слишком легкого теста — сократить (вместо 40 дать 30 минут).
В случае психологических тестов выборка первичной апробации сама
собой вписывается в выборку более масштабного психометрического исследования, так что фактически эти два этапа разработки оказываются
слитыми в один. Но в случае с квалификационным тестированием между
этими этапами вклинивается особый этап оргтехнической подготовки к
массовому тестированию.
Этап 8. Оргтехническая подготовка тестовой сессии
Как различаются квалификационное тестирование и психологическое тестирование по внешним признакам? Квалификационное тестирование проводится с максимальным одновременным охватом испытуемых, в то время как психологическое тестирование нередко производится
в кабинете психолога в ситуации «один на один»: к психологу приходит
единственный тестируемый, который сразу после тестирования получает индивидуальную консультативно-диагностическую помощь. Таким
образом, именно при массовом квалификационном тестировании возникают нестандартные оргтехнические проблемы: где найти большое помещение, где найти оборудование, как рассадить испытуемых?
Определение контингента тестируемых и его мотивирование. Эти
вопросы надо продумывать, конечно, уже на этапе принятия методического
решения. Но после того как сам тест уже готов (готовы варианты или процедура их формирования «на лету»), надо поставить перед собой ряд вопросов снова
и с большей актуальностью: Какова мотивация участников тестирования? Будут ли они заинтересованы в том, чтобы в той или иной форме отказываться,
саботировать тестирование? Будет ли их саботаж носить скрытый или открытый характер? Каковы будут отношения между участниками тестирования?
Будут ли они стараться помогать друг другу, чтобы показывать максимально
высокие (и тем самым недостоверные) баллы? Какие у них технические возможности для общения в ходе тестирования и сразу после тестирования?
В тех случаях, когда за организацию тестирования берутся непрофессионалы, нередко происходят просто «чудовищные ошибки» (впрочем, кавычки в этом контексте можно было бы и не использовать). Тесты нередко
раздают участникам на бланках и… никак не контролируют то, что происходит в дальнейшем. А ведь в этом случае сотрудники фактически вместе решают такие «тестики», щелкая их как семечки. Я называю этот способ имитации и саботажа двумя словами — «всей деревней». Результаты получаются
Глава 2. Конструкция и конструирование измерительных тестов
159
недостоверными и ценными разве что только для тех, кто хотел бы доказать,
что тесты — это глупость. С появлением Интернета появилось великое искушение разослать ссылочку на онлайн-тест, опубликованный на сайте организации (учебного заведения). И что получается? Каждый студент получает такую ссылочку в любом удобном месте (на компьютере, подключенном к Интернету) и в случае малейших затруднений обращается за помощью к своему
однокурснику, справочным материалам (к Википедии, например) и т.д. Результаты такого безалаберного подхода к организации тестирования известны: тестовые результаты оказываются недостоверными, бессмысленными, и
тесты отторгаются как бесполезный инструмент оценки.
Еще за несколько дней (а иногда недель и месяцев) до проведения тестирования нужно проводить в организации целую серию подготовительных мероприятий, которые должны обеспечить высокую заинтересованность рядовых сотрудников (учащихся) и руководства в получении
достоверных, объективных результатов тестирования. Без такой работы
по мотивированию фактически невозможно обосновать, почему тесты
должны проводиться в особое время, в особым образом подготовленных
помещениях, особыми подготовленными людьми.
Следует при этом учесть, что очень часто «шапкозакидательская» позиция
(«тесты — это ерундовая угадайка») и «нигилистская» позиция («тесты — это
формальные игры руководства»), которые распространяются в учебном заведении по механизму заражения так называемыми «эмоциональными лидерами», есть на самом деле лишь ширма, прикрывающая высокую тревожность и страх как тестируемых, так и их непосредственных начальников (а в
вузах — преподавателей) перед возможными низкими результатами по тесту.
Следует тщательно и максимально точно ЗАРАНЕЕ проинформировать участников о том, что будет в случае получения высоких, средних и низких баллов.
Подготовка помещений и администраторов. Чем меньше спланировано последовательных сеансов тестирования, тем лучше для обеспечения информационной безопасности (достоверности). Самая большая
ошибка в ходе квалификационного тестирования — растягивание процесса на множество отдельных индивидуальных сеансов. Планируя сеансы,
Вы должны учесть:
1) Количество посадочных мест, которые могут быть одновременно предоставлены испытуемым в помещениях, отведенных для тестирования. В случае компьютерного проведения это компьютерные места.
2) Количество работников, способных выполнять роль администраторов в этих помещениях42. Очевидно, что на каждое помещение следует
42
Этих администраторов в контексте данной книги мы будем частенько обозначать специальным термином «супервизоры», подчеркивая их специфический функционал. Но в практике их нередко называют очень по-разному: организаторы в аудитории, наблюдатели, дежурные, — Прим. автора.
160
Практическая тестология
предусмотреть не менее одного администратора, адекватно подготовленного (не только технически, но и мотивационно). Не рекомендуется
разбивать испытуемых (учащихся) на множество групп, проходящих
тестирование в разных аудиториях, поскольку может оказаться так,
что на все аудитории не хватит сотрудников, которые могли бы серьезно и объективно следить за процессом.
Для увеличения числа посадочных мест и сокращения числа помещений можно (а иногда просто необходимо) прибегать к следующим мерам:
1) Создавать оперативные (функциональные) компьютерные классы в организации. Для этого компьютеры из отдельных помещений можно
перенести в крупные аудитории и развернуть в локальную сеть, чтобы
как можно больше учащихся выполняли тест одновременно в одном
помещении — при минимально необходимом числе администраторовнаблюдателей. В настоящее время, когда во многих зданиях локальные
сети поддерживаются с помощью беспроводной системы WiFi, когда
даже удлинителей для электропитания не требуется (самые дешевые
ноутбуки поддерживают работоспособность в течение многих часов
на аккумуляторных батареях), все это стало реально в гораздо большей
степени, чем еще 5 лет назад.
2) Арендовать специально оборудованные компьютерные классы в других соседних учреждениях (школах и вузах).
3) Аутсорсинг оборудования и услуги. В настоящее время проводить серьезное тестирование в сети Интранет самой организации — это весьма рискованное решение. О некоторых «хитростях» до сих пор плохо
осведомлены и рядовые сотрудники, и сами организаторы, но хорошо
знают «продвинутые пользователи» и особенно системные администраторы. Хотя об этом они сами могут Вам ничего не рассказывать.
Например, о том, что буквально на каждом компьютере, который обычно используется в офисе (в штатном режиме), может быть установлена
программа (клиентский модуль) типа TeamViewer или Anyplace (см.
http://www.anyplace-control.com/ru/), которая позволяет управлять
не только вводом команд браузера, но и всем «рабочим столом» (базовым экраном) данного компьютера с другого компьютера — по сети
из соседнего помещения (или даже из другого здания). Поэтому-то
лучше для чистого тестирования использовать такое оборудование,
на котором «местные умельцы» не смогут установить подобных программ. То есть лучше использовать не обычные офисные компьютеры, а специально для этого предусмотренный набор ноутбуков, который хранится обычно в особом режиме. Понятно, что и при этом
будет сохраняться риск, что что-то может «придумать» как раз тот
самый инженер, которому поручено обслуживание этих ноутбуков.
Поэтому самое надежное решение — это заказывать оборудование
для проведения тестирования вообще у другой организации. Лучше
Глава 2. Конструкция и конструирование измерительных тестов
161
всего у организации-разработчика собственной компьютерной системы тестирования. Например, наша Лаборатория «Гуманитарные
технологии» оказывает подобные услуги, имея в своем распоряжении
собственный мобильный класс из ноутбуков, которые можно легко
привезти куда угодно, в считаные минуты развернуть на месте и подключить к Интернету «мимо» местной сети (с ее особыми шлюзами,
настройками, прокси-серверами и т.п.), напрямую с помощью «эфирных провайдеров» (см. об этом подробнее техническую главу 5).
Конечно, для проведения акции с использованием внешних ресурсов
Вам придется привлечь в качестве ее главного организатора какого-либо
полномочного представителя руководства. Без его прямого содействия решать подобные задачи крайне сложно, а порой и невозможно (например,
в силу финансовых причин). Вы (обращаюсь здесь к читателю «на Вы», усматривая в нем главного исполнителя) должны быть настойчивы и убедительны в общении с руководством, которое должно понять, что подобная организация тестирования — это насущная необходимость для того,
чтобы не выбрасывать на ветер деньги и время. Руководство должно подписать распорядительный документ о проведении тестирования. Лучше
всего, если это будет Положение (а не приказ или распоряжение), так как
в этом документе должно быть письменно зафиксировано немало информации — правила поведения участников, права и обязанности организаторов и т.п. Подробнее про документальное обеспечение тестирования см.
главы 5 и 7.
О чистоте планируемого тестирования организатору приходится постоянно думать в не менее творческом режиме, чем об этом думают недобросовестные и изобретательные участники-испытуемые. Если Вы рассчитываете на то, что каждый год вполне сработает то самое решение по
информационной безопасности, которое успешно сработало в прошлом
году, то не исключено, что в этом году Вы попадете впросак, ибо «творческая мысль» фальсификаторов никогда не стоит на месте.
Если с самого начала Вы видите, что руководство никак не содействует серьезному проведению тестов, рассчитывая на то, что это все удастся
организовать без дополнительных усилий с его собственной стороны, то
лучше под любым благовидным предлогом с самого начала (пока затраты
не понесены) отказаться от самой идеи внедрения тестов в Вашей организации.
Правильная оргподготовка к тестированию должна быть нацелена на
критерий корпоративной готовности (из нашего списка главных критериев). Он должен быть целевым ориентиром при планировании и реализации отдельных мероприятий.
Конечно, пройдет еще каких-то 3—5 лет, и этот раздел книги быстро
устареет в плане упоминания каких-то технических проблем. Но общие
принципы останутся прежними.
162
Практическая тестология
Этап 9. Пилотное тестирование
Пилотное психометрическое тестирование отличается от первичной
апробации тем, что в нем участвует не 10—20, а, как правило, не менее
50 испытуемых, и собрать такую группу из числа «сетевых друзей» организатора-разработчика довольно сложно, хотя она кажется не такой уж
многочисленной. Пилотное тестирование редко осуществляется в случае
квалификационных тестов, но разработчики психологических тестов без
этого этапа не могут обойтись, ибо именно здесь решаются задачи измерения базовых психометрических свойств надежности и валидности.
Для проведения психометрического тестирования, в отличие от апробации, должна быть проделана вся оргтехническая подготовка. Важный
признак такого пилотного тестирования — оно имитирует все основные
элементы ситуации штатного (массового) применения теста. Очень важно, что испытуемые, которые участвуют в пилотном тестировании, должны быть примерно из той же самой социально-профессиональной группы,
что и контингент, на котором планируется применять тесты: они должны
обладать схожей мотивацией (в частности, быть встревоженными самой
ситуацией тестирования), они должны выполнять тест примерно в те же
самые промежутки времени и в тех же условиях.
Первое, что мы должны проверить, получив результаты на пилотной выборке,— это распределение тестовых баллов. Не выявилось ли нежелательной
асимметрии — перекоса результатов в сторону слишком высоких или слишком низких баллов? Не выявилось ли необъяснимого (на первый взгляд) провала на графике распределения (см. рисунок 2.3)? «На первый взгляд» — это потому, что всегда при изучении причин такого провала выявляется (не сразу)
какой-то качественный признак, который различает испытуемых, попавших
в группу «ниже провала», и испытуемых, попавших в группу «выше провала».
Чаще всего это «артефактный признак», который говорит о недостатках в методике и/или организации процесса. Например, «высокая группа» — это те,
кто воспользовался утечкой части ключей (и это дало им сразу преимущество
в виде какого-то фиксированного количества очков по известным им заданиям), а «низкая группа» — это те, кто не получил доступа к ключам.
Любой опытный и думающий тестолог, глядя на график 2.3, прежде всего, выдвинет следующее предположение: скорее всего, произошла утечка 7—8
заданий, что проявляется в количестве сырых очков (числе правильных ответов), которые разделяют два локальных максимума на гистограмме.
Следующая задача при обработке результатов пилотного тестирования — это подсчет одномоментных коэффициентов надежности-согласованности — для всего теста в целом, а также для каждого отдельного тестового задания. Отсутствие значимой корреляции по какому-то заданию (или
появление корреляции с обратным знаком) может быть сигналом того, что
просто произошел элементарный технический брак при простановке ключей (весовых коэффициентов) в программу обработки. Подробнее о методах
Глава 2. Конструкция и конструирование измерительных тестов
163
Рис.2.3. Провал на гистограмме распределения сырых тестовых баллов, за
которым, скорее всего, стоят ошибки в организации тестирования.
анализа результатов пилотного тестирования, различных коэффициентах
корреляции для тестовых заданий читайте главу 4.
Если на пилотной выборке удалось собрать какую-то внешнюю информацию об эффективности деятельности обследуемых (их производительности труда как работников или их успеваемости как учащихся), то можно уже на этом этапе измерить внешнюю валидность теста — путем расчета корреляции между результатами теста и показателями по внешнему
критерию (см. главу 4).
Как правило, все эти расчеты должны предшествовать стандартизации — более массовому этапу тестирования при разработке теста, который разработчик доводит до «товарного продукта». Зачем привлекать
большую выборку в сотни человек (а именно это требуется для проверки
репрезентативности и стандартизации шкалы тестовых баллов), если уже
на небольшой выборке выявились дефекты — обнаружена просто недостаточно высокая надежность? Лучше внести вовремя коррективы, чем «портить» такое количество испытуемых (в случае многих психологических
тестов повторное выполнение уже не сулит «чистых результатов»).
Этап 10. Массовое обследование
И вот завершились этапы экспертной оценки, апробации и пилотного
психометрического тестирования. Решена группа вопросов, связанных с
164
Практическая тестология
кадровым и оргтехническим обеспечением массового тестирования. Начинается массовое обследование. Какие вопросы надо обязательно решить
на этом этапе, какие организационные проблемы поставить под контроль?
Мы здесь дадим лишь краткий перечень этих проблем и вопросов. Многие
из них будут более подробно обсуждаться в других главах.
Демоверсия. Очень хорошая мера, снижающая зашкаливающую тревожность до разумных пределов, — создание демоверсии, хотя бы краткого аналога с примерами тех тестовых заданий, которые предстоит решать
испытуемым. Лучше всего, если доступ к демоверсии будет сетевым, свободным и не регламентированным по времени и количеству «запусков»
одним человеком. В настоящее время демоверсию студенты МГУ уже проходят в массовом порядке со своих личных портативных планшетов и ноутбуков — в любом удобном для них месте и любое время.
Предтестовая консультация. Если Вы знаете (или просто чувствуете), что испытуемые тревожатся, то лучше всех желающих пригласить на
очную встречу за несколько дней до тестирования (не менее чем за 2 дня,
чтобы после этого у участников еще была возможность что-то уточнить
для себя с помощью прохождения демоверсии в поиске «оптимальной
стратегии»). На этой встрече иной раз всплывают вопросы, которые, казалось бы, имеют столь очевидные ответы, что организатору их трудно себе
представить вне такой встречи. Например, приходится объяснять, почему в случае качественного теста в принципе никто не должен получать
100-процентный результат по числу правильных ответов. Тут же можно
посоветовать, как использовать собственную интуицию для набора очков
в тех случаях, когда испытуемый не знает точного правильного ответа.
Можно даже посоветовать книги и специальные сайты в помощь тестируемым (testtakers), которые на Западе выходят под девизом «подними свой
тестовый балл» (upyourscore).
Расписание сеансов. Если в какой-то день предусматривается несколько сеансов (группы сменяют друг друга в зале для тестирования с
ограниченным числом компьютеризированных посадочных мест), то
можно произвести запись на сеансы прямо на консультации. Но можно
организовать самозапись и на корпоративном сайте (с помощью обычых
приглашающих рассылок на блогах-форумах). В нашей специализированной программе HT-LINE реализован специальный модуль самозаписи на
сеансы (при наполнении одного из сеансов запись на него автоматически
прекращается, студенту предьявляется напоминание и т.п.). Отсутствие
очередей в коридоре из людей, испытывающих «предстартовое волнение», — важное условие спокойного прохождения мероприятия. В некоторых компьютерных системах запись на сеансы совмещается с «саморегистрацией в системе» — получением логина и пароля (или с самостоятельным вводом логина и пароля в поля учетной записи, или учетной
карточки участника).
Глава 2. Конструкция и конструирование измерительных тестов
165
Правила тестирования. На консультации и при доступе к демоверсии участники должны быть ознакомлены с «Правилами тестирования»
(помягче этот документ можно назвать «Памяткой участнику»). См. подробнее об этом документе в разделе 7.7.
Инструкция. Перед тем, как тестируемый начнет выполнять первое
задание, он должен неформально, вдумчиво прочесть инструкцию. Лучше
всего проконтролировать понимание им важных пунктов инструкции на
определенном наборе предварительных вопросов-заданий.
Журнал тестирования. В ходе проведения групповых сеансов (да в
принципе и индивидуальных тоже) необходимо делать хотя бы самые короткие записи в «журнале тестирования»: кто пришел, в какое время, какой тест выполнил. Тут же можно коротко вписать основной результат (в
виде первичного балла по интегральной шкале теста) и запросить визу испытуемого — в том, что он согласен с полученным результатом. Несмотря
на то, что компьютерное тестирование предусматривает дублирование
всей этой информации в электронной базе данных, бумажный протокол
страхует Вас от всяких технических сбоев, начиная от банальной потери
связи с сервером, на котором хранится актуальная база данных в локальной или глобальной сети.
Контроль за дисциплиной во время тестирования. В журнале тестирования следует предусмотреть специальные графы, в которые дежурный
администратор (наблюдатель-организатор) осуществляет записи о замеченных нарушениях. Это равносильно тому, как футбольные арбитры заносят в свои записные книжки записи о вынесенных предупреждениях
(желтых карточках).
Особые ситуации. Крайне желательно сформулировать заранее правила управления тестированием в редких и нештатных ситуациях. Дежурные в зале должны быть подготовлены к тому, как надо действовать в некоторых особых ситуациях, которые могут вообще ни разу не возникнуть,
но которые исключить нельзя хотя бы исходя из богатого опыта, собранного коллегами в других организациях. Что делать, если происходят технические сбои в ходе самого компьютерного тестирования? Можно ли в этом
случае разрешать испытуемому возобновлять выполнение теста с первого
задания? Ведь некоторые технические сбои могут оказаться «рукотворной
хитростью» — сами участники просто выводят компьютер в режим «перезагрузки», лукаво заявляя, что «оно само так пошло». Самое важное, чтобы
все дежурные (если их несколько в разных аудиториях и в разных сеансах)
действовали в подобных ситуациях однотипно и… уверенно. Ибо их неуверенность может спровоцировать эскалацию недоверия ко всему мероприятию и переход от скрытого недовольства к активным формам протеста. Испытуемые должны быть предупреждены, что за 2 предупреждения («желтая карточка») по нарушениям дисциплины, они будут удалены из зала
(«красная карточка»). Чем жестче и увереннее дежурный исполняет роль
«арбитра в поле», соблюдающего строгие, заранее объявленные правила, тем
166
Практическая тестология
стабильней ситуация, тем лучше он контролирует ситуацию (как говорят в
футболе, где кипят нешуточные страсти, «арбитр управляет нитями игры»).
Ошибки в заданиях. Испытуемые могут обнаружить в заданиях
ошибки, которые не успели заметить (пропустили) эксперты. При бланковом проведении это может быть также следствием просто типографского
(принтерного) брака. Вы должны документировать эти заявления испытуемых. А лучше всего — просить их написать официальную апелляцию по
содержанию тестовых заданий. При этом следует хладнокровно заверить
испытуемого, что после рассмотрения апелляции и признания ее обоснованной ему будет присужден заведомо положительный балл за это задание.
Завершение и верификация результатов. Если программа тестирования не предусматривает немедленного информирования испытуемых о том,
каков набранный ими «сырой балл» (например, такая схема возникает в тех
случаях, если ключи к тесту хранятся на другом компьютере — сервере тестовой сети), то целесообразно объяснить, почему испытуемые не могут увидеть результат немедленно. Следует учесть, что всякая задержка в обработке
результатов болезненно воспринимается участниками тестирования, и ее
следует минимизировать хотя бы максимально быстрой публикацией «сырых баллов» (так как стандартизированные баллы подсчитать оказывается
возможным лишь после прохождения теста всеми участниками — после всех
сеансов). В этом случае опытные организаторы, рассчитывающие завоевать
доверие и уважение участников на будущее, не ленятся организовать предварительное информирование участников об их «сырых баллах» еще до появления стандартизированных (окончательных) — в особом разделе на внутреннем сайте в Интернете. В некоторых случаях (когда участники имеют
какие-то предубеждения или особое недоверие к процедуре тестирования)
следует предусмотреть по завершению компьютерного теста особую процедуру — «удостоверение протокола». Компьютерная программа должна предусматривать для этого вывод на принтер бумажной (твердой) копии протокола всех ответов испытуемых с указанием всех номеров тестовых заданий
из банка43. Испытуемый должен иметь возможность сверить свои ответы на
экране (на этом этапе уже без возможности их поменять) и на бумаге. Удостоверившись в идентичности, испытуемый подписывает бумажную копию, и
Вы забираете ее в свой архив. Это исключает возможные подозрения в том,
что кто-то каким-то образом может подтасовать или неправильно обработать
электронную копию протокола испытуемого.
Успех организации тестирования как массового мероприятия во
многом зависит от грамотности в тех же самых процессах организации,
управления и контроля, которые востребованы и при проведении других
массовых мероприятий (собраний, например). Если Вы хотите провалить
43
Именно такой технический прием автор книги применил при разработке по заказу
Минобрнауки программы К-ЕГЭ — компьютерной модели ЕГЭ (авторское свидетельство
№2006611507 от 2006 года).
Глава 2. Конструкция и конструирование измерительных тестов
167
массовое мероприятие, то поручите его проведение неуверенному в себе,
робкому, застенчиво-растерянному сотруднику, который своим социально-беспомощным поведением (то есть демонстрацией собственного чувства вины за невольное временное возвышение над другими) будет провоцировать агрессивные импульсы толпы, которая вдруг перестает чувствовать над собой руководящую силу.
Общая координация массового тестирования оказывается часто не
под силу технологически ориентированному разработчику банка тестовых заданий и настройщику компьютерных программ. 44 Для того чтобы справиться с этой задачей, нужно обладать минимальным набором
лидерских качеств. Правильные кадровые решения в рамках проекта тестирования — это, как и в любых других проектах, уже половина дела. Поэтому если в организации нет сотрудников, способных и готовых взять на
себя роль и ответственность руководителя массовым тестированием, лучше заказывать соответствующие услуги у сторонних организаций, которые на этом специализируются.
Этап массового обследования, как и этап оргтехнического обеспечения, должен быть нацелен, прежде всего, на критерий «Достоверность».
Именно этот критерий должен быть главным целевым ориентиром при
реализации данного этапа.
Этап 11. Шкалирование, баллирование
и анализ достоверности результатов
И вот массовое тестирование завершено. Начинается обработка его
результатов. Тут в отношении компьютеризированных методик многие
пользователи готовых тестов могут задаться недоуменным вопросом: «А
разве тестовая программа не обеспечивает полную обработку в момент
проведения самого тестирования?» Да, кое-какие существенные элементы обработки уже производятся, но далеко не все.
Следует различать 2 ситуации, или 2 разные задачи для двух разных
категорий тестологов на этом этапе — разработчиков-психометристов и
пользователей-менеджеров. Это задачи шкалирования и баллирования.
Разработчики тестов на этом этапе обязательно должны воспользоваться появлением нового емкого массива статистических данных, чтобы
вновь (или впервые) произвести так называемое «шкалирование»: уточнить правила перевода сырых баллов в стандартизированные, а также
правила применения тестовых норм (то есть группировки испытуемых
по категориям принимаемых решений).
44 Необязательно полагать, что все разработчики тестовых заданий и системные администраторы -это тревожные интроверты. Автор имел в виду, очевидно, некоторую
статистическую тенденцию — Прим. научного редактора.
168
Практическая тестология
Пользователи тестов на этом этапе уже опираются на автоматически
выполненное «баллирование» — подсчет тестовых баллов по ключам и
отображение сырых баллов в стандартные по уже «отшкалированному»
алгоритму. Но грамотные пользователи на этом этапе обязательно должны
содержательно проконтролировать осмысленность группировки испытуемых по категориям принимаемых решений — осмысленность в применении выработанной системы тестовых норм, их соответствие заранее
предусмотренным квотам оценок (процентильным долям).
Нельзя полностью передоверить «тестовой машине» решение вопросов,
которые могут коснуться человеческих судеб. Конечно, трудно проверить
результаты тестирования просто «на глазок», глядя на фамилии и тем более
на шифрокоды каких-то испытуемых (если за этими данными не стоят известные тебе люди). В этом плане очень помогает наличие параллельных
оценочных процедур, которые решают примерно те же содержательные задачи — оценивают квалификацию работников (знания учащихся). Если между
этими процедурами вдруг возникает слишком острое рассогласование (грубо
говоря, «двойка» за тест и «пятерка» за интервью или наоборот), то каждому
такому случаю надо уделить индивидуальное внимание. Если таких случаев
много, то одна из процедур может быть признана недостоверной (например,
произошла массовая утечка ключей к тесту или работал такой эксперт-интервьюер, который искажал в своих экспертных оценках реальную ситуацию по каким-то объективным или субъективным причинам). Так что посттестовый анализ результатов — это, прежде всего, контроль их достоверности.
Тут надо посмотреть различные временные показатели. Хорошо, когда
компьютер регистрируют время, затраченное на каждое задание каждым
испытуемым (в секундах). Этого бывает достаточно, чтобы в подозрительных случаях обнаружить целый «пучок» неправдоподобно скоростных
правильных ответов. Значит, испытуемый считывал в этот момент правильные ответы со шпаргалки (или кто-то ему зачитывал, стоя за спиной).
А вот простой прием, который годится не только для компьютерного,
но и для бланкового тестирования: подсчет частотности ошибок. Появление
слишком частотных ОДНОТИПНЫХ ошибок на данном протестированном
контингенте испытуемых должно насторожить: а почему это вдруг все стали одинаково ошибаться? Не скрывается ли за этим ошибка в той шпаргалке, которую на скорую руку кто-то из участников «состряпал» и снабдил ею
остальных45? Этот индикатор, конечно, хорошо работает, когда разработчик
снабжает пользователя открытыми справочными сведениями о том, как часто встречались у него ошибки на выборке «добровольцев» — испытуемых,
45 Богатая статистика проведения ЕГЭ и ИГА в начале 21 века в России выявляла и такие
казусы: весь класс в какой-то школе получал вдруг хором «двойки», совершая одинаковые
ошибки в одинаковых вариантах, что означало только одно — все воспользовались шпаргалками, но… не смогли отследить соответствие шпаргалок предъявленным вариантам. —
Прим. автора.
Глава 2. Конструкция и конструирование измерительных тестов
169
которые проходили исследовательскую версию теста добровольно («для себя
и для науки») и не опасались получить низкие результаты.
Особая задача разработчика на этом этапе анализа заключается в проверке репрезентативности тестовых норм. Напомним, что репрезентативность — это адекватность нормативных значений тестовой шкалы для применения на целевой группе (выборке проведения теста). Если эксперты завышают требования к учащимся, то они могут сформулировать слишком
высокие значения нормативов, которых большинство учащихся просто не
достигнет. Если же они занижают нормативы, то их предстоит после массового обследования, наоборот, повышать. Основная идея репрезентативности:
чем больше объем выборки, тем точнее собранные данные позволяют задать
тестовые нормативы. Поэтому именно данные массового обследования являются наиболее ценными для «калибровки тестовой шкалы» — проставления
на ней меток (разделяющих точек), соответствующих качественно различным интервалам (интерпретационным, оценочным категориям-отметкам).
Статистические процедуры, обеспечивающие контроль репрезентативности, являются довольно сложными, и их описание дается в главе 4.
Главная задача этапа оперативного анализа результатов массового тестирования — это контроль их достоверности (корректности) и подготовка
управленческих решений по результатам тестирования.
Этап 12. Ревизия теста на основе
углубленной статистической обработки
Данные массового обследования, как никакие другие данные, позволяют усовершенствовать тест — создать следующую, улучшенную версию.
Если в одном варианте испытуемому предъявляется всякий раз лишь небольшая часть тех заданий, которые имеются в банке, то на пилотной выборке просто не хватает объема статистических наблюдений по одному
заданию, чтобы оценить его качество. Определенные индексы качества
заданий, начиная с самого простого коэффициента дискриминативности
(см. главу 4, а также последний параграф главы 3), можно подсчитать, как
правило, только после массового обследования.
Таким образом, основная логика ревизии (пересмотра) теста на этом
этапе сводится к новому циклу отбора-отсева тестовых заданий — на этот
раз на основе массовой статистики. В новую версию теста должны войти
только хорошие задания, а плохие должны быть либо удалены, либо (если
они не безнадежны) скорректированы. Например, коэффициент дискриминативности, (различающей способности) для определенного задания
незначим, но близок к значимому уровню (см. информацию формулу 3.2
в разделе 3.6). И при этом анализ ложных ответов (дистракторов) показывает, что работает только один дистрактор из трех-четырех (остальные
всем испытуемым кажутся просто очевидной глупостью, так что никто не
170
Практическая тестология
совершает этих ошибок). Уже замена этих слабых дистракторов нередко
приводит к тому, что в следующей массовой сессии данное задание достигает нужного уровня по качеству (подробнее об этом в конце главы 3).
Конечно, опираясь главным образом на количественные статистические
данные, разработчики тестовых заданий не должны забывать на этом этапе и об анализе качественных замечаний испытуемых. Любое массовое тестирование, ориентированное на дальнейший рост качества тестов, должно
предусматривать сбор таких спонтанных, стихийных замечаний. Иногда
именно анализ подобных замечаний позволяет по-новому взглянуть на содержание вопроса и ответов в задании. И становится понятным, что вопрос
надо немного переформулировать, чтобы вполне подготовленные люди более
уверенно считали ключевой ответ единственно правильным. Нередко бывает так, что добавление или удаление всего одного слова в вопросе значимо
улучшает характеристики задания в следующей тестовой сессии.
По своей ценностной ориентации разработчик большого банка заданий должен быть близок носителю «крестьянско-агротехнической культуры» в земледелии: в его работе с банком тестовых заданий предполагается систематическая многосезонная, многолетняя работа над последовательным улучшением качества «семенного фонда» за счет селекции после
каждого урожая. Впрочем, подробнее об этом в следующей главе 3, а также
в главе 7, посвященной нашему эксперименту по ежегодному наращиванию валидности образовательных тестов.
В особых ответственных ситуациях новые задания в тест вводятся с
большой осторожностью. Если нет возможности апробировать новые задания на пилотных выборках, то в массовом тестировании пытаются использовать новые задания вначале без подсчета по ним тестовых баллов.
При этом всю «ответственность» за тестовые баллы несут на себе старые
задания (отобранные, качественные старые задания), а новые добавляются в эту переходную версию теста лишь для сбора статистики по ним.
Такую мягкую стратегию обновления (с постепенным внедрением новых
заданий), конечно, могут себе позволить лишь очень мощные специализированные тестологические организации, подобные ETS (Education Testing
Service) в США, производящие каждый год новые версии самых популярных тестов (таких как SAT, GRE, TOEFL) с миллионными ежегодными тиражами по числу сеансов тестирования.
Специфика этапов для коммерческих тестов
Итак, мы перечислили выше 12 основных этапов, связанных с базовым циклом подготовки и проведения теста в его определенной версии.
Но, разумеется, для разных тестов имеется определенная специфика в
прохождении этих этапов. В таблице 2.10 мы предлагаем сравнить несколько разные стратегии разработки двух различных категорий тестов:
Глава 2. Конструкция и конструирование измерительных тестов
171
1) Внутренние тесты — для внутреннего применения в конкретной организации. Именно на эти тесты мы ориентировались при описании
этапов. Они создаются либо как самодеятельные (силами сотрудников самой организации), либо внешним исполнителем (компаниейразработчиком) с высокой степенью так называемой кастомизации
(настройки структуры и содержания теста под запросы конкретного
пользователя). Ясно, что в случае самодеятельного изготовления требования к психометрическим свойствам этих тестов (надежности, внешней валидности и т.п.) не так высоки, несмотря на всё наше желание
предъявить к ним самые высокие требования. Самое главное практическое требование связано с критерием моделирования («очевидной
валидности») и достоверности результатов (никто не фальсифицирует).
2) Коммерческие тесты. Тесты как продукты для внешнего массового
распространения. Специализированные организации по производству тестов создают тесты не для своего внутреннего употребления и
не под конкретного заказчика (как услугу), а как некий универсальный
продукт «на продажу» — для распространения среди различных организаций-заказчиков. Они должны с особой тщательностью отрабатывать психометрические параметры своих продуктов, ибо именно этими параметрами во многом измеряются их потребительские качества.
Самодеятельные тесты
(внутреннего употребления)
Коммерческие тесты
(продукты для других)
Постановка задачи в оргконтексте
Статистическая модель
Структурно-содержательная модель
Оргтехническое решение
Авторский цикл подготовки
Экспертный цикл подготовки
Первичная апробация теста
Оргтехническая подготовка сессии
Массовое обследование
Анализ достоверности
Ревизия теста
Концептуальная модель и маркетинговое исследование
Операциональное решение
Структурно-содержательная модель
Оргтехническое решение
Авторско-экспертный цикл подготовки
Пилотное исследование
Психометрический анализ и коррекция
Тест на выборке стандартизации
Психометрический анализ и коррекция
Проверка внешней валидности
Разработка системы интерпретации и
методической документации
Таблица 2.10. Специфика этапов при создании внутреннего и внешнего
продукта.
Итак, выше мы описывали прежде всего этапы именно для левой категории — «тест как внутренний продукт» (пожалуй, мы сделали исключение только для этапа «пилотного психометрического тестирования»,
который характерен скорее для коммерческой разработки). Определенная специфика возникает в работе по созданию теста как коммерческого,
внешнего продукта. Коротко опишем ее.
1) Вместо этапа по уточнению организационной задачи в контексте отдельной частной организации разработчик универсального продукта
172
2)
3)
4)
5)
Практическая тестология
пытается сформулировать концепцию некой типовой задачи, которая
стоит перед многими организациями. Эта разработка концепции идет
рука об руку с неким маркетинговым исследованием — изучением существующего (или только зарождающегося) спроса на определенную
методику. Но при этом чаще всего разработчик такого теста не может
в точности сформулировать именно те варианты принятия решения,
которые стоят перед конкретной организацией. Из-за этого пользователи должны достаточно критично осмысливать и адаптировать коммерческие тесты к целям и задачам своей организации — добавляя в
схему принятия решений ту конкретику, которую на этом этапе не может внести разработчик коммерческого продукта.
Точную статистическую модель коммерческому разработчику создать тоже слишком трудно — у него для этого не хватает информации.
К тому же, если это опытный разработчик, он понимает, что в разных
организациях контингент испытуемых может быть столь различным,
что реальная фактическая модель (распределение долей) будет очень
сильно отличаться от некой «типовой абстрактной». Поэтому на данном этапе отрабатывается иное — принципиальное операциональное
решение, выбор основного методического приема. Например, определяется, будет ли тест на скорость или на точность, будет ли он вербальным или невербальным (с элементами несловесной тестовой стимуляции), с игровым сюжетом или без оного и т.п.
Коммерческая разработка скорее имеет дело с полноценным «пилотным тестированием», чем с «первичной апробацией». Здесь больше
численность выборки и серьезней анализ результатов. Точнее, апробацию надо просто включать организационно в пилотное тестирование в
виде промежуточного анализа первых 10—20 протоколов.
После пилотного тестирования коммерческий тест обязательно подвергается достаточно серьезной содержательной коррекции. Здесь не
так остро состоит риск досрочного разглашения теста. А вот затратность массового стандартизационного обследования в случае несовершенного теста очень велика. Поэтому еще до стандартизации разработчик добивается полной стабилизации теста по содержанию заданий.
После стандартизации содержательная коррекция уже невозможна.
Очень серьезная специфика (едва ли не самая серьезная, пожалуй)
заключается в том, что в массовом стандартизационном обследовании
(правая колонка), в отличие от массового тестирования в конкретной
организации, очень часто принимают участие добровольцы, а не фиксированный контингент, который обязали участвовать. Лишь немногие организации-разработчики тестовых продуктов могут произвести
стандартизацию в реальной ситуации экспертизы (а не в ситуации
«самообследования»). Пользователи тестов должны быть настороже: а
вдруг нормы у них «поплывут», ибо в их конкретных условиях применительно к данному тесту впервые возникает ситуация экспертизы
Глава 2. Конструкция и конструирование измерительных тестов
6)
7)
8)
9)
173
(реальной тревожности испытуемых в отношении результатов). Придется пересчитывать нормы! Именно поэтому грамотные пользователи должны знать и уметь это делать сами, а хорошие тестовые компьютерные программы должны быть снабжены этой инструментальной
функцией — «пересчет тестовых норм».
Как такового отдельного этапа «Анализ достоверности» при разработке
коммерческого теста может просто не быть, если опять-таки обследование проводилось на добровольцах. Впрочем, иногда отбраковываются
«случайные протоколы» (в ходе компьютерного тестирования некоторые испытуемые-добровольцы, когда им наскучивает длинный тест, в
какой-то момент бросают решать задания всерьез и «прощелкивают»
оставшиеся задания очень быстро, чтобы добраться хоть до каких-то
результатов, до какой-то обратной связи и… освободиться).
Особый и очень сложный этап для разработчика-исследователя заключается в организации работ по проверке внешней валидности. Как правило, эти работы совмещаются с первыми опытами внедрения теста в
реальные организации, которые могут предоставить критериальную
информацию (об эффективности деятельности), необходимую для проверки внешней валидности. Конечно, перед внутренним тестированием тоже стоит проблема валидизации, но, как правило, если эти «самодеятельные тесты» (или кастомизированные тесты) обладают высокой
очевидной валидностью, от внутреннего разработчика редко требуют
явных доказательств внешней валидности.
Значительную специфику представляет собой последний этап в создании
коммерческого, отчуждаемого теста — это разработка развитой системы
интерпретации результатов. В том случае, если это бумажный тест, то система интерпретации излагается в виде руководства, но в случае компьютерной методики создается фактически некая экспертная система. В рамках этой системы происходит автоматический анализ (распознавание)
тестового профиля с выдачей для определенных конфигураций профиля
некоего связного повествовательного текста — «текстового заключения»
(narrativereport). Ясно, что в данном случае разработчики коммерческого
продукта ориентируют пользователя на применение данной методики в
качестве «самодостаточной» и «изолированной» — в отрыве от других методик. Именно поэтому они встраивают в саму методику мощный блок
интерпретации, чтобы у потребителя создалось впечатление, что вся интеллектуально сложная работа по анализу полученных результатов за
него уже выполнена разработчиком коммерческого теста.
Некоторые авторы при оформлении коммерческого продукта выделяют в отдельный этап подготовку сопроводительной методической документации, включающей не только инструкции по проведению и
интерпретации результатов, но и подробный «технический отчет» об
анализе психометрических параметров созданной методики (Батурин, Мельникова, 2012).
174
Практическая тестология
Как видим, в таблице 2.10 отражается не столько нормативная
(желательная), сколько «типичная» картина последовательности этапов при разработке коммерческих тестов. Для повышения качества
коммерческих тестов их «активная доработка» (выпуск усовершенствованных версий) должна происходить на определенной «производственной базе» — в режиме внедрения, очень похожем на проведение
массового тестирования с использованием внутренних тестов. Именно на этапе внедрения в полный рост встают проблемы достоверности (борьбы с фальсификациями), оргтехнические и другие практические проблемы.
Уже в период работы автора над данной книгой коллегами Н.А. Батуриным и Н.Н. Мельниковой опубликована в виде отдельной книги
очень сходная с нашей, но несколько иная по терминологическому
оформлению концепция этапов разработки психодиагностических
методик (Батурин, Мельникова, 2012). Этапы, вынесенные в отдельные главы этой книги, названы так (в скобках даем наш комментарий, соотносящий эти названия с теми этапами, которые выделены
выше нами):
1) Организационный (уточнение задачи и/или маркетинговое исследование);
2) Содержательный (поиск концептуального и методического решения);
3) Подготовительный (авторский и экспертный циклы);
4) Исследовательский (пилотное исследование и коррекция);
5) Стандартизационный (тестирование репрезентативной выборки);
6) Интерпретационный (разработка норм и системы рекомендаций-решений);
7) Технический (подготовка методической документации);
8) Эксплуатационный (консультативная поддержка пользователей и выход
на повторный цикл в случае выпуска пересмотренной версии теста).
2.3. ТЕСТ КАК ОБЪЕКТ ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ И «СЕКРЕТ ПРОИЗВОДСТВА»
Едва ли не во всех учебниках по психолого-педагогическому тестированию и психодиагностике, опубликованных в нашей стране в конце
20-го и начале 21-го века, цитируется или упоминается так или иначе постановление ЦК ВПБ(б) от 1936 года «О педологических извращениях в системе Наркомпроса» (см. в частности, главы, посвященные истории, в учебниках Бодалева, Столина, 1987; Шмелева и др, 1996; Гуревича, Борисовой,
2000). Это постановление, в котором осуждалась практика применения тестов в рамках так называемой «педологии», наложило на само слово «тест»
фактический запрет на долгие годы. И хотя ЦК КПСС так и не выпустило
до своего роспуска нового постановления, которое бы официально отменило действие постановления 1936 года, фактическая реабилитация метода
Глава 2. Конструкция и конструирование измерительных тестов
175
тестов в нашей стране в конце 20-го века произошла46. Но десятилетия, пока
тестология находилась под запретом, привели к тяжелому отставанию России в плане не только развития реальной технологической культуры создания, распространения и использования тестов (она очень серьезно отстала
и отстает до сих пор), но и в плане оформления нормативно-правовой основы для этой деятельности. До сих пор распространение тестовых методик
в России регулируется скорее неспецифическими нормами законодательства об интеллектуальной собственности (которые к тому же в условиях
анархического рынка на рубеже 20—21 веков нарушались почти повсеместно), чем специфическими стандартами и нормами какого-либо профессионального сообщества. Хотя в развитых странах основной магистралью
развития в этом плане явилась передача полномочий профессиональным
сообществам, в нашей стране только в самые последние годы разгорелись
настоящие острые дискуссии о том, как нужно регулировать распространение тестовых методик, каковы должны быть нормы взаимодействия между
разработчиками и пользователями, нужна ли система сертификации методик, должны ли сборники и банки методик быть общедоступными (см., в
частности, раздел «Блогосфера» на сайте www.ht.ru, в организации и модерировании которого принимал прямое участие автор данной книги).
Дело в том, что Общество психологов в СССР долгое время функционировало как сообщество научных работников (официально оно так и называлось — «Общество психологов при Академии наук СССР»). Оно объединяло,
прежде всего, академических специалистов — ученых, защитивших диссертации в области психологических наук и занимающихся научной и педагогической деятельностью в области психологии. Профессионально-этические
нормы взаимодействия между учеными известны: это открытое и полное
информирование о созданной методике исследования в научных публикациях — для того, чтобы коллеги могли применить ту же самую методику,
повторить эксперимент и перепроверить полученный результат. И хотя внутри самого Общества психологов не раз обсуждались проблемы прикладной
и практической психологии, все-таки базовой подразумеваемой установкой
в отношении методик до сих пор в сознании академических специалистов
остается установка на «открытость и воспроизводимость».
Само понятие «профессиональная тайна», которое является очень важным инструментом «практической тестологии», в научном сообществе
кажется чужеродным и противоестественным (Шмелев, Науменко, 2009).
А ведь уже на уровне здравого смысла понятно, что профессиональные
46
Одно из последствий знаменитого постановления выразилось, в частности, в том, что
до сих пор в нашей стране чаще употребляется в кругах психологов (да и в учебных программах психологических факультетов классических университетов и педвузов) термин
«психодиагностика», а не «психологическое тестирование», а метод тестов рассматривается
лишь как частный случай различных психодиагностических методов. Впрочем, в этом подходе есть и свои серьезные достоинства, о чем неоднократно писал в своих книгах и статьях, посвященных психодиагностике, и сам автор этой книги. — Прим. автора.
176
Практическая тестология
пользователи тестов, равно как и разработчики, должны быть заинтересованы в поддержании особого «режима профессиональной тайны» просто
для того, чтобы компоненты теста (прежде всего, ключевые ответы) не стали доступны испытуемым. Кстати, в существующих юридических документах, регулирующих сходный круг вопросов, присутствует только понятие «коммерческой тайны», и регламентирован «правовой режим ноухау» (режим охраны секретов производства). К сожалению, эти понятия
не вполне отражают специфику, возникающую именно и только в тестологии, хотя профессиональные пользователи тестов должны обязательно
изучать, что это такое — «режим ноу-хау» (Лопатин, 2007). До сегодняшнего
дня другой специализированной правовой основы функционирования тестовой системы на предприятиях и в организациях просто не существует.
Существенный вклад в то, что в представлениях о правовом статусе
тестов возникла большая путаница в головах не только российских пользователей, но и разработчиков тестов, внесло на рубеже веков (тысячелетий) наложение сразу четырех факторов и обстоятельств:
1) Правовой нигилизм в отношении авторского права вообще. Коммунистическая идеология в СССР подталкивала к интерпретации любого
опубликованного произведения как некоего «всенародного достояния»:
раз что-то опубликовано, значит, работа кем-то уже оплачена (в рамках
служебного оклада), значит, я могу этим пользоваться как мне угодно —
тиражировать, вносить модификации и т.п. Пределом лояльного отношения к авторству при таком подходе представляется наличие «ссылки
на первоисточник»: раз я даю ссылку, значит, я уважаю авторские права и не занимаюсь плагиатом (не выдаю первоисточник за свой, хотя
свою модификацию буду отстаивать как свое авторское произведение).
Сторонники такого социального мировоззрения (кстати, с появлением
Интернета оно захватило миллионы умов не только в посткоммунистических странах, о чем говорит популярность такого термина, как «копилефт» 47и т.п.) чаще всего просто искренне не понимают, почему сам факт
опубликования тестовой методики с ключами и нормами еще не означает, что автор (издатель) разрешил применять эту методику без всяких
ограничений. Смысл символа копирайта (с) на обороте обложки, как
правило, просто никак не интерпретируется48.
47 Copyleft («авторское лево») — это концепция и практика использования законов авторского
права для того, чтобы сделать бесплатным определенный продукт, а также все его последующие
модификации (подробнее см. http://en.wikipedia.org/wiki/Copyleft). — Прим. науч. редактора.
48
Существует и обратный символ («перевернутый копирайт», или «копилефт»), который
как раз и означает продекларированную автором и издателем свободу использования и модификации. Впрочем, многие до сих пор не знают о существовании программных продуктов в статусе open source — программ с открытым кодом, разрешающим каждому вносить
свои модификации и дополнения. Наши пользователи гораздо чаще ставят на свои компьютеры пиратский вариант коммерческой программы MS Office, чем осваивают свободно распространяемый продукт Open Office. — Прим. автора.
Глава 2. Конструкция и конструирование измерительных тестов
177
2) Наличие доступных пиратских сборников тестов. И в бумажных
изданиях, и на цифровых дисках потребитель может найти немало
тестовых материалов, заплатив за эти сборники и диски очень небольшие деньги и не оформив при этом никакого «лицензионного соглашения». Да, большинство этих материалов сомнительного качества, но
встречаются тут и некоторые нелицензированные версии (не обладающие лицензионной чистотой) методик, получивших популярность
во всем мире и распространяемых в развитых странах на коммерческой основе. Покупатель недоумевает, почему он должен отказываться
от покупки того, что продается и продается по вполне доступной цене?
Это точно такая же ситуация, которая возникает при покупке по бросовым ценам контрафактных музыкальных и видеодисков. Покупатель
просто не вдумывается, что низкая цена связана с тем, что он покупает
на самом деле «ворованную продукцию», то есть косвенно соучаствует
в преступлении — в скупке краденого. Конечно, особенно трудно остановить от таких покупок, когда они совершаются частными лицами.
Но уже сегодня в России можно вполне остановить от этого организации. Юридические службы серьезных компаний избегают соучаствовать в приобретении контрафактной продукции, ибо за этим могут
последовать (и следуют) серьезные судебные иски и серьезные суммы
штрафов — за «упущенную выгоду», или «неполученные доходы».
3) Обнищание научно-педагогических учреждений и кадров этих
учреждений. Финансовый кризис, постигший все российское государство в 90-е годы, в области научно-педагогической деятельности на
самом деле ко второму десятилетию 21 века вовсе не прекратился. Ученые и педагоги к этому времени все еще получают мизерные оклады,
которые значительно (в разы!) уступают средним заработкам работников на эффективных производствах (в экспортных добывающих отраслях) и в торговле. Это обнищание до сих пор служит для этих работников моральным самооправданием для совершения в массовом порядке
таких действий как «скачивание тестовых материалов» с пиратских
сайтов. Формально не относя себя к «членам пиратской партии России» (не получившей, кстати, в России официальной аккредитации),
многие ученые и педагоги ведут себя фактически именно как члены
этой партии.
4) Пиратские сайты и Робин Гуды в Интернете. В отличие от покупки
дисков и книжек по ничтожным ценам тестовые материалы со многих сайтов в Интернете можно «скачивать» вообще бесплатно. Я не буду
здесь указывать множество адресов, чтобы не рекламировать эти сайты,
но любой читатель быстро найдет то, что я имею в виду, с помощью поисковых систем. На популярности тестов создатели таких сайтов спекулируют таким образом, что при каждом скачивании показывают
посетителям баннерную рекламу, получая за это небольшие, но все же
деньги. Понятно, что создателю такого сайта совершенно безразлично,
178
Практическая тестология
кто зайдет и будет сохранять материалы с сайта на своем компьютере —
будет ли это пользователь или потенциальный испытуемый. Понятно,
что во втором случае тестовые материалы просто подвергаются массовому рассекречиванию, и тест как профессиональный инструмент быстро
«умирает». Но это совершенно не интересует разработчиков таких сайтов, которые точно так же совершенно безразличны к тестам и их разработчикам и пользователям, как они безразличны к интересам авторов
музыки, фильмов и книг. На этих сайтах Вы не найдете, как правило,
никаких имен и никакой контактной информации. Эти люди не хотят
афишировать себя, понимая, что с моральной точки зрения их мелкий
бизнес не выдерживает критики. Хотя… существует незначительное
количество вполне «открытых» коллекций — в том смысле, что их собиратели открыто публикуют свои реальные имена и контакты (как это
делал в свое время известный собиратель электронных книг Максим
Мошков). Это своеобразные современные Робин Гуды — люди с определенной сознательной идеологией. Нельзя сказать, что эти люди не знают
о существовании авторских прав, но просто выше этих прав они объявляют права пользователей на бесплатный доступ к любой информации
(выступают при этом как «идеологи пиратской партии»). Разумеется,
при этом они совсем не задумываются над тем, что бесконтрольное распространение определенных методик, которые оказываются доступными всем, стремительно обесценивает эти методики для какого бы то ни
было профессионального применения (ну, пожалуй, меньше страдают
интересы любителей самопознания). Тесты от массовых тиражей умирают. И это отличие тестов от детективных романов до сих пор непонято
искренними сторонниками идеи «открытого и бесплатного обмена интеллектуальной информации».
Столкнувшись со всеми вышеописанными проблемами, снижающими уровень защищенности книжно-журнального теста как охраноспособного коммерческого продукта, автор этой книги еще в самом начале
90-х годов принял решение сконцентрировать свои усилия на создании
только компьютерных версий тестов (без всяких бумажных аналогов вовсе!) — версий, защищенных от несанкционированного распространения
с помощью аппаратных средств защиты (физических электронных ключей запуска, устанавливаемых ранее на принтерный порт, а в настоящее
время на слот для флеш-дисков). Как всегда, «спасение утопающих — дело
рук самих утопающих»: если никто кроме автора-разработчика не заботится о защите методического продукта (хотя бы для продления срока его
жизни), то об этом приходится позаботиться самому автору-разработчику49. Этому также содействовало такое юридическое обстоятельство, что
49
И уж совсем мало кто у нас осознанно воспринимает и разделяет ценности «рыночной
философии»: будем вознаграждать автора за создание тиражеспособного (популярного)
Глава 2. Конструкция и конструирование измерительных тестов
179
защитить тестовую систему как объект авторского права можно было в
России фактически только в качестве «программы для ЭВМ» (такой остается фактическая ситуация и в настоящее время — в момент написания
данной книги). Эти обстоятельства предопределили развитие интереса
автора книги к компьютерным системам, а также к вопросам правового
регулирования деятельности по созданию и распространению компьютерных программ.
2.4. ПРОЦЕДУРА ТЕСТИРОВАНИЯ
КАК СЦЕНАРИЙ И АЛГОРИТМ
Итак, постараемся в этом параграфе пояснить, почему «компьютерная
метафора», которая уподобляет тест программе для ЭВМ, является не просто метафорой, но в некотором смысле «ключом» для понимания сути теста как некой информационной технологии.
Давайте сравним для «интеллектуальной разминки» такие два вида
текстов, как «сценарий художественного фильма» и «кулинарный рецепт».
Чем кулинарный рецепт отличается от сценария? Тем, что в нем содержится некоторая инструкция по приготовлению определенного блюда —
предписана определенная последовательность действий с продуктами
(ингредиентами) и инструментами (сковородкой, кастрюлей, плитой
и т.п.). Кулинарный рецепт — это особый инструктивный текст, он содержит в себе нестрогий алгоритм изготовления определенного блюда. Что
значит «нестрогий алгоритм»? Этот алгоритм не вполне формализован до
такого уровня, чтобы его превратить сразу же в программу, понятную для
компьютера. Но зато этот алгоритм достаточно структурирован до такого
уровня, чтобы его понял и воспроизвел с определенной степенью точности человек (читатель поваренной книги). Такие нестрогие алгоритмы в
современной информатике принято называть «сценариями» (script).50 Возможно, что кому-то эта «кулинарная метафора» не принесла ничего нового, но, по мнению автора, она помогает развести два понятия «тест» и «тестирование» через аналогию — «рецепт» и «применение рецепта».
Обратимся теперь к сборнику, в котором опубликованы сценарии художественных фильмов (или пьесы для постановки на сцене — это тоже
продукта, значит, поднимем уровень качества методических разработок в данной области.
А если не будем вознаграждать авторов за создание тиражеспособного продукта (а, напротив, будем наказывать его за это массовым обворовыванием), значит, получим отток продуктивных авторов из этой области деятельности и дефицит качественных продуктов при
наличии моря низкокачественных. — Прим. автора.
50 У автора и редактора книги возникла дискуссия о том, насколько кулинарная метафора
необходима. Автор считает, что нынешний уровень развития алгоритмического мышления у большинства пользователей тестов позволяет наилучшим образом осмыслить именно
кулинарную метафору. — Прим. автора.
180
Практическая тестология
разновидность всем известных «сценарных текстов»). В отличие от кулинарного рецепта сценарий фильма не содержит в себя явного (и неявного
тоже) разрешения к постановке соответствующего фильма. Если это, конечно, не сборник «любительских киносценариев», ориентированный на
кинорежиссеров-любителей. Профессиональный кинорежиссер (точнее
киностудия, ибо профессиональный фильм снимает целая студия) никогда не возьмется за съемку фильма, не заключив определенного договора с
автором сценария (правообладателем). По смыслу это именно лицензионный договор, то есть разрешающий, передающий права на съемку фильма. Чем интересна для нас эта аналогия с кинопроизводством? Тем, что
опубликованный текст с тестовой методикой — это лишь возможность читателя почитать и познакомиться с методикой, подобно тому, как можно
познакомиться со сценарием, но сам по себе этот текст еще не содержит
«лицензионного соглашения» и не передает право на использование теста
в массовом масштабе: можете пройти методику на себе, ну, провести на
двух-трех своих коллегах и членах семьи, но не более того.
Текст с описанием теста (тестовых заданий) — это разновидность сценарно-инструктивного текста. Он предписывает определенный сценарий
взаимодействия пользователя с определенными объектами — тестовыми материалами. Немножко запутывает ситуацию публикация теста в
таком виде (это чаще всего и делается), который совмещает в одном лице
роли «тестирующего» и «тестируемого», создает ситуацию «самотестирования». Наоборот, проясняет вопрос о разделении ролей публикация, например, устного теста для «не умеющего читать ребенка»: в нем содержатся вопросы, которые читающий взрослый должен устно задать ребенку,
который сам читать не умеет и не может выполнить тест в режиме самотестирования. Хороший, однозначный сценарий тестирования должен
быть расписан до мелочей: начинайте с такой-то инструкции, затем проверьте, правильно ли испытуемый понял инструкцию на пробных тестовых заданиях, потом последовательно предъявляйте вопросы (задания). А,
например, в тесте Слоссона для измерения умственного развития детей
(автору довелось рецензировать эту методику — Шмелев, 2000) описан для
проводящего даже некий «адаптивный алгоритм» или «правило остановки»: продолжайте предъявлять ребенку усложняющиеся задания, пока в
протоколе (журнале) с ответами не появится пять ошибок подряд. Правило, кстати, сформулировано столь однозначно и формализованно, что по
этому принципу может функционировать и компьютерная программа.
Итак, нам полезно различать тестирование как сферу «развлечения
и самопознания» (здесь все, кто проводят подобные тесты на себе или на
друзьях, — это любители, осуществляющие любительское тестирование) и
как сферу профессиональной работы (здесь пользователи теста — это профессиональные исполнители, которые и должны себя вести как профессиональные певцы или профессиональные актеры — не исполнять чужих
произведений без лицензии). Любители безболезненно и безответственно
Глава 2. Конструкция и конструирование измерительных тестов
181
могут вносить в тот сценарий, который они исполняют, так называемую
«отсебятину» (не санкционированные автором модификации), а профессионалы не могут себе этого позволить — они относятся ко всем методическим предписаниям очень строго, ибо понимают, что непродуманная
модификация скорее всего ухудшит, а не улучшит качество теста.
Предписывающая информационная технология
Итак, мы получаем в данном контексте важное уточнение самой сущности того, чем является тест как интеллектуальный объект. Это определенная информационная технология! Даже если она совсем слабо формализована, она содержит в себе определенные предписания исполнителю. Увы,
в силу низкой тестологической грамотности и низкой правовой культуры,
многие пользователи до сих пор НЕ видят и не понимают разницу в сфере
тестирования между любительской и профессиональной деятельностью.
Тест для профессионального использования — это такой тест, который дает возможность исполнителю либо получать доход, либо экономить расходы.
Поясним тезис, выделенный в рамочку. Что такое «получать доходы»,
понятно, — это означает предлагать третьим лицам выполнить тест за
деньги. Это в нашей стране происходит довольно редко. Скорее психологи
(или педагоги-репетиторы) берут деньги за консультацию по результатам
тестирования, чем за само выполнение теста. А вот что такое «экономить
расходы»? Предположим, психолог-эйчар проводит интервью как устную
и нестандартизированную индивидуальную беседу с кандидатом на
вакансию. Ему приходится каждому кандидату отдельно задавать примерно 20—30 одних и тех же вопросов. На это уходит половина часового
интервью — то есть полчаса личного времени исполнителя. Побеседовать
так с 20 кандидатами, значит потратить 10 часов своего времени. Если
же те же самые 30 вопросов задаются на бланках (или на экранах компьютеров) сразу всем кандидатам, собранным на одновременный сеанс
(или в автоматизированном, или в заочном режиме), то это приведет к
экономии 9,5 часов рабочего времени. В пересчете на среднюю зарплату
эйчара получим экономию рабочего времени примерно в размере приблизительно 2000 рублей в месяц (допустим, что в месяц средний эйчар в
средней компании проводит интервью с 20 кандидатами). Тем самым за
год получаем примерно 25000 тысяч рублей. Если лицензия на тест стоит 5000 тысяч рублей, то получаем 500%-ную рентабельность от ее приобретения — 100%*(25000 — 5000)/5000. Правда, увы, далеко не все эйчары
могут, а точнее, хотят заниматься такими расчетами. И не потому даже,
что не владеют арифметикой, а потому что не привыкли оптимизировать
182
Практическая тестология
затраты своего личного времени на рутинную работу и порой не подозревают, что могли бы больше сил отдавать более творческим, нестандартным вопросам. Более подробно мы коснемся вопроса о рентабельности
тестовых технологий в главе 6. Здесь же важно только подчеркнуть одно:
профессиональный тест служит для решения определенных профессиональных задач и потому является инструментом, который приносит прямой или косвенный доход.
Итак, профессиональный тест — это инструмент, очень похожий по
способу использования на офисную (профессиональную) программу для
ЭВМ. Он автоматизирует определенную рутинную деятельность, высвобождая время у работника на выполнение той работы, которую пока еще
трудно формализовать и алгоритмизировать.
Точно такой же эффект экономии рутинного труда дает применение
тестов в педагогической деятельности. Вместо того чтобы проверять у 20
студентов письменные контрольные, преподаватель проводит формализованный тест и… экономит несколько часов своего живого труда на проверке, ибо тест подразумевает очень быструю и простую обработку результатов, особенно, если он компьютеризирован.
Приведенные примеры позволяют понять, какие именно имущественные авторские права подвергаются нарушению, если какой-то специалист (психолог ли, педагоги ли — неважно) берет тест из книжки и, не
обращаясь за разрешением (лицензией) к автору, использует его для тестирования кандидатов или учащихся. В этом случае происходит не просто
чтение текста, а ПРОФЕССИОНАЛЬНОЕ ВОСПРОИЗВЕДЕНИЕ МЕТОДИКИ с
целью получения профессиональных выгод (в частности, экономии времени, что, впрочем, легко пересчитывается в деньги). Это профессиональное воспроизведение является таким же способом присвоения чужого
произведения, как публичное исполнение чужой музыки с эстрады или
чужой пьесы на театральных подмостках и т.п. Таким образом, чтение теста в сборнике тестов и массовое применение теста — это такие же отличные друг от друга действия, как чтение пьесы в сборнике пьес и исполнение спектакля на публике.
Нередко самому воспроизведению теста (исполнению спектакля)
предшествует «постановочная деятельность» (ведь для спектакля надо выбрать и пошить костюмы, выучить текст ролей, отрепетировать мизансцены и т.п.). Но никто из профессиональных театральных деятелей, потративших силы, время и средства на постановочную деятельность, давно
не делает таких неправильных умозаключений: «Если я потратился на
постановку, то пьеса автора для меня уже ровным счетом не должна ничего стоить». А вот в области тестологии профессиональное самосознание
у пользователей тестов еще не прошло первичную стадию своего становления. Что об этом говорит? Люди, применяющие тесты, нередко до сих
пор рассуждают с поразительной эгоистической наивностью: «Я ведь потратил столько собственных сил и средств на то, чтобы размножить тест
Глава 2. Конструкция и конструирование измерительных тестов
183
на ксероксе, изготовить бланки ответов, затем раздать, затем обработать
бланки… и при чем тут автор?». И при этом данный наивный пользователь
даже сам не отдает себе отчета в том, что в ходе «воспроизведения теста»
он волей-неволей нарушил «копирайт» (понятый буквально — как «право
копирования»), ведь он размножил, скопировал несколько десятков копий
тестовых материалов. Неважно, что при этом он никому не продавал эти
экземпляры за деньги (это ведь не книги и не журналы), важно, что при
этом он их предъявлял для чтения другим людям.
Впрочем, такое непонимание информационно-технологической сущности процесса тестирования характерно не только для России. Во всем мире
в настоящее время профессиональные разработчики тестов пытаются защитить свои права с помощью таких жестких инструментов автоматизированного контроля за использованием своих самых популярных тестов, как «счетчик числа запусков» или «счетчик числа обработок на сервере» (подробнее об
этом в главе про компьютерное обеспечение тестирования).
Экспертная система
Определение теста как информационной технологии, таким образом,
позволяет рассмотреть тест как информационную систему, включающую
такие компоненты, как содержательное наполнение теста — это база знаний
(банк вопросов, типовых профилей, интерпретирующих текстов), а также
алгоритмы теста — это правила проведения теста (предъявления теста испытуемому) и обработки результатов. В этом контексте «ключ к тесту» — это
определенный алгоритм подсчета баллов по тестовым шкалам на основании «массива ответов», или «вектора-протокола» ответов испытуемого на
вопросы-задания теста. С точки зрения классификации типов программного обеспечения, многие специалисты по ИК-технологиям относят психолого-педагогические тесты (да и медицинские опросники тоже) к разновидностям так называемых «экспертных систем» (Джексон, 2001). В нашей
русскоязычной Википедии находим, пожалуй, самое простое определение
«экспертной системы», которое оказывается максимально созвучным тому
понимаю сущности системы тестирования, которое предложено мной в
этом параграфе: «Экспе ́ртная систе ́ма (англ. expert system) — компьютерная программа, способная частично заменить специалиста-эксперта в разрешении проблемной ситуации». Аналогично этому пониманию профессиональный тест в педагогике — это инструмент, частично заменяющий
педагога при осуществлении педагогического контроля, психодиагностический тест — это инструмент, частично заменяющий психолога при проведении психодиагностики личностных качеств и т.п.
Начав разговор про экспертные системы, мы тут же должны сделать
важную оговорку. В практике тестирования сам термин «экспертная система» чаще используется в более узком своем значении — как система,
184
Практическая тестология
автоматизирующая интерпретацию результатов тестирования (Червинская, Щелкова, 2002). О том, что компьютерная программа в ходе самого
тестирования задает тестируемому вопросы как бы от имени некого эксперта (автора вопросов), — о таком толковании термина «экспертные системы» говорят скорее ИКТ-специалисты, чем психологи или педагоги.
Трактовка теста и последовательное рассмотрение его как информационного объекта и компьютерной программы, соединенных в экспертную
систему, дает нам ключ в решении многих вопросов, связанных с адаптацией и модификацией тестов, с разрешением споров, которые возникают
в этих ситуациях.51
2.5. ЯЗЫКОВАЯ И КОМПЬЮТЕРНАЯ
АДАПТАЦИЯ ТЕСТА
В связи с тем, что разработка высококачественных тестов в России по
разным причинам была долго время не востребована (а в какое-то время
находилась даже под запретом), многим пользователям приходилось искать нужные им тесты за рубежом — главным образом на Западе. При
этом долгое время присутствовала иллюзия: достаточно выполнить хороший перевод, и тест заработает у нас в стране не хуже, чем он работает за
рубежом. Впрочем, эта иллюзия очень быстро развеивалась при виде самых первых результатов по тестам, которые таким нехитрым способом
получались. Оказывается, одного перевода совсем недостаточно. Самое
первое, что бросается в глаза, — это тестовые нормы, которые у нас чаще
всего в исходном виде не работают. То они по одним тестам оказываются
явно завышенными, то по другим — заниженными.
Пересчет тестовых норм на национальной выборке — это первое
требование к адаптации, однако первое по времени его осознания,
но не по значимости. Как только отдельные наши специалисты освоили элементы так называемого «анализа пунктов» (item analysis) 52,
51 Автор данной книги многие годы посвятил разработке различных компьютерных систем тестирования, имеет обширный список авторских свидетельств и патентов именно в
этой области, а в некоторых случаях сам выступал в роли не только постановщика задачи
для других программистов, но ив роли прикладного программиста-кодировщика (например, еще на языке Паскаль под операционной системой MSDOS была написана программа
TESTAN, включающая модуль тестирования MAINTEST, — Shmelyov, 1996). Поэтому разговор
о тестах на языке информатики для автора самый естественный и самый продуктивный. —
Прим. автора.
52 В явном виде понятие «анализ пунктов», по-видимому, было впервые использовано в нашей совместной статье с В.И. Похилько(Шмелев, Похилько, 1985), впрочем, на русском языке еще до этого были опубликованы работы других авторов, которые фактически освещали
элементы анализа пунктов (заданий), хотя не использовали этого термина (Гильбух, 1978;
Гайда, Захаров, 1981; Аванесов, 1982). — Прим. автора.
Глава 2. Конструкция и конструирование измерительных тестов
185
так сразу же выяснилось, что многие пункты (задания) в известных
тестах на русском языке и на русскоязычных испытуемых вовсе не
работают — не дают необходимых статистически значимых корреляций с теми шкалами, в которые они вносят очковый вклад (Забродин,
Похилько, Шмелев, 1987). Самый простой пример, который я обычно
привожу на лекциях, — это вопрос личностных тест-опросников, касающийся пластиковых карточек. В конце 20-го века пластиковые карточки были для бывших советских людей абсолютной диковинкой. Так
что вопросы, которые касались хранения пин-кодов от пластиковых
карточек, совсем не могли тогда работать в русскоязычных социо-культурных условиях.
После появления в доступе достаточно мощных компьютеров в 80-е
годы стало возможным получать матрицы из коэффициентов корреляции размерностью, например, 187*16 на выборках в несколько сотен
испытуемых (187 — это число вопросов тест-опросника 16PF, а 16 — число шкал в данном опроснике; эти числа определяют количество строк
и столбцов в матрице корреляций каждого пункта с каждой шкалой).
Корреляционный анализ показал, что в самых популярных опросниках (16PF и MMPI) не работают на «свои» шкалы около 30 процентов вопросов, то есть ответы на них не коррелируют с баллами по тем шкалам, с которыми они должны коррелировать. При адаптации теста нет
другого варианта кроме замены неработающих пунктов на новые вопросы-задания — такие, которые могут их заменить в данной социокультурной среде. Значит, самый важный шаг в адаптации — это проверка ключей на уровне каждого отдельного вопроса и коррекция самого списка вопросов.
Но что означает такая адаптация, предполагающая столь глубокую
переработку самого базового контента теста — содержания тестовых
заданий? Это означает, что работа над культурно-языковой адаптацией
оказывается по своей трудоемкости сопоставима с конструированием
нового аналогичного теста или, как минимум, равносильна модификации существующего теста. Решить задачу такой глубокой адаптации
в состоянии только разработчик, обладающий всеми навыками конструирования оригинального теста (Shmelyov, Naumenko, 2009). Это как
перевод поэзии с другого языка: переводчик может создать только так
называемый «подстрочник», а поэтический текст порождает только настоящий поэт. Адаптация, предполагающая коррекцию не на уровне
тестовых норм, а на уровне заданий и ключей к ним, — это фактически
РЕКОНСТРУКЦИЯ теста не только на новом языковом, но на новом эмпирико-статистическом материале. Этот парадокс о том, что глубокая
адаптация равносильна созданию новой методики со сходной диагностической мощностью, мы попытались в свое время отразить в публицистической статье «Каша из топора, или история адаптации 16PF в
России», опубликованной в «Психологической газете» (Шмелев, 1999).
186
Практическая тестология
Компьютеризация бланкового теста
Ну, а что такое компьютеризация теста? Многие думают, что перенос
теста на компьютер — это совсем безобидная операция, которая не требует перепроверки теста. Но это в общем случае неверно. Конечно, для очень
простых тест-опросников, подобных двухфакторному опроснику темперамента Г. Айзенка из 58 вопросов, превращение бланковой версии в компьютерную не приводит к существенным изменениям в ключах и нормах: пункты теста продолжают исправно коррелировать с теми же самыми шкалами, с которыми они коррелировали в бланковой версии (Ромек,
Сатин, 2000). При компьютеризации тестов знаний — таких, как тесты ЕГЭ
по географии и информатике, — мы сами получили в своих работах очень
высокую степень сходства между исходной бланковой и компьютерной
версией (см. материалы сайта информационной поддержки компьютерной модели ЕГЭ ege.ru). Но вот в отношении тестов интеллекта ситуация
по данным некоторых отечественных (Бабанин, 2012) и зарубежных авторов (Mead, Drasgow, 1993) выглядит уже не такой однозначной. Особенно
остро стоит вопрос в случае тестов на скорость. Тут, несомненно, многое
зависит от того, насколько иным выглядит на экране компьютера само задание (например, помещается ли оно целиком на один экран или необходима прокрутка или другая форма навигации внутри задания) и насколько меняются временные параметры в деятельности испытуемого. Одно
дело — отсутствие временных лимитов и возможность «откатки назад» (к
предыдущим заданиям) на любую глубину. Другое дело — это поэкранное
предъявление заданий (один экран — одно задание), наличие жесткого
лимита времени на одно задание и на тематический блок заданий (включаются «песочные часы» или тающий на экране ползунок — счетчик времени в секундах, который «действует на нервы»). Более тяжелые условия,
которые мешают сосредоточить внимание на самом задании, мешают
сильнее испытуемым, больше подверженным экзаменационному или тестовому стрессу, или тем, для кого такие условия оказываются совсем непривычными (см. главу 8).
Итак, в ответственных случаях, если создается не самодеятельная, а
коммерческая компьютерная методика, ориентированная на массовое
применение, после компьютеризации должна воспроизводиться вся работа по проверке психометрических свойств новой, теперь уже компьютерной модификации теста — проверка надежности ключей для каждого
пункта, устойчивости-репрезентативности тестовых норм, а нередко и
валидности.
Таким образом, и языковую, и компьютерную адаптацию готовых тестов следует считать в общем случае СЕРЬЕЗНОЙ МОДИФИКАЦИЕЙ, требующей следующих шагов:
1) В юридическом плане требуется запросить разрешение от автора (правообладателя) на само выполнение подобных работ, а если планируется
Глава 2. Конструкция и конструирование измерительных тестов
187
тиражировать созданную методику, то на право распространения.
Следует быть готовым к тому, что передача последнего права — права
распространения — крайне редко осуществляется безвозмездно. В лицензионном договоре в этом случае возникает пункт об отчислении
«комиссионных» (они называются также термином «роялти», означающим определенный процент за каждую проданную копию в пользу
автора исходной версии методики).
2) В методическом плане следует готовиться к значительной работе, требующей высокой квалификации, — к работе по перепроверке надежности и репрезентативности теста, по реконструкции теста по содержанию заданий, если обнаруживаются «выпадающие задания» и т.п.
Что касается пользователей адаптированных версий, то им со своей
стороны тоже необходимо проявлять и грамотность, и бдительность. Грамотность — в отношении сведений о произведенных автором адаптации
работах по перепроверке психометрических свойств, которые должны
быть обязательно включены в пересмотренное методическое руководство пользователя. А бдительность — в отношении лицензионной чистоты
предлагаемой адаптированной версии: имеется ли у автора адаптации
официальное разрешение от автора (правообладателя) исходной версии?
Как правило, если такое официальное разрешение имеется, автор всегда
указывает на это в методическом руководстве сразу же на первой странице (включая дату подписания лицензионного договора или разрешения).
Чем локализация отличается от адаптации?
В последние годы в связи с общей тенденцией к глобализации всех
информационных и финансово-денежных потоков в мире возникла иная
практика приспособления тестов к национальным условиям. Для ее обозначения используется уже не термин «адаптация», а термин «локализация». Чем же они отличаются? Если в случае адаптации работы по реконструкции методики проводит, как правило, местный специалист, получающий на ведение этих работ разрешение от зарубежного коллеги, то в
случае локализации эти работы проводит сама компания-разработчик
исходной версии. Эта компания просто берет к себе в штат специалиста,
владеющего на уровне родного языком той страны, на которую нацелена
локализация. Этот специалист и производит все те же работы, которые
подразумеваются в ходе адаптации: переводит инструкцию и тестовые
задания, собирает данные на испытуемых из целевой страны, анализирует эти данные, вносит определенные коррективы в пункты теста в соответствии с результатом этого анализа. Чисто технически пилотное обследование с использованием первой версии «локализованного теста» осуществляется в наше время, как правило, в онлайн-режиме. Кстати, очень
188
Практическая тестология
похожим образом крупнейшие мировые разработчики программного
обеспечения (такие как Microsoft, Google, Facebook) в наше время осуществляют языковую адаптацию своих программных продуктов — с помощью
сотрудников-билингвов, нанимаемых в штат самой компании и находящихся либо непосредственно в центральном офисе, либо в офисе-представительстве компании в целевой стране.
Совершенно очевидно, что стратегия локализации с точки зрения интересов исходного разработчика теста имеет ряд методических и коммерческих преимуществ:
1) Вся работа осуществляется в самой штаб-квартире под непосредственным методическим надзором главных специалистов компании-разработчика, перед которыми постоянно отчитывается исполнитель программы локализации.
2) Компания-разработчик сохраняет за собой в ПОЛНОМ ОБЪЕМЕ все
коммерческие права на созданный продукт — на локализованную версию.
Есть ли у этой стратегии минусы и свои риски? Конечно, есть. Опыт
показывает, что все-таки в этом случае достигается не настолько глубокая
переработка теста, как та, которую проводит национальный специалист,
вкладывающий в свою работу не только свои силы, но и свою творческую
репутацию, относящийся к результату своей работы как к авторской модификации, а не как к «техническому заданию», спущенному наемному
работнику.
По-видимому, одной из первых профессионально адаптированных
психодиагностических методик в России стал известный тест-опросник
тревожности Спилбергера-Ханина (Ханин, 1983). При этом фамилия
Ю.Л. Ханина по праву попала в название русскоязычной версии этого
тест-опросника рядом с фамилией автора исходной англоязычной версии, ибо Ханин проделал работу по адаптации, сопоставимую с созданием модификации. В то же время объем коррективов, которые обычно вносятся в методику для ее локализации, нельзя назвать модификацией. Эти
коррективы обычно не затрагивают более 5 процентов тестовых заданий и
касаются только их формулировок. В ходе локализации, как правило, стараются оставить неизменной структуру первичного протокола ответов, не
меняя число пунктов и фактически не меняя ключ к тесту (распределение
пунктов по шкалам). Это делается для того, чтобы все массивы протоколов,
собранные по всем локализованным версиям, можно было объединить
в единую базу данных и подвергнуть единой статистической обработке,
позволяющей выявить «страновую специфику» формальными методами (свести различия к различиям в нормах, а не в ключах). Адекватный
термин для версии, которая возникает в результате модификации, — это
производная версия (дериватив), но не модификация. А иногда национальная версия принимает в результате локализации вид так называемой
Глава 2. Конструкция и конструирование измерительных тестов
189
«параллельной формы» теста: в параллельных формах, которые часто применяются для проверки устойчивости индивидуального профиля, структуры ключей должны быть тождественными.
Модификация и разработка аналога
Нередко на рынке методик появляются тестовые методики, авторы
которых указывают в аннотации, что они являются АНАЛОГАМИ определенных известных методик. Давайте разберемся, что такое аналоги и чем
они отличаются от адаптации и модификации.
Аналоги — это методики, направленные на решение примерно того
же самого круга задач, на измерение тех же самых свойств, что и оригинальные методики, но с помощью другого набора эмпирических индикаторов (вопросов-заданий), а иногда и совершенно другой структуры теста,
другого формата заданий и методического приема. Рассмотрим в качестве
примера сразу такой случай, когда методика является бесспорным аналогом. Существует всемирно известная шкала MAS Жанет Тейлор для измерения тревожности (50 вопросов, отобранных из перечня MMPI). Пусть
некто П.П. Петров взялся создавать компьютерно-игровую методику, поставив перед собой целью добиться максимальной конвергентной валидности (совпадения результатов) между методикой Тейлор и новой игровой
методикой. Конечно, в этом случае никто не будет называть методику Петрова модификацией, ибо в ее основе лежит другой диагностический прием — компьютерная игра, а не тест-опросник. А аналогом эта методика
является потому, что сам автор заявляет, что она имеет ту же самую «область валидности» (диагностирует тот же самый круг свойств и сферу их
проявления), что и оригинальная методика. Впрочем, этот случай более
корректно называть не просто аналогом, а функциональным аналогом,
ибо структурно методика выглядит совершенно по-другому.
Несколько более сложной для анализа оказывается ситуация, когда
Петров П.П. создает не игровой тест, а тоже создает тест-опросник, но берет при этом совершенно иной набор вопросов. Как правильнее это называть — модификацией или аналогом? Это не просто терминологический
вопрос, а этический и коммерческо-правовой. Если это модификация, то
ее автор должен предъявить пользователям договор (разрешение) с автором исходной версии, если же это аналог, то такой договор совсем не является обязательным.
Автору книги довелось обсуждать эту проблему — разграничения между
модификацией и аналогами — не только с отечественными, но и с зарубежными специалистами, возглавляющими тестологические организации в
своих странах (Великобритания, США, Нидерланды, Германия) и имеющими богатый опыт посредничества при возникновении профессиональных
споров. Есть, по крайней мере, два не слишком четких и формализованных,
190
Практическая тестология
но все же разумных ориентировочных критерия для разграничения этих понятий в тех случаях, когда две методики используют один и тот же диагностический прием (один и тот же формат тестовых заданий):
1) Несовпадение структуры двух тестов по числу заданий в тесте в целом
и числу заданий, относящихся к разным субшкалам. Модификация
может обладать, но может и не обладать этим признаком, а аналог обязан быть структурно иной методикой.
2) Аналоги не могут полностью избежать частичного совпадения какихто вопросов в личностных тест-опросниках, ибо сами вопросы нередко
повторяются в методиках, направленных на диагностику совершенно
концептуально различных диагностических свойств, но все-таки в методике-аналоге по сравнению с исходной версией более 50 процентов
вопросов (больше половины) должны быть оригинальными.
Впрочем, в некоторых спорных ситуациях эти 2 формальных признака могут быть признаны экспертной комиссией недостаточными, и методика, претендующая на статус аналога, все-таки может быть признана
модификацией (со всеми вытекающими обязательствами перед автором
исходной версии).
Разговор о том, где проходят границы между деривацией, модификацией и аналогом, полезен не только разработчикам, но и широкому кругу
пользователей тестовых методик. Пользователи смогут лучше ориентироваться в мире тестовых методик, разбираясь в обоснованности претензий
того или иного распространителя, которые, увы, иногда присваивают себе
права и ярлыки (в названии распространяемых методик), коих они никак
не заслуживают. Но дело не только в обеспечении лицензионной чистоты.
Анализ этих различий помогает пользователям лучше разбираться во внутренней конструкции тестов в принципе.
Надо подчеркнуть, что проблема аналогов существует не только в области психологической диагностики, но, разумеется, и в области педагогических предметных тестов. Вот создаются разными авторскими коллективами 2 скоростных теста (или 2 банка заданий) для измерения «арифметической компетентности» (арифметических способностей или умений
в области арифметики). Какова вероятность того, что авторы совершенно
независимо друг от друга «изобретут» и включат в свой тест, например,
такой вопрос «Сколько будет 7 умножить на 8?» (это, кстати, одна из известных «трудных клеточек» а таблице умножения). Конечно, эта вероятность
невелика, но она есть, то есть она — не нулевая. Следует ли из самого факта буквального совпадения отдельных заданий делать вывод о том, что тот
тест, который появился позднее, является модификацией теста, появившегося ранее? Очевидно, что ответ на этот вопрос зависит от доли тех заданий,
которые повторяются. Если доля таких повторяющихся заданий заведомо
велика, то мы должны признать факт модификации или… частичного плагиата (несанкционированного заимствования отдельных заданий).
Глава 2. Конструкция и конструирование измерительных тестов
191
Охраноспособность отдельных компонентов теста
Наличие множества модификацией и аналогов наиболее популярных методик (только различных психометрических тест-опросников на
тревожность в мире насчитываются сотни!) в области психодиагностики
создает большие сложности не только для пользователей-практиков, но и
для юридических служб, призванных добиваться лицензионной чистоты
методик, которые приобретает и внедряет у себя определенная организация. Как реакция на эту ситуацию возникает иллюзорное представление
о том, что психодиагностический тест — это вообще не предмет авторского права, ибо он не обладает признаками «охраноспособного объекта» —
такого, оригинальность которого может быть установлена объективными
методами. Но такой вывод — это, очевидно, другая крайность (как крайность — увидеть в каждой методике с оригинальным названием оригинальный инструмент).
Какие же компоненты (и в каких тестах) на сегодняшний день признаются бесспорно охраноспособными? Легче ответить на этот вопрос на
самом деле методом исключения, то есть вначале перечислить те компоненты, которые заведомо не являются охраноспособными, то есть не могут быть объектом авторского права:
1) Перечень тестовых шкал с их названиями НЕ является охраноспособным компонентом теста. То есть, если какой-то автор при разработке
аналога берет и повторяет тот же самый перечень, он вправе это делать
без разрешения от автора оригинальной методики (или просто другой
существующей версии). Диагностические концепты в тестовых методиках — это целевые функции. На достижение тех же самых целей
могут быть направлены и другие методики. В фармакологии есть понятие лекарства-аналоги (не путать с более специальным термином
«лекарства-дженерики»): они просто направлены на лечение от одного
и того же заболевания или группы симптомов (от боли в голове). «Боль
в голове» не образует авторского конструкта, который бы охранялся законом об авторском праве.
2) Многие краткие вопросы в личностных тест-опросниках НЕ являются охраноспособным объектом. Например, из одного тест-опросника в
другой могут «гулять» одни и те же расхожие поговорки и другие элементы фольклора. «Семь раз отмерь, один — отрежь» — классический
пример поговорки, обладающей обоснованной нагрузкой по факторной шкале «Самоконтроль» в психодиагностическом тест-опроснике.
Или другой пример подобного расхожего суждения: «Уходя из дома, я
проверяю, выключены ли бытовые приборы из сети».
3) Многие тестовые задания по типу «задача для решения» в тестах на
способности и умения (в тестах достижений), особенно если они касаются универсальных областей знаний, не являются охраноспособным
объектом (выше приводился пример с умножением 7 на 8).
192
Практическая тестология
4) Краткие тестовые задания в методиках типа «шкалирование», которые
фактически сводятся к использованию одного слова, НЕ являются охраноспособным объектом (ибо никто не имеет исключительных прав
на использование определенных слов естественного языка). Вот для
примера каковы формулировки пунктов в упомянутой шкале Спилбергера-Ханина: «Я спокоен», «Мне ничего не угрожает», «Я нахожусь в
напряжении». В очень близких формулировках эти пункты встречаются во множестве других тест-опросников и шкал. Ключевые по смыслу
слова здесь — «спокойствие», «угроза», «напряжение» и т.п.
Все перечисленные компоненты могут повторяться в разных тестах
и тестовых шкалах подобно тому, как одни и те же детали и узлы в автомобиле тоже могут повторяться (разные фирмы-производители могут
ставить одни и те же детали от одних и тех же поставщиков). Другие примеры — повторяемость одних и тех же пищевых продуктов в различных
кулинарных изделиях (блюдах) или повторяемость одних и тех же нот в
различных музыкальных произведениях (в различных мелодиях).
Но целостный тест — это определенная структура связей, он не сводится к перечню отдельных элементов (компонентов), подобно тому, как
мелодия не сводится к набору нот, из которых она выстроена.
На фоне этих компонентов теперь нам проще перечислить те, которые
образуют набор вполне охраноспособных объектов:
1) Визуальные изображения (в общем случае мультимедийные) в тестовых
заданиях, как правило, являются охраноспособными, подобно тому, как
пользуется охраноспособностью логотип (товарный знак компании).
2) Сложный авторский повествовательный текст (на несколько строк, как
минимум), дающий развернутое описание какой-то проблемной ситуации (кейс) является охраноспособным объектом (как любой короткий
рассказ). Исключение — расхожие анекдоты, пришедшие из фольклора.
3) Ключ к тесту (!). Он тоже является охраноспособным, ведь это вполне
формальная система весовых коэффициентов, связывающих ответы на
тестовые задания с тестовыми шкалами. Ключ — это не менее формализованный объект, чем исходный текст какой-нибудь программы для
ЭВМ. Поясню, что при регистрации авторского свидетельства на программу для ЭВМ требуется приложить к заявляемым материалам значительный фрагмент исходного текста программы, написанный на
алгоритмическом языке (sourcecode). Именно этот текст служит основанием для принятия решения об оригинальности программного продукта в случае возникновения споров. Хотя ключ к тесту — это скорее
база знаний, чем сама по себе программа для ЭВМ.
4) Развернутые повествовательные авторские интерпретирующие тексты к тестовым шкалам и профилям также являются охраноспособным объектом.
Глава 2. Конструкция и конструирование измерительных тестов
193
Почему я в этом руководстве вынужден уделить столь большое внимание этим вопросам, которые лежат как бы не в центре содержательнометодических проблем, а касаются проблемы инфраструктурной организации тестологии как некой области профессиональной деятельности?
Во-первых, потому что они до сих пор вызывают разногласия даже в среде опытных отечественных специалистов (см. дискуссии в блогосфере на
сайте www.ht.ru, на которые я уже ссылался). Во-вторых, потому что без
решения этих вопросов трудно создать объективную систему сертификации методик, а значит, сориентировать пользователя методик на высокие
стандарты качества и отделить хорошие образцы от всевозможных «подделок» и «самоделок».
2.6. ПРОФЕССИОНАЛЬНЫЕ СТАНДАРТЫ
И СЕРТИФИКАЦИЯ ТЕСТОВ
Любая система сертификации качества базируется на определенных
стандартах качества. Не имея подобных утвержденных стандартов, сообщество профессиональных разработчиков и профессиональных пользователей тестов не имеет ясных документированных и объективированных
ориентиров для решения многих вопросов и, в частности, вопросов о том,
какие методики считать пригодными для практического применения,
какие — не удовлетворяющими стандарту.
В России только в самом конце прошлого века были совершены определенные систематические усилия по созданию системы сертификации
тестовых методик. В области педагогического тестирования следует отметить, прежде всего, Комиссию по сертификации педагогических тестовых
материалов, созданную еще при Минобразования РФ главным образом по
инициативе В.И. Звонникова и М.Б. Челышковой (см. «О сертификации…»,
2000). По гиперссылке, указанной в списке литературы (на портале www.
edu.ru), любой читатель без труда может познакомиться c теми требованиями к ПТМ (педагогическим тестовым материалам), которые сформулированы в прилагаемом к приказу перечне документов и материалов. Эти
документы необходимо приложить к заявке на сертификацию со стороны
автора (авторского коллектива), разработавшего методику или банк заданий. Перечень этот столь обширен и требования к самому комплекту документов столь завышены, что проницательному читателю, знакомому с
реалиями российской системы образования, становится быстро понятно,
почему нет особого потока желающих пройти подобную сертификацию (а
ведь мало собрать документы, надо за экспертные услуги по сертификации еще и заплатить). Очень многие реальные коллективы не готовы предоставить этот пакет документов даже в том случае, если кто-то им самим
заплатит за эту работу, и тем более они не готовы потратить собственные
средства, чтобы за это заплатить. Так что определенный опыт создания
194
Практическая тестология
подобных комиссий имеется (членом некоторых до сих пор является автор этих строк), но не найдена еще такая эффективная формула «финансового рычага», который бы сдвинул маховик сертификации с мертвой точки. Сказываются ограниченные тиражи ПТМ (по сравнению, например, с
психодиагностическими методиками), их зависимость от методических
и административных традиций, установившихся в конкретном образовательном учреждении. Поэтому не случайно, что дальнейшие усилия по
развитию концепции оценки качества тестовых материалов указанные
специалисты направили на разработку более обширной системы, но локализованной не в масштабе страны, а в масштабе отдельного образовательного учреждения — Системы Менеджмента Качества (СМК) в конкретном
вузе (Звонников, Челышкова, 2012).
Тем временем дефицит четких и общепринятых стандартов тестирования в области образования проявляется в том, что в вузовских положениях по поводу так называемого «Фонда оценочных средств» (ФОС) царит
до сих пор поразительный разнобой. Во многих таких документах тесты
как «оценочное средство» либо не упоминаются вовсе, либо упоминаются слишком коротко и без всякой конкретики. Зато в других вузах вместо
стандартов (методических принципов) мы получаем слишком конкретные и частные таблицы, описывающие качественно-количественный состав банков тестовых заданий: столько-то заданий по такой-то теме в рамках данной учебной дисциплины и т.п. При этом нередко сами понятия
«банк и вариант» не разводятся и остается непонятным, сколько заданий
предусмотрено в сеансе тестирования.
Как видим на примере таблицы 2.11, в «одном пакете» упоминаются
совершенно различные оценочные средства, и на необходимую конкретику относительно тестовых заданий просто не хватает места в таблице.
В другом месте того же документа, утвержденного в РГУТИС (см. Методические рекомендации…, 2012), перекочевавшего нередко с небольшими
изменениями в положения о ФОС других вузов, мы находим следующие
указания насчет пределов продолжительности тестового экзамена и «предела длительности» ответа на один вопрос: 80 минут на экзамен и 2 минуты на один вопрос. Из чего косвенно можно заключить, что вопросов в
одном сеансе может быть вряд ли меньше 40 и вряд ли более 160. Видимо,
40 — это то, что годится для текущего контроля по одной теме и затем вносит какой-то вклад в суммарный итоговый балл в логике «портфолио». Я
лично уверен, что разнобой не столько отражает отраслевую специфику
профессиональных знаний в различных вузах, сколько различия в представлениях о стандартах у авторов подобных документов.
В области психодиагностики огромную работу не только по созданию
нормативной базы, но и по запуску системы сертификации тестовых методик проделал в 2000-е годы руководитель Комиссии по психодиагностике
при Российском психологическом обществе (РПО), декан факультета психологии Южно-Уральского университета профессор Н.А. Батурин. На сайте
Глава 2. Конструкция и конструирование измерительных тестов
195
Структура фонда оценочных средств для текущей аттестации по ФГОС (РГУТИС)
ООП: 080100.62 Экономика
Дисциплина: Макроэкономика
№
П
КонтролируеКонтролируемые бло- мые компеки (темы) дисциплины тенции (или их
части)**
1
Предмет и методы
макроэкономики
ОК — 1—4
Кол-во
тестовых заданий
39
Другие оценочные средства
Вид
Комплект тематик
круглых столов.
Комплект тематик для
дискуссий.
1
12
2
Макроэкономическое
равновесие
ПК-1—4
25
Комплект типовых
задач.
Комплект тематик для
кейс-метода.
3
Денежно-кредитная и
фискальные политики
государства: сущность, виды, методы
ПК-4—7
40
Комплект типовых
задач.
Комплект тематик для
метода проектов
Мировые экономические отношения
ПК-8—10
4
Всего:
37
Кол
во
Комплект типовых
задач.
Комплект тематик для
мозгового штурма.
1
5
19
1
21
2
141
Таблица 2.11. Образец существующей регламентации количества тестовых
заданий в российском высшем образовании (РГУТИС — Российский госуниверситет туризма и сервиса).
Научно-образовательного центра «Психодиагностика» www.cc.psytest.ru,
созданного при этом университете, размещены Положение о системе добровольной сертификации в области практической психологии, образцы
документов для прохождения сертификации, а также реестр первых сертифицированных методик. Там же можно найти статью ведущего разработчика британской концепции стандартов качества тестов (Бертрам, 2011),
которая в настоящее время легла в основу стандартов, принятых в Европейской Федерации психологических ассоциаций (EFPA), а также временных
стандартов комиссии по сертификации методик в РПО (наряду с нормативными документами таких организаций, как International Test Commission
и American Psychological Association). На этом же сайте yearbook.psytest.ru
освещается деятельность редколлегии «Ежегодника профессиональных
рецензий и обзоров» в области психодиагностики (Ежегодник, 2010). Издание первого тома Ежегодника в 2010 году (включившего 40 рецензий, написанных 40 разными специалистами на 20 отечественных оригинальных
и адаптированных методик) ознаменовало собой знаковую веху в консолидации психодиагностического сообщества в России и ключевой этап в
196
Практическая тестология
создании системы сертификации методик. Основными критериями для
оценивания (рецензирования) методик стали закономерным образом критерии оценки качества психометрических параметров этих методик — надежности, валидности и репрезентативности.
Там же, на сайте cc.psytest.ru можно найти полный текст Временного стандарта требований к психодиагностическим методикам (Стандарт,
2012), в разработке которого принимал участие автор книги. Значительный
фрагмент этого объемного документа опубликован нами в Приложении к
настоящей книге с любезного разрешения Комиссии по психодиагностике
РПО. Точную ссылку на полный текст в Интернете читатель может найти в
библиографии (веблиографии). Следует также сделать оговорку: текст стандарта — это рабочий документ, в который во всем мире сертифицирующие
организации вносят регулярно немало поправок. Так что вполне естественно, что уже через 2—3 года после выхода этой книги опубликованный на
сайте стандарт претерпит какие-то ощутимые изменения.
В последнее время в России стали все чаще напрямую применяться в разных отраслях стандарты ISO (the International Organization for
Standardization, сайт www.iso.org) — прежде всего, для систем управления качеством и экспертизы качества продукции. Вопросы тестирования и оценки персонала там стали освещаться лишь в самое последнее
время. Определенного внимания заслуживает документ, принятый в 2011
году под кодовым названием ISO 10667 «Предоставление услуг по оцениванию — процедуры и методы оценки людей на работе и в организационных условиях». В приложении к этому документу в качестве требований к сопроводительной технической документации упоминается обязательность включения разработчиком измеренных психометрических
свойств — валидности, надежности и достоверности (fairness). Хотя никаких количественных пороговых значений и указаний на точные названия психометрических процедур для измерения этих свойств в стандарте
10667 не содержится, но все же само упоминание этих свойств знаменует
собой определенный шаг в международном признании измерительных
тестовых технологий. На русском языке многие переведенные документы ISO можно найти на сайте организации «Стандартинформ» (точная
ссылка — http://www.vniiki.ru/document/4686056. aspx).
2.7. СТАНДАРТЫ В ОБЛАСТИ АТТЕСТАЦИОННЫХ
ЭКЗАМЕНАЦИОННЫХ ТЕХНОЛОГИЙ.
Судя по доступным Интернет-ресурсам, в области экзаменационных
технологий определенной вехой в российской стандартизации в области
оценки персонала, скорее всего, можно считать принятые в 2006 году «Правила аттестации персонала испытательных лабораторий». Эти правила затем стали воспроизводиться в аналогичных документах не только в области
Глава 2. Конструкция и конструирование измерительных тестов
197
электротехники, но и для других отраслей, прежде всего, подконтрольных
Гостехнадзору. Эти правила согласованы с международными стандартами
серии ISO 9000, ISO 14000, ISO 17000. В этом нормативном документе экзамен делится на три этапа: общий (как правило, он проводится в форме тестирования), специальный (как правило, проводится в виде письменного
экзамена) и практический (как правило, проводится в устном формате).
Этапы проводятся в разные дни, так как, например, на практическую часть
нередко отводится целый день. Первые два этапа вносят вклад в суммарную оценку с весом по 0,25, заключительный этап — с весом 0,5.
В приложении 6 к указанным правилам приводятся «Требования по
минимальному количеству вопросов на экзаменах». В качестве ориентира
для общего экзамена (первого этапа) дается следующая таблица:
Методы испытаний
Общее количество вопросов в сборнике, не менее
Уровни
квалификации
1. Статические испытания
80
20
30
30
2. Динамические испытания
80
20
30
30
3. Измерения твердости
60
15
25
25
4. Испытания на коррозионную стойкость
60
15
25
25
5. Технологические испытания
60
15
25
25
6. Анализ материалов
(металлографические исследования)
80
20
30
30
7. Спектральный анализ (в том числе
стилоскопирование)
60
20
30
30
8. Химический анализ
80
20
30
30
9. Специальные испытания
60
15
25
25
Таблица 2.12 Пример минимальной численности вопросов общего сертификационного экзамена для персонала испытательных лабораторий.
Как видим, здесь допускается не пятикратное, а четырехкратное превосходство банка заданий над вариантом, а для более высоких квалификационных уровней 2 и 3 — менее, чем трехкратное, что, по нашему мнению, явно
недостаточно для информационной безопасности. Но главное не это, а количество вопросов в варианте. По каждой теме требуется не менее 15 вопросов. Итого в таблице 2.12 получаем 160 вопросов по девяти темам (для самого низкого
первого квалификационного уровня). Совершенно очевидно, что такое количество вопросов в разумное время экзаменуемому можно предъявить лишь в
тестовой форме — с вариантами ответа на выбор. Об этом же говорят заданные
в стандарте временные лимиты: «7.8.1. При проведении общего и специального экзаменов среднее значение времени ответа на один вопрос должно быть не
198
Практическая тестология
более: двух минут для общего экзамена и трех минут для специального экзамена. Для вопросов, требующих письменного ответа,— 10 минут на вопрос».
Увы, ничего не говорится о продолжительности экзамена в целом, но вряд ли
он может продолжаться более пяти часов (160 заданий по 2 минуты дают нам
уже 320 минут). Это означает, что лимит на общую продолжительность экзамена должен быть задан отдельно, что пока в стандарте не сделано.
Весьма спорным мне (автору книги) представляется упоминающийся
в подобных отечественных документах порог для зачета (для выдачи сертифицирующего документа): он устанавливается на уровне 80 процентов
от максимальной суммы по трем этапам и при этом не ниже 70 процентов от максимального результата по каждой части (этапу) комплексного
экзамена. В применении к первому этапу это означает 70 процентов правильных ответов из 160, то есть 112 правильных ответов. Это, по нашему
убеждению, малореалистичное требование для страны со слабыми традициями проведения и организации тестовых экзаменов. Автор имеет
основания опасаться, что такое требование на фоне слабой организационной дисциплины (в обеспечении секретности) и при бланковом проведении тестов может скорее спровоцировать всех участников процесса на
подтасовки. Особенно, если у обладателей двух-трех вариантов возникает
ощущение, что их варианты вместе охватывают весь банк заданий. В последующих главах мы будем говорить о том, что в первые годы тестовые
экзамены должны внедряться значительно мягче по количественным параметрам, но так, чтобы ни у кого не возникло иллюзии, что весь банк заданий можно получить и выучить (или изготовить шпаргалки).
Вообще стандарты ISO разных серий, очевидно, слишком сильно варьируют в связи с отраслевой спецификой, хотя с точки зрения психофизиологии во всех этих отраслях должны подвергаться экзаменованию
(тестированию) люди со сходными возможностями. Например, в международном документе «IT Service management ISO/IEC 20000» мы находим
такие совершенно иные, явно более доступные требования к параметрам
сертифицирующего (аттестационного) экзамена: экзамен продолжается
30 минут, содержит 20 вопросов, и «проходной балл» (pass mark) соответствует 13 правильным ответам из 20 (65 процентов). Причем, в документе
явно указывается, что экзамен проводится с предъявлением вопросов в
формате выбора ответа (MC-item). Тут уж нам приходится сказать, что 20
вопросов — это достаточно для одного тематического блока, но явно мало
для положительного решения вопроса об аттестации в целом (возможно,
что автор каким-то образом знаком не с полной версией документа) 53. Оп53
При этом следует вспомнить, что в тестовом экзамене на знание правил дорожного движения для получения водительских прав в России только 20 тестовых заданий, а проходной
балл — 90 процентов. В Англии для водительских прав категории В (легковые автомобили)
вопросов 50, и порог сдачи — 43 правильных ответа (то есть 86 процентов), а для категории
С (грузовики) вопросов 100, и проходной балл 85. — Прим. науч. редактора.
Глава 2. Конструкция и конструирование измерительных тестов
199
тимум, по нашему глубокому убеждению, — это количество вопросов от 50
до 100, то есть не менее 50 и не более 100. Меньше 50 — это слишком мало
с точки зрения статистики, а больше 100 — это слишком много с точки
зрения психофизиологии. При наличии 160 заданий, по нашему мнению,
надо устраивать два сеанса с восстановительным отдыхом между ними.
Разумная продолжительность сеанса тестирования, по нашему опыту,
находится действительно в пределах 80 минут, особенно если речь идет
об утомительном тестировании в режиме диалога с компьютером. Это,
кстати, удобный лимит для планирования последовательных сеансов в
компьютерных классах по 1,5 часа на каждый сеанс (10 минут на «подходотход»). За это время можно предъявить не более 100 заданий — в среднем
примерно по 45—50 секунд на одно задание. В следующей главе 3 мы будем
знакомить читателя с заданиями, имеющими более сложную логико-семантическую структуру, чем простейшие фактологические или терминологические задания с выбором одного ответа. Продолжительность времени решения одного такого задания заведомо более 30 секунд. Так что 160
заданий в одном сеансе — это, по нашему мнению, опять-таки «пограничная возможность» лишь в том случае, если используются только задания
простейшего логико-семантического типа, требующие не более полминуты на решение (так что общий лимит на сеанс опять-таки укладывается
в 80 минут). В главе 5 мы рассмотрим, как применение компьютерного
адаптивного тестирования сокращает число заданий в сеансе — достигается требуемый уровень надежности и валидности результатов при сокращении числа заданий в 2 и более раз.
Следует в заключение подчеркнуть, что сказанное в этом параграфе относится именно к аттестационным, а не к конкурсным экзаменам.
Последние должны базироваться не на абсолютных (сформулированных
в виде процента правильных ответов), а на относительных тестовых нормах (в виде процентильных долей от числа участников). В главе 4 мы подробнее остановимся на методах и процедурах, связанных с применением
относительных (статистических) тестовых норм.
200
Глава 3.
Разработка тестовых заданий
и образцы заданий
Данная глава в большей мере, чем другие, ориентирована на авторов — разработчиков тестовых заданий. Но первый раздел этой главы
адресован не столько авторам как таковым, сколько тем менеджерам-координаторам, которые призваны организовать и скоординировать работу
авторов. В небольших тестовых проектах (которых много) роли автора и
менеджера-координатора совпадают в одном лице. Но в больших проектах
это, как правило, разные лица. В этой главе речь идет о разработке тестов
вообще, без учета специфики учебных заведений (о внедрении тестов в
вузы см. главу 7).
Качество тестов во многом зависит от качества тестовых заданий.
Если задания качественные, то имеет смысл добиваться решения организационно-технических проблем, преодолевая на этом пути определенные
трудности. Но если задания некачественные, то, как ни старайся, добиться хороших, валидных результатов с помощью одной только грамотной
организации и передовых технических решений не удастся.
Является ли разработка тестовых заданий в известной степени искусством? Да, многое зависит здесь от таланта исполнителя — от того, насколько изобретательным и опытным человеком является конкретный автор (или авторский коллектив). Но сейчас принципы создания качественных заданий изучены так хорошо, что разработка заданий из искусства
постепенно превращается в некую «науку» — в том смысле, в каком в слове «наука» присутствует элементы воспроизводимого мастерства, то есть
этому можно научить: сформулировать универсальные принципы, правильно организовать работу авторов, научить их работать со статистическими данными, пользоваться обратной связью о качестве тестовых заданий. И тогда качество заданий и само собой качество теста в целом будет
постоянно улучшаться. Все эти принципы открыты вовсе не автором этой
книги, но мной применены на опыте тех проектов, которыми много лет
мне довелось систематически заниматься, в том числе при обучении студентов конструированию тестов. Эти принципы и методы подтвердили
свою состоятельность — качество тестов при грамотной работе по отбору
и улучшению заданий объективно может быть повышено, что измерено с
помощью количественных параметров надежности и валидности создаваемых тестов в их последовательных версиях.
Глава 3. Разработка тестовых заданий и образцы заданий
201
3.1. ОПЕРАТИВНОЕ КОНСТРУИРОВАНИЕ КБТЗ
(БАНКА ЗАДАНИЙ)
В настоящем руководстве авторский цикл разработки теста рассматривается в контексте подхода, который сводится к созданию авторами не самих
авторских тестов (от первого до последнего задания), а созданию отдельных
заданий для Компьютеризированного Банка Тестовых Заданий (КБТЗ).
Конечно, целый ряд принципов и приемов работы авторов, описанных
в настоящей главе, пригоден и для более традиционной стратегии, предполагающей создание авторами целостных вариантов теста по модели, разработанной менеджером проекта (тестологом) и утвержденной в организации
некой службой оценки качества (частный случай — аттестационная комиссия). Но в настоящее время более предпочтительным выглядит подход, при
котором авторы привлекаются к наполнению банка заданий, а варианты
из банка формируются автоматизированно — на основе определенной компьютерной программы генерации (сборки) вариантов.
На рис.3.1 дается упрощенная схема информационных потоков, которая применяется в рамках концепции КБТЗ: вначале авторы наполняют
банк заданиями, а затем они же превращаются в экспертов, которые осуществляют «перекрестную экспертизу» — оценивают задания, введенные
в банк другими авторами. В результате ошибочные задания исключаются
из банка или корректируются.
ǨȊȚȖȘ
ǩȈȕȒ
ȏȈȌȈȕȐȑ
ȅȒșȗȍȘȚ
ǪȈȘȐȈȕȚ
ȚȍșȚȈ
ǨȌȔȐȕ
ǰșȗȣȚțȍȔȣȑ
ǸȍȏțȓȤȚȈȚȣ
ȚȍșȚȈ
Рис.3.1. Упрощенная схема информационных потоков в концепции КБТЗ.
202
Практическая тестология
Формирование авторского коллектива
В каждой организации существуют свои особенные требования к
уровню и содержанию знаний специалистов. Соответственно, тесты знаний, создающиеся для организации, должны отражать эту специфику.
Поэтому для создания банка заданий вполне естественно привлекать авторов из числа специалистов организации. Именно они призваны внести
в банк заданий учет специфики производственных процессов, утвердившихся в данной организации. Однако авторский коллектив, конечно, нецелесообразно ограничивать ТОЛЬКО внутренними экспертами (сотрудниками самой организации). Если есть малейшая возможность привлечь
«внешних авторов» (сотрудников других организаций), то этим следует
воспользоваться.
Создание тестовых заданий — как правило, новая и сложная область
деятельности для сотрудников организации. Даже в вузах возникают с
этим трудности. Многие преподаватели полагают, что они умеют создавать качественные тестовые задания просто на том основании, что у них
есть богатый педагогический опыт или опыт создания методических текстов, но это иллюзия. В работе над заданиями требуются особые навыки,
которые можно обрести лишь в процессе этой работы. Чтобы научиться
плавать, в конце концов, надо погрузиться в воду. Но и при наличии четкой задачи, хорошо организованной среды для этой работы автором тестовых заданий может стать не каждый сотрудник, а лишь тот, кто отвечает
определенным требованиям:
1) Отличная осведомленность в той области знаний, для которой формируется тест.
Для определения в организации носителей профессиональных
(корпоративных) знаний целесообразно использовать следующий метод. Руководитель направления в интервью должен назвать пять имен
своих сотрудников, к которым он мог бы обратиться за советом в сложной ситуации. Затем пять сотрудников, которых он назвал, отвечают
на тот же вопрос. Через несколько таких туров опроса круг называемых имен замыкается, и таким образом мы получаем перечень имен
сотрудников данного направления — носителей корпоративного знания (то есть профессиональных знаний, важных именно для данной
компании). Из этого списка по остальным критериям можно выбрать
экспертов для создания тестовых заданий.
2) Опыт работы в направлении, для которого формируется тест, — от 1
года.
3) Хороший потенциал аналитических и вербальных способностей.
Наилучшим способом оценки будет использование универсальных IQтестов, но наиболее доступным по времени и стоимости использования при небольшом числе оцениваемых, как правило, является метод
экспертной оценки (со стороны руководства и HR-специалистов).
Глава 3. Разработка тестовых заданий и образцы заданий
203
4) Наличие у сотрудников на текущий момент достаточного рабочего времени для подобной работы. Следует учесть, что для создания 50 тестовых заданий требуется не менее 5 рабочих дней (одной рабочей недели)
даже у опытных разработчиков заданий.54 При этом следует учесть, что
без отрыва от основных производственных обязанностей эти 5 дней выделяются не компактно, а растягиваются на целый календарный месяц.
5) Желательно привлечение к созданию тестовых заданий не только специалистов по данному направлению, но и руководителей подразделений.
Очень вероятно, что они будут претендовать на роль экспертов, но не на
роль авторов. Надо заручиться поддержкой высшего руководства, чтобы
добиться того, чтобы руководители подразделений выступили в роли авторов. Именно руководящие работники имеют возможность анализировать работу всех сотрудников, видеть больше «проблемных мест» и, тем
самым, иметь больше материала для формирования тестовых заданий.
Минимальный разумный авторский коллектив — 3 человека — определяется из таких соображений: если поспорили двое, то третий выступает третейским судьей. Сам координатор за неимением авторов тоже
может войти в авторский коллектив, но при одном существенном условии — он должен разбираться в содержании той деятельности, которая
является предметом тестирования. Это важно не только для квалификационных тестов, но и для социально-психологических тестов: все-таки
координатор должен хорошо понимать на теоретическом уровне тот тестовый конструкт (элемент знания, или психическое свойство), который
планируется измерять с помощью теста. Например, даже такой простой,
с обыденной точки зрения, конструкт как «утомленность работой» состоит из многих компонентов, требующих для их вычленения и понимания
определенной социально-психологической квалификации.
Инструкция (памятка) для авторов тестовых заданий
Авторы должны создать банк заданий (вопросов), как минимум в полтора раза превышающий требуемое техническим заданием количество.
Пусть в варианте (в одном сеансе) планируется предъявлять 50 заданий
(а меньше заданий при квалификационном тестировании предъявлять
54 Есть еще одна тонкая психологическая проблема: наличие у специалиста ЖЕЛАНИЯ расстаться с частью своего персонального опыта. Очень многие опытные специалисты делают
это крайне неохотно, так как осознанно или полусознательно они считают, что, зафиксировав
часть своего опыта в виде каких-то письменных текстов, контрольных заданий и других отчуждаемых материалов, они лишаются в некоторой степени ореола собственной незаменимости в организации (к ним реже будут обращаться за советом, реже привлекать для решения
каких-то проблем и т.п.). Нередко именно эта проблема оказывается неявной, но ключевой
трудностью при формировании авторского коллектива по разработке тестовых заданий.
204
Практическая тестология
просто не рекомендуется), тогда банк, из которого будут формироваться
варианты теста (вручную или случайным образом в автоматизированном
режиме), должен иметь примерно пятикратный запас — от 250 заданий и
выше. Значит, простые расчеты показывают, что перед авторами должна
быть поставлена задача создать примерно 400 заданий. Если авторов всего
трое, то получается примерно 130 заданий на человека. Это примерно три
недели труда с частичным или даже полным отрывом от производства
или почти три месяца без отрыва.
Избыточность первичного авторского банка требуется для того, чтобы иметь возможность выбора тестовых заданий с наилучшими диагностическими свойствами для окончательной версии теста. Поэтому в инструкции (ТЗ) для авторов следует предусмотреть такой объем работы по
количеству тестовых заданий, который учитывает возможный отсев некачественных 25—35 процентов заданий, созданных на авторском этапе
(цикле).55 Авторы должны быть морально готовы к этому отсеву. К тому же
это помогает раскрепостить авторов. Ведь ничто так не подавляет творческую продуктивность как переживание того, что «нет права на ошибку».
Право на создание ошибочных заданий помогает получить на самом деле
самые оригинальные и ценные задания.
Итак, менеджер-координатор проекта должен отразить в рабочей инструкции (памятке) для авторов:
1) Цель и задачи тестирования;
2) Условия работы авторов, сроки и объемы работ;
3) Тексты (или ссылки) документов, в которых изложены квалификационные требования к работникам (студентам), в частности, модель компетенций;
4) Требования к оформлению результатов работы;
5) Форматы требуемых заданий;
6) Допустимую трудность заданий;
7) Образцы заданий, отвечающих требованиям.
Цель и задачи создания теста
Цели могут быть различными. Если мы говорим о применении теста
как инструмента кадрового менеджмента в организации, то кроме стандартных целей (отбор, аттестация, тарификация) возможны более частные
цели, связанные с обучением персонала. Например:
— повысить уровень объективности в оценке персонала (вызывать на комиссии тех руководителей, чьи оценки слишком сильно разошлись с
результатами объективного тестирования),
55
Например, если нужно создать 100 заданий, автору следует поставить задачу подготовить
150, и тогда отсев 33 процентов негодных (то есть 50 заданий) даст нам искомое число годных.
Глава 3. Разработка тестовых заданий и образцы заданий
205
— повысить ответственность за качество обучения у всех участвующих в
подготовке персонала,
— обеспечить совместимость системы оценки профессиональных знаний с современными международными стандартами,
— повысить готовность персонала к повышению требований в условиях
реальной конкуренции, к освоению инновационных технологий и т.п.
Если истинной целью оценки является «тарификация» персонала56, то
ее полезно замаскировать под одну из перечисленных выше — чтобы ослабить возможное напряжение в коллективе, когда внутренним авторам (из
числа сотрудников организации) становятся известны планы руководства
по организации тестирования. Здесь же необходимо уточнить контингент
обследуемых и подразделения, для которых будет применяться созданная методика.
Условия работы авторов
В памятке автору необходимо указать сроки и объем выполнения работ, который утвержден в техническом задании. Необходимо также регламентировать то, в каком помещении авторы вправе выполнять свою
работу и где они хранят свои материалы. Для повышения информационной безопасности целесообразно ограничить возможность сохранения
авторами секретных тестовых заданий на своих компьютерах, жесткие
диски которых открыты для свободного доступа по сети другим сотрудникам. Авторов можно, например, обязать выполнять данную работу на
дому и хранить все материалы дома (исходим из того, что в наше время
уже у всех дома есть компьютер — если не ноутбук, то планшет).
Казалось бы, самый эффективный вариант обеспечения секретности
разрабатываемых тестовых материалов — допускать авторов до создания заданий только на компьютере в специализированном физическом
кабинете57 менеджера проекта (тестолога). Но, во-первых, это лишь мнимая консервация заданий в рамках данного замкнутого информационного пространства. Ведь авторская работа на самом деле возникает не по
команде только в течение 2—3 часов во время доступа к компьютеру менеджера. Авторская работа может продолжаться даже ночью, ведь самые
неожиданные и оригинальные решения нередко приходят людям в голову в состоянии расслабленной полудремы, когда творческий поток освобождается от дневных забот. Во-вторых, обязать авторов работать за од56
Под тарификацией имеется в виду присвоение определенных рангов в «табели о рангах»,
или в тарифной сетке, касающихся окладов или сдельных расценок. — Прим. автора.
57 В этой книге слово «кабинет» так часто употребляется в смысле «веб-кабинет», что приходится в данном случае добавлять прилагательное «физический». — Прим. автора.
206
Практическая тестология
ним компьютером означает значительно затянуть сроки разработки. При
оптимальной организации работы пять авторов могут создать около 350
тестовых заданий за одну рабочую неделю (но для этого их надо полностью освободить на это время от других видов работ, ибо для производства
первой полусотни заданий требуется максимальное погружение в задачу
и полная концентрация; дальше подобную работу уже можно выполнять
на условиях частичной занятости).58 Важно подписать протокол конфиденциальности, который обязывает авторов соблюдать режим секретности в отношении результатов своей собственной работы. Неплохо было
бы научить авторов сохранять файлы-документы, защищенные паролем,
причем об эффективности пароля лучше позаботиться отдельно (например, выдать свои пароли), так как большинство людей придумывает, как
правило, самые элементарные пароли, которые несложно подобрать. Некоторые пользуются везде и всегда единственным паролем, так как не
умеют их нигде хранить. Подскажите, что выданный автору пароль удобнее всего сохранить либо в запароленном его почтовом ящике, либо надежнее — в запароленном файле.
Нормативно-инструктивная база для создания тестовых заданий
Если для данного направления в организации существуют какие-либо методические материалы и нормативные документы (например, должностные инструкции, инструкции по технике безопасности в организации и т.д.), которые содержат в себе информацию по заявленной тематике,
то в инструкции авторам необходимо дать ссылки на данные материалы.
Техническое оформление заданий в электронной форме
В памятке автору менеджер должен максимально однозначно объяснить авторам, в каком виде они должны подавать задания: на бумаге
или на электронных носителях (возможно сочетание и того, и другого).
Чем точнее авторы будут соблюдать определенный стандарт (формат), тем
меньше проблем будет у менеджера (и у операторов) при вводе заданий в
банк, тем быстрее произойдет переход от авторского цикла к экспертному
и тем меньше времени в итоге будет затрачено на производство теста.
В качестве примера можно привести несколько простых форматов, которые используются в работе Лаборатории «Гуманитарные технологии» с
авторами тестовых заданий:
58
350 заданий за неделю — это идеальный темп и уровень производительности. На практике скорость формирования банка заданий оказывается едва ли не на порядок ниже: 350
заданий пять авторов будут готовить 2 или даже целых 3 месяца. — Прим. автора.
Глава 3. Разработка тестовых заданий и образцы заданий
207
а) Текст MS Word с разметкой:
●
Текст вопроса начинается с символа «?»,
●
Текст любого ответа — с символа «=»,
●
Текст правильного ответа — с символов «=*»,
●
Номер нового задания (вопроса) отмечается символом решетка #
в начале строки (под этим символом можно ввести в текст любой
комментарий для тестолога).
Программа поддержки тестов в системе HT-LINE позволяет автоматически распознавать тестовые задания, оформленные таким образом,
немедленно превращая их в действующую программу онлайн-тестирования, а также экспортировать задания в другие форматы (MS Excel, например).
б) Текст в электронной таблице MS Excel.
Ʉɚɤ ɥɭɱɲɟ ɪɚɫɩɪɨɫɬɪɚɧɹɬɶ ɢɧɮɨɪɦɚɰɢɸ ɩɨ ɷ-ɩɨɱɬɟ, ɱɬɨɛɵ
ȼɨɩɪɨɫ
ɩɪɟɨɞɨɥɟɬɶ ɛɨɥɶɲɟ ɫɩɚɦ-ɮɢɥɶɬɪɨɜ?
Ⱦɢɫɬɪɚɤɬɨɪɵ
ȼɫɬɚɜɢɬɶ ɫɩɢɫɨɤ ɚɞɪɟɫɨɜ ɜ ɩɨɥɟ "ɄɈɆɍ"
ȼɫɬɚɜɢɬɶ ɫɩɢɫɨɤ ɚɞɪɟɫɨɜ ɜ ɩɨɥɟ "ɋɄɊɕɌȺə ɄɈɉɂə"
ɇɢɤɚɤ ɧɟɥɶɡɹ, ɧɭɠɧɨ ɩɭɛɥɢɤɨɜɚɬɶ ɢɧɮɨɪɦɚɰɢɸ ɧɚ ɤɨɪɩɨɪɚɬɢɜɧɨɦ
ɫɚɣɬɟ
ȼɨɫɩɨɥɶɡɨɜɚɬɶɫɹ ɨɫɨɛɨɣ ɩɪɨɝɪɚɦɦɨɣ, ɤɨɬɨɪɚɹ ɜɩɢɫɵɜɚɟɬ ɜ ɤɚɠɞɨɟ
ɉɪɚɜɢɥɶɧɵɣ ɨɬɜɟɬ
ɫɨɨɛɳɟɧɢɟ ɎɂɈ ɚɞɪɟɫɚɬɚ
Таблица 3.1. Простейший формат тестового задания с выбором ответа, пригодный для ввода в электронную таблицу Excel.
Это более структурированное решение. В Лаборатории «Гуманитарные технологии» это решение позволяет импортировать данные (тексты
заданий) как в систему HT-LINE, так и в специализированную тестовую
оболочку для оффлайн-тестирования MAINTEST.
в) Текст MS Word с табличным шаблоном. Это вариант мы рекомендуем для применения в тех организациях, которые планируют создание
и пополнение мощных КБТЗ как долговременный проект на несколько сотен и тысяч заданий (вопросов). В определенных полях табличного шаблона можно регламентировано вносить большие объемы различной информации, причем в формате, удобном для импорта в базу данных (например,
в MS Access). Авторы записывают текст вопросов и ответов в заранее заготовленную таблицу, которую менеджер передает авторам на электронных носителях. Пример такого шаблона (эта технология использовалась
208
Практическая тестология
автором книги при организации Интернет-конкурсов авторов тестовых
заданий для олимпиады Телетестинг, а также для ЕГЭ):
ɲɚɛɥɨɧ ɉɪɟɞɦɟɬ ʋ
ɦɢɧ.ɫɨɞ. ɫɥɨɠɧ.
ɬɪɭɞɨɟɦ. ɛɚɥɥ
A
Ɍɟɤɫɬ ɡɚɞɚɧɢɹ.
1)
Ɉɬɜɟɬ 1
2)
Ɉɬɜɟɬ 2
3)
Ɉɬɜɟɬ 3
4)
Ɉɬɜɟɬ 4
ɇɨɦɟɪ ɜɟɪɧɨɝɨ ɨɬɜɟɬɚ:
Ⱦɚɬɚ
ɭɱɪɟɠɞɟɧɢɟ
ɚɩɪɨɛɚɰɢɢ
Ʉɥɸɱ
ɨɪɝɚɧɢɡɚɬɨɪ
ɚɩɪɨɛɚɰɢɢ
ɜɵɛɨɪɤɚ
ɪɟɲ., %
ɢɧɞɟɤɫ
ɎɂɈ
ɚɜɬɨɪɚ
Ʉ.Ⱦɢɫɤɪ.
Таблица 3.2. Шаблон-таблица в MS Word для ввода тестовых заданий, удобная для импорта в базу заданий.
Следующий шаблон используется для описания заданий открытого
типа, содержащих один рисунок в условии задачи.
ɲɚɛɥɨɧ ɩɪɟɞɦɟɬ ʋ ɦɢɧ.ɫɨɞ.
ɫɥɨɠɧ.
ɬɪɭɞɨɟɦ. ɛɚɥɥ ɢɧɞɟɤɫ
ɎɂɈ
ɚɜɬɨɪɚ
ȼɪ
Ɍɟɤɫɬ ɡɚɞɚɧɢɹ.
Ɋɢɫɭɧɨɤ
Ɉɛɪɚɡɟɰ ɨɬɜɟɬɚ
ɉɪɚɜɢɥɶɧɵɣ ɨɬɜɟɬ
Ʉɪɢɬɟɪɢɣ ɜɵɩɨɥɧɟɧɢɹ Ɉɩɢɫɚɧɢɟ ɤɪɢɬɟɪɢɹ ɜɵɩɨɥɧɟɧɢɹ ɡɚɞɚɧɢɹ
ɞɚɬɚ
ɭɱɪɟɠɞɟɧɢɟ ɨɪɝɚɧɢɡɚɬɨɪ ɜɵɛɨɪɤɚ
ɪɟɲ., %
Ʉ.Ⱦɢɫɤɪ.
ɚɩɪɨɛɚɰɢɢ
ɚɩɪɨɛɚɰɢɢ
Таблица 3.3. Шаблон для описания заданий с рисунком и открытым ответом.
Следует подчеркнуть, что в рамках конкретной организации может
быть эффективным какое-то четвертое решение, не тождественное ни одному из трех перечисленных выше. Главный фактор — наличие определенной готовой тестовой системы (программы-оболочки для проведения
тестов). Лучше всего создавать задания сразу же в том формате, который
наилучшим образом приспособлен для импорта (загрузки) заданий в эту
готовую программу-оболочку.
Отдельный вопрос касается стандартов типа IMS, SCORM и QTI, которые разработаны международными организациями для стандартизации в описании тестовых заданий и учебных материалов в электронном формате. Можно ли и нужно ли авторов сразу ориентировать на эти
Глава 3. Разработка тестовых заданий и образцы заданий
209
стандарты? Мой ответ: не надо! Эти стандарты предназначены не для авторского цикла, а для сопряжения разнотипных компьютеризированных
систем обучения и тестирования — подкачки заданий из одной системы
в другую в автоматизированном режиме. Работу самих авторов на этапе
первичной разработки банка заданий эти стандарты только неоправданно усложнят.
Четыре основных правила (для «памятки авторам»)
4 правила, которые формулируются ниже, не абсолютная истина на
все случаи жизни, это лишь пример. Причем этот пример действует лишь
для одного типа заданий — для заданий с выбором единичного правильного ответа из предложенных вариантов (MC-item).
1) Задания должны иметь ТОЛЬКО ОДИН правильный ответ.
Среди предложенных вариантов ответа только один ответ должен
быть правильным (ключевым), а остальные — ОДНОЗНАЧНО ложными (в
тестологии их еще называют «дистракторы», или «отвлекающие ответы»).
2) Задания должны быть валидными.
Тестовое задание должно быть направлено на выявление ТОЛЬКО того
элемента знания, который входит в состав заявленной темы. Валидность в
данном контексте — это пригодность тестового задания для диагностики
заданной области знаний (умений).
Пример (из простой области профориентационного теста на способности старшеклассников):
Сколько орфографических ошибок в следующем предложении?
«Я помню чюдное мгновенье...»
Этот вопрос НЕ валиден, если предполагается, что он работает на шкалу… «ВНИМАНИЕ», то есть он относится к исполнительской точности, а не
к знанию русского языка59.
3) Дистракторы должны быть равновероятными.
Все альтернативные ответы должны выглядеть достаточно привлекательно и не отличаться длиной записи или какими-то другими формальными признаками (начинающие авторы допускают такую распространенную ошибку — пишут короткие и неправдоподобные дистракторы).
Респонденты, сознательно или интуитивно, используют различные тактики прохождения тестов, которые часто в непрофессионально
59
Впрочем, теоретически возможно использовать подобные вопросы с «двойным» ключом
по двум тестовым шкалам, но только если обе шкалы запланированы в тесте — и «внимание», и «лексика». — Прим. автора.
210
Практическая тестология
составленном тесте позволяют достичь высокого результата при низком
уровне реальных знаний. Для того чтобы избежать такого влияния, при
создании вариантов ответа к заданию необходимо придерживаться следующих правил:
а) Правильный ответ не должен представлять собой «золотую середину» в
выборе альтернатив.
б) Правильный ответ не должен выглядеть более развернутым и аргументированным ответом, учитывающим частные случаи (избегайте ответов «Все вышеперечисленное» или «Ничего из перечисленного»).
в) Правильный ответ не должен выглядеть наиболее наукообразным (с
использованием иностранных и малопонятных слов) на фоне остальных дистракторов.
г) Правильный ответ не должен иметь подсказку в другом вопросе теста.
д) Неверные варианты ответа должны выглядеть адекватно, чтобы их
нельзя было отбросить только лишь на основании общих логических
рассуждений. В профессиональном тесте недопустимы шуточные варианты ответа.
Все эти предупреждения целесообразно ввести в развернутую «памятку для авторов». Более подробно о психологике испытуемых мы поговорим в этой главе в отдельном параграфе.
Одним из вариантов борьбы с тактиками случайного угадывания правильного ответа может послужить создание дистракторов, запутывающих
испытуемых, прибегающих к угадыванию. Такие дистракторы могут:
— содержать ключевые слова (на уровне словесной рифмы с условием вопроса);
— содержать пафосные суждения;
— содержать длинный перечень логических условий, при которых выполняется основное суждение.
4) Количество ответов в задании с выбором ответа должно быть от 4 до 6.
Количество ответов для выбора должно быть от четырех до шести (рекомендуемое мной — четыре). Это некий оптимум между трудозатратами
авторов (и респондентов), качеством созданных дистракторов и опасностью случайного угадывания респондентом правильного ответа (например, при трех вариантах ответа эта вероятность равна 33%, при четырех —
25%, при пяти — 20%). Поэтому по возможности лучше сформировать большее количество вариантов ответов, однако нередко улучшение, которое
может быть достигнуто добавлением пятого варианта ответа, оказывается
слишком незначительным по сравнению с трудозатратами на придумывание еще одного осмысленного дистрактора — игра не стоит свеч. Поэтому мы и рекомендуем четыре варианта ответа как разумный оптимум.
Впрочем, во многом это зависит не только от авторов, но и от предметной
области.
Глава 3. Разработка тестовых заданий и образцы заданий
●
●
●
●
●
211
Дополнительные рекомендации (не обязательные в каждой инструкции, если Вы опасаетесь перегрузить авторов лишней информацией:
чем больше инструкция, тем больше вероятность, что она не будет прочитана вовсе).
Избегайте использования негативных суждений в формулировке вопроса (при использовании отрицания четко обозначьте его — например, выделите строчными буквами «НЕ» или «НЕТ»).
Не перегружайте текст вопроса ненужной информацией. Например, вопрос «Куликовская битва стала ключевым событием в свержении монголотатарского ига на Руси. Когда произошла Куликовская битва?» лучше заменить более краткой формулировкой: «Назовите дату Куликовской битвы».
Правильный ответ не должен содержать грамматической подсказки (все
варианты ответов должны грамматически верно сочетаться с вопросом).
Все варианты ответов должны быть независимыми друг от друга.
Внимание. Начинающие авторы стараются сформулировать вопрос и
варианты ответов максимально просто, опасаясь того, чтобы тест по предметной области не превращался в проверку навыков чтения и понимания
текста. Это приводит, как правило, к слишком кратким формулировкам
ответов и сужает круг вопросов до фактологических. Следует смириться
с тем, что способность к пониманию текста — это такой же компонент в
успешном тестировании, как умение писать (порождать письменный
текст) — это компонент успешного выполнения письменного экзамена.
Контроль трудности заданий на авторском этапе
Последнее, что надо включить в «памятку» (ее нельзя превращать в документ объемом более 10 страниц), — это краткие требования к трудности
заданий. В общем случае доля правильных ответов на каждый из вопросов для аттестации должна быть в районе 80 процентов. То есть правильно
должны отвечать 4 испытуемых из 5. Таким образом, в аттестационных
тестах оправдано взять сознательный курс на преобладание легких заданий. Хотя при этом не стоит забывать, что создание теста с несколькими уровнями трудности заданий (например, тремя — легким, средним и
трудным) позволяет контролировать эквивалентность вариантов по трудности. Особенно это легко обеспечить в случае использования компьютерных алгоритмов, автоматически контролирующих попадание в один
вариант определенного количества легких, средних и трудных заданий.
В инструкцию для авторов правильнее всего включить следующие
простые определения для заданий трех уровней трудности:
1) Легкие задания — для «новичков». На эти задания должны давать не менее
70—90 процентов правильных ответов работники, которые только начинают работу на данной должностной позиции в рамках испытательного
212
Практическая тестология
срока (и требуют постоянного контроля со стороны более старших и опытных сотрудников). То есть это «порог допуска» в качестве стажера. В работе
со студентами этот уровень трудности — «на троечку».
2) Средние задания — для «профессионалов». На них новички дают примерно 50—70 процентов правильных ответов (сами профессионалы
справляются в более 70—90 процентов случаев). «Профессионалами» в
данном контексте мы называем работников со стажем более 1 года, которых можно допускать для самостоятельной работы на данной должностной позиции с редкими контрольными мероприятиями (отчеты
не чаще 1 раза в месяц). В работе со студентами этот уровень трудности
соответствует ориентации на «хорошистов».
3) Трудные задания — для «мастеров» (или «экспертов»). На них новички
дают ошибочные ответы в большинстве случае (то есть менее 35—50 процентов правильных ответов60). Сами «профессионалы» превращаются по
отношению к этим трудным заданиям в «новичков» (то есть ошибаются примерно в половине случаев). «Мастерами» мы называем опытных
профессионалов со стажем свыше 5 лет, выработавших свой индивидуальный стиль профессиональной деятельности, позволяющий им устойчиво показывать самую высокую эффективность без внешнего контроля
со стороны руководства. В работе со студентами этот уровень трудности
соответствует ориентации на студентов-отличников.
Но следует учесть, что лишь немногие авторы могут воспринять и следовать такой инструкции, так как не имеют опыта прогнозирования вероятности решения тестовых заданий разными людьми. Такая инструкция
начинает более эффективно работать только на втором, а то и на третьем
авторском цикле — после получения авторами обратной связи от первого
цикла тестирования с использованием их тестовых заданий в виде статистики правильных и неправильных ответов.
3.2. КОГДА НУЖНЫ ЗАДАНИЯ РАЗЛИЧНЫХ ФОРМАТОВ?
Начинающие авторы очень часто стремятся к разнообразию тестовых заданий по форме. В этом их стремлении их главные союзники в наше время —
это разработчики специализированных компьютерных программ-оболочек,
позволяющих предъявлять очень разнообразные задания: программисты
в этом разнообразии видят своеобразную «демонстрацию силы» — богатых
возможностей созданной и развиваемой ими компьютерной системы.
Но зададимся таким вопросом, который новичкам в этой области
может показаться даже странным: всегда ли нужно стремиться внутри
60
Из-за близости порога «случайного угадывания» не рекомендуется создавать задания с менее чем 35%-ной долей правильных ответов. Даже при четырех альтернативах. — Прим. автора.
Глава 3. Разработка тестовых заданий и образцы заданий
213
одного теста к большому разнообразию заданий по форме? Мой ответ и
моя твердая позиция в этом вопросе такова:
Разнообразие заданий — это полезное свойство заданий именно в
учебном процессе, когда тест выполняет, прежде всего, функцию промежуточного контрольного упражнения. В этом случае разнообразие помогает учащемуся бороться с монотонией, подталкивает познавательную
мотивацию, добавляет элементы игровой и соревновательной мотивации.
Разнообразие заданий — это скорее излишество в аттестационных (экзаменационных) тестах. Ибо в этом случае переключение с одного формата на другой требует от испытуемого дополнительного ресурса умственной энергии, столь необходимой для понимания смысла каждого нового
задания и поиска правильных ответов. Здесь лучше разнотипные задания
разносить по разным этапам тестового сеанса, делая между ними (позволяя делать) даже небольшие перерывы по времени. Во всяком случае, их
надо ставить с раздельным контролем времени, а между этими субтестами счетчики времени вообще лучше отключать.
А можно ли определенные формальные типы тестовых заданий связать
с определенными содержательными задачами тестирования? С некоторыми
оговорками это можно сделать. И я попробую поделиться ниже определенными рекомендациями, хотя и не стоит абсолютизировать эту связь и следовать
эти рекомендациям всегда. Повторюсь, что унылое однообразие тестовых заданий в ходе экзамена — это скорее благо. Ибо тестируемым, как правило, хватает мотивации на прохождение теста в этой ситуации, и она даже в избытке.
Задания с выбором единичного ответа
Многие читатели так хорошо знают этот самый популярный тип заданий, что в этом месте книги даже не нужно приводить никаких особых
примеров (тем более что их достаточно в других главах и параграфах).
Этот тип заданий применяется так широко и так часто, что правильнее
вопрос о том, когда его применять, переформулировать в обратный вопрос
о том, когда НЕ надо его применять.
Чем удобен этот тип заданий? Не будем здесь говорить о том, что это
самый удобный тип для ручной обработки бланков. Времена, когда обработка делалась вручную, уходят, а компьютерной программе неважно
в ходе обработки, с какой сложностью структуры данных она имеет дело
(если это профессиональная программа).
По содержанию этот тип заданий удобен тем, что тестируемые выполняют эти задания быстрее других. Это помогает в ходе одного сеанса
охватить более широкий круг фактологической и терминологической информации — проверить именно «широту дерева знаний». Причем для более широкого охвата применяют перечни с минимальным числом альтернатив в вариантах ответа. В пределе все сводится к двум альтернативам в
214
Практическая тестология
отношении какого-то суждения — «верно или неверно». Это позволяет, например, в известном психиатрическом тест-опроснике MMPI, в ходе всего
лишь часового сеанса задать одному испытуемому более 500 вопросов (точнее, 566). А можно ли такой тип заданий на «да-нет» предъявлять при проверке знаний? Можно, если речь идет о материале, которые тестируемый
должен знать активно («на зубок»), подобно таблице умножения. Среднее
арифметическое сырых тестовых баллов для подобных тестов должно отстоять далеко от точки случайного угадывания, которая в случае «ли-вопросов»
размещается ровно посередине сырой шкалы (подбрасывая монетку, можно
угадать при такой конструкции теста 50 процентов ключевых ответов). То
есть задания такого типа должны быть обязательно легкими.
Когда нет уверенности, что тестируемые будут набирать 70—80% правильных ответов, приходится применять многоальтернативные вопросы
с единичным ответом — с 4—5 ответами на выбор. В этом случае точка случайного угадывания отодвигается и составляет, как мы уже указывали выше,
25% и 20% соответственно. И приходится уже соразмерять средние затраты
времени на решение подобных заданий (в секундах) с проектируемой допустимой длительностью сеанса, что задает ограничения на количество подобных заданий. Но хотелось бы отметить, что в практике западных систем
сертификации первый этап — это именно выполнение теста с вынужденным
выбором, в котором в ходе 4 часов предлагается от 200 до 300 подобных заданий (!), то есть даже при таких объемах на каждое задание отводится в среднем меньше минуты. Весь смысл и надежность от этого метода тестирования
рождается, когда число заданий заведомо больше 50, а лучше — приближается и превышает 100. Это до сих пор непривычно для наших преподавателей
в России, да и для многих наших испытуемых. Взгляните, сколько заданий
типа А до сих пор предъявляется по предметам в ЕГЭ? Меньше 50, а иной раз
даже меньше 20 (!), что приближает средний ожидаемый результат к точке
случайного угадывания на рискованно короткое расстояние. Надо, наконец,
понять, что вероятность случайного угадывания 10-ти правильных ответов
из 20 заданий с четырьмя-пятью вариантами, конечно, СУЩЕСТВУЕТ! Но…
возможность угадать 50 правильных ответов из 100 заданий практически отсутствует полностью. Можете провести компьютерный эксперимент, если не
доверяете формулам теории вероятности — запустите датчик случайных чисел, создайте миллион протоколов, и Вы не найдете среди этих случайных
протоколов 50 правильных ответов из 100.61
61
Те, кто немного знаком с теорией вероятности и математической статистикой, вполне сами
могут выполнить несложные расчеты размеров доверительного интервала для биномиального распределения. Вероятность угадывания единичного события p=0,25 при n=100 событиях
дает математическое ожидание 25 и стандартное отклонение 4.33.. То есть 50 отстоит от матожидания даже не на три сигмы (вспомним «правило трех сигм», внутри которых укладывается тысяча случайных наблюдений), а почти 6 стандартных отклонений! Так что теоретическая возможность появляется у нескольких «гадальщиков» из миллиарда (!). Но пока в истории человечества тестов с такими тиражами еще не наблюдалось. — Прим. автора.
Глава 3. Разработка тестовых заданий и образцы заданий
215
Таким образом, главное достоинство этого типа заданий — это простота логической структуры, облегчающая возможность выполнения не десятков, а сотен таких заданий внутри одного сеанса тестирования (!).
Именно эти вероятностно-технические обстоятельства закономерно
обусловили высокую популярность этого типа заданий. К этому типу заданий нужно и можно стараться сводить другие формальные типы, чтобы
добиться формальной однородности процедуры тестирования (да и получаемого при этом протокола тоже). О том, как это следует делать, мы поговорим ниже.
Задания с множественными правильными ответами62
В этом случае среди предлагаемых вариантов допускается несколько
правильных ответов, а не один. К этому типу заданий НЕ следует специально стремиться. Использование этого типа заданий — это скорее вынужденная, чем желательная мера. И все дело в том, что корректная математическая обработка этих заданий требует применения слишком сложных,
слишком непрозрачных для широкой публики вероятностных моделей.
Ниже мы постараемся на простых примерах, почти «на пальцах», пояснить,
почему данный тип заданий приводит либо к снижению психометрических свойств теста, либо к высокому риску «непрозрачности», что особенно
нежелательно на ранних этапах внедрения системы тестирования (см. параграф, посвященный «критерию прозрачности», выше — в разделе 2.1 главы 2). Никакого особенного удобства этот тип заданий для испытуемых не
создает, как и особого уважения к «естественности процедуры» (она остается не менее механической, как и в случае с единичным ответов). Он создает
удобства, пожалуй, только самим разработчикам заданий, которым нередко бывает трудно построить задания лишь с одним правильным ответом.
Рассмотрим ситуацию, когда тест (или субтест) состоит из подобных
заданий со строго одинаковой структурой по числу вариантов и числу
правильных ответов. Например, пять вариантов и всегда ровно 2 ответа
правильных. Если при выполнении компьютерного теста выбрать стратегию «ставлю галочки во всех чек-боксах», которая не запрещена правилами подобного тестирования, то ожидаемый процент правильных ответов
в тесте становится, очевидно, просто равным 40% — доле 2/5 правильных
ответов среди всех возможных ответов. Но все становится гораздо сложнее
именно из-за того, что в тестовых заданиях такого типа число допустимых правильных ответов от задания к заданию, как правило, варьирует:
то их 2 из 4, то их 2 из 5, то их 3 из 6 и т.п.
62 По-английски этот тип заданий называется не multiple-choice, а multiple-response, то
есть не вопросы с множественным выбором (единичного правильного ответа), а вопросы с
множественными ответами. — Прим. автора.
216
Практическая тестология
Казалось бы, выход из положения для корректной обработки в том, чтобы каждый отдельный ответ обрабатывать как… отдельный «ли-вопрос», то
есть, если данный ответ правильный и на соответствующем месте в протоколе (бланке или файле ответов) стоит галочка, то засчитывается единичка
в суммарный сырой балл. И все! Но такое упрощение не является корректным по той простой причине, что внутри одного вопроса «с веером ответов», все варианты ответа образует «связанный кластер»: все эти ответы объединены контекстом одного вопроса и по своей статистической структуре
не образуют между собой взаимно-независимых случайных величин.
Почему же, несмотря на указанные трудности, вопросы с множественными ответами достаточно часто встречаются? И нередко подвергаются
очень упрощенной обработке — подсчету числа совпадений ответов испытуемого со всеми «ключевыми» (правильными). А дело все в том, что в некоторых гуманитарных областях знаний просто трудно сформулировать
вопрос, на который можно дать только один правильный ответ. Многие
вопросы по грамматике русского языка, например, порождают несколько
вариантов правильных ответов. Даже текстовые примеры русисты любят
подбирать таким образом, что там предусматриваются множественные
правильные ответы. Впрочем, а как иначе спросить, например, о том,
сколько запятых обрамляет вводное слово? Вот пример из демонстрационных заданий ЕГЭ по русскому:
Рассказ А.П. Чехова «Студент» кончается светло, радостно; ничего (1) кажется (2) за этот вечер не изменилось ни в природе, ни в быту, ни в истории, но жизнь
(3) кажется (4) теперь студенту «восхитительной, чудесной и полной высокого
смысла».
Отметьте все места, на которых должны стоять запятые (поставьте
галочку в квадратик слева от номера):
[ ]1 [ ]2 [ ]3 [ ]4
В этом примере сразу два правильных ответа — 1 и 2. Вероятность их
угадать, проставляя галочки во все квадратики, высока — равна 0,5. Так
что данный вопрос оказывается менее защищенным от случайного угадывания, чем выбор одного ответа из 4. Даже если в инструкции потребовать постановки ровно двух галочек (а на компьютере соблюдение этого
требования можно автоматически контролировать), то все равно вероятность набрать много очков на одном подобном задании высока: используя
тактику случайной расстановки двух галочек, испытуемый с вероятностью 1/6 угадывает оба ответа (число сочетаний из 4 по 2), а с вероятностью
4/6 хотя бы один ответ. И если за правильное угадывание двух ответов давать 2 очка (ведь кажется, что это логично), получается, что случайная тактика будет в среднем приносить даже более 1 очка из двух возможных, то
есть больше половины возможных очков. Немногим лучше обстоит дело
при предъявлении пяти вариантов ответов с задачей выбора двух.
Глава 3. Разработка тестовых заданий и образцы заданий
217
Поэтому на сайте ege.yandex.ru мы уже находим указанное выше задание в таком формате, когда оно сводится к выбору одного ответа из четырех (именно к этому решению автор этой книги безуспешно призывал
русистов еще в 90-е годы, но хорошо, что ситуация хотя бы через полтора
десятка лет изменилась):
Рассказ А.П. Чехова «Студент» кончается светло, радостно; ничего (1) кажется (2) за этот вечер не изменилось ни в природе, ни в быту, ни в истории, но жизнь
(3) кажется (4) теперь студенту «восхитительной, чудесной и полной высокого
смысла».
В каком варианте ответа правильно указаны все цифры, на месте которых в предложении должны стоять запятые?
o 1, 2, 3, 4
o 1, 2
o 1, 3, 4
o 1, 3
В этом примере используется такой интерактивный элемент, как «радио-кнопки», а из ряда радио-кнопок, как известно, можно пометить на
экране только одну.
Когда все-таки обращение к данному типу заданий субъективно переживается разработчиком как некая «необходимость» (или неизбежность)?
В тех случаях, когда он стремится спросить испытуемого о системе различительных признаков двух понятий, которые на самом деле оказываются
пересекающимися — часть признаков для этих понятий различаются, а
часть оказываются общими. Например, вопрос в этом случае может выглядеть так:
Назовите общие признаки для механических и немеханических транспортных
средств (вопрос в тесте по автоделу):
— наличие колес, обеспечивающих движение по проезжей части,
— наличие водителя,
— наличие системы рулевого управления движением,
— наличие двигателя внутреннего сгорания,
— наличие системы охлаждения,
— наличие номера транспортного средства.
Очевидно, что правильными ответами на этот вопрос являются первые
три ответа. Определенную двусмысленность вызвал бы ответ «наличие системы торможения», ибо далеко не все немеханические транспортные средства
имеют такую систему даже в зачатке. Хотя на всякий случай можно было бы
начислить и за этот ответ также очко, то есть разрешить неопределенную ситуацию в пользу испытуемого. Но зададимся таким проблематизирующим
218
Практическая тестология
вопросом: а разве задание теста обязано иметь в составе своих ответов ИСЧЕРПЫВАЮЩУЮ учебную информацию? Не путаем ли мы опять 2 разные
цели — цель тестирования и цель обучения. Если мы создаем тест для обучения, тогда «да», то есть мы должны среди ответов создать исчерпывающий
набор признаков. А если наша задача только проверить уже имеющиеся знания? Разве тест не может точечным способом обращаться ко множеству признаков (такому, каким оно сложилось в голове у учащегося)? Конечно, может.
Поэтому указанный выше вопрос лично я бы сформулировал как вопрос с
одним правильным ответом и с тремя-четырьмя дистракторами. Хотя, возможно, что в самом вопросе-задании потребовалась бы либо оговорка, либо
его надо было сформулировать несколько по-другому: «Укажите тот признак,
который является общим для двух категорий транспортных средств». В этой
формулировке не звучит совсем никакой мысли о том, что надо искать среди
предложенных ответов исчерпывающий перечень.
А вот еще пример. Мы его даем, чтобы пояснить еще раз, как можно
уйти от формата с множественным выбором к формату с единичным выбором. (Тематика теста для бухгалтеров «Порядок исчисления налогов на
прибыль, на имущество, НДС»):
Вопрос:
Какие ставки НДС действуют в 2006 году?
1) 20%, 10%
Ответы на выбор:
2) 18%; 10%; 0%
3) 18%; 16,67%; 10%
4) 24%; 18%
Здесь мы видим, что автор задания не уточняет в вопросе, для какого
типа организаций по форме собственности подразумевается НДС. Вследствие этой краткости вопроса варианты ответов содержат перечни значений. Это яркий пример того, как множественный ответ можно трансформировать в единичный выбор.
Надо сказать, что в литературе существует и другая точка зрения на
задания с множественными ответами. В.С. Аванесов пишет: «Ответы на
задания с выбором нескольких правильных ответов практически нельзя угадать. Например, при 4 правильных ответах из 10 существует один
шанс из тысячи угадать именно 4 нужных ответа... За ответы на подобные
задания испытуемые могут получить от 0 до 3 баллов, что повышает вариацию результатов и, следовательно, точность педагогического измерения знаний студентов» (Аванесов, 2012). Я бы не стал тут спорить с Вадимом Сергеевичем, а подчеркнул бы число 10 в его словах. Да, если предлагаемых ответов так много (ближе к 10!), то я бы согласился с позитивной
оценкой этого формата. Но ведь практически ситуация обстоит так, что
авторам во многих ситуациях очень трудно придумывать задания даже
Глава 3. Разработка тестовых заданий и образцы заданий
219
с четырьмя-пятью ответами на выбор, фантазия останавливается, увы, на
двух-трех. В этом-то все и дело.
Кстати, вся моя критика заданий с множественными ответами никак
не касается опросников и анкет. Во многих социологических опросниках
допускается выбор респондентом сразу нескольких ответов из предлагаемого веера, и это абсолютно правильное и уместное методическое решение. Все дело в том, что ведь это опросники, а не тесты! В случае опросников нет никаких ключей (правильных ответов), и не подсчитываются тестовые баллы для респондентов. Но многие продолжают эти вещи путать,
так как смотрят на внешний формат вопросов, а не вдумываются в то, насколько различная, невидимая глазу обработка ответов предусматривается в одном и в другом случае — в случае опросников и в случае тестов.
Задания на ранжирование и соответствие
Конечно, эти задания выглядят красиво. Особенно на скучном фоне однотипных заданий с выбором единичного ответа это просто «луч света», врывающийся во тьму монотонии. К тому же возникает впечатление, что одним
вопросом можно вскрыть сразу наличие (или отсутствие) каких-то систематизированных знаний. При этом сам вопрос выглядит компактно — для многих объектов сразу, так что разработчику не надо повторять его формулировку для каждого объекта отдельно, что приводит и к экономии не только труда
разработчика, но и бумаги, и времени на понимание вопроса учащимся и т.п.
Недостатков у этого типа заданий в плане корректной обработки результатов
еще больше, чем у заданий с множественными ответами, но авторы заданий
их любят и к ним стремятся. Ведь числовая, статистическая корректность тестового балла их занимает далеко не в первую очередь.
Приведем пару примерно таких заданий из географии.
На ранжирование:
Проставьте ранги, расставляющие города в порядке убывания численности населения, при этом самому многочисленному городу ставьте в соответствие ранг
1 и так далее:
Город
Санкт-Петербург
Тула
Москва
Череповец
Новосибирск
Ранг
220
Практическая тестология
А вот пример задания на соответствие из той же тематической группы:
В таблице нарушен порядок соответствия
Страна
Столица
1) Эфиопия
А) Прага
2) Чехия
Б) Канберра
3) Венесуэла
В) Адис-Абеба
4) Таиланд
Г) Каракас
5) Австралия
Д) Бангкок
Ваша задача: расставить буквенные обозначения столиц в поле для ответа в
таком порядке, чтобы они соответствовали странам. Например, если первой Вы
указываете букву «Б», то она соответствует первой стране — Эфиопии.
Поле ответа:
Обратим внимание, что в двух приведенных заданиях использован
разный принцип кодирования ответов учащегося на бланке ответов.
В первом случае это принцип так называемой «тестовой тетради»: тестируемый заносит ответ прямо на тот лист, на котором сформулирован вопрос. Это удобно, но приводит к повышенному расходу бумаги: вся тестовая тетрадь рассчитана на предъявление только одному тестируемому,
ибо оказывается после первого же сеанса заполненной ответами. Во втором случае вопрос сконструирован так, что нет третьего столбца рядом со
списком столиц (как надо было бы сделать, если добиваться определенного единообразия с первым примером), то есть так, что поле для ответов может быть выделено на отдельный лист — бланк ответов. Но… всем понятно,
что второй прием требует от тестируемого большей внимательности и собранности.
Программисты очень любят писать программы, которые обеспечивают выполнение ранжирования и соответствия в интерактивном режиме.
Действительно, в этом случае очень «вкусно» выглядит интерфейс по типу
drag-and-drop: испытуемый подхватывает мышкой какое-нибудь слово из
одной колонки, «тащит» по экрану и помещает его в одну клетку со словом
из другой колонки. Но… это все не содержательные, а во многом развлекательные эффекты.
Когда же оправдано использование этих типов заданий по содержательным причинам? Когда мы хотим «прозвонить» в одном задании некую систему отношений между понятиями (объектами), выяснить, насколько эта система освоена и уложилась в голове учащегося (тестируемого). Отношение «страна — столица» в этом плане, конечно, банальность, и
Глава 3. Разработка тестовых заданий и образцы заданий
221
концептуальных трудностей не представляет, скорее чисто фактологические. А вот отношения в родовидовой иерархии для пятерки пар понятий
позволяют не повторять пять раз один и тот же вопрос. Приведем пример
«перепутанной таблицы» из известной биологической классификации видов животных:
Восстановите порядок соответствия семейств (и отрядов) и видов животных63:
Множество
Представитель
1) Парнокопытные
А) Лисица
2) Непарнокопытные
Б) Гепард
3) Кошачьи
В) Бегемот
4) Псовые
Г) Лошадь
Но… остается открытым вопрос о том, как правильно обрабатывать результаты по заданиям этих типов. Правильно ли ставить 1 за безупречное
соответствие всех ответов ключу (а ведь число ответов здесь равно числу
строк в таблице элементов), а за любое отклонение от ключа — 0? Ну, конечно, несправедливо ставить одинаковый 0 двум испытуемым, один из
которых перепутал местами лишь одну пару элементов, а другой — все
пять (или шесть, или семь) пар элементов (как правило, в заданиях на соотвтствие приводят не четыре, а больше пар элементов) 64. Для заданий на
соответствие напрашивается балл, пропорциональный (или равный) числу правильно установленных пар. А для заданий на ранжирование — еще
более сложная мера в виде коэффициента ранговой корреляции (одно дело
ошибиться на одну ступеньку в ранговой последовательности, а другое —
сразу не несколько ступенек, и это учитывает именно коэффициент ранговой корреляции). Но… тогда мы очень далеко уйдем от принципа прозрачности. Так что резюме опять звучит так: это хороший элемент для
теста как упражнение, и не очень обязательный, скорее проблемный для
аттестационных тестов.
И уж совсем натяжкой явилось такое «методическое решение» предметной комиссии по географии в ЕГЭ — считать заполненное поле в заданиях на соответствие неким вариантом «краткого свободного ответа». Это
верно лишь внешне, а по существу совсем неверно.
63
В данном случае автор подготовил пример задания на «родо-видовые» отношения, не
стремясь к сложности или особой корректности задания, а лишь к его иллюстративности в
плане прозрачности данного типа заданий. — Прим. автора.
64
В приведенном примере, кстати, невозможно перепутать только одну пару. Одна неправильная пара тянет за собой как минимум две ошибки (потому что пары взаимозависимы).
То есть за это задание можно получить 0, 2 или 4 балла. — Прим. науч. редактора.
222
Практическая тестология
Если есть потребность сформулировать задание на соответствие, то
его вполне можно вписать без больших потерь в содержательном плане в
формат заданий с выбором единичного ответа. Приведем пример того,
как будут выглядеть само условие задания и четыре варианта ответа в задании про виды животных:
Выберите среди ответов (обведите кружком нужную букву) такую последовательность видов животных, которая точно соответствует следующей последовательности семейств: 1) непарнокопытные, 2) парнокопытные, 3) кошачьи, 4)
псовые.
А) бегемот, гепард, лошадь, лисица
Б) лошадь, бегемот, гепард, лисица
В), гепард, лошадь, лисица, бегемот
Г) лошадь, лисица, гепард, бегемот.
Плюс при таком подходе (кроме прозрачной и однотипной схемы подсчета баллов) в том, что среди дистракторов можно создать определенные
«провокационные» варианты — те, в которых закодированы типичные
ошибки, свойственные учащимся. Минус при этом подходе, что зная
всего лишь один правильный ответ (например, что лошадь относится к
семейству непарнокопытных), тестируемый сразу же отсекает из круга
рассмотрения варианты ответов А и В. Но эта вполне разумная стратегия
свойственна разумным испытуемым для всех заданий с выбором. Способность исключить хотя бы один неправильный ответ — это уже проявление определенного уровня ненулевых знаний.
Задания с кратким свободным ответом
Чем хорош этот тип заданий? Он снимает вопрос об «угадайке», то
есть, если никаких ответов на выбор не предлагается вовсе, то как можно
угадать? Можно создавать поменьше заданий, чем в случае с выбором ответов.
У многих отечественных математиков вызывали гневное негодование
задания с выбором ответа по математике (часть «А» в ЕГЭ). Действительно,
немалое число этих заданий можно было решать, вовсе не выполняя предполагаемые для тестирования операции, а «в обратном порядке» — путем
подстановки предложенных ответов в условие (в уравнение). Эта критика
привела к тому, что в 2010 году задания типа «А» (с выбором ответа) были
вообще изъяты в России из ЕГЭ по математике 65.
65
Добившись этой «исторической победы», А.Л. Семенов вскоре признал (правда, в частной
переписке с автором книги), что задания типа «А» все-таки давать можно, если варианты ответа предлагать не в виде точечных числовых значений, а в виде интервальных значений.
Глава 3. Разработка тестовых заданий и образцы заданий
223
Лучше всего эти задания приспособлены, когда имеется в виду однозначный числовой ответ. Как в вопросах про даты исторических событий:
Когда произошла Куликовская битва? Поле ввода ответа_____________
Понятно, что ничего не стоит написать компьютерную программу, которая проверяет правильность однозначного числового ответа. Хотя… даже
в этом случае возникает вопрос, а являются ли разные ошибки одинаково
грубыми ошибками. Одно дело учащийся ответил 1370 (промахнулся на 10
лет), а другое дело — 1480 (промахнулся на целый век и при этом содержательно сбился — на дату так называемого «великого стояния на реке Угре»,
ознаменовавшего окончание монгольского ига).
Но когда мы имеем дело с кратким словесным ответом, то возникают
такие проблемы:
1) Синонимы. Разве ответ «Петр Романов» не является правильным наряду с ответом «Петр I» на вопрос-задание «Назовите первого русского
императора»? А ведь можно еще ответить и так: «Петр Великий», «Петр
Первый» и т.п. Очень часто автору задания не удается предусмотреть
все возможные правильные ответы, так что список допустимых ответов приходится расширять «на ходу» — по мере получения результатов
массового тестирования. В результате первоначальный балл, объявленный сразу после компьютерного тестирования, приходится пересчитывать после такого «визуального анализа» и объявлять испытуемым
уточненные баллы через день-два после массового тестового экзамена.
2) Описки-опечатки. Нужно ли наказывать ошибкой учащегося, который
ввел ответ «Петр Первий», просто допустив либо описку, либо проявив
орфографическую безграмотность? Или можно прощать только пропуски букв типа «Петр Первй»? Интеллектуальная программа анализа
таких ответов должна уметь «прощать» одиночную описку, если слово
в целом распознается (множество слов, вообще лишенных гласных, могут быть эффективно автоматически распознаны в русском языке за
счет одних согласных).
3) Содержательные ограничения. Но более серьезная и более содержательная критика заданий данного типа состоит не в проблеме описок. Если
вдруг мы принялись весь тест составлять только из таких заданий, то
мы содержательно себя сильно ограничиваем. Ведь краткие ответы —
это, как правило, лишь фактологические и самые простые терминологические типы заданий (см. следующий раздел). С помощью этого типа
заданий не изобразишь некую последовательность действий (простой
алгоритм), а с помощью заданий с единичным выбором изобразить
можно (см. в следующем разделе 3.3 образцы заданий «операционально-логического типа»). А ведь есть еще и такая потеря от этих заданий
при компьютерном проведении: мы начинаем измерять скорость ввода с клавиатуры, которая тоже начинает сказываться на скорости выполнения этих заданий (как и любых со свободным вводом).
224
Практическая тестология
Так что наша рекомендация состоит в том, чтобы в тестовых экзаменах использовать эти задания лишь как один из возможных типов заданий, причем лучше собрать их все в однородном блоке, чтобы испытуемый настроился на переключение от работы с мышкой (или с сенсорной
панелью «тач-пад») к работе с клавиатурой. Ну, а если у нас кроме тестового экзамена предусмотрено проведение таких оценочных процедур, когда
экзаменуемый заведомо должен отвечать на вопросы в свободной форме
(устный экзамен, письменный экзамен), я рекомендую вообще отказываться от данного типа заданий в тестовом испытании. Вы только теряете
преимущество, связанное с оперативностью обработки и мало что получаете взамен.
Задания с развернутым ответом
и свободным структурированным ответом
Если уж мы сомневаемся в том, нужны ли задания с кратким ответом при наличии традиционных экзаменов в системе комплексных экзаменов, то тем более это сомнение возникает в отношении заданий с развернутым свободным ответом. Чем они отличаются в лучшую сторону от
обычного письменного экзамена? Ну, пожалуй, двумя вещами:
1) В этом случае предусматривается все-таки более краткий и более формализованный (структурированный) ответ, чем в случае письменных
экзаменов, где у испытуемого есть много времени (часы) на написание очень больших текстов. Как правило, в части «С» ЕГЭ предусматриваются ответы, которые можно уместить на одном листе формата
А4 (снабженном штрихкодом, защищенном водяными знаками и т.п.).
Как следствие, для таких более лаконичных свободных ответов разработчики задания могут и должны написать более четкую инструкцию
по оцениванию, а главное — снабдить эту инструкцию образцами (эталонами) ответов с обоснованной их оценкой. Все это дисциплинирует
самих разработчиков и заставляет их работать более строго. А также
дисциплинирует проверяющих.
2) Совмещенный в один сеанс с другими заданиями (с выбором и кратким ответом) этот тип заданий дает организационные преимущества
по сравнению с проведением отдельного письменного экзамена. Всех
можно организованно испытать в один день в одном и том же помещении (в помещениях), и при этом деятельность испытуемого не будет
слишком репродуктивной, а будет предложен аналог деятельности,
связанной с порождением осмысленного и логически связного текста
в поле обсуждаемого предмета. Не надо «мучиться» с расписанием отдельного письменного экзамена, с выделением под него в другой день
отдельных аудиторий, дежурных-экзаменаторов в этих аудиториях, с
Глава 3. Разработка тестовых заданий и образцы заданий
225
раздачей буклетов и бланков в этих аудиториях, со сбором буклетов и
бланков. То есть такой формат создает ряд операционально-технических (экономических) преимуществ, снижающих себестоимость системы испытаний.
Интересно в данном контексте упомянуть о такой перспективной
модификации заданий типа «С» как задания со структурированным свободным ответом (structured free answers). В этом случае кроме общего вопроса задаются еще и подвопросы, на которые надо отвечать в отдельных
рамочках (окошках) на бланке. Например, главный вопрос-задание: «Дайте общую характеристику исторического значения Октябрьской революции в России». И он снабжается тут же в тестовом буклете подвопросами:
1) Какое значение она имела для неимущих классов? 2) Какое значение она
имела для имущих классов? 3) Какое значение она имела для культурного
развития России и союзных республик? 4) Какое значение она имела для
внешнеполитического положения страны? С одной стороны, часть творческой работы учащегося (по структурированию собственного свободного
ответа) как бы оказывается выполненной, и это плохо. Но, с другой стороны, учащимся в этом случае значительно легче предъявить свои знания
(если они есть), и такого рода задания не вызывают у них такой сильной
паники (кстати, панике в случае «глухих заданий» сильные учащиеся
подвержены даже больше, чем слабые!). В России в отличие от развитых в
тестологическом плане стран я практически не видел примеров применения этой модификации — с подвопросами.
Но… нельзя не видеть, что, как и все другие форматы заданий (в том
числе и модификация «с подвопросами»), этот формат тоже имеет не только плюсы (порождает положительные следствия), но и минусы (новые проблемы). Нельзя отмахиваться от проблем, которые возникают в связи с
развернутыми ответами:
1) Растет риск применения шпаргалок. Сохранить в тайне темы (вопросы)
для заданий такого типа сложнее, так как их просто… меньше. Любая
утечка этих вопросов приводит к тому, что в Интернете быстро появляются шпаргалки (не обязательно на публичных страницах и в открытых И-сообществах, но, может быть, просто в защищенном паролем
почтовом ящике, к которому никогда не получат доступ сами преподаватели и организаторы тестирования). Студенты приходят на такие
экзамены, вооруженные «до зубов» очень компактными шпаргалками — распечатанными на принтере мелким-мелким шрифтом (кстати,
бумажные шпаргалки не «пищат», подобно смартфонам и покетбукам,
когда их проносят через рамки металлоискателей). Все задания типа
«С» (так они обозначаются в ЕГЭ) больше пугают учащихся, ибо объективно являются более трудными для выполнения. Это, в свою очередь, приводит к тому, что учащиеся сильнее хотят подстраховать себя
с помощью шпаргалок («ведь развернутый ответ нельзя угадать, значит
226
Практическая тестология
надо… списать»). О том, насколько (или даже во сколько раз!) растет вероятность применения на подобном экзамене шпаргалок, автор книги
знает не понаслышке — примерно в 2—3 раза. То есть, если на обычном
тестовом экзамене (с выбором ответа на задания, но, правда, предъявленные на компьютере и выбранные случайным образом из большого
банка) я обнаруживал не больше 10 человек из 100 со шпаргалками (и то
позднее студенты становились умнее, так как начинали понимать, что
в данном случае «шпаргалки — это себе дороже»), то при включении в
программу того же тестового сеанса заданий с развернутым свободным ответом, уже четверть, а то и треть учащихся запасались шпаргалками. Почему? Принимают решение под лозунгом: «Со шпаргалкой,
может быть, проскочу, а без нее — точно «неуд».
2) Эксперты-проверяющие могут проявить, увы, предвзятость. Вопервых, если работ много, и разные подгруппы экспертов проверяют
разные подгруппы экзаменуемых, то в проблему превращаются даже
такие «простительные» в общем-то ошибки, когда кто-то завышает
баллы просто всем или просто всем занижает. Ведь разным студентам
могут попасться разные проверяющие, которые, увы, ошибаются в разные стороны. Впрочем, с этим еще можно бороться с помощью сбора
параллельных оценок даже не от двух, а от трех и более независимых
проверяющих. Но ведь есть и такие ошибки, с которыми бороться совсем сложно. Это ошибки, порожденные скрытым сговором между
проверяющими и экзаменуемыми. Последние могут вставить в текст
либо рукописную «птичку», либо какое-то редкое контрольное слово,
которое будет работать как скрытый сигнал «свой — чужой». Последний вариант нельзя «отловить» даже, если все тексты перевести после
сканирования путем распознающей программы (типа FineReader) в
буквенно-цифровой формат (txt-формат). Другая тяжелая проблемная
ситуация — это скрытый коллективный саботаж со стороны сразу всех
проверяющих. Эта проблема точно проявилась, например, при организации проверки части «С» ЕГЭ в национальных республиках. Особенно,
когда к результатам ЕГЭ попробовали прикрепить ГИФО (государственные именные финансовые обязательства — некую государственную
субсидию на обучение в вузе). Там наблюдалось очень грубое расхождение между оценками за часть «С» и часть «А» (с выбором ответа), которые выставлялись автоматически. Почему? Всем «своим» в национальных республиках по «С» резко завышают баллы. Так что получается
парадокс: в ответе на вопрос с выбором ответа «Куда впадает Волга?» в
компьютере записана ошибка, но у того же испытуемого может стоять
«пять баллов» за целое микросочинение про Волгу в ответе на часть «С».
3) Ну, и, конечно, значительно растут орграсходы на работу экспертов-проверяющих — всем надо вручить работы на проверку (с экрана никто у
нас читать не любит, всем надо распечатать), всех надо где-то посадить (а
лучше всего еще и чаем напоить, чтобы не засыпали над бланками).
Глава 3. Разработка тестовых заданий и образцы заданий
227
Все эти проблемы, несомненно, трудно учесть самому автору-предметнику, их приходится учитывать организатору-координатору, или, как
мы договорились, называть этого специалиста в этой книге — «практическому тестологу». Резюме: разумеется, не надо избегать заданий с развернутым ответом, но вначале надо ответить себе на простой вопрос: «В
Вашей организации (в Вашем распоряжении) есть такие люди, которые будут объективно и добросовестно проверять эти ответы?».
Задания с рисуночным ответом
Нельзя объять необъятное, как говорил еще Козьма Прутков. За сотню
с лишним лет тестология и психология накопили огромное разнообразие
тестовых заданий. Про все задания я не успею и не смогу в этой книге рассказать. Но хотя бы несколько слов надо сказать про «рисуночные тесты»,
которые в психодиагностике очень популярны. Они очень популярны и
среди эйчаров — особенно среди тех, кто стремится во что бы то ни стало к
бесконфликтным отношениям со всеми своими клиентами (пациентами,
сотрудниками, заказчиками и т.п.) и для этого пытается чем-то понравиться, чем-то развлечь. Рисуночные техники хотя бы потому популярны,
что они напоминают салонные игровые тесты и не слишком напрягают
участников процесса. С их помощью психологу установить контакт с клиентом бывает проще, чем с помощью лобовых расспросов о том, какие проблемы беспокоят.
Всем известны рисуночные техники «Дом-дерево-человек», «Рисунок семьи», «Несуществующее животное» (см. краткий обзор еще в пособии Бодалева, Столина, 1987; а также в книге Анастази, Урбина, 2001,
с. 470). Главный объединяющий их признак в том, что рисунок порождает сам испытуемый (не путать, например, с так называемом «психогеометрическим тестом» Делингер, где испытуемый должен выбрать
фигурку из готового набора). Но это вовсе не обязательно только личностные проективные методики. Это могут быть методики опосредствованного запоминания, когда рисунок-ассоциация должен помочь
испытуемому вспомнить предъявленное слово (классическая методика
«Пиктограммы»). Это могут быть рисуночные методики, когда требуется что-то дорисовать, что-то придумать и изобразить (Торранса, Вартегга и других — см. краткое описание в справочнике Бурлачук, Морозов,
2000, с. 49—50).
Что тут следовало бы рекомендовать начинающим диагностам?
1) Душить в зародыше Вашу собственную бурную фантазию по поводу этих рисунков! Помните, что ваша фантазия в отсутствие опыта и
профессиональных навыков — это главный источник «встречной проекции» (субъективизма со стороны диагноста в отношении продукции
испытуемого).
228
Практическая тестология
2) Применять к рисуночной продукции определенную методологию экспертных контент-аналитических оценок (подобно той, которая применяется к вербальным текстам) к наблюдаемому невербальному поведению
(позы, мимики, жеста) и т.п. Рисунок можно и нужно анализировать по
признакам. Пример — некоторые экспертные системы анализа почерка,
в которых выделяются более трех десятков аналитических признаков (не
путать с популистскими изданиями типа Гольдберг, 2008—2009).
3) Искать всюду, где только можно найти, образцы самих рисунков. Чем
больше рисунков, порожденных по определенной инструкции, Вы увидите, тем лучше будут «отстроены» ваши оценочные эталоны, субъективные шкалы и фильтры. Вот вы читаете рекомендацию к интерпретации
«Несуществующего животного»: «Если торчат зубы, значит, проявляется
агрессия». Но… стоп! А как торчат? Может быть, это улыбка? Ведь при улыбке зубы тоже обнажаются, хотя по-другому, нежели в случае агрессивного
оскала. А насколько должны быть растянуты и приподняты уголки рта
при улыбке? А каких размеров зубы бывают? Если в пол-лица (мордочки),
то понятно, что это большие. А если в 1/10 от «высоты лица»?
4) Искать возможность пройти по каждой методике специализированный семинар под руководством специалиста-эксперта, сертифицированного по данной методике. Но и здесь опасайтесь подделок и подставок (вместо серьезного специалиста вам может попасться самозванец с
поддельными сертификатами какой-нибудь «всемирной ассоциации
рисуночных техник»). Именно практический тренинг на этом семинаре в виде поиска согласованности в суждениях и оценках с другими
участниками (если он грамотно организован на базе реальной продукции) может принести большую пользу — тот опыт, который необходим
и которого не хватает новичкам. Отсутствие в подобном семинаре процедуры реального измерения уровня согласованности между участниками для меня лично признак непрофессионализма.
5) Стремитесь как можно быстрей сформировать у себя точные представления о том, что такое «стереотипный шаблонный ответ», или «ответклише». Помню, как в пору популярности известного мультфильма
половина испытуемых из числа студентов-психологов МГУ в задании
«Несуществующее животное» рисовали… Чебурашку. Понятно, что в
таком ответе-отклике нет никакой проекции, кроме демонстрации
знакомства с популярным героем. Не забывайте, что популярные
журналы (куда психологи-предатели уже давно продали за «тридцать
серебреников» многие увлекательные методики) давно познакомили
миллионы читателей с тем, как нужно отвечать на подобные задания.
И у некоторых испытуемых давно есть на этот случай «домашние заготовки». Когда испытуемый в известном «тесте рамки» проводит
произвольную черту вообще вне предложенного на листе прямоугольника, я спрашиваю с улыбкой: «Ну, признайтесь, Вы ведь уже знали
смысл этой методики, да?» И испытуемый, как правило, с улыбкой
Глава 3. Разработка тестовых заданий и образцы заданий
229
признается: «Конечно, знал». А некоторые при этом идут дальше — рассказывают то, что они знают о теории «полезависимости» и т.п.
6) Рисуночные методики расслабляют, но… при этом появляется риск несерьезного отношения со стороны испытуемого ко всем вашим оценочным процедурам. Слишком много ассоциаций с салонными играми.
Резюме: как и большинство других психодиагностических оценочных техник, данный вид методик (формат заданий) не может быть использован изолированно, а только в комплексе с другими методиками.
Если результаты различных методик при комплексном обследовании оказываются сходными, тогда растет уверенность в выводах.
Кластер вопросов на понимание одного текста
У нас в стране еще очень мало используют тесты на понимание текста.
Их отличительной чертой является наличие перед глазами испытуемого
достаточно развернутого связного текста по определенной тематике — не
из одной-двух фраз, а на страницу в 20—30 строк (не меньше), то есть на
полтора-два экрана на компьютере. Я в последние годы (начиная с 2006
года) на спецкурсе в МГУ «Конструирование тестов» даю практическое
задание студентам составлять тест с выбором ответа не на основе «заданий по памяти» («Вспомните, как звали коня Александра Македонского?»),
а только на понимание текстов. Слишком часто метод тестов ошибочно
упрекают в том, что якобы «все тесты эксплуатируют лишь память испытуемого, но не затрагивают мышления». Мое возражение: не все тесты, а
только те, которые Вы видели в своей жизни.
Но вот перед испытуемым на экране связный текст, и все вопросы составлены по нему. К тексту всегда можно вернуться! Таким образом, все
ответы содержатся не в вашей памяти, а в Вашей способности читать и понимать текст, который вовсе не надо запоминать. Только среди ответов нет
такого правильного, который буквально (текстуально) содержится в самом
тексте. Все правильные ответы — это перефразировки той мысли, которая
заложена в тексте. Таким образом, студенты, составляя подобные вопросы
на спецкурсе (а это очень трудная задача, поверьте, многим для этого совсем не хватает готовых логико-семантических навыков) операционально
осваивают само понятие, что есть «понимание».
Понимание — это способность к перефразированию, способность узнать
или выразить ту же самую мысль, но оформленную другими словами.
Данное упражнение — создание теста на понимание текста — учит будущих разработчиков тестов тому, что тесты могут и должны задействовать вовсе не только память испытуемых, что при этом также возникают
230
Практическая тестология
статистически удачные и неудачные задания, и вся «кухня» отбора-отсева
тестовых заданий работает точно так же (см. параграф 3.9).
При компьютерном проведении должна быть возможность вызвать
исходный текст на экран в любой момент повторно (по кнопке «инструкция»), и даже лучше, если он будет постоянно присутствовать в одном из
окон на экране компьютера. Все вопросы к одному тексту образуют связный кластер. Эти вопросы нельзя перемешивать в случайном порядке с
другими вопросами, не относящимися к данному тексту. Этот диагностический прием, таким образом, накладывает отпечаток (ограничение)
на сам алгоритм оперативной автоматизированной сборки варианта
из банка заданий. Поэтому вариант разбивается на блоки, для которых
должны дифференцированно включаться и выключаться различные алгоритмы предъявления заданий — в строгом порядке или с перемешиванием. Именно так можно настраивать тесты в модуле «Мастер-тесты» в
системе HT-LINE, приспособленной для предъявления заданий на понимание текстов.
Контекстная вставка
Всем и давно известны задания типа «Вставьте пропущенное слово».
Если вставить предлагается в отдельную короткую фразу, то задание такого типа может быть оформлено либо как задание с кратким свободным
ответом, либо даже как задание с выбором ответа — все варианты для
вставки могут быть перечислены перед глазами испытуемого. Вот упрощенный пример подобного задания из теста элементарной компьютерной
грамотности:
Если Ваш компьютер завис, то прежде чем звонить и вызывать мастера
компьютерщика, надо для начала просто _____ Ваш компьютер.
- слегка стукнуть
- выключить
- подключить к другому компьютеру
- перезагрузить
Но отдельной категорией тестовых заданий (и вообще особым форматом тестирования) оказывается методика «контекстной вставки», когда
на экране предъявляется связный текст, в котором пропусков не один, а
много, и все эти пропуски надо заполнить. При обучении иностранным
языкам этот прием используется не столько как тест, сколько как тренировочное упражнение, известное под названием cloze test. В отдельном параграфе книги (см. раздел 5.4) описан наш экспериментальный опыт работы
с этим диагностическим приемом для диагностики знаний. Это прием
близок к тестам на понимание текстов, но создает более продуктивную
Глава 3. Разработка тестовых заданий и образцы заданий
231
модель деятельности испытуемого: надо не выбирать ответ, а активно
придумывать те слова, которые подходят на место пропусков.
В последнее время появляется технологическая возможность такой
модификации метода контекстной вставки, как «интерактивный диктант» (см., например, сайт www.totaldict.ru). Это удачный прием для измерения, например, пунктуационной грамотности. При этом текст доступен на слух (в виде звукового файла), а пропуски на месте знаков препинания надо вставлять на интерактивной странице.
Развивая этот перспективный диагностический прием — контекстную вставку, надо пока учитывать следующее: на практике слишком
мало заданий такого типа удается подготовить для банка заданий, поэтому к ним тестируемые легко могут изготовить шпаргалки (как и в
случае заданий с развернутым ответом). Объединившись в группу из
пяти-шести человек, успевающие студенты легко воспроизводят все
100 процентов правильных ответов, даже если в тесте сделано до полусотни пропусков. И вот уже шпаргалка готова, и для всех заинтересованных лиц открыт к ней доступ по Интернету (в защищенном паролем
почтовом ящике). Поэтому применять подобный прием пока приходится лишь для тренинга и промежуточного контроля, но не для итогового
контроля и аттестации.
Общее резюме данного раздела о разных форматах тестовых заданий.
Каждому начинающему автору-разработчику тестов очень полезно
получить опыт по созданию заданий в различных форматах: даже
если затем автор будет специализироваться на каком-то одном формате, он будет лучше понимать его достоинства и недостатки, ибо у
него будет сформирована более широкая база сравнения.
3.3. ЛОГИКО-СЕМАНТИЧЕСКАЯ ТИПОЛОГИЯ
ТЕСТОВЫХ ЗАДАНИЙ
А теперь рассмотрим совершенно иную классификацию тестовых заданий — не по внешнему формату, а по логико-семантической структуре. Эта
классификация учит тому, что внутри заданий одного простейшего формата
(с единичным выбором) можно создать большее разнообразие заданий, требующих совершенно разных логико-семантических операций мышления66.
66 В данном случае автор книги предлагает более простую и компактную содержательную
классификацию тестовых заданий, чем это делается в тех руководствах, в которых пытаются для этих целей предложить таксономию Бенджамина Блума — классификацию критериев усвоения учебных элементов, на наш взгляд, громоздкую и не вполне операционализированную (см. о таксономии Блума статью в Википедии), хотя и полезную для тех, кто не
боится избыточности в подобных вопросах. — Прим. автора.
232
Практическая тестология
Наиболее типичная ошибка начинающих авторов заключается в том,
что они создают чаще всего задания какого-то одного простейшего логико-семантического типа. Это фактологические задания, предполагающие
краткие ответы, — одним словом или одним числом.
Вот примеры заданий из теста на знание основ Трудового законодательства, созданных начинающими авторами (из проекта на сайте
www.ht.ru «Библиотека Экспресс-тестов»):
Вопрос 2:
Срочный трудовой договор расторгается по истечении срока его действия, о
чем работник должен быть предупрежден в письменной форме не менее чем...
= за 3 дня
= за неделю
= за две недели
= за пять рабочих дней67
Вопрос 9:
Коллективный договор заключается на срок не более...
= 3 лет
= 2 лет
= 1 года
= 5 лет
Если посмотреть демоверсии аналогичных тестов на эту тему на какомнибудь сайте типа www.kadrovik.ru (Национальный союз кадровиков), то
Вы найдете в них преобладание заданий такого же типа. Ответы — очень
краткие и нередко просто цифровые. Как будто другой фактологии, кроме
количественных нормативов, в Трудовом кодексе РФ вовсе не найти.
Встает, прежде всего, задача повышения разнообразия за счет вопросов, апеллирующих к более глубоким логико-семантическим структурам
знания, чем элементарная память на числа.
При разработке заданий проще всего использовать классификацию вопросов с помощью естественных их обозначений, основанных на вопросительных местоимениях естественного языка: Что? Кто? Где? Когда? Как?
Сколько? Зачем? Почему? Куда? и т.п., включая менее очевидные сложные
вопросы: Как называется? В каком порядке? Чем отличается? Как создается?
Я рекомендую на первом шаге давать начинающим авторам такую
простую сетку, классифицирующую вопросы на 3 возможные категории
(чтобы не путать эту классификацию тестовых заданий с классификацией
заданий по формату, здесь использованы буквенно-цифровые обозначения типов с использованием латинских букв «LS»):
67
Значок «=» — это принятый символ разметки тестовых ответов в системе HT-LINE. Распознавая этот символ в начале строки, программа подставляет в интерактивном режиме на это
место «радио-кнопку».
Глава 3. Разработка тестовых заданий и образцы заданий
233
Простейшее деление на 3 категории
LS1) о фактах и персоналиях (Что? Кто? Где? Когда?);
LS2) концептуально-терминологические и теоретические (Как называется? Как объяснить?);
LS3) методические (Что делать? Как сделать?). Обращаем внимание, что
именно задания типа «LS3» являются наиболее ценными для диагностики практических компетенций, то есть умений решать задачи.
Более полное деление на 15 категорий вопросов:
1.
2.
3.
4.
Фактологический вопрос по модели «Что? Где? Когда?»;
Персонологический вопрос по модели «Кто?»;
Причинно-следственный вопрос «Почему? Что следует?»;
Функционально-целевой вопрос по модели «Для чего/зачем? С какой
целью?»;
5. Структурный вопрос по модели «Из чего?»;
6. Инструментальный вопрос по модели «Как? Каким образом?»;
7. Обстоятельственный вопрос по модели «При каких условиях?»;
8. Словарно-концептуальный вопрос по модели «Определите понятие»
(«Как называется? Что значит термин?»);
9. Логико-дедуктивный вопрос по модели «Что следует из данных посылок?»;
10. Концептуально-ассоциативный вопрос по модели «Заполни пропуск»;
11. Концептуально-аналитический вопрос по модели «Проведи аналогию»;
12. Задание на восстановление последовательности или структуры по
типу «Продолжи ряд» («В какой последовательности?»);
13. Концептуально-семантическое задание для установления смысловой
эквивалентности или близости;
14. Проблемно-операциональное задание «Реши задачу»;
15. Исключение лишнего и вопросы с «НЕ».
Далее несколько более подробно рассмотрим 6 основных LS-типов тестовых заданий и приведем примеры.
Фактологические и персонологические
Пример вопроса такого рода — «Кто изобрел паровоз?», а в качестве вариантов ответа список фамилий изобретателей. В особой популяризации этот
тип вопросов не нуждается, ибо их доля в тестах, как правило, и так выше разумной. Хотя и эти простые по логической структуре вопросы надо уметь формулировать «с умом», то есть стараться подбирать «провокационные дистракторы» — такие, которые соответствуют распространенным заблуждениям
234
Практическая тестология
тестируемых, поверхностно знакомых с предметом. Например, спрашивая о
том, когда началась Вторая мировая война, Вы обязательно должны указать в
качестве дистрактора дату «22 июня 1941 года», потому что многие путают начало Второй мировой войны и Великой Отечественной войны.
Терминологические и концептуальные
В этом случае вопрос формулируется так: «Как называется… (описание
явления)? Какое определение данного термина X точнее (среди ответов перечень возможных определений)? Назовите видовые отличия в рамках родового понятия». Применительно к тому же самому «паровозу» эти вопросы могут
звучать так: «Что такое паровоз? Чем паровоз отличается от тепловоза?»
Для эффективной разработки этого типа заданий нужно, конечно,
уметь опереться на достаточно строгий, четко-сформулированный и общепринятый для данной области знаний словарь-глоссарий из кратких
концептуальных определений для специальных терминов. Если такого
общепринятого словаря нет, то автор попадает в трудную ситуацию. Ему
приходится «выкручиваться», вставляя в вопрос оговорки, касающиеся
трудов определенных авторов: «Как в работах К. Маркса определяется понятие «стоимость»?» (имеется в виду, что далеко не все экономисты разделяют марксистскую трудовую теорию стоимости).
Для составления удачных терминологических заданий надо преодолеть в себе одну неосознаваемую (плохо осознаваемую) установку — установку на короткие ответы. Давайте в виде вариантов ответа длинные формулировки возможных определений. И тогда Вы увидите, как путаются
студенты в очень похожих для них, но совершенно различных для Вас
определениях. Вот пример такого рода вопроса из моего банка вопросов по
курсу «Основы психодиагностики»:68
Укажите правильное определение термина «психодиагностика»:
1) наука об индивидуальных психологических различиях, основанная на экспериментальном подходе к их выявлению
2) множество психологических тестов, соответствующих психометрическим
требованиям надежности, валидности, репрезентативности и достоверности
3) система приемов и правил постановки психологического диагноза, указывающего на степень отклонения человека от нормы
4) область науки и форма практики, которая связана с разработкой и использованием разнообразных методов распознавания индивидуальных психологических
особенностей человека.
68
Я формировал этот банк в течение 30 лет, и сейчас он насчитывают 450 заданий, прошедших достаточно серьезную статистическую обкатку (150 из них в свободном доступе используются в открытой демоверсии для студентов).
Глава 3. Разработка тестовых заданий и образцы заданий
235
А теперь постарайтесь угадать, какой дистрактор «работает» сильнее
других, то есть его чаще ошибочно выбирают студенты, так как он является самым «провокационным»? Постарались? Тогда я раскрою загадку:
это второй ответ, так как он более других для слабых студентов насыщен
«страшными терминами», значение которых они силятся освоить в течение курса.
Логико-теоретические
Эти вопросы близки к терминологическим, но звучат часто подругому: «Как объяснить? Как предсказать? Какова причина? Каков механизм?». В чем общая особенность подобных вопросов? Они «прозванивают» понимание испытуемым определенных связей и отношений между
понятиями. Ведь вопрос-задание про функцию и механизм можно переформулировать так: «Установи соответствие между данным набором объектов (механизмов) и возможными принципами их функционирования».
А вот как это будет звучать в отношении того же самого паровоза: «Каков принцип движения паровоза?». Причем при описании принципа не
стоит стесняться подробностей. Пусть ответ будет длинным. Причем не
только правильный ответ, но и дистракторы. Кстати, сильно затрудняют для испытуемых жизнь такие дистракторы, в которых используются
те же самые «правильные слова», что и в самом правильном ответе, но… в
другом порядке. Ведь многие поверхностные знания — это чисто ассоциативные знания на уровне «ассоциаций по смежности», то есть по встречаемости слов в одном контексте (в одном абзаце учебника), а вот более глубокие связи между ними не познаны. «Хитрые испытуемые» ищут среди
ответов про принцип движения паровоза слово «пар», исходя из состава
сложного слова «паровоз». Так попробуйте дать им это «желанное слово»
именно в дистракторе, а в правильном ответе используйте только выражение «давление в котле» и посмотрите, каков будет эффект. Ниже привожу
пример вопроса из моего многолетнего банка, касающегося отношений
между понятиями «валидность» и «надежность»
Как связаны между собой понятия «надежность» и «валидность»?
— валидность не может превышать надежность
— чем выше надежность, тем выше валидность
— надежность — частный случай валидности
— никак не связаны, это независимые понятия, разные показатели качества
измерительной психодиагностической методики.
Предъявляя подобные вопросы, можно даже разрешить студентам,
отвечающим за компьютером, пользоваться учебником, и все равно
такие вопросы будут разделять подготовленных и неподготовленных.
236
Практическая тестология
Не зная предмета, многие студенты не могут понять, на какой странице учебника искать ответ. На эти поиски у них уходит слишком
много времени, и они получают низкий суммарный балл, просто не
успевая за ограниченное время пройти все задания предлагаемого варианта. Ниже перечислим основные распространенные в различных
предметно-теоретических дисциплинах типы отношений между понятиями, знание которых помогает составлять логико-теоретические
вопросы:
1) Отношения типа «род — вид»
2) Отношения типа «часть — целое»
3) Отношение типа «причина — следствие»
4) Отношение типа «цель — средство»
5) Отношение типа «условие — следствие» (известный в программировании условный переход «если __, то___»).
6) Отношение «инструмент — функция»
и… тому подобные.
Вот пример вопроса на отношение «инструмент — функция»:
Укажите, какой из инструментов предназначен для выполнения функции «завертывание болтов»:
— шлицевая отвертка;
— крестовидная отвертка;
— плоский гаечный ключ;
— торцевой гаечный ключ.
Очень помогает освоить такие вопросы (вопросы про отношения между понятиями) знакомство с популярными форматами логических вопросов в тестах на сообразительность (IQ-тестах). Ниже мы перечислим далеко не все, но три самых популярных формата.
1) Вопросы по типу «установите аналогию». Пример:
«Паровоз» относится к «рельсам», как «самолет» к:
— бетонной взлетно-посадочной полосе;
— воздуху;
— грозовым облакам;
— собственному шасси.
2) Вопросы по типу «укажите лишнее слово». Пример:
Укажите, какой инструмент больше отличается от других по функции:
— отвертка;
— молоток;
— клещи;
— гвоздодер.
Глава 3. Разработка тестовых заданий и образцы заданий
237
Впрочем, слово «функция» (то есть основание классификации) в таких
тестах чаще всего явно не присутствует в условии задания. Это основание
классификации испытуемому как раз и надлежит распознать.
3) Продолжение ряда. Пример:
Продолжите ряд исторических дат: 1918, 1924, 1936…
а) 1945;
б) 1961;
в) 1977;
г) 1991.
Понятно, что испытуемому, чтобы правильно продолжить ряд, нужно
найти что-то общее и закономерное в указанном списке дат.
Методические, конструктивные, процедурные
В этом случае, как мы уже отмечали выше, когда перечисляли три основные ЛС-категории, вопросы формулируются так: «Что делать? Как сделать? Из чего состоит? Какова правильная последовательность действий?».
Здесь речь идет, прежде всего, о переходе от теоретических понятий
к так называемым «операциональным» — описывающим способы действия. Без этого перехода знания остаются в голове человека отвлеченными, абстрактными и не диктуют ему, как надо действовать для решения
той или иной практической проблемы. Тому из читателей, кому интересно углубиться в изучение операциональных понятий, следует рекомендовать познакомиться с трудами Перси Бриджмена — автора теории операциональных определений.
Кстати, разложение на части (анализ) — это один из вариантов действия с предметом, хотя он в некоторых контекстах может сближаться с
логико-теоретическими вопросами на отношения типа «часть — целое».
В этом свете вопрос, касающийся нашего «паровоза», звучит в теоретическом ключе так: «Из каких частей состоит паровоз?», а в более практическом, операциональном ключе так: «На какие части можно разобрать паровоз?». Когда маленький ребенок ломает игрушки, мы не совсем понимаем
его стремления познать мир путем выяснения того, на какие части можно
разделить тот или иной предмет.
А вот пример методического вопроса, касающегося нашего с Вами
предмета, изучаемого в данной книге:
В какой последовательности лучше проверять различные психометрические
свойства теста:
1) вначале валидность, затем надежность, затем репрезентативность, затем достоверность;
238
Практическая тестология
2) надежность, валидность, достоверность, репрезентативность;
3) репрезентативность, надежность, валидность, достоверность;
4) надежность, валидность, репрезентативность, достоверность.
Многие кейсовые задания (о них будем говорить чуть ниже) также используют в качестве вариантов ответа описание возможных действий —
таких действий, которые приводят к разрешению проблемной ситуации.
Без операциональных заданий мы никак не приблизимся к диагностике
того, есть ли у испытуемого, кроме абстрактного знания, способность решать практические задачи, то есть применять знания для решения задач
(проявлять компетентность).
На понимание текста
Этот тип заданий мы уже выделяли как некий «формат», то есть выделяли «по форме», главным образом обращая внимание на то, что все вопросы между собой контекстно связаны и отнесены к одному тексту. Но
какие это могут быть вопросы по содержанию? Ниже мы даем читателю
перечень, который может помочь в конструировании подобных вопросов — на понимание текста.
Чему, какой проблеме посвящен текст?
Какова основная мысль (вывод) автора?
Как автор обосновывают свой вывод?
На какие вопросы в тексте можно найти ответ?
На какие вопросы в тексте НЕЛЬЗЯ найти ответ?
Какое из утверждений можно найти в тексте в перефразированной
форме?
Каким образом автор характеризует главный предмет (или героя) своего текста?
В чем автор усматривает причины той проблемы, которая описывается в тексте?
Какие прогнозы делает автор на будущее, если проблема не будет разрешена?
и т.п.
Те читатели-психологи, которые немножко знакомы с проективным
тестом ТАТ (тематический апперцептивный тест), наверняка, смогут найти для себя в этом перечне вопросов какое-то сходство с элементами инструкции к этому тесту: «Составьте рассказ по картинке, отвечая на следующие вопросы: Кто изображен на картинке? О чем думает и чувствует
герой? Что было до этого? Что будет потом? И т. п.»
Отдельного внимания заслуживает такой тип заданий, которое
можно назвать реконструкцией текста. В этом случае все фразы в тексте нумеруются, но предъявляются в перемешанном порядке. Задача
Глава 3. Разработка тестовых заданий и образцы заданий
239
испытуемого — расположить фразы в правильном порядке. Вот пример
применения подобной логики в построении тестового задания в тесте русского языка на ЕГЭ:
(1)
(2)
(3)
(4)
«Роман о Лисе» состоит из 30 частей.
Он относится к так называемому животному эпосу.
Главный источник книги — сказки о животных.
Многие сюжеты таких сказок называют бродячими, потому что они встречаются у большинства индоевропейских народов.
(5) …русскому читателю хорошо знакомы истории о том, как лисица выманила
сыр у вороны, как воровала рыбу, прикинувшись мертвой, и как волк из-за нее
примерз ко льду и лишился хвоста.
(6) Эти и другие проделки лисы занимают достойное место и в старофранцузском животном эпосе.
Какое из приведённых ниже предложений должно быть первым в этом тексте?
Задания типа «кейс» (случай из жизни)
Кейс — это слабоформализованное (или вообще неформализованное)
описание проблемной ситуации, которое, как правило, содержит, с одной стороны, избыточную (ненужную информацию), а с другой стороны,
может не содержать часть информации, необходимой для принятия решения. Кейс очень часто описывается не с помощью профессиональных
терминов, а на житейском языке. Почему это делается именно так? А дело
в том, что само применение определенных специальных терминов уже
несет в себе подсказку, к какому классу задач и к какому разделу науки
относится проблемная ситуация. Например, если Вы в описании ситуации используете термины «катушка индуктивности» и «сопротивление»,
то испытуемый тут же сообразит, что речь идет об электрических цепях
и постарается применить к тестовому заданию свои познания о шаблонах
решения задач в этой области. Уход от специальной терминологии (не абсолютный, но хотя бы немного обозначенный) — это попытка смоделировать ситуацию применения знаний на практике. Ведь когда мы встречаемся с практической задачей, ее, как правило, никто еще не описал и не
«разжевал» для нас на языке какой-то научной дисциплины. В некоторых
сложных случаях мы даже не можем сходу понять, относится ли эта задача к области физики, химии или биохимии.
Очень часто кейсы связывают с заданиями, требующими свободного
развернутого ответа. Это так называемые «открытые кейсы», или «открытые вопросы» (кстати, сам термин «открытые вопросы» является в большей мере социологическим, чем психолого-тестологическим). Суть в том,
что испытуемый, решая кейс, должен изобрести решение из головы. Но…
в последнее время нередко пытаются скомбинировать метод кейсов и…
240
Практическая тестология
формат с множественным ответом. Для кейса предлагается несколько готовых вариантов решения (от 7 до 10), и нужно указать все такие, которые
имеют смысл в данной ситуации. Это могут быть довольно-таки различные действия. Ведь разумный испытуемый с гибким мышлением понимает, что в зависимости от дополнительной информации (при снятии неопределенности) могут оказаться правильными различные способы действия. Главная задача может переформулироваться по-другому: «Укажите
такие способы действия, которые точно НЕ надо использовать в этой ситуации, так как они заведомо неразумны на основании имеющейся информации (при любом возможном варианте ее дополнения). Не будем здесь
приводить пример с использованием длинного (большого) кейс-описания,
возьмем микрокейс:
Студент Петров отвечал на устном экзамене по билету. На первый вопрос он
ответил все, что приготовил. На втором вопросе его прервали и поставили оценку
«Отлично». Какой вопрос больше запомнится Петрову, если его спросить об экзамене через пару месяцев?
1) Первый,
2) Второй,
3) Оба запомнятся,
4) Оба забудутся.
Как мы понимаем, в этой ситуации испытуемый должен вспомнить
из области психологии памяти так называемый эффект Зейгарник: прерванные события (незавершенные действия) сильнее запоминаются. Это
пример попытки смоделировать ситуацию применения знания.
Недаром развитие кейс-методов в области оценивания идет рука об
руку с внедрением компетентностного подхода. Ведь компетентностный
подход требует обратить внимание на то, до какой степени учащийся научился применять полученные знания для решения практических задач.
Завершая этот раздел 3.3, сформулируем следующий тезис-резюме:
Включение в тест заданий с разнообразной логико-семантической
структурой является желательным, но не обязательным требованием, то есть это не самоцель. Если этого не требует концепция теста
(по составу тестируемых компетенций), а также если авторы не готовы предоставить качественные задания с особой, нетипичной логико-семантической структурой, то к этой цели не надо стремиться во
что бы то ни стало.
Значительный опыт проведения семинаров с преподавателями показал, что определенную способность (не путать с желанием) к созданию
заданий со сложной логико-семантической структурой демонстрирует не
более 10 процентов действующих преподавателей. Продукция остальных
Глава 3. Разработка тестовых заданий и образцы заданий
241
нуждается в существенной коррекции и отсеве (отрицательной селекции),
так что эту продукцию ни в коем случае нельзя «с колес» использовать в
работающих тестовых материалах. Малоопытные авторы заданий должны набираться опыта не самостоятельно и автономно, но быть включены
в более обширные коллективы под надзором более опытных авторов тестовых заданий или хотя бы авторов с развитым формально-логическим
мышлением (их почти в каждом вузе можно найти из числа преподавателей математических дисциплин).
3.4. РЕФЛЕКСИВНЫЕ ИГРЫ
И ПСИХОЛОГИКА ИСПЫТУЕМЫХ
Отдельного внимания в искусстве разработки тестовых заданий заслуживает проблематика, связанная с имитацией автором логики мышления испытуемых. Точнее было бы назвать эту своеобразную логику
«психологикой», ибо некоторые ее элементы весьма иррациональны,
тесно связаны с эмоциональными установками и слишком не похожи на
строгую логику в обычном ее понимании. Автор при создании заданий
должен владеть особым искусством: видеть свое задание глазами своих
испытуемых, не своими глазами — человека, который знает правильный
ответ, а другими глазами — людей, которые как раз могут его и не знать,
но стараются догадаться. Возникает своеобразная рефлексивная игра
(«рефлексивный конфликт» по Лефевру, 1973): испытуемый стремится угадать способ мышления автора, а автор стремится угадать способ мышления и предпочтения (стили ответов) испытуемого.
Чем точнее автор может имитировать то, как будет трактовать задание испытуемый, не знающий сути предмета, но старающийся угадать правильный ответ, тем удачнее он будет формулировать задания, а в особенности — дистракторы, то есть ложные, отвлекающие
ответы.
Какие же принципы «психологики испытуемого» должен учитывать
автор, чтобы выигрывать в рефлексивной игре с испытуемым?
1) Позиционный стиль ответа. Некоторым неподготовленным испытуемым начинает казаться, что правильный ответ всегда стоит на определенном месте в предлагаемом наборе — на первом или на последнем,
например. Эту иллюзию (граничащую с суеверием) можно использовать следующим образом: предъявить в тесте три первых очень простых задания, и во всех этих заданиях ответ поставить на последнем
месте. В результате у части неподготовленных испытуемых сформируется стратегия (или установка) — «выбирать последний ответ», в результате которой они заведомо понаделают массу ошибок и попадут в
242
2)
3)
4)
5)
6)
Практическая тестология
«низкую группу» — группу испытуемых с низкими баллами по тесту.
Хотя… если выбирать из двух вариантов: использовать ли такую «нехитрую ловушку» или все-таки воспользоваться услугами компьютерной
программы, которая всегда автоматически случайно перемешивает
порядок ответов, то следует, конечно, предпочесть второй вариант, ибо
он несет с собой больше положительных последствий (в плане защиты
от шпаргалок, прежде всего).
Самый длинный ответ. Некоторым испытуемым кажется, что ответ,
в котором содержатся какие-то подробности и детали, является более
полным и поэтому правильным. Первый очевидный вывод: дистракторы нельзя делать более короткими, чем правильный ответ. По крайней
мере, не следует лениться, придумывая формулировки дистракторов.
Во-вторых, можно даже специально формулировать некоторые дистракторы как самые длинные из всех вариантов, чтобы «поймать» неподготовленных испытуемых в эту ловушку.
Правильный ответ содержит «самые умные» слова или «пафосные утверждения». Например, «Победа в Великой Отечественной войне явилась результатом героизма всего советского народа…». Во-первых, надо
следить, чтобы авторы невольно сами не воспроизводили в своих заданиях эту закономерность. А во-вторых, можно попытаться в каких-то
случаях именно дистракторы насытить специальной терминологией.
Правильный ответ содержит самый частотный термин, встречавшийся на лекциях (любимое словечко преподавателя) или в учебнике. Я
выше уже приводил примеры того, как термин «валидность» я встраиваю в своих заданиях именно в дистрактор, чтобы спровоцировать
«угадайщика» на ошибку.
Правильный ответ содержит термины, встречающиеся в самом вопросе. Действительно, некоторые авторы не следят за этой невольной подсказкой, которую они сами создают в тексте тестового задания: они
грамотно (в полном соответствии с логикой изучаемого предмета) формулируют условие задания с использованием какого-то специального
термина, а также очень ответственно формулируют правильный ответ
(тоже с использованием того же специального термина). А вот проработке дистракторов не уделяют такого внимания, понимая буквально
некий разумный тезис: формируйте дистракторы из тех ошибочных
суждений, которые студенты выдают на устном экзамене. В результате
видно, что дистракторы написаны таким непрофессиональным языком, который характеризуют скорее невежу, чем специалиста. Понимая, что некоторые студенты вычисляют именно эту закономерность
(глядя на наивные тесты других авторов), надо воспользоваться этим
знанием и сделать… наоборот, то есть более складно и терминологично
построить по форме именно дистрактор, а не правильный ответ.
Правильный ответ — это нечто среднее между явно абсурдными крайностями; Пример такого рода задания-вопроса:
Глава 3. Разработка тестовых заданий и образцы заданий
243
Какова численность населения России?
— 300 миллионов;
— 140 милллионов;
— 90 миллионов.
Я нарочито здесь привел упрощенный пример, чтобы проиллюстрировать, что такое принцип «золотой середины», которым может руководствоваться студент в своей «угадайке». Нужно, как минимум, следить за
тем, чтобы в создаваемых Вами заданиях правильный ответ не стоял «посередине» и в прямом (пространственном), и в смысловом плане.
7) Правильный ответ имеет подсказку из содержания другого вопроса. Авторы, когда очень торопятся и формально относятся к задаче создания множества вопросов, не думают совсем о том, что в формулировке одного вопроса может уже содержаться ответ на другой (см. пример в следующем
разделе 3.5). Но студенты как раз к этому весьма чувствительны. Обнаружив одну-две «подсказки» такого рода, студенты начинают целенаправленно искать такие подсказки в вопросах. Хорошая «контригра» — это
сформулировать явную ложную подсказку в условиях такого вопроса, для
которого правильным ответом будет ответ «имеется ошибка в условии».
Не анализируя все детали всего задания в целом (не прочитывая всех дистракторов), студент полагает, что все условия (шапки заданий) содержат
внутри себя корректную информацию. А Вы с помощью такого «логического выверта» застигаете врасплох такого «хитрого студента». Впрочем,
такой уровень рефлексивно-логической игры, возможно, покажется «заумным» не только начинающим, но и зрелым авторам тестовых заданий.
8) Правильный ответ содержит внутри себя обоснование. Как правило,
это обоснование приводит чисто внешне к тому, что правильный ответ оказывается длиннее, чем все дистракторы (см. пункт 2 настоящего перечня), но все же в общем случае это самостоятельный признак.
Встройте в дистрактор придаточное предложение, которое начинается
со слов «потому что», и уверяю Вас, такой дистрактор будет «работать»
лучше — будет привлекать к себе больше неподготовленных студентов.
9) Правильный ответ содержит более полный перечень логических
условий, при которых выполняется основное суждение. Это тоже, как правило, приводит к повышению формальной длины правильного ответа.
Пример задания, в котором более подробный набор логических условий
вынесен из правильного ответа в дистрактор:
Когда следует применять перевод сырых баллов в стандартные по формуле
линейной стандартизации?
— когда распределение сырых баллов (РСБ) подчиняется нормальному закону
(правильный ответ);
— когда РСБ близко к нормальному, и выявлена высокая устойчивость теста
к перетестированию (дистрактор).
244
Практическая тестология
Социальная желательность ответов
Итак, мы сформулировали 9 признаков. Следует сделать такую важную оговорку. Конечно, приведенный перечень, прежде всего, относится
к квалификационным тестам знаний. Он в меньшей степени применим к
ситуации конструирования психологических тестов способностей и особенно — тестов личностных черт. В последнем случае главным полем рефлексивного противодействия разработчика и испытуемого оказывается так
называемый фактор «социальной желательности» (понятие подробно изучено в работах А.Л. Эдвардса — Edwards, 1970). Подавляющее большинство испытуемых, выполняя характерологический тест-опросник, стремится давать так называемые «социально-желательные ответы» (чтобы выглядеть в
лучшем свете с точки зрения социальных норм). Понимая это, разработчик
должен стараться «расцепить» тот фактор (личностное свойство), которое он
собирается измерить, и фактор социальной желательности. Для этого надо,
чтобы ключевые ответы (те, которые «работают» на высокий полюс измеряемого свойства) поочередно и сбалансированно связывались с социальной
желательностью то положительно, то отрицательно. Например, если Вы
измеряете склонность к риску, то суждение, в котором эта склонность воспринимается как добродетель (качество, позитивно связанное с социальной
желательностью), должно уравновешиваться в перечне с суждением, в котором эта же склонность воспринимается как недостаток.
Пример первого суждения:
«Если бы Вас пригласили друзья, Вы согласились бы поработать в качестве волонтера-спасателя при устранении последствий природной катастрофы?».
Пример второго суждения:
«Если Вас приглашают сыграть в лотерею, и Вы понимаете, что вероятность
выигрыша ниже, чем вероятность проигрыша, предпочитаете ли Вы все же рискнуть и принять участие?»
3.5. ОСОБЫЕ ТЕХНИЧЕСКИЕ ПРОБЛЕМЫ
ПРИ РАЗРАБОТКЕ ЗАДАНИЙ
Частотно-классификационные таблицы тестовых заданий
В мире уже создано немало специализированных компьютерных систем, поддерживающих разработку тестовых заданий (правда, они созданы большей частью для внутреннего пользования в крупных фирмах
по производству тестов, но некоторые несложные доступные образцы
можно найти по ключевым словам item writing systems — см., например,
Глава 3. Разработка тестовых заданий и образцы заданий
245
http://www.proexam.org/technology-solutions/proexam-suite/). Эти системы
диктуют разработчику определенную продвинутую логику в организации работы по созданию и хранению заданий. В самых простых системах
такого рода присутствуют только особые интерактивные «формуляры»,
приспособленные для заданий определенного типа: в отдельных полях
ввода на этих компьютерных страницах (в диалоговых режимах) автор
задания вводит особые элементы — вопросы, ответы, подвопросы, метаинструкции (сквозные для связных тематических кластеров) и т.п. Более
развитые системы включают классифицирующие таблицы, которые работают как инструмент мониторинга: программа сама подсчитывает, сколько заданий, по какой теме и какого типа накоплено в банке.
Если такой программы в вашем распоряжении нет, то Вам придется вести подобный учет вручную (можно для этого использовать Эксель, но суть от
этого не меняется — числа в клеточки таблицы придется заносить вручную).
Выше мы уже знакомились с тем, как выглядит подобная таблица для
описания пропорций заданий в банке и варианте (см. таблицу 2.9, глава 2).
Там же, в таблице 2.8 можно увидеть, как оформляется спецификация (модель) теста, в которой каждому заданию соответствуют не два, а три описательных признака: тематика, формат, трудность.
Для того чтобы в тесте было сбалансировано соотношение заданий
разного формата и разной трудности (внутри каждого тематического блока), надо наполнять следующую таблицу 3.4.
Тематика
Тема 1
Тема 2
Легкие
Средние
Трудные
Формат 1
N111
N112
N113
Формат 2
N121
N122
N123
Формат 3
N131
N132
N133
Формат 1
N211
N212
N213
Формат 2
N221
N222
N223
Формат 3
N231
N232
N233
Таблица 3.4. Частотно-классификационная таблица для трех признаков. В клетке таблицы указывается частота встречаемости заданий по данной теме (индекс 1), данного формата (индекс 2) и данного уровня трудности (индекс 3).
Двух- и трехсимвольная нотация тестовых заданий
Для того чтобы имелась хотя бы отдаленная перспектива с ростом банка заданий перейти на автоматизированное построение таблиц типа 3.4,
необходимо формализовать «учетный код» задания и хранить его вместе с
текстом (содержанием) самого задания.
246
Практическая тестология
Как правило, тематически близкие задания (посвященные одной теме)
так или иначе в банке размещаются рядом, и автор знает их количество —
по их нумерации в тематических блоках. А вот баланс заданий разного
формата и трудности требует введения, как минимум, двухсимвольной
нотации — буквами и цифрами. При этом формат легче кодировать буквами (А — задания с единичными выбором, В — с множественным ответом, С — на соответствие и т.п.), а уровни трудности цифрами (1 — легкие,
2 — средние, 3 — трудные). Тогда запись вида А2 означает, что Вы имеете
дело с единичным выбором средней трудности, а запись вида С3 — что это
трудное задание на соответствие.
Более информационно-емкая кодировка предполагает использование
третьего символа, который может кодировать логико-семантическую категорию задания (если использовать это как независимое основание классификации по отношению к формату). Удобнее использовать для третьего
символа не первые, а последние буквы латинского алфавита: например,
X — фактологические задания, Y — терминологические, Z — логико-теоретические, U — методические, V — текстологические, W — кейсовые. Тогда
запись вида В2W расшифровывается так: задание с множественным ответом средней трудности и кейсового логико-семантического типа.
Размещая три разных символа в разные столбцы электронной таблицы Эксель, Вы получаете возможность в любой момент произвести
интересующую Вас дву- или трехуровневую иерархическую сортировку, выбрав любое основание классификации в качестве главного уровня.
В приложении к книге на диске дается Эксель-файл, содержащий пример
подобного структурированного хранилища тестовых заданий.
Тематические кластеры заданий в кейс-тестах
В квалификационных тестах один из эффективных приемов состоит в
создании заданий на понимание специальных текстов. Мы уже писали выше,
что эти задания до сих пор в нашей стране создаются редко, но их популярность растет. Особый случай появления кластеров связанных заданий возникает для кейс-тестов. Формально-логические проблемы, которые возникают
здесь при компоновке вариантов, сходны с теми, что возникают и в случае с
серией вопросов, относящихся к пониманию одного текста. В обоих случаях
общая мера предосторожности, которую должен учесть не столько автор заданий, сколько менеджер проекта — это избегать разрыва тематически связанных заданий из одного кластера при формировании банка и случайном перемешивании в ходе автоматизированной компиляции (сборки) вариантов.
Одним из способов формального представления кластерных заданий
является оформление их как так называемых «заданий с множественным
ответом» (multiple response). В отличие от самых популярных заданий с
«множественным выбором» (multiple choice), в этих заданиях, когда они
Глава 3. Разработка тестовых заданий и образцы заданий
247
предъявляются на экране компьютера, основным элементом интерфейса
пользователя являются не «радио-кнопки», а так называемые «чек-боксы»:
пользователю разрешается выбрать не один, а сразу несколько ответов.
Вот упрощенный пример подобного задания из теста на «компьютерную грамотность»:
ВОПРОС: В каких форматах сохраняются файлы, созданные в текстовом редакторе MS Word? (укажите все правильные ответы)
[ ] в формате DOC,
[ ] в формате RTF,
[ ] в формате XML-документа,
[ ] в формате Веб-страницы,
[ ] в формате текстового файла,
[ ] в формате XLS.
В этом вопросе все ответы правильные, кроме последнего (такой формат создается с помощью MS Excel).
Кластеры тестовых заданий следует однозначным образом оформлять
еще на этапе авторского цикла. Один из способов — вставка в текст задания особой «команды-разметки» для программистов, которая напоминает им команды на языках разметки HTML или XML:
<cluster 1 items 11:18>
В данном случае в косых скобках указывается, что задания с №11 по
№18 включительно образуют Кластер №1 и, следовательно, не могут быть
разорваны на разные варианты или разные места в одном варианте.
Несовместимые и фасетные задания
Автор теста на этапе разработки тестовых заданий также должен, кроме кластеров, выделить подмножества так называемых «несовместимых
заданий». Это такие задания, которые нельзя помещать в один вариант и
предъявлять в одном сеансе одному испытуемому, так как условие одного
задания содержит подсказку для ответа на другое задание.
Приведем пример такой пары вопросов:
22) Какой дистрактор (отвлекающий ответ) в нижеизложенном тестовом задании сформулирован явно неудачно.
Вопрос «Как звали коня Александра Македонского?»
— Буцефал,
— Пифагор,
— Геродот,
— Арбидол.
248
Практическая тестология
33) Укажите ответ, в котором дано наиболее точное определение термина
«дистрактор»:
— ответ, который является очень похожим на правильный, но все же содержит небольшую ошибку;
— любой ответ, который является неправильным, то есть, отвлекающим,
ложным;
— ложный ответ, который взят из практики устного экзамена.
Как видим, двадцать второй вопрос фактически содержит подсказку о
том, что такое «отвлекающий ответ», — подсказку для ответа на тридцать
третий вопрос. Кстати, в вопросе 22 я сам сформулировал здесь множество
дистракторов таким образом, чтобы показать, что этот вопрос, который
многие дилетанты-журналисты объявляют «с порога» анекдотическим
казусом (мол, какое отношение эта мелкая деталь может иметь к знанию
истории вообще?), может быть осмысленным, если правильно подобрать
дистракторы. В дистракторах 2 и 3 упоминаются имена известных исторических личностей античности, которые не могут быть конем Македонского (животным крайне редко дают имена исторических личностей). То
есть на самом деле вопрос при таком подборе дистракторов — это вопрос
на знание значимых персон античной истории. Но вот четвертый дистрактор — действительно неудачный, ибо он резко выбивается из ряда и
делает весь вопрос опять-таки почти пародийным.
Выявление таких несовместимых пар — сложная задача экспертного
цикла. Но уже сами авторы должны указывать на эти пары, если они допускают их создание внутри одного авторского пула (множества) вопросов.
Предлагаемый нами формат «команды-разметки»:
<Incompatible items 22 — 33>
Более простой вариант решения указанной проблемы — уже на этапе
создания (или экспертизы) заданий давать явное указание авторам и экспертам на необходимость удаления заданий, в которых содержатся подсказки для других вопросов.
Несколько другой класс заданий, которые также не должны присутствовать в одном варианте (и тем более рядом), образуют так называемые
фасетные задания. Они имеют в своей основе один и тот же логико-семантический шаблон, только отличаются подстановкой в определенные
«слоты» либо разных числовых значений, либо разных лингвистических
переменных (символьных последовательностей). Построение семейства
фасетных заданий — это основа для создания компьютерных программ,
обеспечивающих автоматизированное клонирование тестовых заданий
«на лету». Нет необходимости в банке заданий повторно хранить скелет
задания вместе с каждым набором числовых и лингвистических значений для их подстановки. Этот скелет хранится один раз, а на месте «слота» хранится множество значений, которые могут быть подставлены на
это место в момент предъявления задания испытуемому. Ниже приведем
Глава 3. Разработка тестовых заданий и образцы заданий
249
пример записи текстовой арифметической задачки в формате фасетного
задания:
{Девочка|Мальчик} тратит деньги, которые родители дали на
{завтрак|выходные}, таким образом: {1/2|1/2} — на {булочку|кино}, {1/5|1/3} — на
{чай|диски}, а {3/10|1/6} — на {конфеты|компьютерный игровой салон}. Все ли деньги
будут истрачены или же не хватит денег?
В этом примере в каждой фигурной скобке перечисляются разделенные символом «вертикальная черта» все варианты для подстановки, причем первым идет всегда во всех фигурных скобках символьное выражение, которое соответствует первому варианту. Впрочем, при большом
числе вариантов (более двух) более удобный способ описания фасетного
задания (и для человека, и для компьютерной программы) выглядит так,
что все наборы констант (варианты) выводятся в отдельную секцию и подставляются поэлементно на место пронумерованных слотов:
{1} тратит деньги, которые родители дали на {2}, таким образом: {3} — на {4},
{5} — на {6}, а {7} — на {8}. Все ли деньги будут истрачены или же не хватит денег?
// Список подстановок:
// 1: Девочка; Мальчик; Вася
// 2: завтрак; выходные; книги
//3: 1/2;1/2;1/2
// 4: булочку; кино; билеты в кино
// 5: 1/5;1/3;1/4
//6: чай; диски; поп-корн
// 7: 1/10;1/6;1/4
// 8: конфеты; компьютерный игровой салон; игровой автомат.
Разумнее переходить к такой записи только после первичной апробации первого варианта задания — про «девочку».
Впрочем, следует признать, что чисто технически в современных условиях гораздо проще приготовить на компьютере и сохранить в банке
заданий три разных обычных задания на основе одного шаблона — с уже
подставленными в них константами, чем мучиться с вводом фигурных
скобок и особых разделителей.69 Но… тогда возникает проблема, как подсказать компьютерной программе, чтобы она не ставила 2 (и более) заданий, созданных по одному шаблону, в один вариант (если программа
выбирает задания для варианта в случайном порядке). То есть возникает
какая-то дополнительная кухня для описания (кодирования) шаблонов.
69
Кроме того, разные элементы в фасетных заданиях могут приводить к тому, что задания
будут разными по трудности (то есть фасетному заданию нельзя поставить в соответствие
один какой-то уровень трудности). — Прим. науч. редактора.
250
Практическая тестология
К двухсимвольному коду задания приходится добавлять еще какой-то
код определенного шаблона, чтобы программа сборки варианта, распознавая этот код, не предъявляла два задания с одинаковым кодом в одном
варианте. Впрочем, в этом абзаце мы начинаем выходить за пределы элементарной «практической тестологии» в такую область, которая сближает современную тестологию с областью инженерии знаний (knowledge
engineering) конструирования систем искусственного интеллекта
(artificial intelligence) — систем, порождающих диалоги на естественном
языке.
3.6. КОРРЕКЦИЯ ЗАДАНИЙ НА ОСНОВЕ СТАТИСТИКИ
Качество первоначального банка заданий (первоначального теста)
можно и нужно существенно улучшить, если авторы заданий будут работать со статистикой, полученной в ходе применения теста. Здесь в этом
параграфе я не собираюсь «душить» авторов сложной статистикой (см. на
этот счет следующую главу). Здесь я привожу тот минимум миниморум,
который вполне под силу освоить и осмыслить любому автору.
Во-первых, это показатель трудности тестовых заданий. В следующей
главе мы будем говорить о шкале логитов, а здесь достаточно следующей
простой формулы для работы с авторами:
(3.1)
qi = Wi/ N
где qi-эмпирико-статистическая мера трудности i-го задания,
Wi -число ошибочных ответов на i-е задание,
N — размер протестированной выборки (какому числу испытуемых
предъявлялось данное задание).
Четырехвариантные задания с показателем q выше 0,5 следует считать трудными (с ними справляются менее 50 процентов испытуемых),
задания cq<0,25 — легкими (более 75 процентов дают правильные ответы),
а остальные — это задания средней трудности. Почему границы 0,5 и 0,25
асимметричны относительно центра шкалы 0,5? Это связано с поправкой
на риск случайного угадывания. При четырех вариантах правильного ответа все задания, у которых q превосходит 0,75, следует считать слишком
трудными и непригодными для предъявления (при массовом появлении
«угадывателей» они смешаются с наиболее подготовленными испытуемыми).
Что дает статистический показатель трудности? Прежде всего, возможность исключить из теста «неработающие задания», к числу которых
относятся слишком легкие (q<0,05) и слишком трудные (q приближается
к точке случайного угадывания или даже превосходит ее). Подробнее об
этом написано в разделе 4.5.
Глава 3. Разработка тестовых заданий и образцы заданий
251
Во-вторых, и нужно, и МОЖНО растолковать авторам простейший коэффициент дискриминативности как меру надежности отдельного тестового задания.
(3.2)
DC = А/(A+C) — B/(B+D),
где DC — дискриминативность тестового задания (далее по тексту будем использовать русскую аббревиатуру КД, хотя в литературе этот коэффициент чаще обозначают одной буквой D, но это обозначение совпадает с
обозначением четвертой клеточки таблицы сопряженности),
А — число испытуемых из «высокой группы», ответившие правильно
на i-е тестовое задание,
А+С — общее число испытуемых в «высокой группе» (к ней относятся
30% испытуемых с высшими баллами по тесту в целом),
B — число испытуемых из «низкой группы», ответившие правильно
на i-е тестовое задание,
B+D — общее число испытуемых в «низкой группе» (к ней относятся
30% испытуемых с низшими баллами по тесту в целом).
Задание \ Тест
Высокая группа по тесту
Низкая группа по тесту
Верный ответ
А
В
Неверный ответ
С
D
Таблица 3.5. Четырехклеточная таблица сопряженности для расчета коэффициента дискриминативности DC (или КД) по формуле 3.2.
Смысл этого коэффициента DC легко донести, объяснив смысл каждой
клеточки в четырехклеточной таблице сопряженности с элементами А, В, С и
D. Чем больше доля правильных ответов в высокой группе превосходит долю
правильных ответов в низкой группе, тем выше дискриминативность (различающая способность) данного тестового задания. Если же эти доли не различаются никак, то дискриминативность равна нулю, и задание надо выкидывать (улучшению оно в случае КД, близком к нулю, уже вряд ли подлежит).
Разъясняя практический смысл этого коэффициента, удобно начать с
парадоксальной ситуации, когда коэффициент КД оказывается значимо
отрицательным (больше 0,3 по модулю, но с отрицательным знаком). Этот
случай очень легко изобразить, если у Вас под руками программа, которая «на ходу» пересчитывает все КД для всех заданий теста, распечатывая
при этом КД вместе с формулировками заданий — для удобства анализа.
Достаточно заменить специально в каком-то тестовом задании ключ — пометить как правильный на самом деле неправильный ответ, тогда программа, пересчитав весь уже собранный массив результатов, сразу же Вам
покажет отрицательный коэффициент.
252
Практическая тестология
Отрицательный коэффициент дискриминативности — это сигнал о том,
что произошла техническая ошибка при вводе ключа к тестовому заданию,
но на самом деле это хорошее задание, то есть стоит изменить ключ на правильный, и мы, скорее всего, получим значимо положительный КД.
Таким образом, рассматривая значения КД для каждого задания, автор должен принимать одно из четырех возможных решений:
1) При высоких положительных значениях КД (как правило, при выборках более 50 человек это КД выше 0,3) задание остается в тесте без всяких изменений (более того, какие-либо даже стилистические улучшения в текстовке задания опасны, так как могут привести к ухудшению
его работоспособности).
2) При значениях КД, близких к значимым (в интервале от 0,2 до 0,3), задание надо постараться «спасти» путем изменения условия, самого
вопроса или вариантов ответа. Одним из простейших способов «спасения» является замена слабого, неработающего дистрактора (который
никто не выбирает вообще) на более сильный, более конкурирующий с
правильным ответом.
3) При значениях КД, близких к нулю (в интервале от -0,2 до +0,2), задания
надо без сожаления «выкидывать» из банка. Если таких потерь слишком
много, так что банк после этого «растаял», то придется формулировать по
новому кругу новые задания — вместо неудачных — и снова производить
пилотные испытания на выборке размером не менее 50 человек.
4) При значениях КД, близких к значимым отрицательным величинам (менее -0,2), надо обязательно проверять ключ — не произошла ли какая-то
техническая ошибка при вводе ключей в программу обработки.
Удобство коэффициента КД для переработки заданий на основе статистики заключается в том, что этот коэффициент не только максимально
«прозрачен» для понимания, но одновременно учитывает и «информативность задания» — его близость к оптимальному разделению выборки
по принципу 50:50. Иными словами, для слишком легких или слишком
трудных заданий КД не может быть значимо высоким. Будучи не самым
удобным инструментом для оценки статистической значимости надежности ключа к заданию, КД более удобен, чем другие коэффициенты (фикоэффициент и точечно-бисериальный — см. следующую главу), в качестве
единственного показателя качества задания (авторам, слабо знакомым с
психометрикой, правильнее давать вначале не более одного показателя).
В заключение рассмотрим пару примеров, иллюстрирующих, насколько чувствительным оказывается коэффициент КД к качеству тестовых заданий, так что он может использоваться для коррекции ошибок в
тестовых заданиях даже в самом начале пилотных испытаний сырой (исследовательской) версии теста.
На рисунке-скриншоте 3.2 приводится задание и статистика по нему,
которую в системе онлайн-тестирования HT-LINE разработчик теста
Глава 3. Разработка тестовых заданий и образцы заданий
253
может получать в своем личном веб-кабинете в режиме реального времени: буквально на каждом шагу при пополнении банка протоколов на экране меняется картинка с вычисленными показателями. Для удобства авторов, как мы видим, в нижней правой части экрана выводятся даже все
клеточки четырехклеточной таблицы, помогающие осмыслить, как именно работает коэффициент дискриминативности.
ɇɨɦɟɪ ɜ ɛɚɧɤɟ : 22 ɇɨɦɟɪ ɛɥɨɤɚ: 3
Ɍɟɤɫɬ ɜɨɩɪɨɫɚ: ɍɤɚɠɢɬɟ ɱɢɫɥɨ,
ɢɦɟɸɳɟɟ ɨɛɳɢɣ
ɞɟɥɢɬɟɥɶ
ɫ
ɱɢɫɥɨɦ 33:
Ļ Ɉɬɜɟɬ 1: 39
Ļ Ɉɬɜɟɬ 2: 46
(0/14)
ɑɚɫɬɨɬɚ ɩɪɟɞɴɹɜɥɟɧɢɹ: 0,67 (67%)
ȼɪɟɦɟɧɧɵɟ ɩɚɪɚɦɟɬɪɵ:
Ɉɝɪɚɧɢɱɟɧɢɟ ɩɨ ɜɪɟɦɟɧɢ: 70 ɫ. (1,2 ɦɢɧ.)
ȼɪɟɦɹ ɪɟɫɩɨɧɞɟɧɬɨɜ: ɨɬ 4 ɞɨ 19 ɫ.
50.0%
(7/14)
ɋɬɚɬɢɫɬɢɤɚ ɩɪɟɞɴɹɜɥɟɧɢɹ:
ɑɢɫɥɨ ɩɪɨɬɨɤɨɥɨɜ: 14 ɢɡ 21
ɋɪɟɞɧɟɟ ɜɪɟɦɹ ɨɬɜɟɬɚ: 10,3 ±4,2 ɫ. (±22%)
Ʉɚɱɟɫɬɜɟɧɧɵɟ ɩɨɤɚɡɚɬɟɥɢ:
Ļ Ʉɨɷɮɮɢɰɢɟɧɬ ɞɢɫɤɪɢɦɢɧɚɬɢɜɧɨɫɬɢ: -0,08
0%
Ɋɚɫɱɟɬ ɞɢɫɤɪɢɦɢɧɚɬɢɜɧɨɫɬɢ:
ȼɵɫɨɤɚɹ ɝɪɭɩɩɚ ɇɢɡɤɚɹ ɝɪɭɩɩɚ
Ļ Ɉɬɜɟɬ 3: 55
50.0%
(7/14)
Ʉɥɸɱɟɜɨɣ ɨɬɜɟɬ:
A=1
B=1
ɇɟɤɥɸɱɟɜɵɟ ɨɬɜɟɬɵ:
C=3
D=2
Ļ Ɉɬɜɟɬ 4: 65
(0/17)
0%
Рисунок-скриншот 3.2а. Образец статистического онлайн-анализа отдельного тестового задания в системе HT-LINE: низкое значение коэффициента
дискриминативности сигнализирует о наличии ошибки — двух правильных
ответов (номера 1 и 3).
На рисунке 3.2а видно, что разработчик в тексте задания допустил
ошибку: число 39 так же имеет общий делитель с числом 33, как и число 55,
хотя это разные числа: в первом случае это 3, а во втором — 11. Мы наглядно видим, что, решая это задание, ровно половина испытуемых (7) из числа
тех, кому это задание было предъявлено (14), выбирают один правильный
ответ, и ровно половина (7) — другой правильный ответ. Соответственно КД
принимает слабо-отрицательное значение, близкое к нулю. Это сразу же
сигналит разработчику о том, что в задании допущена ошибка. Разработчик «на ходу» (не останавливая процедуры проведения пилотного тестирования) исправляет в первом ответе число 39 на 38, и уже после трех (всего
лишь трех) новых испытуемых, которым было предъявлено это задание,
значение КД начинает выправляться — оно уже приближается к области
«перспективных заданий» (таких, которые надо не выбрасывать, но корректировать). В заключение поясним, что после 30-го испытуемого КД для этого
задания уже достигло искомого значения 0,3 — даже несмотря на сбой в начале пилотного тестирования. То есть экстренное вмешательство в режиме
254
Практическая тестология
ɇɨɦɟɪ ɜ ɛɚɧɤɟ : 22
ɛɥɨɤɚ: 3
ɇɨɦɟɪ
Ɍɟɤɫɬ ɜɨɩɪɨɫɚ: ɍɤɚɠɢɬɟ
ɱɢɫɥɨ,
ɢɦɟɸɳɟɟ
ɨɛɳɢɣ
ɞɟɥɢɬɟɥɶ ɫ
ɱɢɫɥɨɦ 33:
Ļ Ɉɬɜɟɬ 1: 38
41.2%
(7/17)
ɋɬɚɬɢɫɬɢɤɚ ɩɪɟɞɴɹɜɥɟɧɢɹ:
ɑɢɫɥɨ ɩɪɨɬɨɤɨɥɨɜ: 17 ɢɡ 25
ɑɚɫɬɨɬɚ ɩɪɟɞɴɹɜɥɟɧɢɹ: 0,68 (68%)
ȼɪɟɦɟɧɧɵɟ ɩɚɪɚɦɟɬɪɵ:
Ɉɝɪɚɧɢɱɟɧɢɟ ɩɨ ɜɪɟɦɟɧɢ: 70 ɫ. (1,2 ɦɢɧ.)
ȼɪɟɦɹ ɪɟɫɩɨɧɞɟɧɬɨɜ: ɨɬ 4 ɞɨ 19 ɫ.
ɋɪɟɞɧɟɟ ɜɪɟɦɹ ɨɬɜɟɬɚ: 10,2 ±4,2 ɫ. (±22%)
Ʉɚɱɟɫɬɜɟɧɧɵɟ ɩɨɤɚɡɚɬɟɥɢ:
Ļ Ʉɨɷɮɮɢɰɢɟɧɬ ɞɢɫɤɪɢɦɢɧɚɬɢɜɧɨɫɬɢ: 0,17
Ɋɚɫɱɟɬ ɞɢɫɤɪɢɦɢɧɚɬɢɜɧɨɫɬɢ:
ȼɵɫɨɤɚɹ ɝɪɭɩɩɚ ɇɢɡɤɚɹ ɝɪɭɩɩɚ
Ļ Ɉɬɜɟɬ 2: 46
(1/17)
5.9%
Ļ Ɉɬɜɟɬ 3: 55
Ʉɥɸɱɟɜɨɣ ɨɬɜɟɬ:
A=3
B=1
ɇɟɤɥɸɱɟɜɵɟ ɨɬɜɟɬɵ:
C=3
D=2
52.9%
(9/17)
Ļ Ɉɬɜɟɬ 4: 65
(0/17)
0%
Рисунок-скриншот 3.2б. Образец статистического онлайн-анализа отдельного тестового задания в системе HT-LINE: после изменения одного из правильных ответов (ответ 1) на дистрактор КД уже после трех новых испытуемых начал расти и приближаться к границе 0,2.
«оперативного конструирования» теста в данном случае помогло избежать
серьезной задержки в выяснении судьбы этого задания. Ведь при обычной
бумажной технологии от одного пилотного эксперимента (запуска первой
версии теста) до следующего пилотного эксперимента (запуска скорректированной второй версии теста) проходят недели, а чаще даже месяцы.
Именно анализ собственных удачных и неудачных заданий на основе реальной статистики тестирования помогает авторам накапливать опыт и создавать в ходе каждой новой попытке все более качественные задания.
Осторожно: завышенные коэффициенты дискриминативности
Новая эпоха микрокомпьютерной революции создала невиданные ранее условия для мгновенного сбора многотысячных массивов данных в ходе
онлайн-тестирования. Это порождает новые проблемы, а не только одни выигрыши. Не только менеджеры проектов, но и сами авторы тестовых заданий должны знать, что при больших выборках испытуемых-добровольцев,
Глава 3. Разработка тестовых заданий и образцы заданий
255
которые проходят на тест, вывешенный на посещаемом Интернет-сайте,
возникает риск получения ложных завышенных коэффициентов дискриминативности. Что это такое и почему? Рассмотрим конкретный пример,
призванный пояснить происхождение этих завышенных КД.
Рис.3.3. Образец тестового задания с явно завышенным коэффициентом дискриминативности КД.
На рисунке-скриншоте 3.3 приводится пример огромной статистики,
накопленной по одному из наших тестовых заданий на «числовой интеллект», предъявленных в ряду других на очень массовом сайте www.hh.ru.
Это задание выполняли почти 15 тысяч человек (причем получена была эта
статистика всего лишь за 3 дня!). Бросается в глаза очень высокий коэффициент дискриминативности 0,53! Казалось бы, все просто отлично: высокая
группа в два раз чаще дает правильный ответ (2533), чем неправильные (1320),
а низкая группа вообще почти всегда ошибается (3452 ошибки против 512
правильных ответов). Но… взглянем-ка повнимательнее, каков разброс времени, затраченного испытуемыми на решение этого задания. Разброс от 1
секунды до 70 секунд! То есть были такие тестируемые, которые это задание
просто «прощелкивали» (вводили что-то случайное или просто кликали на
экранную клавишу «Дальше»). Стандартное отклонение времени решения,
полученное на этой выборке, примерно в полтора раза больше, чем стандартное отклонение по этому заданию на выборке высокомотивирванных
256
Практическая тестология
испытуемых, которые боятся получить низкий балл,— примерно 15 секунд
вместо примерно 10 секунд. То есть многие испытуемые из низкой группы
просто быстро выбирали ложный ответ 4 (примерно половина испытуемых)
или случайный. Почему? Это задание отпугивает слабомотивированных
Интернет-добровольцев на серьезную работу тем, что в нем приходится
«напрягать голову» — работать с большими числами. И такое происходит не
только с этим, но и с другими заданиями, которые кажутся испытуемым
интеллектуально-трудоемкими. Все это приводит к тому, что в «низкую
группу» попадают не только слабые, но и низко-мотивированные испытуемые. Поэтому-то КД оказывается завышенным почти в 2 раза(!). Но это вовсе не потому, что само данное задание такое гениальное, а потому, что в
данной выборке присутствует много людей, которые «прощелкивали тест»
просто любопытства ради — под девизом «решу, если легко решается, а если
непонятно, перейду к следующему заданию».
Вы сами легко сможете смоделировать подобный артефакт, если создадите собственные очень простые задания (типа «Куда впадает Волга?»), а
две разные группы испытуемых проинструктируете по-разному: первую
попросите серьезно отвечать, а вторую — совсем не стараться и просто просмотреть тестовые задания, вводя случайные ответы. Смешав эти 2 разные
выборки в одну, Вы получите, однако, артефактные (искусственные, недействительные) завышенные коэффициенты дискриминативности.
Как избавляться от этого артефакта? Или сдаться «на милость победителю»? Ни в коем случае не сдаваться. Просто выборку надо грамотно
«почистить», прежде чем считать КД — избавиться прежде всего от таких
протоколов, которые по всем статистическим критериям являются «ложными», отражают не решение теста, а просмотр теста. Важно отсекать не
протоколы с низкими баллами, а протоколы с неправдоподобными признаками: например, часто выбираются невероятные дистракторы. Их
иногда специально стоит вводить, чтобы отсекать такие протоколы: например, «Волга впадает в Индийский океан». То есть для выявления «псевдопротоколов» нужно рассматривать не только атипичный хронометрический профиль этого протокола, но и подсчитывать число «невероятных»,
атипичных ошибок. Кстати, чтобы не засорять аттестационный тест,
можно позднее удалять лишние дистракторы — «атипичные невероятные
ответы» (убирать пятый дистрактор и оставлять четыре ответа).
Вот почему при создании тестов важны такие «мелочи», как учет времени ответа на каждое задание, а не только автоматический подсчет коэффициентов дискриминативности.
«Дьявол скрывается в мелочах» — эта банальность как нельзя точно
отражает суть кропотливой и ответственной работы по созданию и
проверке качества тестовых заданий.
257
Глава 4.
Математическая тестология
В этой главе мы уже в третий раз обращаемся к вопросам математико-статистической обработки результатов тестирования, но более глубоко,
чем в первых главах. Мы считаем, что читатель, который добрался до этой
четвертой главы, будет к этому моменту понимать главное — ЗАЧЕМ это все
нужно для успешного внедрения тестовой системы. Математический аппарат требует от читателя такого интеллектуального напряжения, что без высокой мотивации нечего даже надеяться его освоить. Автор книги рассчитывает на то, что предыдущие главы достаточно замотивировали читателя.
Следует также сделать такую важную оговорку, что материал четвертой
главы относится прежде всего к тестам глобального, а не локального применения. Таким образом, здесь имеются в виду психометрические тесты, а не
тесты знаний (и умений), которые создаются для локальных целей как внутренние инструменты отбора и аттестации в рамках конкретной организации. Хотя именно локальные тесты мы в этой книге считаем более важным
и актуальным инструментом «практической тестологии» Но разработанные
в контексте психометрических глобальных тестов математические методы
заслуживают внимания хотя бы потому, что они расширяют и пополняют
арсенал практического тестолога и в работе с «внутренними тестами» — с локальными инструментами тестирования в рамках отдельной организации.
4.1. ЭЛЕМЕНТАРНЫЙ МАТМИНИМУМ
ПРАКТИЧЕСКОГО ТЕСТОЛОГА
В этой главе автор планирует поделиться с читателем своим опытом
упрощенного изложения минимального математического аппарата, необходимого практическому тестологу. Этот опыт приобретен в ходе многолетнего преодоления трудностей, связанных с преподаванием тестологии
для психологов-гуманитариев.
Одна из серьезнейших проблем, затрудняющих развитие тестологии
в нашей стране, заключается в том, что тестами гораздо чаще пользуются
специалисты с гуманитарной подготовкой (психологи, преподаватели гуманитарных дисциплин, эйчары с базовой юридической или психологической подготовкой и т.п.) и реже — специалисты с относительно приличной
математической базой (эйчары с экономическим образованием, инженеры
с техническим образованием). Не воспринимая сложной математической
258
Практическая тестология
литературы, гуманитарии применяют слишком примитивные математические процедуры и совершают при этом слишком большое количество ошибок.
Излагая математические формулы и разъясняя их смысл гуманитариям,
нужно приводить гораздо больше графических иллюстраций и конкретных
числовых примеров. Теперь нет недостатка в готовых программах обработки,
но есть большой дефицит в понимании смысла того, что эти программы делают. До недавнего времени в нашей стране на русском языке практически
не было литературы по тестологии, написанной в разъяснительном жанре,
то есть адресованной гуманитариям. Во многих книгах математическая
глава отражала соответствующую главу какой-нибудь докторской диссертации и содержала формулы в очень кратком и формализованном изложении.
Яркие примеры: весьма содержательная и прогрессивная для своего времени монография Б.В. Кулагина (Кулагин, 1984), а также первая монография на
русском языке, посвященная компьютерной психодиагностике (Дюк, 1994).
А учебно-методическая литература по психометрике в советский период издавалась в виде малочитабельных, сверхдешевых и малотиражных коротких
ротапринтных изданий, в которых даже формулы были нередко вписаны
просто-напросто от руки (стоит упомянуть учебное пособие Ленинградского
госуниверситета — Гайда, Захаров, 1982, а также сходное по направленности
пособие Московского госуниверситета — Столин, Шмелев, 1984). Пожалуй,
среди немногих свежих книг, отвечающих современным требованиям, можно назвать перевод книги «Психометрика», выполненный в 2010 году под редакцией Н.А. Батурина и Е.В. Эйдмана (Фер, Бакарак, 2010).
Подсчет баллов с поправкой на случайное угадывание
Во-первых, практический тестолог должен владеть формулой поправки на
случайное угадывание и понимать ее смысл. По нашему мнению, для большинства тестовых методик на знания и способности достаточно просто подсчитывать число правильных ответов, а затем производить линейную (или
табличную) стандартизацию (см. главу 1.2). Но для того чтобы квалифицированный пользователь тестов понимал, как устроены некоторые критериально-ориентированные тесты, оперирующие не стандартными, а фактическими сырыми скорректированными баллами, надо знать формулу поправки на
случайное угадывание для тестовых заданий с выбором единичного ответа:
(4.1)
,
где Y — скорректированный балл j испытуемого, давшего по тесту Nс
правильных (correct) ответов и Ne ошибочных (error) ответов,
m — количество вариантов ответов в каждом задании теста.
Глава 4. Математическая тестология
259
Формула (4.1) особенно важна для тестов, в которых, согласно процедурной инструкции, допускаются пропуски заданий. Так называемый
«честный пропуск», согласно формуле (4.1), приводит к меньшему штрафу, чем попытки случайного угадывания, так как пропуск не приводит к
вычитанию величины 1/(m-1)70. Ведь прибегая к тактике случайного угадывания, испытуемый может случайно правильно ответить в среднем
на 1 из m заданий. Эта доля составляет в случае m=4 четверть возможных
правильных ответов (25 процентов). Обратим внимание, что если испытуемый выдает ровно четверть правильных ответов Nс=25%, то по формуле
(4.1) его скорректированный тестовый балл равен 0. Построим график зависимости скорректированного балла Y от балла Nc — числа правильных
ответов, выраженного в процентах от числа заданий теста (иногда этот
показатель, напомню, называют термином первичный балл, что несколько отличается от термина «сырой балл»). На графике 4.1 в точке 25 линия
пересекает горизонтальную ось Х, то есть Y=0. В остальном функция скорректированного балла также изображается линейным графиком, только
проходящим несколько ниже и круче биссектрисы, хотя для аргумента
Nc=100 значение Y также достигает 100.
Рис.4.1. График зависимости скорректированного первичного тестового балла Y от процента правильных ответов Nc (с учетом поправки на случайное
угадывание).
70
При этом пропуск не должен оформляться как дополнительный вариант ответа, так как
в этом случае стратегия «случайного угадывания» может приводить и к выбору пропуска
тоже. — Прим. автора.
260
Практическая тестология
Каким образом формула (4.1) учитывает «честные пропуски»? Каждый
честный пропуск, согласно этой формуле, приводит к тому, что из балла X
не вычитается штраф в размере 1/(m-1), то есть 1/3 при четырех вариантах
ответов. Оперировать дробными значениями неудобно, поэтому на практике за пропуск назначают все-таки ровно 1 очко, а за правильный ответ
ровно в m раз больше, то есть в 4 раза больше при четырех вариантах ответов. Так появляется следующая формула для подсчета баллов с учетом
дифференцированного баллирования пропусков и ошибок:
(4.2)
X = m*Nc+Np,
где X — балл испытуемого, давшего Nc правильных ответов и допустившего Np пропусков71. Важно отметить, что за ошибки в данном случае
испытуемый не штрафуется, но ему присваивается балл 0.
Обратим внимание, что в отсутствие пропусков значение X из формулы (4.2) можно получить с помощью достаточно простого линейного преобразования функции Y из формулы (4.1):
(4.3)
X= (Y+
Рассмотрим числовой пример. Допустим в тесте 50 заданий с 4 вариантами ответа, и испытуемый допустил 20 ошибок. По формуле (4.1) его
тестовый балл Y будет равен 30 — 20/3 = 23.33 (округление до целого не применено в данном случае, чтобы облегчить понимание взаимосвязи между
формулами 4.1 и 4.2). А по формуле (4.2) тестовый балл X= 4*30 = 120. Теперь
применим к Y преобразование (4.3) и получим X = (23.33+16.66)*3= 40*3 = 120,
то есть то же самое значение, что и по формуле (4.2).72
71
Поясним подстрочные символы в формуле 4.2: «с» — от слова correct (правильный), «p»–от слова pass (пропуск). В формалистичной психометрической литературе, увы, преобладает такой
выбор абстрактных букв и символов в формулах, которые не несут никакой смысловой нагрузки, которая помогала бы читателю понять смысл формул. Например, математики очень любят
увлекаться греческими буквами«тета», «дельта» и т.п. Хотя англоязычных математиков при
этом можно понять — они стремятся уйти от неправильных ассоциаций, связанных с латинскими буквами, на которых, в частности, осуществляется обыденная письменная англоязычная речь. А для русскоязычных писателей и читателей латинские буквы уже вполне выполняют
роль математических символов, обеспечивая к тому же лучшую совместимость с языками программирования и формулами в электронных таблицах. — Прим. автора.
72
Одна из возможных модификаций формулы (4.2) заключается в том, чтобы сохранить
штраф в размере -1 очка за ошибку, за пропуск присваивать 0 очков, а за правильный ответ
давать (m-1) очко. Очевидно, что вся шкала сырых баллов в таком случае сдвигается ровно
на 1 очко вниз для каждого задания, а в целом по всему тесту на N очков вниз и принимает
значения на интервале (-N, 3N), что опять-таки неудобно из-за наличия участка с отрицательными значениями. В этом случае премия за «честный пропуск» опять-таки сводится к
нулю, а вместо 0 очков за ошибку дается штраф -1. — Прим. автора.
Глава 4. Математическая тестология
261
Важно подчеркнуть, что формула (4.3) просто иллюстрирует тот факт, что
в отсутствие пропусков и формула (4.1), и формула (4.2) являются линейными
модификациями самой простой формулы — суммы правильных ответов, то
есть порядок следования испытуемых друг за другом по величине тестовых
баллов от применения различных подобных формул никак не меняется.
В любом из этих случаев применима процедура линейной стандартизации,
которая будет давать один и тот же порядок по величине стандартизированных тестовых баллов. Таким образом, все эти «изыски» требуются лишь тогда, когда по каким-то причинам в тестовой системе принято решение не использовать перевод в стандартизированные шкалы вообще. Поделюсь здесь
своим опытом: я всегда перевожу сырые баллы в стандартизированные и поэтому не применяю формулы (4.1) и (4.2) в своей практической работе. Кроме
того, изучение конкретных стилей ответов испытуемых на тест (в том числе путем анализа самоотчетов испытуемых) уже неоднократно показывало,
что cама по себе чистая стратегия случайного угадывания встречается редко — к ней прибегает, как правило, не более 5 процентов испытуемых.73 Чаще
встречается стратегия «исключения» — испытуемые стараются не выбирать
ответы, которые заведомо считают неправильными, но в этом исключении проявляется не угадывание, а определенный уровень содержательных
знаний. Поэтому введение в официальную формулу подсчета поправки на
угадывание ДЛЯ ВСЕХ воспринимается большинством испытуемых не как
справедливая мера, а как некий слепой технократический подход.
Чистая стратегия «честный пропуск» тоже практически встречается крайне редко. В тестах с ограничением времени на сеанс (или на тематический
блок) гораздо чаще пропуски являются лишь следствием медлительной работы
испытуемых — на самые трудоемкие и субъективно неудобные задания просто не хватает времени (особенно когда испытуемым разрешается выполнять
задания в пределах блока в произвольном порядке). Так что премия за пропуск
(в виде 1/m доли от очков за правильный ответ) также фактически не приводит
к повышению психометрических свойств теста — надежности и валидности.
Процентильные шкалы и процентильные нормы
Переход от сырых баллов к стандартизированным шкалам, как правило, осуществляется на основе процентилей. Рассмотрим в этом параграфе
более подробно понятие «процентиль».
В главе 2 мы уже ввели различение двух подходов к тестированию —
нормативно-ориентированного и критериально-ориентированного (НОРТ
73
Выяснялось это путем вставки в ряд вопросов среди относительно осмысленных дистракторов так называемых «бездумных дистракторов» (типа «Волга впадает в Амазонку»). Доля
испытуемых, которые выбирают подобные дистракторы, бездумно нажимая на кнопки, не
более 5 процентов (при нормальной мотивации на результат). — Прим. автора.
262
Практическая тестология
и КОРТ). Мы также говорили о необходимости разумного сочетания этих
подходов, но на практике приходится отталкиваться вначале либо от
принципов НОРТ (дополняя их затем принципами КОРТ), либо наоборот.
Процентиль — ключевое понятие в рамках НОРТ.
Рассмотрим два класса ситуаций: конкурс и аттестация. На входе в образовательное учреждение (для кандидатов-абитуриентов) чаще применяется
конкурс, а на выходе — аттестация. Так и в производственной фирме: на входе имеется конкурс кандидатов на вакантное место, а для работников проводится аттестация — на соответствие требованиям к занимаемой должности.
В ситуации конкурса нам не столько важно, на каком абсолютном уровне находится кандидат, сколько важно выявить относительно лучшего (лучших)
из числа тех, кто вообще обратил внимание на возможность поработать в
данной организации. В ситуации конкурса уместнее НОРТ — мы сравниваем
результат кандидата в конкурсных испытаниях с результатами остальных
кандидатов. В ситуации аттестации уместнее начать с КОРТ — мы сравниваем обследуемого с определенными эталонными требованиями74.
Многие связывают НОРТ с применением модели нормального распределения. Но это неправильно. Суть НОРТ состоит в использовании такой
порядковой меры как «процентильный балл», или «процентажный балл»
(percentage score). Тестологи намеренно используют в данном случае термин «процентИЛЬ», а не «процент», чтобы не путать с процентом решенных заданий. Так что же такое процентиль и процентильная шкала? И какие существуют принятые деления на шкале «процентильного балла»?
Если шкала сырых баллов является очень подробной (имеет много делений), а обследованная выборка невелика, так что все испытуемые получают различные сырые баллы, то определить процентиль очень просто:
Процентиль, или процентильная доля — это доля испытуемых, набравших меньше сырых баллов, выраженная в процентах от численности обследованной выборки.
На самом деле понятие «процентиль» в несколько другой форме присутствует в протоколах любых спортивных соревнований — это ранговое место,
которое занял спортсмен в соревновании. Одно дело — секунды, килограммы, метры — натуральные показатели, указывающие на результаты (в беге,
поднятии тяжестей, прыжках и т.п.). Другое дело — сравнительное место
среди других участников в конкретных состязаниях. Процент решенных заданий — это в некотором роде «натуральный показатель», а процентиль — относительное место среди других участников тестирования. В таблице 4.1 понятие «процентиль» проиллюстрировано на самом элементарном примере.
74
Хотя в отсутствие четко обоснованных, объективных эталонных требований в ситуации
аттестации к тестовым баллам фактически тоже применяют НОРТ, но это следует считать
скорее вынужденной мерой. — Прим. автора.
Глава 4. Математическая тестология
1
2
3
Количество решенных заданий
(сырой балл)
263
4
5
Процент
испытуемых,
решивших меньше
Процентильный
балл
Ранг
(или №)
ФИО
испытуемого
1.
Иванов И.И.
19 из 20
92
96
2.
Петров П.П.
18 из 20
83
88
3—4.
Сидоров С.С.
16 из 20
67
75
3—4.
Васильев В.В.
16 из 20
67
75
5.
Николаев Н.Н.
15 из 20
58
63
6—7.
Борисов Б.Б.
14 из 20
42
50
6—7.
Юрьев Ю.Ю.
14 из 20
42
50
8.
Сергеев С.С.
13 из 20
25
33
9.
Зайцев З.З.
12 из 20
25
33
10.
Волков В.В.
11 из 20
17
21
11.
Белкин Б.Б.
9 из 20
8
13
12.
Куликов К.К.
8 из 20
0
4
Таблица 4.1. Искусственные данные, иллюстрирующие понятие «процентильный балл».
Первые три колонки в таблице 4.1 в особых комментариях не нуждаются — так выглядит любой стандартный протокол спортивных состязаний. Две пары участников показали одинаковые результаты, поэтому
поделили места (получили связанные ранги). В столбце 4 дается упрощенный процентиль — процент испытуемых, оказавшихся на шкале сырых
баллов ниже данного испытуемого (вначале без поправок на одинаковые
баллы). Понятно, как рассчитывается этот процент для лучшего участника Иванова, — это 100*11/12, так как Иванов обошел ровно 11 других участников из небольшой выборки в 12 обследованных. Но… нам важно понять,
как устроена колонка 5. Среднее арифметическое между процентильными показателями Сидорова и Петрова, занявших 3-е и 2-е места соответственно, равно (67+83)/2 = 75. То есть и Сидорову, и Васильеву приписывается одинаковый процентильный балл, так как они стоят на одном месте
в ранговом (порядковом) ряду. Это процентильный балл обусловлен одинаковым нормированным рангом этих участников 9/12*100 = 75. Точно так
же одинаковый процентильный балл приписывается Юрьеву и Сергееву,
поделившим места 6-е и 7-е. Эти случаи со связанными (одинаковыми)
рангами помогают нам понять, почему процентильный балл Иванова
на самом деле равен не 92, а на 4 очка больше — 96 очков. К процентилю
Иванова прибавляются еще 4 очка — половина процентов тех участников,
264
Практическая тестология
с которыми бы он поделил места при наличии большего числа участников (не 12, а, допустим, 120 или 1200). В электронном приложении к книге
читатель может найти Эксель-файл «Ранги и процентили», с помощью которого можно подсчитывать процентильные баллы для произвольной выборки сырых баллов75.
Итак, мы приходим к определению «процентильного балла»:
Процентильным баллом данного испытуемого является доля испытуемых, набравших меньше сырых баллов, плюс половина тех, кто
набрал данный балл, выраженная в процентах от численности выборки стандартизации.
В этом определении существенно то, что мы говорим не про какуюто выборку обследованных вообще, а именно про «выборку стандартизации».
Выборкой стандартизации называется множество испытуемых, на
которых устанавливаются тестовые нормы и правила отображения
сырых баллов в процентильные и стандартизированные.
От репрезентативности (представительности) выборки стандартизации зависит точность в калибровке шкалы тестовых баллов — в разметке
границ между особыми интервалами на шкале = оценочными категориями (градациями) с заданной интерпретацией.
Процентильная шкала тоже дает возможность работать с тестовыми
нормами, которые формулируются в этом случае как границы заданных
интервалов на процентильной шкале.
Внимание: от понятия «процентиль» следует отличать очень сходный термин «перцентиль» (его переводят на русский еще и как «перСентиль», что можно
найти, например, в русифицированной версии электронных таблиц MS Excel). На
самом деле «процентиль» и «перцентиль» — это сходные, но разные понятия, так
как это взаимонообратные функции, хотя и не взаимнообратные величины. В случае с «процентилями» мы говорим о том, сколько процентов от выборки превосходит испытуемый с заданным тестовым баллом X, а в случае с «перцентилем»,
наоборот, исходим из размера выборки и находим тот балл Х, который отсекает
эту заданную долю выборки (этот процентиль). Несколько огрубляя вопрос, можно сказать, что перцентиль — это аргумент, а процентиль (или процентильная
доля) — это функция на кумулятивном графике (или в таблице) распределения частот тестовых баллов.
75 В этой таблице автор применил собственную формулу расчета «процентильного балла»
по массиву сырых баллов. В ней используется стандартная Эксель-функция РАНГ, но не используется Эксель-функция ПЕРСЕНТИЛЬ, которую связана с обратным понятием к понятию «процентиль» — см. разъяснения в самом тексте в рамочке. — Прим. автора.
Глава 4. Математическая тестология
265
Например, в таблице 4.1 балл 16 — это перцентиль, которому соответствует процентиль 75. Испытуемый, набравший 16 сырых баллов, показал
на процентильной шкале результат 75.
Процентильные границы на горизонтальной оси Х (на шкале тестовых
баллов) обычно связаны с такими примечательными перцентилями (или
квантилями, что звучит более универсально):
1) Медиана — это 50-процентный перцентиль, медиане соответвует
середина на шкале «процентильного балла», то есть 50-процентный процентиль. Медиана — это такой тестовый балл, который
делит выборку ровно пополам. В таблице 4.1 медиана — это балл
14. Медиана нередко используется при конкурсном отборе — как
максимально простая для понимания «точка отсечения» (cutscore).
Но в психодиагностике, например, медиана редко используется,
так как чаще выборка делится не на 2 категории, а на три и больше
категорий — с выделением средней группы (или даже нескольких
средних групп).
2) Квартили — это 25-процентные (процентажные) границы. Они делят выборку на четыре равные части. Выделяют три квартиля, которые обозначаются Q1, Q2 и Q3. КвартильQ2 соответствует медиане
(Med). Квартиль Q1 отсекает слева (или снизу) 25 процентов выборки.
На шкале сырых баллов квартилю Q1 в таблице 4.1 соответствует 10
решенных заданий. На рис.4.2 показана площадь под кривой произвольного распределения, которая соответствует квартилю Q1, — это
четверть от общей площади под кривой, которая расположена слева от точки отсечения. Про испытуемого, который попал в верхнюю
четверть испытуемых с высокими тестовыми баллами, говорят, что
он оказался выше точки Q3 на процентильной шкале, или в категории Q4, или получил квартильный ранг 4. Индексы под буквой Q называются квартильными рангами. Например, область под кривой
распределения тестовых баллов от точки Q1 до точки Q2 соответствует квартильному рангу 2.
3) Децили — это 10-процентные границы. Децильные ранги не надо
путать со стенами (стандартной десяткой — см. ниже), хотя децильные ранги тоже можно пронумеровать от 1 до 10. В эконометрике, например, в качестве показателя уровня дифференциации
в доходах населения используется так называемое «децильное отношение» — отношение среднего дохода 10 процентов самых богатых людей к среднему доходу 10 процентов самых бедных людей.
4) Промилли — самый дробный из известных квантилей, это доля выборки в 0,1 процентиля. Промилли делят выборку на тысячу частей.
Опять-таки часто путают промилли со стандартизированной шкалой
трехзначных Т-баллов с параметрами 500+/-100.
266
Практическая тестология
Рис.4.2. Квартиль Q1 на графике распределения тестовых баллов; заштрихованная область под кривой имеет 25-процентный процентаж, или 25-процентную процентильную долю.
Общее родовое понятие для всех перечисленных терминов — квантили. И квартили, и децили, и промили — все это квантили. Кстати, и процентили — это тоже частный случай квантилей. Процентили — это сотая
часть выборки.
С процентильными шкалами вполне уместно производить все действия и преобразования, разрешенные на порядковых (ранговых) шкалах.
Это расчет ранговых коэффициентов корреляции, применение критерия
разности рангов для двух подвыборок и т.п. (Рунион, 1982). Процентильная
шкала позволяет нам ответить на вопрос «Какой из испытуемых А или
В получил более высокий тестовый балл?», но не позволяет ответить на вопрос «Насколько тестовый балл А больше, чем тестовый балл В?» или на вопрос «Во сколько раз тестовый балл А больше, чем балл В».
В приложении к книге на диске приводится Эксель-модель (файл), позволяющая производить ранжирование испытуемых и автоматический
подсчет процентильных баллов.
Гаусcовская модель и стандартные шкалы
В настоящее время принято делить психометрику (математическую
тестологию) на классическую теорию тестов (КТТ) и современную (СТТ).
Классическая психометрика сложилась в первой половине 20 века. В ее
Глава 4. Математическая тестология
267
основе лежит главным образом модель нормального распределения, описанная еще в 18 веке Карлом Гауссом. В классической психометрике все
тестовые шкалы так или иначе стремились «подогнать» под модель нормального распределения, чтобы затем применить хорошо известные и
разработанные к тому времени методы параметрической статистики,
требующие нормального распределения (это критерий Стьюдента для
оценки различия средних, это коэффициент линейной корреляции
Пирсона и т.п.).
Во всех учебниках по тестологии (психологическому тестированию)
можно найти графическую иллюстрацию того, как под колоколообразной кривой нормального распределения располагаются различные тестовые шкалы. На рисунке 4.3. проиллюстрированы некоторые основные стандартные шкалы, которые часто используются в тестологии,
в соотношении с процентильной шкалой, построенной по квантилям
нормального распределения. В подписях к этому рисунку используется
термин «процентаж». В отличие от процентиля «процентаж» обозначает долю выборки, которая попадает в интервал, ограниченный не только справа, но и слева. Например, процентаж для центрального коридора
(-1ơ, +1ơ) равен 68,26%.
Рис.4.3. Соотношение основных стандартных шкал и процентильной шкалы, построенных на модели нормального распределения.
Каждая из известных стандартных нормализованных шкал характеризуется двумя параметрами — средним (М) и стандартным отклонением
268
Практическая тестология
(S). В таблице 4.2 приводятся значения этих параметров для наиболее популярных стандартных шкал.
Сигма-шкала нормированного нормального распределения с параметрами (0,1) используется главным образом в исследовательских работах и
не имеет выраженного прикладного значения. Хотя данная шкала является «удобной разменной монетой» для перевода баллов из одних прикладных стандартных шкал в другие. Этот перевод удобней производить в 2
шага следующим образом:
1) Рассчитываем балл на Z-шкале, вычитая среднее и деля результат на
стандартное отклонение исходной шкалы. Например, при переводе
Т-балла 66 в стены мы вычитаем (66 — 50), а затем 16 делим на 10 и получаем Z-балл 1.6.
2) Затем получаем балл на целевой шкале, умножая Z-балл на стандартное отклонение целевой шкалы и суммируя со средним целевой шкалы. Например, берем Z-балл 1.6 и умножаем его на 2, а затем прибавляем 5.5 и получаем 8.7 стенов, а округляя до целого — 9 стенов.
Этим двум шагам по переводу балла из одной шкалы в другую соответствует следующая несложная формула:
(4.4)
,
где X1 — балл испытуемого на исходной шкале со средним M1 и стандартным отклонением S1,
X2 — балл испытуемого на целевой шкале со средним M2 и стандартным отклонением S2.
Прикладная шкала Т-баллов чаще всего используется в медицинской
психологии и психиатрии. На ней базируются, например, шкалы известного во всем мире тест-опросника MMPI. Самая известная русскоязычная
адаптация этого опросника — это СМИЛ Л.Н. Собчик (Собчик, 1998). Популярная сокращенная модификация — ММИЛ Ф.М. Березина и соавторов
(Березин и др., 1976). Выше 60 Т-баллов по шкалам MMPI интерпретируются как проявления акцентуации характера, выше 80 Т-баллов (отклонение
за пределами интервала в три сигмы) — как сигнал о возможном патологическом отклонении. Ориентируясь на процентаж границы в три сигмы
на рис.4.3, мы видим, что доля «патологических акцентуантов» среди нормальных людей не превышает 13 человек на тысячу.
Прикладная шкала IQ чаще всего применяется в сфере психологии образования как некая шкала умственного развития (IQ — это известный «коэффициент интеллектуальности»). 100 баллов как середина
шкалы IQ исторически возникли в связи с понятием «умственный возраст»: если тестовый балл, полученный ребенком, например, 10-летнего возраста, полностью соответствует тому среднему тестовому баллу,
Глава 4. Математическая тестология
Название шкалы
269
Среднее (М)
Стандартное откл. (S)
0
1
Шкала Т-баллов
50
10
Шкала IQ-баллов
100
15
Шкала стенов
5.5
2
5
2
500
100
Z-шкала (она же сигма-шкала)
Шкала станайнов
Тысячебалльная Т-шкала
Таблица 4.2. Значения параметров для популярных стандартных нормализованных шкал.
который получен всеми обследованными 10-летними детьми, то говорят
о 100-процентом умственном возрасте. Если ребенок X получил тестовый
балл, который превосходит средний для возрастной нормы, то говорят,
что его коэффициент умственного развития более 100 процентов. Впрочем, в последние десятилетия слово «процент» уже никак не связывается
с баллами на шкале IQ, ибо это усиливало бы путаницу между «процентом решенных заданий» и «процентом от выборки», то есть процентильным баллом (и без того до сих пор этой путаницы в головах у практиков слишком много). В настоящее время шкала IQ — это весьма условная
шкала, которая характерна для всевозможных тестов когнитивных (познавательных) способностей, включающих большие батареи из разнообразных заданий. Балл IQ уже не интерпретируется в наше время как
универсальный пожизненный маркер для человека в целом. Более адекватное понятие — «тестовый интеллект». По одному классу способностей
у человека может быть один балл IQ, а по другому классу способностей —
другой. Балл IQ интерпретируется как умственный темп или как работоспособность (скорость-точность) при выполнении тестовых заданий
на сообразительность, эрудицию и некоторые логико-познавательные
(когнитивные) способности общего плана. Балл IQ в результате тренировки по выполнению тестов можно повысить, но, как правило, в пределах 1 сигмы (одного стандартного отклонения, то есть не более чем на 15
очков). Одного взгляда на рис.4.3 достаточно, чтобы сказать, сколько процентов людей из нормальной выборки способны получить по тому или
иному тесту когнитивных способностей балл IQ выше 130 (за пределами
двух сигм) — это не более двух с половиной процентов.
Тестовые шкалы стенов и станайнов применяются чаще всего в области индустриальной психологии (в кадровой тестологии). Термин «стен»
образован от английских слов «standard ten», что в переводе означает «стандартная десятка», термин «станайн» — от английского «standard nine» и
обозначает стандартную девятку. В кадровой тестологии применяются
270
Практическая тестология
гораздо более короткие тесты (по числу заданий), поэтому для применения более дробных шкал нет оснований: если число градаций сырых баллов не больше 10 или 15 (а нередко лишь столько заданий попадают в какую-нибудь субшкалу в экспресс-тестах), то как из них получить 60 или
90 градаций на стандартизированной шкале? Поэтому для таких коротких тестов не применяют Т-шкалу, дающую практический разброс в 60
значений на интервале от 20 до 80 (по правилу трех сигм), или IQ-шкалу,
дающую разброс в 90 значений в интервале от 55 до 145.
При 10—15 тестовых заданий в субтесте сам индивидуальный тестовый балл нередко интерпретируется на шкале стенов лишь с точностью
до «крайних групп», а более точную оценку выставляют только в случае
усредненных групповых результатов. В высокую группу попадают испытуемые со стенами 8–9–10. Понятно, что эта группа определена снизу
границей «среднее плюс сигма» (на шкале стенов это 7.5 балла). Доля этой
группы от выборки в процентах (в соответствии с диаграммой 4.3) — это
немногим менее 16 процентов. Симметрично численность «низкой группы» со стенами 1–2–3 также составляет не более 16 процентов от обследованной выборки. Зная эти числа, тестолог может легко определить, в какой мере нормы по использованному им тесту подходят для количественной интерпретации результатов на его «выборке проведения»: если доля
«высокой группы» оказывается значимо превышающей 16 процентов (например, 25 процентов), то нормы оказываются заниженными по отношению к конкретной группе обследованных испытуемых. Впрочем, можно
интерпретировать результат и так, что данная группа испытуемых — это
сильная, хорошо подготовленная группа. Все зависит от целей тестирования. В случае конкурсного тестирования мы стремимся использовать
такие тесты, такие нормы и такие стандартные шкалы, которые будут
нам давать распределение, близкое к нормальному, или, по крайней мере,
симметричное. В случае аттестационного тестирования мы можем, наоборот, не заботиться о серьезных отклонениях от нормальности и «гордиться» тем, что очень многие наши испытуемые получили результаты
выше «статистической нормы» — превысили границы центрального коридора «среднее плюс-минус сигма».
Интересно заметить, что в настоящее время шкала стенов нередко
применяется не только для стандартизации тестовых баллов, но и для экспертных оценок. Например, в госуниверситете «Высшая школа экономики» преподаватели проинструктированы оценивать письменные работы
и устные ответы студентов именно с использованием 10-балльной шкалы
стенов, на которой 8–9–10 — это различные градации традиционной оценки «отлично», 6–7 — градации внутри традиционной категории «хорошо»,
4–5 — внутри категории «удовлетворительно», 1–2–3 — внутри категории
«плохо». Но данный норматив вовсе не означает, что именно таким всегда
должен быть перевод стенов в традиционные «категории-отметки» (оценочные категории).
Глава 4. Математическая тестология
271
Форсированная нормализация и конверсионные таблицы
Огромный мировой опыт тысяч разработчиков, создавших к настоящему времени тысячи различных психометрических тестов умственных способностей (тестов IQ), позволил глубже понять и осмыслить «техническое
происхождение» нормального распределения. Все дело в том, что в ходе статистической отладки из первоначального авторского банка тестовых заданий
отсеиваются слишком трудные и слишком легкие и остаются задания средней трудности, которые делят выборку испытуемых пополам — примерно
поровну на тех, кто решил и кто не нашел правильного ответа. Согласно центральной предельной теореме Муавра-Лапласа (одной из основных теорем
в матстатистике), сумма биномиальных наблюдений с двумя исходами (в
данном случае это отдельные тестовые задания с двумя исходами «удача —
ошибка») при большом количестве наблюдений порождает АВТОМАТИЧЕСКИ кривую распределения суммарного балла, близкую к колоколообразной
кривой нормального распределения. Таким образом, чем больше заданий в
тесте, чем более независимы эти задания друг от друга (одно не подсказывает,
как справляться с другим), чем ближе эти задания к средним по трудности (а
трудных и легких поровну), тем ближе оказывается распределение сырых тестовых баллов к нормальной модели. Нормальная модель — это в некоторым
смысле «технологический артефакт» — результат доминирующей стратегии
конструирования тестов с опорой на статистику.
Отклонение эмпирического распределения тестовых баллов от нормальной модели в классической психометрике рассматриваются как следствие несовершенства тестовой процедуры — подбора тестовых заданий.
Допустим, два задания стоят в тесте сравнительно близко друг к другу и
связаны между собой тематически настолько, что, решив первую задачу,
испытуемый, как правило, справляется со вторым заданием, то есть эти
события — удачное решение одного и другого задания — оказываются связанными. Допустим, это задания среднего уровня трудности, особенно
сказывающиеся на позицию испытуемых в среднем интервале на шкале
тестовых баллов. Допустим, у нас 20 заданий в тестовой шкале — в субтесте, по которому рассчитывается отдельный балл. Получается, что тот испытуемый, который справился сразу с двумя заданиями, получает балл
не на один больше среднего, а сразу на 2 — не 10 баллов, а сразу 12 сырых
баллов. Наоборот, тот, кто ошибся при решении и первого, и второго задания, получает на 2 очка меньше своего «истинного балла». На эмпирической гистограмме частотного распределения в результате появления
таких кластеров связанных тестовых заданий возникает «провал» (см.
рис.15 в главе 2). Если таких заданий немного и провал небольшой, то применяют процедуру «форсированной нормализации» (табличной нормализации). Форсированная нормализация с отображением на 10 неравных
интервалов (на шкалу стенов) приводит к следующим возможным интервалам квантования на сырой шкале (см. таблицу 4.3):
Интервалы
сырого балла
7 — 11
12 — 14
15 — 18
19 — 22
23 — 28
29 — 33
34 — 36
37 — 38
39 — 40
Практическая тестология
0—6
272
Эмпирическая
Вероятность
0.02
0.04
0.09
0.15
0.19
0.19
0.15
0.09
0.04
0.02
Накопленная
вероятность
0.02
0.06
0.15
0.30
0.49
0.68
0.83
0.92
0.96
0.98
Стен
1
2
3
4
5
6
7
8
9
10
Т-балл
28
33
38
43
48
52
57
62
67
72
Таблица 4.3. Пример таблицы распределения тестовых баллов, подгоняющей интервалы на сырой шкале под модель нормального распределения.
Таблице 4.3 соответствует следующая гистограмма распределения частот на рисунке 4.4:
Рис.4.4. Гистограмма распределения частот после разбиения сырой шкалы
на неравные интервалы с целью подгонки под модель нормального распределения — гауссовскую колоколообразную кривую.
В приложении к книге на диске пытливый читатель может воспользоваться специальной Эксель-моделью для проведения «форсированной
нормализации». В этом Эксель-файле используется функция НОРМОБР —
нормального обратного интеграла, позволяющая в качестве аргумента
Глава 4. Математическая тестология
273
иметь процентильный балл (точнее соответствующую эмпирическую
кумулятивную вероятность — процентильный балл, поделенный на 100),
а в качестве функции — значение переменной, имеющей нормальное распределение с соответствующими параметрами среднего и стандартного
отклонения. Применение этой функции для каждого сырого балла дает
конверсионную таблицу, на выходе которой будет переменная, подчиняющаяся нормальному закону распределения (точнее — дающая распределение, похожее на нормальное в большей степени).
Что дает подгонка под нормальную модель? Во-первых, удобную возможность применять к стандартизированным таким образом тестовым
баллам весь аппарат гауссовской классической статистики — различные
статистические меры и критерии, которые требуют нормального распределения. Например, у всех читателей на компьютере в составе программы
MS Excel есть статистическая функция расчета коэффициента корреляции КОРРЕЛ (линейная корреляция Пирсона). Но мало кто знает, что пользоваться этой функцией, строго говоря, можно только в том случае, если
доказана нормальность распределения тестовых баллов.
Второй эффект от подгонки под нормальную модель можно условно
назвать «политическим» (или социально-психологическим). Если заранее
известно, что статистическая интерпретация тестовых баллов будет основана на нормальном распределении, то можно заранее объявить, сколько
именно процентов от числа обследованных испытуемых попадет в «высокую», сколько — в «среднюю», а сколько — в «низкую» группы. Если действует правило, что в среднюю группу попадают все испытуемые, попавшие в «центральный коридор», или интервал с границами (среднее минус
сигма, среднее плюс сигма), то доля средней группы будет равна примерно 70%, а доля крайних — по 15 процентов каждой.
В результате выполненной разработчиками теста табличной (форсированной) нормализации перевод сырых баллов в стандартные осуществляется пользователями теста не по формуле, а с помощью конверсионных таблиц. В таблице 4.3 (в строках 1, 4 и 5) приводится пример того, как
может выглядеть конверсионная таблица для теста длиной в 40 очков по
шкале сырых баллов. В пятой строке этой таблицы приводятся соответствия между стенами и Т-баллами. То есть сырые очки можно перевести,
согласно этой таблице, и в стены, и в Т-баллы.
В практикуме по дифференциальной психометрике в МГУ многие
годы студенты учатся самостоятельно строить конверсионные таблицы
для собственного (индивидуального у каждого студента) массива сырых
тестовых баллов на выборке в 60 испытуемых путем выполнения следующей цепочки операций, которая описана, в частности, в таблице-примере
на странице 58 в учебном пособии «Общая психодиагностика» (Шмелев,
1987):
а) определить частоты распределения для каждого сырого балла,
б) подсчитать кумулятивные частоты для каждого сырого балла,
274
Практическая тестология
в) рассчитать процентильные баллы,
г) перевести процентильные баллы в Z-баллы по таблицам нормального
интеграла,
д) перевести Z-баллы в стены и другие оценки.
В последние годы студенты научились достаточно умело использовать
электронные таблицы MS Excel для реализации подобной процедуры. Это
же предлагается делать и читателям книги, которым доступно приложение на компакт-диске.
Ошибка измерения и надежность теста
Для более глубокого понимания вероятностных механизмов, лежащих в основе тестовых измерений, тестолог должен овладеть операциональным понятием «ошибка измерения». Без овладения этим понятием
крайне трудно понять и освоить процедуры измерения надежности и валидности теста.
Любой тест измеряет истинное значение свойства у индивида лишь с
приближенной точностью. То есть при каждом повторном проведении теста мы будем получать разные значения — то несколько более высокое значение, то несколько более низкое, чем истинный балл. Возникает некий
интервал, внутри которого происходят случайные ошибки — происходит
флуктуация эмпирически возможных тестовых баллов. Этот интервал называется доверительным. В центре этого интервала лежит истинное значение измеряемого свойства. Ширина доверительного интервала говорит о
размерах ошибки измерения. Нужна значительная статистика повторных
проведений одного теста, чтобы без смещения установить середину интервала. Чем шире потенциальный интервал, тем больше нужно произвести
повторных измерений.
На рисунке 4.5 дается такой пример. Слева и справа от середины шкалы размещаются две более узкие колоколообразные кривые (на рисунке они
выглядят не совсем как нормальные, но, согласно КТТ, это именно нормально-распределенные величины). Эти кривые изображают гипотетическивозможное рассеяние индивидуальных тестовых баллов двух испытуемых
А и В, а третья более плоская колоколообразная кривая X изображает межиндивидуальное рассеяние. Доверительные интервалы для испытуемого
А и испытуемого В на рисунке 4.5 практически не перекрываются, поэтому
тест надежно ставит испытуемого В выше на шкале по сравнению с испытуемым А.
А какой из испытуемых дальше отстоит от середины шкалы — от медианы на кривой X? Визуальная логика нам легко подсказывает, что дальше
находится испытуемый А, чей доверительный интервал совсем не заходит в центральный коридор — интервал «плюс-минус сигма» на кривой X.
Глава 4. Математическая тестология
275
Рис.4.5. Схематическая иллюстрация двух индивидуальных
(узких) А и В и межиндивидуальной (X) кривых распределения
тестовых баллов.
Также визуальная логика нам подсказывает, что чем уже будут кривые A и
B, тем уверенней мы будем делать вывод о том, что испытуемый А имеет тестовый балл ниже среднего, а испытуемый B — тестовый балл выше среднего. А в том случае, если кривые оказываются широкими, нам будет труднее
уверенно говорить об устойчивых различиях между испытуемыми.
Дисперсию (разброс) тестовых баллов внутри одного индивида принято называть в тестологии дисперсией ошибки и обозначать как S2e(нижний
индекс от слова error — ошибка). А дисперсию между точными (усредненными) баллами индивидов принято называть истинной дисперсией теста
и обозначать как S2t(нижний индекс от слова true). Общую дисперсию всех
наблюдаемых тестовых оценок принято обозначать S2x — она включает и
внутрииндивидуальный, и межиндивидуальный разброс (дисперсию).
Таким образом, мы получаем следующее равенство:
Sx2 = St2 + Se,2
(4.5)
или
(4.5б)
Поделив обе части уравнения (4.5б) на S2x, мы получаем:
(4.5в)
276
Практическая тестология
Используя введенные обозначения, выразим относительную ошибку
измерения EM как отношение дисперсии ошибки к общей дисперсии тестовых баллов:
(4.6)
Таким образом, огрубленно выражаясь в терминах рисунка 4.5, относительная ошибка измерения — это отношение средней ширины внутрииндивидуальных кривых А и В к ширине межиндивидуальной кривой X.
Получив формулу (4.5в) и истолковав ее левую часть как меру надежности теста, а дробь в правой части как меру ошибки измерения, мы получаем выражение R = 1 — EM и оказываемся в одном шаге от классической
формулы надежности теста R (reliability), известной как формула Рюлона
(опубликована в первом номере журнала «Psychometrika», вышедшем в
1936 году):
(4.7)
Так как многие нынешние студенты (даже на третьем курсе МГУ)
плохо помнят, как ведет себя дробь в зависимости от числителя и знаменателя, то в этом месте приходится объяснять, что чем меньше дисперсия ошибки, которая стоит в числителе дроби (по сравнению со знаменателем — общей тестовой дисперсией), тем меньше оказывается дробь,
то есть вычитаемое, и тем больше оказывается функция R — функция
надежности измерения. Формула Рюлона помогает мне как преподавателю рассказывать далее об устройстве коэффициентов корреляции, которые практически используются для измерения надежности.
С формулой Рюлона простыми преобразованиями (извлечением квадратного корня из частей уравнения) связана и формула стандартной
ошибки измерения SEM (standard error of measurement):
(4.8)
Обратим внимание, что величина SEM — это не квадратичная величина, поэтому она сомасштабна таким величинам как стандартное отклонение Sx. При этом формула для вычисления «плеча» 95-процентного доверительного интервала (по модели нормального распределения) выглядит так:
(4.9)
Dx = 1.96 * SEM = 1.96*Sx*
Что означает формула (4.9)? — То, что истинное значение тестового балла X заключается в интервале (X-Dx, X+Dx).
Глава 4. Математическая тестология
277
Итак, формула Рюлона помогает нам осмыслить надежность (метрологическую точность) теста как долевую величину, линейно-убывающую по
отношению к ошибке измерения: чем выше доля ошибки измерения в дисперсии наблюдаемых результатов, тем ниже надежность теста — доля истинной дисперсии в общей дисперсии тестовых результатов. Но практически надежность измеряют с помощью корреляционных методов, так как слишком
трудно во многих случаях организовать многократный повтор тестового измерения по отношению к каждому индивиду и напрямую измерить внутрииндивидуальную дисперсию ошибки. Исключение, пожалуй, составляют
простейшие и короткие тесты по измерению, например, простой моторной
реакции. Вот на этом материале мы и построим числовой пример.
Числовой пример расчета надежности по формуле Рюлона
В упомянутой книге «Психометрика» (Фер, Бакарак, 2010) на странице
95 приводится таблица 5.1 с числовым примером для расчета надежности
на основе формулы Рюлона. С нашей точки зрения, наличие в этой таблице «истинного балла», непонятно откуда появившегося, снижает дидактическую убедительность разработанного авторами примера76. К тому же в
их таблице отсутствует как таковая внутрииндивидуальная дисперсия
наблюдаемых тестовых показателей — по каждому из шести испытуемых
дается только одно наблюдаемое значение тестового балла.
В таблице 4.4а мы приводим результаты измерения времени простой
моторной реакции у трех гипотетических испытуемых. По каждому испытуемому произведено 10 повторных измерений (попыток). Результат
выражен в миллисекундах.
Предупреждение: в таблицах 4.4а и 4.4б дисперсия вычисляется по
формуле среднего квадратического отклонения без обычного вычитания
единицы в знаменателе из численности выборки (точно такую же формулу используют в своем примере авторы книги «Психометрика»):
(4.10)
где Xi — i-е наблюдение в ряду из n значений, Mх — среднее арифметическое для ряда из n значений переменной X.
76
Впрочем, в нашем примере мы тоже базируемся на несколько произвольном допущении —
о том, что истинная дисперсия сводится к дисперсии средних значений (между испытуемыми). Большинство авторов полагает, что истинный балл — это балл латентной переменной,
который не сводится к усредненному внутриндивидуальному баллу и вообще не измеряется.
Но на наш взгляд, внутрииндивидуальный средний балл — это лучшее приближение к латентному истинному баллу, чем отдельный тестовый балл, что позволяет сделать истинный
балл более понятной и осязаемой реальностью для студентов (начинающих). — Прим. автора.
278
Практическая тестология
Попытка
Иванов
Петров
Сидоров
1
215
230
235
2
240
240
255
3
235
245
250
4
230
250
260
5
225
230
255
6
235
245
245
7
240
245
255
8
230
250
265
9
225
250
270
10
230
230
255
Среднее
230,5
241,5
254,5
Общее
среднее
Дисперсия
средних
(истинная)
S2t (n=3)
Общая
дисперсия
(тестовая)
S2x (n=30)
242,17
96,22
164,47
Таблица 4.4а. Результаты гипотетического эксперимента (теста) по измерению времени простой моторной реакции у трех испытуемых.
Отклонения
Квадраты
отклонений
наблюдаемых
значений X от
истинных (средних) значений
Внутренняя
Дисперсия
Иванов
Петров
Сидоров
240,25
132,25
380,25
90,25
2,25
0,25
20,25
12,25
20,25
0,25
72,25
30,25
30,25
132,25
0,25
20,25
12,25
90,25
90,25
12,25
0,25
0,25
72,25
110,25
30,25
72,25
240,25
0,25
132,25
0,25
Средняя внутрииндивид.
дисперсия S2x
52,25
65,25
87,25
68,25
Таблица 4.4б. Производная таблица от 4.4а — в каждой клетке квадрат отклонения от локального среднего значения по столбцу (по испытуемому) в
таблице 4.4а.
Глава 4. Математическая тестология
279
По таблице 4.4 мы получаем следующее значение разности суммарной
тестовой дисперсии Sx2 (подсчитанной по всем тридцати наблюдениям по
формуле 4.10) и истинной дисперсии S2t (подсчитанной по трем наблюдениям — для средних значений времени реакции трех испытуемых):
Sx2 – S2t = 164,47 – 96,22 = 68,25.
Следовательно, согласно теоретической формуле (4.5), мы при вычислении внутрииндивидуальной дисперсии должны для данного числового примера получить именно значение 68,25. Для этого в таблице 4.4б для
каждой клетки подсчитываются квадраты отклонения измеренного (наблюдаемого) значения и среднего балла данного испытуемого. При этом
именно средний балл принимается в качестве аналога «истинного балла»
(лучшее приближение, чем каждое отдельное испытание из 10 реально
выполненных). Для первой клетки (первого испытания) у испытуемого
Иванова само отклонение равно 215 — 230,5 = -15,5, что при возведении в
квадрат дает нам значение 240,25. В последней строке таблицы 4.4б приводятся вычисленные по формуле 4.10 значения дисперсий для каждого
столбца (каждого испытуемого) в таблице 4.4. Это и есть внутрииндивидуальные дисперсии — мера той самой ширины внутрииндивидуального
распределения тестовых баллов, которая изображена на рис.4.5. Стоит пояснить, что более точный аналог ширины — это стандартные отклонения,
надо вычислить квадратный корень из величины дисперсии, но сложение
в формуле (4.5) становится возможным именно для квадратичных величин — для дисперсий, а не для стандартных отклонений.
Итак, среднее арифметическое трех значений внутрииндивидуальных дисперcий 52,25, 65,25 и 87,25 равняется 68,25, то есть составляет ровно
ту же самую величину Se2, которую мы прогнозировали по формуле (4.5).
Что и требовалось доказать (и проиллюстрировать).
Каждому читателю крайне полезно самостоятельно просчитать пример, аналогичный тому, который дается в таблице 4.4. Впрочем, можно не
мучиться с калькулятором, так как в приложении на диске дается готовый
Эксель-файл, в котором уже выстроены все формулы, включая формулы
для таблицы 4.4б. Достаточно поставить в этот файл другие значения, и Вы
должны получить искомое равенство, соответствующее формуле (4.5):
Подставим теперь вычисленные для нашего примера значения дисперсий в формулу Рюлона (4.7) и получим измеренную величину надежности нашего теста простой моторной реакции:
280
Практическая тестология
Величина относительной ошибки измерения EM (средней для всех испытуемых) будет равна соответственно 1 — R = 0,41, а долевая стандартная
ошибка SEM по формуле (4.8) при этом равна корню квадратному из 0,41,
что дает нам следующее «плечо» 95%-го доверительного интервала по формуле (4.9):
Dx = 1.96*
= 16,1
Таким образом, истинный тестовый балл испытуемого Иванова с пренебрежимой вероятностью ошибки 5% находится в пределах от 230,5—16,1
до 230,5+16,1, то есть в пределах очень широкого доверительного интервала в 32 миллисекунды. Разумеется, это слишком высокая доля ошибки и
слишком широкий доверительный интервал, но в противном случае наш
числовой пример был бы гораздо более громоздким — по числу столбцов
(испытуемых) и строк (попыток) в таблице 4.4.
Корреляционные методы измерения надежности
и валидности теста
Разговор об использовании корреляционных методов для измерения надежности мы начнем с классического приема — расщепления теста пополам (half-split). Хотя в настоящее время этот прием потерял свою
практическую актуальность, но во времена ручных вычислений (когда
компьютеры еще попросту отсутствовали), этот прием содействовал прогрессу в развитии операциональных подходов к анализу надежности.
В настоящее время этот прием полезен, прежде всего, в дидактическом
плане — в ходе обучения молодых студентов-тестологов77.
В таблице 4.5 представлены баллы по некоторому тесту из 20 заданий, выполненному 20 испытуемыми. Баллы, отражающие число ключевых ответов, варьируют в интервале (0, 20) и приводятся в
первом столбце. Во втором и третьем столбцах даны баллы, которые
получены этими же испытуемыми по 10 нечетным и 10 четным заданиям 78. Разумеется, сумма баллов второго и третьего столбца соответствует числу, указанному для этого испытуемого в первом столбце. В четвертой колонке указываются данные по тому же самому те77 Также он полезен для измерения надежности тестов со случайной выборкой тестовых заданий из банка. В этом случае порождается массив с большим количеством пропусков, для
которых самый популярный Альфа-коэффициент надежности рассчитывается менее корректно, чем корреляция двух половин теста — четной и нечетной, составленных для каждого отдельного испытуемого с помощью специализированной программы. — Прим. автора.
78
Вариант расщепления на четные и нечетные задания лучше, чем на первую и вторую
половину теста, с точки зрения нивелирования позиционного эффекта «врабатывания» или
«утомления» — Прим. автора.
Глава 4. Математическая тестология
281
сту, полученные на тех же самых испытуемых, но в ходе повторного
тестирования с интервалом в 2 недели (ретестовое испытание). Тем
самым в таблице 4.5 данные по расщеплению теста мы сознательно
совмещаем с данными по повторному тестированию — с тем, чтобы
сразу проиллюстрировать, как связаны между собой синхронная (одномоментная) надежность и диахронная (измеренная с помощью метода «тест-ретест»).
БАЛЛЫ
3
РАНГИ
1
2
4
5
6
7
8
Тест
Нечетная Четная
половина половина Ретест
Четная
Тест Нечетная
половина половина Ретест
Исп.1
18
8
10
16
20
17
20
17
Исп.2
17
8
9
17
19
17
19
19
Исп.3
16
9
7
18
17
19
12
20
Исп.4
16
9
7
14
17
19
12
14
Исп.5
15
7
8
13
16
12
17
13
Исп.6
14
7
7
16
15
12
12
17
Исп.7
13
5
8
12
12
5
17
12
Исп.8
13
6
7
15
12
9
12
16
Исп.9
13
7
6
11
12
12
8
10
Исп.10
12
5
7
14
10
5
12
14
Исп.11
12
7
5
10
10
12
6
7
Исп.12
11
5
6
6
7
5
8
2
Исп.13
11
7
4
10
7
12
4
7
Исп.14
11
6
5
9
7
9
6
5
Исп.15
10
4
6
7
5
2
8
3
Исп.16
10
4
6
9
5
2
8
5
Исп.17
9
6
3
10
4
9
1
7
Исп.18
8
4
4
11
2
2
4
10
Исп.19
8
5
3
4
2
5
1
1
Исп.20
6
3
3
7
1
1
1
3
Таблица 4.5. Числовой пример для иллюстрации подсчетов корреляционных мер надежности.
282
Практическая тестология
Если колонки 1—4 вставить в электронную таблицу Эксель и вызвать
функцию КОРРЕЛ для пары колонок 2 и 3, то мы получим значение коэффициента корреляции двух половин теста (по результатам первого тестирования). При вызове функции КОРРЕЛ расчеты производятся в Эксель по
известной формуле линейной корреляции Пирсона:
(4.11)
где в числителе сумма произведений отклонений от средних значений
Mx по первой переменной X и от средних значений My по второй переменной
Y, а в знаменателе — среднее геометрическое сумм квадратов отклонений
для указанных переменных. Для переменных из пары колонок 2 и 3 значение КОРРЕЛ равно 0,51. Но это значение неправильно напрямую интерпретировать как показатель надежности. Ведь получена надежность для половинки теста из 10 заданий, а не для целого теста из 20 заданий. Для целого теста
надежность выше, чем для половинки. Для вычисления надежности целого
теста из корреляции двух половин используется поправка Спирмена-Брауна:
(4.12)
где R — надежность целого теста, r — надежность половины, полученная путем расщепления и расчета корреляции. Наш вычислительный
пример дает такой результат поправки:
Как видим, корреляция не достигает того уровня R=0,8, который рекомендуется необходимым для тестов, измеряющих способности и знания (см. «Стандарт требований к психодиагностическим методикам» в Приложении 1). Это
вполне естественно для теста длиной всего лишь в 20 заданий. Тут же возникает
вопрос: а что будет, если при таком же уровне однородности (внутренней согласованности) теста мы увеличим число заданий в 2 раза — до 40 заданий. Приближенную оценку ожидаемого значения надежности позволяет опять-таки
спрогнозировать повторное применение формулы Спирмена-Брауна (4.12):
Таким образом, повторно применяя формулу (4.12), мы рассуждаем в
сослагательном наклонении: если бы у нас было фактом 0,67, то удвоение
длины теста привело бы к 0,81. То есть мы видим, что именно для теста
Глава 4. Математическая тестология
283
из 40 заданий, созданных аналогичным образом тому, как были созданы
в нашем примере первые 20 заданий, спрогнозированный коэффициент
надежности достигнет, скорее всего, требуемого уровня — выше 0,8. Хотя
этот прогноз, конечно, в ходе реального удвоения теста по длине еще надо
проверять эмпирически, и он может оказаться неверным.
Казалось бы, что нам еще надо, если внутри программы Эксель уже
встроена функция подсчета коэффициента корреляции КОРРЕЛ? Но… не
будем забывать, что мы применили в данном случае КОРРЕЛ в отношении
сырых, а не нормализованных баллов. Линейная корреляция Пирсона —
мера весьма хрупкая, и дает значительную погрешность особенно в том
случае, если распределение коррелируемых случайных величин очень
резко отличается от нормального. Исследование этого коэффициента на разных примерах выходит за рамки этой книги. Но любознательный читатель
может легко, используя Эксель, вставить в ряды двух положительно скоррелированных переменных пару значений (тестовые баллы всего лишь по
одному испытуемому), которые являются «аномальными выбросами» (выходят за границы трех сигм) и имеют разные знаки (отклоняются в разные
стороны от среднего). И Вы увидите, как всего лишь одна пара аномальных
значений разного знака может резко поменять знак корреляции на отрицательный. Все дело в том, что числитель формулы Пирсона очень чувствителен к размерам отклонений от средних значений и единичное совпадение двух однонаправленных или разнонаправленных «зашкаливающих»
отклонений сильно искажает общую картину. Пирсоновскую корреляцию
можно и нужно считать, но только после отсева аномальных наблюдений и
табличной (форсированной) нормализации, что делают уже на этапе работы с большими выборками — на этапе стандартизации теста. А вот на этапе
обработки данных первого пилотного обследования гораздо более осторожным и адекватным шагом применительно к сырым баллам является применение коэффициента ранговой корреляции Спирмена:
(4.13)
,
где Ro — коэффициент ранговой корреляции,
n — численность выборки (это же число элементов суммирования),
Ri1 — ранг i-го испытуемого по первой половине теста,
Ri2 — ранг того же самого i-го испытуемого по второй половине теста.
Во второй половине таблицы 4.5 мы приводим в столбцах 5—8 ранги, соответствующие сырым баллам (использована функция программы Эксель
под названием РАНГ). Даже на глаз заметно, что максимальная разность рангов по четной и нечетной половинам теста возникает у испытуемого №7: этот
испытуемый оказался на 5-м месте (начиная с нижнего полюса шкалы сырых баллов) в нечетной половине теста и на 17-м месте для четной половины.
284
Практическая тестология
Возведение в квадрат этой разности в 12 мест приводит к значению 144, то
есть, в случае ранговой корреляции тоже появляется эффект чувствительности к различиям, но… не в величине сырых баллов, а в ранговых позициях
испытуемых. Ранга выше 20 при численности выборки в 20 человек никто из
испытуемых получить просто не может, так что аномальные выбросы при
таком подходе «гасятся». Читатель может увидеть, как в приложении на диске в файле под названием «Расщепление теста и надежность» на каждом отдельном листе «Эксель-книги» приводятся расчеты для разных коэффициентов корреляции. Расчет для столбцов 6 и 7 по формуле Спирмена приводит к
значению Ro=0,53 — значению, весьма близкому к линейной корреляции r, но
все-таки выше на 0,02 — две сотых. Поэтому в таких книгах по матстатистике
для психологов, которые издавались раньше, приводятся отдельные статистические таблицы для оценки статистической значимости коэффициентов
Пирсона и Спирмена (Суходольский, 1972).
Объясняя студентам смысл коэффициента корреляции, я, как правило,
стараюсь обратить их внимание на определенное структурное сходство коэффициента Спирмена (4.13) и формулы (4.7) Рюлона. В обоих случаях мы вычитаем из 1 определенную дробь, в числителе которой присутствуют (суммируются) данные, которые мы содержательно интерпретируем как «отклонения» от идеальной надежности. В самом деле, в случае полнейшего сходства
сырых баллов (и соответствующих им рангов) в двух половинках теста мы бы
получили нулевую разность рангов для всех испытуемых, а значит нулевое
значение дроби, которую приходится вычитать из единицы. Тем самым нулевой числитель в формуле (4.13) оказывается связанным с единичной (максимальной, идеальной) надежностью теста. Манипулируя числовыми значениями, которые можно подставлять в Эксель-модель «Расщепление теста
и надежность», можно добиться серьезного прогресса в понимании того, как
работают формулы коэффициентов корреляции (4.11) и (4.13) в зависимости от
близости (сходства) двух коррелируемых рядов значений.
А теперь обратим наше внимание на то, как рассчитывается так называемая «ретестовая надежность». Формально выполняются те же самые
действия, но уже со столбцами 1 и 4 (для линейной корреляции по формуле 4.11) и 5 и 8 (для расчета ранговой по формуле 4.13). Получаем линейную
корреляцию r=0,82 и ранговую Ro=0,81, то есть весьма близкие значения,
что вполне характерно для данных, не содержащих аномальных выбросов. Более сложный вопрос — это вопрос содержательной интерпретации
различий между синхронной и диахронной надежностью. Связаны ли
они между собой? Формально никакой связи нет, конечно, особенно в случае измерения таких свойств человека, которые отличаются высокой нестабильностью по времени и могут значительно измениться от первого
тестирования к повторному (ретесту). Это, например, уровень тревожности как состояния. Допустим, кому-то из испытуемых (не всем) при повторном тестировании на следующий день после тестирования предстоит
ответственный экзамен. И вот уровень тревожности, измеренный в ходе
Глава 4. Математическая тестология
285
второй попытки, именно у этих испытуемых оказывается гораздо выше
того, каким он был при первом измерении (тестировании). В главе 8 мы
будем подробнее обсуждать вопросы экзаменационной тревожности.
Но если измеряемые свойства стабильны во времени, между ретестовой надежностью и внутренней согласованностью (корреляцией половинок) имеется определенная связь. Посчитаем линейную корреляцию КОРРЕЛ между каждой из двух половинок и ретестом — для столбцов 2 и 3 и
столбца 4 в таблице 4.5. Получаем значения 0,70 и 0,73, соответственно, то
есть, разумеется, ниже, чем для целого теста (для колонки 1). Расстояние
между 0,7 и 0,82 оказывается близким к тому, которое покрывается с помощью поправочной формулы Спирмена-Брауна (4.12). На этом примере мы
убеждаемся, что для более длинных (по числу заданий) тестов ретестовая
надежность тоже выше, чем для коротких тестов.
Применение корреляционных методов в случае измерения валидности
формально мало чем отличается от их применения к измерению надежности. Можно применять те же самые формулы (4.11) и (4.13), если в качестве
переменной X выступает тестовый балл, а в качестве переменной Y — показатель по внешнему критерию.79 Но важно, чтобы внешний критерий также измерялся на уровне шкалы интервалов (для подсчета линейной корреляции)
или хотя бы порядковой шкалы (для подсчета ранговой корреляции). Как раз
в случае валидности это требование выполняется гораздо реже. Дело в том,
что критерий нередко предстает не в виде количественной переменной, а в
виде фактически качественной, бинарной переменной — делит испытуемых
на так называемые «экстремальные» (или «контрастные») группы.
В тех случаях, когда тестовый балл оказывается измеренным на интервальной шкале, а критерий представляет собой бинарную (дихотомическую) переменную, эмпирико-статистическая валидность вычисляется
с помощью так называемого точечно-бисериального коэффициента корреляции (point-biserial correlation coefficient), который является производным от коэффициента Пирсона для этого частного случая:
(4.14)
где n1 и n0 — численности испытуемых в двух подгруппах (подвыборках) для «высокого» и «низкого» балла по критерию соответственно,
M1 и M0 — средние значения тестового балла в двух подгруппах,
Sn-1 — стандартное отклонение для целой выборки,
n — общая численность испытуемых в целой выборке.
79 Автор в данном случае включает результаты другого теста, измеряющего то же свойство, в
понятие внешнего критерия, очевидно, полагая, что по отношению к самому тесту этот показатель является внешним. — Прим. науч. редактора.
286
Практическая тестология
В свое время (до появления компьютеров) коэффициент rpb значительно упрощал вычисления по сравнению с коэффициентом Пирсона
(4.11), но с появлением электронных таблиц и доступной функции КОРРЕЛ данный коэффициент опять-таки потерял свое практическое значение, сохранив дидактическое. Стоит обратить внимание на смысл
числителя и знаменателя в этом коэффициенте, чтобы глубже понять,
что такое тестовый балл, скоррелированный с критерием. Дробь растет при росте числителя, то есть чем выше разница средних тестовых
баллов M1 и М0 для двух критериальных групп, тем больше валидность
теста. Этот статистический механизм по смыслу похож на то, как при
росте надежности растет различие между внутрииндивидуальными
средними показателями по тесту (см. рис.4.5), только в данном случае
колоколоообразные кривые А и В соответствуют не внутрииндивидуальному разбросу тестовых показателей, а внутригрупповому — внутри критериальных групп.
В таблице 4.6 приведен числовой пример для расчета коэффициента
валидности, соответствующий числовому примеру в таблице 4.5. Здесь
приведены результаты той же самой первой попытки тестирования 20 испытуемых по условному тесту из 20 заданий. Только в данном случае для
повышения читабельности испытуемые расположены не по строкам, а
по столбцам. В третьей строке — код критерия, в данном случае цифра «1»
указывает на принадлежность испытуемого к высокой группе по критерию (допустим, это студенты-отличники и хорошисты по итогам сессии),
а цифра «0» — на принадлежность испытуемого к низкой группе по критерию (допустим, это те студенты, которые получили на сессии оценки
«удов» и «неуд», то есть ниже, чем «хорошо»).
Испытуемые
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Тестовый балл 18 17 16 16 15 14 13 13 13 12 12 11 11 11 10 10 9 8 8 6
Код критерия
1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
Таблица 4.6. Числовой пример для расчета коэффициента валидности.
В соответствующей Эксель-модели читатель может познакомиться со
всеми промежуточными расчетами и подставить новые значения для использования формулы (4.14). Для таблицы 4.6 эти промежуточные значения таковы:
1)
2)
3)
4)
M0 = 14,7 (среднее значение сырого тестового балла в высокой подгруппе 1),
M1 = 9,6 (среднее значение сырого тестового балла в низкой подгруппе 0),
Sn-1 = 3,22 (стандартное отклонение по всем 20 испытуемым),
n1=10, n0=10, n=20 — численность испытуемых в критериальных подгруппах и в целом в выборке.
Глава 4. Математическая тестология
287
Получаем по формуле (4.14) значение rpb=0,81. Кстати, если Вы посчитаете в Эксель значение функции КОРРЕЛ для двух рядов из 20 значений во
второй и третьей строках таблицы 4.6, то получите точно такое же значение валидности 0,81.
Четырехклеточная корреляция
Еще более полезным дидактическим эффектом, по моему опыту, обладает фи-коэффициент четырехклеточной корреляции. Этот коэффициент очень похож на коэффициент дискриминативности 4.2 (см. раздел
3.6), так как опирается на точно такую же таблицу сопряженности «А-BC-D», но лучше согласован со статистическим критерием Хи-квадрат, что
облегчает оценку его статистической значимости. В случае проверки валидности строки и столбцы четырехклеточной таблицы сопряженности
приобретают такой смысл:
Тест \ Критерий
Высокая группа по критерию
Низкая группа по критерию
Высокая группа по тесту
a
b
Низкая группа по тесту
c
d
Таблица 4.7. Четырехклеточная таблица сопряженности для проверки валидности теста.
Формула фи-коэффициента имеет вид80:
(4.15)
Статистически значимая величина фи-коэффициента вычисляется по
формуле:
(4.16)
80
Дж. Гилфорд в своей публикации 1941 года (Guilford, 1941) вводит поправку для числителя, вычитая n/2 –половинную численность элементов таблицы a+b+c+d, но в нашей формуле (4.15) мы считаем возможным отказаться от этой поправки из дидактических соображений — именно в таком виде формулу фи-коэффициента любители алгебраического вывода
могут получить, трансформируя линейную корреляцию Пирсона на случай двух бинарных
переменных. Именно такую формулу приводит, в частности, в своей монографии В.А. Дюк
(Дюк, 1994, c.65), а также другие авторы. — Прим. автора.
288
Практическая тестология
Для одной степени свободы критическая величина статистического
критерия Хи-квадрат на уровне ошибки в пять процентов (p<0,05) имеет
значение 3.84. Его подстановка в формулу (4.16) для таблицы численностью в 20 элементов (как в примере 4.6) дает величину критического фикоэффициента √(3,84/20) = 0,44.
Применим формулы (4.15) и (4.16) для числового примера в таблице 4.6.
При этом произведем расщепление выборки на «высокую» и «низкую» тестовые группы по границе в 12 баллов. Четырехклеточная таблица 4.7 приобретет следующий вид:
Тест \ Критерий
Высокая по критерию
Низкая по критерию
Высокая по тесту
А=10
B=1
Низкая по тесту
C=0
D=9
Подставляя в формулу (4.15) значения А=10, B=1, C=0 и D=9, получим
фи-коэффициент, равный 0,90. Очевидно, что этот коэффициент является статистически значимым, но он «не дотянул» до максимума 1.0 из-за
испытуемого номер 11, который, будучи из низкой группы по критерию,
набрал сырой тестовый балл 12 и попал в высокую группу по тесту, то
есть оказался в ячейке B четырехклеточной таблицы. Очевидно, что фикоэффициент получает значение ровно 1, если в клеточках В и С, в которые
попадают «неправильные случаи», оказываются нулевые значения. При
любом количестве «неправильных испытуемых», попадающих в клеточки
B и С, значение коэффициента оказывается меньше 1, причем отдаляется
оно от 1 тем сильнее, чем больше мы наблюдаем «неправильных случаев».
Именно четырехклеточные таблицы должны развить, по нашему
убеждению, у начинающих тестологов логику вероятностного мышления.
Эти таблицы надо научиться применять просто ко ВСЕМ случаям подсчета коэффициентов корреляции — именно с целью универсализации мыслительного навыка. Тестологи должны «ловить» наличие значимой статистической связи просто по направленности отношений неравенства между ячейками таблицы. Надо уметь просто видеть, глядя на клеточки, что
если А>B и С<D, то связь положительная, а если А<B и С>D, то связь отрицательная (то есть в высокую группу по критерию чаще попадают испытуемые из низкой группы по тесту). А вычисление самого фи-коэффициента
требуется только для проверки значимости связи.
Многолетний опыт преподавания фи-коэффициента и четырехклеточных таблиц для студентов-психологов показал, что слабым студентам бывает трудно удерживать в памяти сам смысл тех чисел, которые они видят
в ячейках. Приходится многократно на многих примерах заучивать, что в
ячейках указываются не какие-то абстрактные и непонятные величины, а
КОЛИЧЕСТВО ИСПЫТУЕМЫХ, которые попадают одновременно в определенную группу по тесту и в определенную группу по критерию. В этом плане
Глава 4. Математическая тестология
289
неоценимую помощь таким слабым студентам оказывает элементарное…
зазубривание двух слов — «количество испытуемых», «количество испытуемых», «количество испытуемых»… Только научившись вспоминать 2 этих
слова в ответ на вопрос о том, как устроена четырехклеточная таблица и что
находится в клеточках-ячейках, студенты начинают постепенно «выруливать» на понимание того, что же такое обозначается цифрами в ячейках81.
Другой непростой умственный навык — уметь гибко переобозначить
строки и столбцы и применить четырехклеточную корреляцию к статистическим связям других бинарных переменных. Давайте построим четырехклеточную таблицу для связи тест-ретест в таблице 4.5.
Испытуемые
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Тест
1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
Нечет. половина
1 1 1 1 1 1 0 0 1 0 1 0 1 0 0 0 0 0 0 0
Четная половина 1 1 1 1 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0
Ретест
1 1 1 1 1 1 1 1 0 1 0 0 0 0 0 0 0 1 0 0
Таблица 4.8. Кодирование высоких и низких тестовых групп по данным таблицы 4.5 (точка разделения для теста и ретеста — медианный балл 12).
В этом случае четырехклеточная таблица, связывающая тест-ретест,
выглядит так, что на месте столбцов вместо критерия размещаются группы, закодированные по результатам повторного тестирования — ретеста:
Тест \ Ретест
Высокая группа по ретесту
Низкая группа по ретесту
Высокая группа по тесту
А=9
B=2
Низкая группа по тесту
C=1
D=8
Таблица 4.9. Пример четырехклеточной таблицы сопряженности для измерения ретестовой надежности.
Вычисленное значение фи-коэффициента для таблицы 4.9 оказывается равным 0,70. Это значимая величина, но все-таки более низкая, чем
линейный или ранговый коэффициент для этой же исходной таблицы 4.5.
81 Автор осознает, что рисует здесь весьма грустную картину, делая, правда, оговорку, что
речь идет не о всех студентах, а о «слабых студентах». Видимо, сказывается тридцатилетний опыт преподавания и тридцатилетняя усталость от работы со слабыми студентами, которые, несмотря на формально высокие требования к уровню математической подготовки
абитуриентов, все-таки «просачиваются» на факультет психологии МГУ (не говоря про другие вузы), что еще раз подтверждает необходимость реформирования традиционной системы вступительных экзаменов. К сожалению, внедрение ЕГЭ не ослабило, а, увы, пока только
усилило этот негативный эффект — появление в вузе студентов, не освоивших элементарной математики в школе даже на «тройку». — Прим. автора.
290
Практическая тестология
Тем самым мы получаем дополнительную информацию: с точностью до
попадания в крайние группы данный тест дает тестовые данные, менее
устойчивые к перетестированию. То есть переход на шкалы более высокого типа, чем номинальные (бинарные), — на порядковую и интервальную — дает определенный прирост ретестовой надежности, а снижение
уровня измерения до номинальной шкалы (до крайних групп) приводит к
потере некоторой части сопряженности (плотности связи).
А вот как выглядит четырехклеточная таблица для проверки надежности-согласованности, то есть устойчивости теста к расщеплению тестовых заданий на 2 подмножества — на нечетную и четную половинки теста
(строится эта таблица на основе кодирования подгрупп по строкам 3 и 4 в
таблице 4.8):
Нечетная \ Четная
Высокая четная
Низкая четная
Высокая нечетная
А=6
B=3
Низкая четная
C=3
D=8
Таблица 4.10. Пример четырехклеточной таблицы сопряженности для измерения ретестовой надежности.
Фи-коэффициент по формуле (4.15) для таблицы 4.10 равен 0,39. Фикритическое по формуле (4.16) в данном случае равно, как мы уже установили ранее, 0,44. Таким образом, в данном случае значение корреляции
оказывается ниже уровня значимости, то есть нулевая статистическая гипотеза H0 об отсутствии связи не отвергается. Этот рассмотренный нами
пример показывает, что мера четыреклеточной фи-корреляции оказывается достаточно строгой для проверки надежности-согласованности, в
данном случае даже более строгой, чем линейная и ранговая корреляция:
гипотеза о том, что мы получили с помощью всего лишь 20 заданий внутренне однородный тест, вообще отвергается. Фи-коэффициент просигналил нам, что тест надо обязательно наращивать по числу заданий, так как
20 заданий — это слишком мало.
Чтобы обобщить у читателя навык по применению четырехклеточной
корреляции рассмотрим, как этот же прием применяется для анализа надежности на уровне ключей к отдельному тестовому заданию. Впрочем, в
разделе 3.6 мы уже приводили формулу (3.2) для расчета простейшего коэффициента дискриминативности именно в отношении этих таблиц, но
здесь уместно повторить конструкцию этой таблицы:
В таблице 4.9 в клеточке А указаны те 12 испытуемых, которые дали
ключевой ответ на данное задание номер i и при этом попали в высокую
группу по тесту. В клеточках А и D размещаются так называемые «правильные испытуемые» — такие, которые подтверждают корреляцию данного тестового задания с данной тестовой шкалой, то есть подтверждают
Глава 4. Математическая тестология
i-е задание \ Тест
Высокая
Низкая
Верно
А=12
B=3
Неверно
C=5
D=10
291
Таблица 4.11. Пример четырехклеточной таблицы сопряженности для измерения надежности-дискриминативности бинарного тестового задания,
дающего вклад в тестовый балл по принципу «верно-неверно».
статистическую правомочность ключа к этому заданию, связывающего
его с данной шкалой. А вот в клеточках B и C размещаются «неправильные
испытуемые», которые опровергают ключ к данному заданию: дают ответы, не совпадающие с тем, в какую группу по тесту в целом они попадают.
Кстати, полезно заметить, что вычисленное (эмпирическое) значение фикоэффициента по таблице 4.11 почти совпадает со значением КД (коэффициента дискриминативности по более простой формуле 3.2) и равняется
0,47, то есть достигается значимый уровень при данной численности обследованных n=30. Но следует учесть, что равенство фи-коэффициентов и
КД сохраняется только для заданий оптимальной трудности — при примерном равенстве суммы элементов таблички в первой и второй строке,
а также при равной численности высокой и низкой групп (второе условие,
впрочем, обеспечить проще). Фи-коэффициент является более точной, более универсальной и более статистически-обоснованной мерой дискриминативности тестовых заданий по сравнению с коэффициентом КД (3.2),
хотя и менее прозрачной по устройству самой формулы его вычисления.
А можно ли применить четырехклеточную корреляцию для измерения валидности каждого отдельного тестового задания? Конечно! Так и делают при построении теста путем отбора заданий по какому-то внешнему
критерию. Допустим, у нас имеется банк в 300 тестовых заданий, по которым мы протестировали 100 человек с известной производительностью
труда, и хотим оставить из этого банка только такие задания, которые
дают статистически значимую связь с попаданием испытуемых в группу «высокопроизводительных сотрудников» (успевающих студентов). Тогда по каждому i-му заданию компьютерная программа должна построить
следующую табличку сопряженности:
i-е задание \ Критерий
Высокая
Низкая
Верно
А=20
B=10
Неверно
C=10
D=20
Таблица 4.12. Пример четырехклеточной таблицы сопряженности для измерения валидности-дискриминативности бинарного тестового задания
для отбора заданий, коррелирующих с внешним критерием (n=100).
292
Практическая тестология
Обратим внимание, что при значительных по объему выборках (50 человек и более) целесообразно при выделении подгрупп игнорировать среднюю
группу и учитывать в четырехклеточной таблице только ответы испытуемых
из «крайних» (экстремальных, контрастных групп). Этот метод прагматикостатистического построения тестов так и называется — метод «контрастных
групп» — в тест попадают только такие задания, которые различают (дискриминируют) контрастные группы по внешнему критерию. В таблице 4.12
дается пример, по которому численность крайних групп при общей численности обследованных в 100 человек берется в размере 30% с каждого полюса
(хотя есть психометрические работы, доказавшие, что математически-оптимальный размер крайних групп — это по 27 процентов от выборки обследованных). Является ли задание, для которого получена таблица сопряженности 4.12, достойным для включения в тест? Посчитаем фи-коэффициент
по формуле (4.15). Он оказывается равным 0,33. А фи-критическое по формуле (4.16) оказывается равным 0,25. Значит, фи-эмпирическое выше, чем фикритическое, и мы включаем данное задание в тест как вполне пригодное.
А если у нас нет данных по внешнему критерию? Можно ли применить
фи-коэффициент для отбора заданий в этом случае? Собственно в разделе
3.6 мы уже описали стратегию отбора заданий в отсутствие внешнего критерия. В этом случае для формирования крайних групп используется суммарный балл по самому тесту, для которого отбираются задания. В разделе
3.6, правда, мы сильно упростили ситуацию, чтобы обеспечить понимание
смысла четырехклеточной таблички сопряженности на самом простейшем
уровне. На самом деле в этом случае нельзя руководствоваться при составлении таблички постоянным составом крайних групп. От задания к заданию состав крайних групп несколько изменяется. Почему? Дело в том,
что в этом случае надо исключать вклад в формирование крайних групп
самого того задания, ключ для которого подвергается проверке. То есть та
Эксель-модель, которая приводится в приложении на диске, тоже является
упрощенной и дает завышенное значение фи-коэффициента, так как не вычитает вклада самого проверяемого тестового задания в суммарный балл.
Величина поправки на этот вклад не является константной, но составляет
примерно 0,1 при выборке в 50 человек. Так что от фи-коэффициента, вычисленного таким упрощенным способом (с помощью Эксель, а не с помощью
специализированной психометрической программы82), надо смело вычитать по модулю примерно 0,1, чтобы не посчитать удачными те задания, которые на самом деле не дают корреляций, значимо отличающихся от нуле82
Пример такой специализированной программы — это HT-LINE, с помощью которой для каждого тестового задания четырехклеточные таблицы рассчитываются в режиме онлайн с удалением вклада самого задания при определении крайних групп. Для читателей книги, прошедших регистрацию на сайте www.ht-line.ru для получения электронной копии и приложения,
доступен по отдельной заявке личный веб-кабинет в бесплатной конфигурации, которая обеспечивает бесплатную работу с простыми одношкальными тестами на выборках до 100 человек
(масштаб учебной дипломной работы студента в области психометрики). — Прим. автора.
Глава 4. Математическая тестология
293
вых. При всех этих оговорках повторим прямо здесь в этом параграфе, как
именно выглядит таблица сопряженности для проверки связи между ответами на задание и баллами по тесту в целом:
i-е задание \ Тестовая группа
Высокая
Низкая
Верно
А=28
B=20
Неверно
C=2
D=10
Таблица 4.13. Пример четырехклеточной таблицы сопряженности для измерения надежности-дискриминативности бинарного тестового задания
для отбора заданий, коррелирующих с суммарным баллом по тесту (n=100).
В приведенном примере 4.13 тестовое задание является очень легким,
так как правильные ответы на него дают 100*48/60 = 80% испытуемых. Тем
не менее фи-коэффициент является значимым, так как фи-эмпирическое
опять-таки равно 0,33, как и в примере 4.11. Этот пример иллюстрирует
правомерность включения в тест весьма легких заданий.
Конечно, в данном параграфе мы рассмотрели лишь самые первые азы
той дисциплины, которая составляет сердцевину математической тестологии и называется часто в мировой литературе особым термином item
analysis (анализ пунктов, или анализ заданий). Здесь не рассматриваются
для упрощения изложения такие важные детали, как поправки в оценке
трудности задания на случайное угадывание и другие достижения еще
классической теории тестов (КТТ).
Практическим тестологам важно научиться правильно по смыслу
применять хотя бы самые грубые, хотя бы немножко устаревшие методы.
И главное — понимать, как отсутствие каких-либо методов приводит к некачественным тестам, а применение даже грубых методов очень серьезно
повышает их качество.
4.2. ЭЛЕМЕНТЫ СОВРЕМЕННОЙ ПСИХОМЕТРИКИ (IRT)
Конечно, современная психометрика опирается на слишком сложный математический аппарат, чтобы можно было его рекомендовать «практическому тестологу». Недаром в ряде книг для ее обозначения используется термин
«высшая психометрика», ибо без знания высшей математики освоить современную психометрику невозможно. Но все-таки определенные вещи практическому тестологу должны быть понятными, если не на процедурном уровне
(как подсчитать), то на концептуальном — на уровне понятий и представлений (что же получается в результате подсчетов). Ведь психометрические отчеты для многих современных профессионально-разработанных тестов оперируют понятиями именно из области высшей психометрики.
294
Практическая тестология
Чаще всего в современной литературе (включая русскоязычную) высшая психометрика обозначается аббревиатурой IRT (item response theory),
что буквально переводится как «теория ответов на пункты/задания». Менее буквальный перевод на русский язык — «теория тестовых заданий»
(ТТЗ). Впрочем, аббревиатура ТТЗ практически не используется, а чаще
прямо в русскоязычных текстах встречается аббревиатура IRT. Кстати, ту
же самую современную социолингвистическую тенденцию мы наблюдаем в отношении аббревиатур HR, PR, IT и тому подобных, вошедших в русский деловой и научный язык без перевода.
Шкала логитов и метафора взвешивания
Основой современной психометрики является так называемая шкала
«логитов» — шкала тестовых баллов, преобразованная таким образом, что
она одновременно оказывается мерой для оценки и измеряемых свойств
(способностей) индивидов, и уровня трудности тестовых заданий. Шкала
логитов при оценке трудности заданий монотонно, но нелинейно связана
с простейшей мерой трудности — с процентом допущенных испытуемым
ошибок (см. раздел 3.6):
(4.17)
QLj = log2 (Wj/Cj)83
где QLj — мера трудности j-го задания на шкале логитов,
Wj — число ошибок (wrong answers), допущенных испытуемыми, выполнявшими данное задание j,
Сj — число правильных ответов (correct answers) на данное задание j,
Log2 (А) — логарифм А по основанию 2.
Таким образом, логит трудности — это логарифм отношения числа
ошибок к числу правильных ответов.
Соответственно способность испытуемого также измеряется на шкале
логитов по формуле:
(4.18)
XLi = log2 (Ci/Wi)
где XLi — мера способности i-го испытуемого на шкале логитов,
83
В литературе по СТТ в формуле логитов, как правило, используются натуральные логарифмы. Ниже в разделе 4.5 в связи с «целочисленным взвешиванием» будет дана определенная аргументация, почему мы используем двоичные логарифмы. Кроме того, имеется
попытка связать теорию тестов с теорией информации, где формула снятия энтропии, как
известно, использует двоичные логарифмы. Но подробное обсуждение связи с теорией информации выходит за пределы данного руководства. — Прим. автора.
Глава 4. Математическая тестология
295
Сi — число правильных ответов, которые дал i-й испытуемый при выполнении всех заданий теста,
Wi — число ошибок, совершенных i-м испытуемым при выполнении
всех заданий теста.
Таким образом, логит способности — это логарифм отношения числа
правильных ответов к числу ошибок.
Если вспомнить свойства логарифмов, то мы сможем ответить на вопрос: «Когда трудность задания QL принимает нулевое значение?» — При
равенстве между собой числителя W и знаменателя C дроби, то есть когда
дробь равна 1. То есть задание со средней трудностью «фифти-фифти» отображается на шкале логитов в точку «ноль».84 Более легкие задания получают отрицательные значения на шкале логитов — лежат левее точки «ноль»
(см. рис.4.6), а более трудные задания лежат правее, то есть получают положительные значения QL>0. Таким образом, все тестовые задания с разумным уровнем трудности (от 5 до 95 процентов правильных ответов) лежат
на шкале логитов в пределах интервала от минус 4 до плюс 4.
Рис.4.6. Схематическая иллюстрация размещения условных испытуемых
Бориса и Вадима c баллами силы-способности XL1 и XL2 на единой шкале логитов вместе с трудностью тестового задания QLj.
84 Автор книги благодарит М.А. Болсинову за следующее замечание, возникшее при чтении
рукописи и вполне уместное в данном контексте (см. также параграф про модель Раша): «В
модели Раша, как и в других IRT моделях, не оцениваются трудности и способности сами по
себе, а только разности между ними. Когда же вводится понятие трудности как логита, это
имплицитно содержит в себе помещение ноля шкалы в то место, где располагаются задания с пропорцией правильных и неправильных ответов 50/50 и испытуемые, отвечающие
50/50, но этот ноль не абсолютен. У нас есть право поместить ноль куда угодно, если мы работаем только с одним тестом и только одной выборкой, если же перед нами стоит задача
«выравнивания тестов» (test equating), то есть помещения на одну шкалу испытуемых из
разных выборок, прошедших разные тесты (с пересечением части вопросов тем или иным
способом), а также вопросов из этих тестов, то только для одной выборки и одного теста мы
можем определить трудность/способность как логит, но никак не для другой. Если мы хотим на одной шкале измерить и одних, и других испытуемых, то логит числа правильных
ответов не работает». Автор бы, правда, к этому разумному рассуждению добавил, что на
репрезентативных общенациональных выборках, включающих десятки тысяч (!) испытуемых точка «0» значит на шкале логитов нечто большее, чем на выборках размером в 50 или
100 человек. — Прим. автора.
296
Практическая тестология
В таблице 4.14 приводятся попарные соответствия трудности заданий,
измеренных с помощью простейшей меры «процент ошибок» и с помощью шкалы логитов:
Процент ошибок, %
5,88
11,11
20
33,33
50
66,6
80
88,88
93,12
W/C
1/16
1/8
1/4
1/2
1/1
2/1
4/1
8/1
16/1
-4
-3
-2
-1
0
1
2
3
4
Трудность в логитах
Таблица 4.14. Соответствие между трудностью заданий в процентах и в
двоичных логитах85.
На рис.4.6 проиллюстрирована логика сравнения силы (способности) испытуемых и трудности тестовых заданий. У испытуемого
Бориса сила XL 1 меньше, чем трудность задания QL j — изображающая
точка лежит левее на шкале логитов. Поэтому, скорее всего, испытуемый Борис не справится — не найдет правильного ответа на задание
j. В то же время изображающая точка XL 2 для другого испытуемого
Вадима лежит правее точки QL j, то есть силы Вадима (способности)
должно хватить для правильного ответа.
Образно для процесса тестирования можно себе представить такую физическую метафору — метафору взвешивания на чашечных
весах. На одной чаше весов — трудность задания (это гиря), на другой
чаше весов — сила испытуемого, то есть то, что мы хотим измерить.
Предъявляя испытуемому задания разного веса, мы как бы хотим
найти такое задание, которое уравновесит его силу, — будет иметь
такую же трудность, какова сила у испытуемого 86 . Более трудные задания — это более тяжелые гирьки, они перевешивают силу испытуемого, так что «чаша весов» склоняется «в пользу» тестового задания и
оно остается нерешенным. А более легкие задания — это более легкие
гири, они уступают по весу силе испытуемого, так что «чаша весов»
склоняется в пользу испытуемого. Эта метафора взвешивания — ключ
для понимания современных алгоритмов адаптивного тестирования,
а также многих алгоритмов IRT, которые строятся путем многочисленных приближений (взвешиваний) таких весов (параметров) для
тестовых заданий и таких весов (силы) для испытуемых, которые бы
85
Для натуральных логитов, которые чаще встречаются в литературе, данная таблица выглядит по-другому. — Прим. автора.
86 Определение (диагностика) способности испытуемого в IRT во многом сходна со статистическим определением сенсорного порога: порогом называется такая интенсивность стимула, которая вызывает ощущение с вероятностью 50 процентов. Так и способность испытуемого — это такая трудность тестового задания, которое вызывает правильное решение с
вероятностью 50 процентов. — Прим. автора.
Глава 4. Математическая тестология
297
могли спрогнозировать максимальное число «единиц» и «нулей» в матрице-протоколе тестирования:
Испыт\Задание
Q1
Q2
Q3
Qj
Qm
X1
1
1
1
1
1
X2
0
1
1
1
1
X3
0
0
1
1
1
Xi
0
0
0
1
1
Xn
0
0
0
0
1
Таблица 4.15. Пример идеальной матрицы-протокола — в каждой клеточке
цифра 1 обозначает, что испытуемый Xi (по строке) справился с заданием Qj
(по столбцу), а цифра 0 — что испытуемый дал неправильный ответ.
В матрице-протоколе 4.15 автор разместил единицы и нули искусственно таким образом, что все задания (по столбцам) расположены
по убыванию трудности, а все испытуемые (по строкам) — по убыванию силы: первый испытуемый X 1 справляется со всеми заданиями
(у него в строке одни единицы), так как он — самый сильный, а последний испытуемый X n справляется только с последним самым легким заданием Q m. В матрице-протоколе отображаются результаты по
идеальной тестовой шкале, которая работает как идеальные весы (без
сбоев): со всеми заданиями, которые легче какого-то его уровня (уровня его собственной силы), любой испытуемый справляется, а со всеми заданиями, которые труднее его уровня, испытуемый не справляется — там везде появляются «нули». То есть нули и только нули
стоят ниже и левее воображаемой диагонали, проходящей из левого
верхнего в правый нижний угол. А выше этой диагонали стоят одни
единицы.
Но в реальности такой правильной картины, которая изображена
в таблице 4.15, никогда не бывает, так как тест — это не есть идеальные физические весы, а лишь некий вероятностный измерительный
процесс, имеющий немало исключений на фоне некоторых стохастических закономерностей. Число таких исключений, глядя на матрицу протокол, можно посчитать — это процент «неправильных клеточек», то есть нулей, которые оказываются выше диагонали, и единиц,
которые оказываются ниже. В таблице 4.16 мы находим четыре «неправильных случая» — два нуля выше диагонали (например, самый
сильный испытуемый X 1 вдруг ошибается при решении относительно слабого задания Q 3) и две единицы ниже диагонали (например, самый слабый испытуемый X n вдруг справляется со вторым по трудности заданием Q 2).
298
Практическая тестология
Испыт\Задание
Q1
Q2
Q3
Qj
Qm
X1
1
1
0
1
1
X2
0
1
1
1
1
X3
1
0
1
1
1
Xi
0
0
0
1
0
Xn
0
1
0
0
1
Таблица 4.16. Пример реальной матрицы-протокола — встречаются отклонения от правильной идеальной матрицы в виде нулей над главной диагональю
(сильный испытуемый ошибается при решении более легкого задания) и единиц
под диагональю (слабый испытуемый справляется с более трудным заданием).
Модель Раша и однопараметрические алгоритмы IRT
Датский математик-психометрист Джордж Раш в 60-м году прошлого
века (Rasch, 1960) предложил следующую формулу, позволяющую спрогнозировать вероятность решения тестового задания в зависимости от силы
испытуемого Xi и трудности задания Qj, выраженных на шкале логитов:
(4.19)
Pij
где Pij — вероятность того, что i-й испытуемый, обладающий способностью (силой) Xi, решит j-е задание, обладающее трудностью Qj,
Exp(A) — экспоненциальная функция от аргумента А с натуральным
основанием степени — числом e (2.71…).87
Таким образом, вероятности решения заданий Pij различаются от задания к заданию (для одного и тоже же испытуемого) в зависимости только от одного параметра — от трудности задания Qj, поэтому модель называется однопараметрической.
Поясним, что нотация (формат записи) в формуле 4.19 в данном случае
автором сознательно приближена к тому, как записываются функции в
программе Эксель. Например, экспоненциальная функция записывается
в Эксель в формате exp(x), а не в формате ex. Дело в том, что в приложении
на диске читатель найдет практически все формулы в соответствующих
87 Двоичные и натуральные логиты дают очень близкие приближения друг к другу, если
в формулу (4.19), как это сделано в формуле (4.20), в качестве параметра-сомножителя
вставить константу D=0,6931– обратную величину к двоичному логарифму числа e (D=1/
Log2e=0,6931…). То есть для шкалы двоичных логитов мы получаем просто более плоские характеристические кривые тестовых заданий, но выигрываем в дидактической наглядности
числовых примеров. — Прим. автора.
Глава 4. Математическая тестология
299
Эксель-файлах. Там же на основе соответствующих формул автоматически построены почти все графики, в том числе графики характеристических кривых тестовых заданий (см. рис.4.7).
Рассмотрим ряд числовых примеров, основанных на формуле (4.19). Они
приводятся в таблице спрогнозированных значений Pij — таблице 4.16.
Трудность задания Qj
Сила испытуемого Xi
-2
-1
0
1
2
-4
0,20
0,11
0,06
0,03
0,02
-3
0,33
0,20
0,11
0,06
0,03
-2
0,50
0,33
0,20
0,11
0,06
-1
0,67
0,50
0,33
0,20
0,11
0
0,80
0,67
0,50
0,33
0,20
1
0,89
0,80
0,67
0,50
0,33
2
0,94
0,89
0,80
0,67
0,50
3
0,97
0,94
0,89
0,80
0,67
4
0,98
0,97
0,94
0,89
0,80
Таблица 4.16. Прогнозируемые значения вероятности успешного решения задания на основе модели Раша и двоичной шкалы логитов в оценке трудности заданий и силы испытуемых.
Из таблицы 4.16 мы видим, как работает «метафора взвешивания»:
если сила испытуемого выше, чем трудность задания, то прогнозируемая
вероятность оказывается выше 0,5 (фифти-фифти) и растет с ростом числителя формулы (4.19) — по мере роста разности между силой Xi и трудностью Qj. Например, испытуемый i, обладающей силой Xi=1 (см. соответствующую строку таблицы), справляется с вероятностью 0,5 с заданием
j, обладающим трудностью Qj=1, то есть в половине случаев справляется,
а в половине ошибается, так как «весы уравновешены». Но со всеми более
легкими заданиями (прослеживаем ячейки влево по строке X=1) этот же
испытуемый справляется с большей уверенностью (вероятностью), которая растет с ростом превосходства испытуемого над трудностью задания:
с заданием средней трудности Q=0 этот испытуемый справляется уже в
67 процентах случаев, со средне-слабым заданием Q=-1 этот испытуемый
справляется в 80 процентах случаев и т.п. Интересно заметить, что одну
строку таблицу (следующую) можно фактически получить из другой путем сдвига на один столбец вправо — одни и те же значения вероятности
воспроизводятся по диагоналям таблицы 4.16, так как они соответствуют
300
Практическая тестология
одному и тому же значению разности между силой испытуемого и трудностью задания. Автор искренне надеется, что именно легкость усмотрения в таблице 4.16 определенных закономерностей поможет неискушенному читателю осмыслить модель Раша.
На базе модели Раша выстроено множество современных компьютерных алгоритмов анализа заданий и ответов (IRT-анализ), которые направлены на то, чтобы таким образом подобрать параметры трудности заданий
Qj и параметры силы испытуемого Xi, чтобы максимально приблизить вычисленные значения вероятности Pij к реальным эмпирическим значениям
вероятности, встречающимся в эксперименте88. При этом каждый испытуемый (строка матрицы-протокола) и каждый столбец (тестовое задание)
получает оценку в виде особой характеристики «точность соответствия
модели» (person fit для людей и item fit для заданий). Чем меньше в соответствующей строке сконцентрировано «неправильных событий» (когда
более слабый испытуемый успешно решает более трудное задание, но не
справляется с более легким), тем выше качество подгонки (person fit). Низкое качество может свидетельствовать, в частности, о том, что испытуемый
пользовался шпаргалками, то есть именно в его персональном случае достоверность процедуры тестирования была нарушена. Низкое качество подгонки под модель для тестового задания (для столбца матрицы-протокола)
интерпретируется как недостаточно высокое качество тестового задания
(недостаточная дискриминативность — аналогично тому, как мы считали
КД еще в разделе 3.6): почему-то более сильные испытуемые иногда в этом
задании сталкиваются с какими-то сложностями (некорректность в условии или в ответах), которые не усматривают более слабые испытуемые.
В главе 5, посвященной компьютерным инструментам тестологии,
мы дадим ссылки на те ныне известные и популярные компьютерные
программы, которые позволяют обрабатывать с помощью модели Раша
огромные массивы ответов (матрицы-протоколы с многими тысячами
строк по числу испытуемых и если не тысячами, то сотнями столбцов —
по числу заданий).
Характеристические кривые тестовых заданий (ICC)
Для понимания смысла качества тестового задания по принципу «подгонки под модель» (item fit) очень полезны так называемые «характеристические кривые тестовых заданий» (item characteristic curve, принятая
88 Следует сделать оговорку, что в данном изложении мы пошли на существенное упрощение в представлениях о природе трудности задания и силы испытуемого, которое работает
только в том случае, если результаты тестирования подчиняются однопараметрической модели Раша. При двухпараметрических моделях способность и трудность не сводятся к вычислению логитов по матрицам, приведенным в наших упрощенных примерах. — Прим.
автора.
Глава 4. Математическая тестология
301
аббревиатура ICC). Они приводятся ныне во всех учебниках по тестологии наряду со знаменитой колоколоообразной кривой Гаусса, уж точно
не реже. Поэтому читатель этой книги должен обязательно разобраться,
как устроены характеристические кривые ICC, какой смысл имеют оси и
определенные участки кривой и различия в конфигурации кривых.
Рис.4.7. Характеристические кривые пяти тестовых заданий (ICC), различающихся между собой по параметру трудности Q.
По горизонтальной оси X на графике 4.7 отложена в качестве аргумента
сила X (способность) испытуемых в логитах, а по оси ординат (вертикальной оси) в качестве функции отложена вероятность решения тестового задания P. На рис.4.7 показаны пять кривых для пяти разных тестовых заданий, отличающихся друг от друга только по одному параметру — по уровню трудности Q в логитах. Кривая для самого трудного тестового задания
Q=2 лежит правее других — тот же уровень вероятности успеха по этому
заданию достигается при более высоких значения аргумента X (силы испытуемых). Кстати, меру трудности задания в логитах легко установить
графически — это абсцисса в точке пересечения кривой с линией P=0,5, то
есть трудность задания — это такая сила испытуемых, при которой вероятность решения достигает значения «фифти-фифти» (вспомним еще раз
метафору взвешивания). Для задания с уровнем трудности Q=2 кривая пересекает линию P=0,5 в точке 2 (см. ортогональную проекцию на горизонтальную ось), с уровнем трудности Q=-1 — в точке -1 и т.п. Таким образом,
мы наблюдаем семейство характеристических кривых, которые отличаются друг от друга по одному параметру — уровню трудности. Геометрически этот параметр Q приводит к сдвигу кривой вправо на графике.
302
Практическая тестология
В приложении к книге на диске под названием «Модель Раша» приводятся более подробные таблицы вида 4.16, а также диаграммы с более
подробными характеристическими кривыми, полученными на базе формулы 4.19. Эти данные позволят читателю глубже понять, как работает
формула (4.19) и как именно она порождает характеристические кривые
тестовых заданий.
Что такое «качество подгонки» (item fit), когда мы получили теоретическую модель характеристической кривой? Это близость ломаной из эмпирических точек, указывающих на реальную статистику зависимости
P от X для данного задания, к теоретической характеристической кривой
для этого задания.
Рис.4.8а. Сравнение теоретической и эмпирической характеристических
кривых, полученных с помощью программы Winsteps, на реальном примере
тестового задания «Не пойман — не вор» (выборка 690 испытуемых, тестовая шкала — 20 заданий на фактор «Согласие» из теста «B5-поговорки»). Индекс outfit = 0,92.
На рисунках 4.8а и 4.8б даются реальные примеры графического
сравнения эмпирических ломаных и теоретических характеристических кривых для двух тестовых заданий, взятых из разработанного автором личностного тест-опросника «B5-поговорки». Оба задания
Глава 4. Математическая тестология
303
Рис.4.8б. Сравнение теоретической и эмпирической характеристических
кривых, полученных с помощью программы Winsteps, на реальном примере
тестового задания «Доверяй, но проверяй» Индекс outfit = 1,46.
относятся к факторной шкале «Согласие», в которую всего было включено
для анализа 20 пунктов (вопросов). Численность выборки испытуемых —
690 человек (участники онлайн-проекта «Клуб испытателей тестовых
технологий» на сайте www.ht.ru). Данные, обработанные в программе
Winsteps, любезно предоставлены автору в 2012 году Е.Ю. Кардановой (по
материалам этого сотрудничества готовится совместная статья, которая
в момент подготовки данной книги еще не опубликована). Как видим,
качество подгонки под модель для задания «Не пойман — не вор» оказалось значительно выше (что видно просто визуально), чем для задания «Доверяй, но проверяй». Это же отражает и количественный индекс
Outfit (количество несогласий эмпирических данных по заданию-пункту с моделью).
Рисунки 4.8 иллюстрируют, чем современный IRT-подход хорош и
чем сложен для практического тестолога. Конечно, он дает более точную оценку качества тестовых заданий и возможность сконструировать тест из более тщательно отобранных высококачественных заданий. Но… его применение требует значительных по объему выборок.
Для каждой градации (точки) на оси Х нужно располагать примерно 50
304
Практическая тестология
испытуемыми, а общая их численность в выборке нередко должна достигать 500 человек89. Такое могут себе позволить, пожалуй, лишь высокопроизводительные организации, специализирующиеся на разработке тестов, но «на коленках» этот подход реализовать довольно трудно.
Поэтому для производства локальных тестов знаний местного назначения, опирающиеся на пилотные выборки численностью менее 100
человек, этот подход теряет практическое значение. Да и в отношении
психометрических тестов все-таки обычно разработчики выходят на
выборки таких размеров лишь на этапе стандартизации (построения
репрезентативных тестовых норм), а не на этапе первичной проверки
надежности и отсева ненадежных (не согласованных с другими) тестовых заданий.
Двухпараметрические алгоритмы IRT
Если присмотреться внимательней к двум эмпирическим кривым,
полученным для двух реальных заданий из теста на поговорках, то можно
видеть, что одна кривая (более удачного задания) выглядит по конфигурации более «крутой», а другая — более пологой.
Действительно, давайте вдумаемся, что произойдет с вероятностью в
случае «идеально дискриминативного» тестового задания и идеально работающих с ним испытуемых: если сила испытуемого превзошла трудность такого задания, то все испытуемые, начиная с этого уровня силы,
справляются с тестовым заданием с вероятностью 1 (то есть все без исключения), а если силы недостаточно, то все более слабые испытуемые,
которые оказываются «ниже порога», не справляются с тестовым заданием (вероятность успеха равна нулю). То есть в таком идеальном случае
характеристическая кривая имеет вертикальный отрезок и оказывается
ступенчатой всего лишь с двумя ступеньками «не решил — решил»: при
достижении силы испытуемых X уровня трудности Q, соответствующего
этому заданию, кривая совершает вертикальный рывок снизу от линии
P=0 вверх, а дальше плоско идет по самой верхней линии P=1 до правого
полюса графика. Таким образом, дискриминативность задания (отсутствие исключений при различении «сильной» и «слабой» групп испытуемых) отражается на характеристической кривой в виде особого геометрического параметра — крутизны в точке пересечения P=0,5 (эту крутизну
можно формализовать как тангенс угла наклона касательной в данной
точке, но мы не будем уходить здесь в теорию визуализации производных
функций, пообещав в этой книге читателю ограничиться аппаратом элементарной математики в изложении).
89 Редактор встречала более скромные цифры для простых моделей. Например, здесь
http://education.gsu.edu/coshima/EPRS8410/Articles/QualLife07. pdf- Прим. науч. редактора.
Глава 4. Математическая тестология
305
Таким образом, в формулу Раша (4.19) его последователи и оппоненты90, развивавшие IRT, ввели второй параметр D, так что формула приобрела следующий вид:
(4.20)
Pij =
На рисунке 4.9 дается семейство характеристических кривых, также
построенных автором книги на базе Эксель-модели — в данном случае с
использованием формулы (4.20). Эти кривые различаются между собой по
параметру D, что визуально выражается в различной крутизне кривых.
Рис.4.9.. Характеристические кривые, различающиеся по второму параметру D — дискриминативности тестового задания.
Надо тут же заметить, что на практике очень непросто применять
двухпараметрические модели, так как отбор заданий с «крутой характеристической кривой» приводит нередко к неоднозначным последствиям:
1) «Крутые задания» обладают более узкой полосой информативности —
они чувствительны к различиям между испытуемыми именно в том
узком интервале, где кривая резко растет вверх, а на других плоских
участках эти задания оказываются менее информативными, чем более
90
Прежде всего, это А. Бирнбаум (см. об этих моделях в книге Челышкова, 2002). — Прим.
автора.
306
Практическая тестология
«эластичные» задания с менее крутой характеристической кривой. Если
эта область повышенной чувствительности (например, близкая к медианному баллу — к середине шкалы сырых баллов) совпадает с «точкой отсечения» (точкой отбора по результатам теста), то эти задания оказываются
полезными, но если такого совпадения не происходит, то эти задания работают хуже, чем обычные задания — с более плоской и плавной кривой.
2) Построение на базе двухпараметрических моделей определенных формул пересчета сырых баллов в стандартные баллы приводит к тому,
что нарушается монотонность отображения (порядок следования испытуемых друг за другом по сырым баллам), то есть возникает очень
непрозрачный и нежелательный эффект перестановок (см. об этом более подробно статью Челышковой и соавторов, 2002).
4.3. РЕКОМЕНДАЦИИ ПО ИЗМЕРЕНИЮ ПСИХОМЕТРИЧЕСКИХ СВОЙСТВ ТЕСТА
Применение моделей и алгоритмов IRT для отбора тестовых заданий
не исключает, а предполагает использование давно зарекомендовавших
себя методов КТТ — классической теории тестов. Особенно это касается
методов измерения психометрических свойств. Ибо пользователи тестов
ждут от разработчиков обоснования качества тестов с опорой главным образом на традиционные и понятные методы91.
Измерение надежности
С появлением компьютеров метод расщепления теста на четную и
нечетную половинки ушел в прошлое. Доминирующим показателем для
оценки одномоментной надежности теста в последние десятилетия является так называемый Альфа-коэффициент Кронбаха:
(4.21)
где
— дисперсия сырых суммарных баллов по тестовой шкале,
— сумма дисперсий по всем k тестовым заданиям.
91 IRT– это не столько инструмент отбора заданий, сколько инструмент уточнения трудности у тех заданий, которые уже отобраны с помощью КТТ. Банк заданий, откалиброванный
с помощью IRT, может служить базой для формирования тестовых наборов (вариантов) с
разным уровнем трудности для контингентов испытуемых с разной подготовкой. — Прим.
автора.
Глава 4. Математическая тестология
307
Люди \ Пункты
1
2
3
4
Общий балл
1
2
5
4
5
16
2
3
4
2
2
11
3
1
2
2
1
6
4
3
4
1
2
10
Станд. откл.
0,96
1,26
1,26
1,73
4,11
Сумма дисперсии
по пунктам
Дисперсия
0,92
1,58
1,58
3
16,92
7,08
Таблица 4.17. Числовой пример для расчета Альфа-коэффициента надежности.
В таблице 4.17 приводится пример, иллюстрирующий, как именно
рассчитывается Альфа-коэффициент. В формулу (4.21) подставляются, таким образом, следующие значения:
Среди Эксель-файлов, которыми читатель снабжен на дисковом приложении к книге, есть и такой, который позволяет рассчитывать Альфакоэффициент. Но в настоящее время большинство разработчиков (и грамотных пользователей) без труда рассчитывают Альфа с помощью популярного статистического пакета SPSS, где этот коэффициент включен в
готовом виде в раздел «Шкалирование» (scaling).
Как интерпретируются величины Альфа для тестов различных типов? Неопытные пользователи нередко полагают, что чем выше Альфа, тем
выше качество теста. Но при этом они не учитывают, что слишком высокая гомогенность (внутренняя однородность) теста, как правило, ведет
к тому, что резко сужается область валидности, и это слишком высокая
цена. Поэтому Альфа должен находиться в разумных пределах. В таблице
4.18 приводятся разумные диапазоны, в которых должен быть заключен
коэффициент Альфа для тестов трех типов:
Тип теста
Диапазон Альфа
Тесты достижений (знаний) с узкой областью валидности
0,9 — 0,95
Тесты способностей и тесты достижений с широкой областью
0,8 — 0,9
Личностные тесты-опросники и кейс-тесты
0,7 — 0,8
Таблица 4.18. Интервалы рекомендуемых значений Альфа-коэффициента
для тестов различных типов.
308
Практическая тестология
Таким образом, если Вы видите рекламу какого-то личностного тестопросника с акцентом на Альфа-коэффициенте в районе 0,9, то можно не
сомневаться, что разработчик этой методики, скорее всего, либо нарушил
какие-то методические правила, либо разработал методику с неоправданно узкой областью валидности.
При измерении ретестовой надежности я рекомендую использовать
сразу несколько коэффициентов для шкал различных типов. Их сравнительные значения иногда весьма красноречиво подсказывают, на каком
уровне достигается стабильность измеряемого свойства во времени. Другая важная практическая проблема при измерении ретестовой надежности заключается в обоснованном выборе интервала между первым и
повторным тестированием. Иногда встречаются разработки, в которых
авторы с пафосом докладывают о том, что интервал составил несколько
месяцев или даже лет. Но в этом случае правильнее говорить не столько
о надежности инструмента измерения, сколько о стабильности измеряемого свойства на длительном отрезке времени. Для личностных тестопросников рекомендуемый нами тест-ретест интервал должен размещаться в границах от двух недель до одного месяца, а для тестов способностей и тестов достижений — от одного до двух месяцев. Почему интервал
больше для тестов способностей? — Надо добиться того, чтобы испытуемый основательно «забыл» тестовые задания, которые в тестах способностей запоминаются лучше.
Измерение внешней валидности
При измерении валидности, в отличие от надежности, разработчикам
приходится решать гораздо больше содержательных, нежели собственно
математических проблем. Суть математических проблем сводится фактически лишь к выбору адекватной меры связи между тестовым баллом и
внешний критерием — такой меры, которая соответствует природе той и
другой шкалы92. Выше мы уже рекомендовали применять на первом этапе проверки внешней валидности самый простой четырехклеточный фикоэффициент корреляции. Но если тестовый балл — континуальная переменная, измеренная на интервальной шкале, то более адекватным оказывается точечно-бисериальный коэффициент (см. выше формулу 4.14).
Нередко для получения более «приличного» коэффициента валидности
разработчики прибегают к такому ухищрению, что применяют формулу
так называемой поправки на надежность теста и надежность критерия:
92
Под измерением внешней валидности подразумевается именно такая процедура, когда сами данные по критерию никак не связаны по своему происхождению с проведением
процедуры тестирования. — Прим. автора.
Глава 4. Математическая тестология
309
(4.22)
где Vc — скорректированная (в сторону повышения) гипотетическая
величина коэффициента валидности,
rtc — подсчитанное значение коэффициента корреляции между тестом
и критерием,
Rt — надежность теста, Rc — надежность критерия.
Разумеется, дробь растет, если в знаменателе оказываются числа меньше
1 и растет тем сильнее, чем менее надежными оказываются данные по тесту
и по критерию. Это выглядит как парадокс. На самом деле следует понимать,
что Vc — это величина, которую реально получить нельзя, но она отражает
некий гипотетический максимум, который мог бы быть достигнут, если бы
для измерения переменной Т (тест) и С (критерий) использовались идеально
надежные инструменты, которые бы не давали собственной погрешности.
Но, по моему убеждению, эта величина Vc может служить лишь ориентиром
для подбора более надежных инструментов, чем такой реальной величиной,
которую можно включать в методическое руководство.
Особые математические и содержательные проблемы возникают в том
случае, когда в качестве меры валидности для батареи тестов (для многошкальных тестов) выступает коэффициент корреляции в уравнении множественной линейной регрессии:
(4.23)
Y= b1X1 + b2X2 +…. bmXm,
где bi — весовые коэффициенты для каждого из тестовых показателей Xi в батарее тестовых показателей {X1, X2,…. Xm}.
Для производной величины Y при подсчете ее корреляции с внешним
критерием С нередко достигаются очень высокие значения коэффициента
корреляции — 0,8 и даже 0,9. Но… тут надо быть настороже. Важно не впасть
в самообольщение в связи с высокими коэффициентами. Ведь дело в том,
что веса b1, b2 и т.п. компьютерная программа множественного регрессионного анализа специально подбирает так, чтобы максимизировать близость
предиктора Y и реальной величины С. Проверять корреляцию между С и Y
необходимо вовсе не на той выборке, где подсчитывались вектор коэффициентов (b1, b2…bm), а… на другой выборке. Эта процедура чаще всего называется в учебниках по психометрике «кроссвалидизацией» — перепроверкой
валидности на независимой выборке. «А откуда взять независимую выборку?» — спросите Вы. Конечно, не нужно проводить для этого трудоемкое
обследование еще какого-то множества испытуемых. Практически в этом
случае действуют по-другому. Коэффициенты в уравнении множественной
регрессии находят не на полной выборке, которой Вы располагаете, а на ее
310
Практическая тестология
части — на какой-то случайной половине выборки. А другую половину припасают для проверки устойчивости выявленной связи. Как правило, такой
простой прием приводит к тому, что от валидности в 0,8 — 0,9 ничего не
остается, и она в лучшем случае опять приходит к традиционному диапазону в 0,3 — 0.4.
В каком же диапазоне обычно принимают значения показатели валидности для добротных тестов различных типов? Надо сказать,
что до сих пор по этому вопросу между различными авторами сложилось
менее устойчивая конвенция, чем в отношении надежности. И не мудрено,
так как в различных исследованиях применяют до сих пор совершенно различные виды валидности и процедуры ее измерения (общее их число уже
давно перевалило за 20), а главное, очень многое при измерении валидности зависит от таких особенностей выборки и социально-психологической
ситуации обследования, которые довольно трудно стандартизовать и контролировать. Для этого в последнее время изобретена новая методология
под названием «мета-анализ» (о ней коротко в главе 6). А пока ограничимся
весьма приблизительными ориентирами, заранее сделав оговорку, что некоторые интервальные границы в этой таблице оцениваются по-разному
разными авторами.
Тип теста
Диапазон эмпирической валидности
Тесты достижений (знаний) с узкой областью валидности
0,5 — 0,7
Тесты способностей и тесты достижений с широкой областью
валидности
0,4 — 0,6
Личностные тесты-опросники и кейс-тесты
0,2 — 0.4
Таблица 4.19. Интервалы допустимых значений коэффициента эмпирической (внешней) валидности для тестов различных типов.
Как практически пользоваться таблицей 4.19? Если Вы видите аннотацию к тесту интеллекта, в которой приводятся данные о валидности в
пределах 0,4 — 0,5, то это не должно вызывать у Вас никакой особой реакции, так как это нормальный диапазон. Но… если Вы видите в аннотации
к тесту когнитивных способностей цифру 0,65, то в этом случае стоит насторожиться и с особой внимательностью прочесть психометрический отчет, а, возможно, запросить какие-то более детальные результаты, включая контрольный массив значений, на котором рассчитывался показатель
валидности. Очень важно, чтобы в психометрическом отчете фигурировали достаточно представительные выборки. Иногда для проверки валидности подбирают совсем экзотические и малочисленные крайние группы.
Например, всего лишь несколько (менее 10) больных какой-то редкой формой заболевания для клинико-психологического теста. Это также должно
настораживать. Ибо минимальная численность крайних групп по критерию — не менее 30 человек каждой.
Глава 4. Математическая тестология
311
В данном параграфе мы коснулись только самого минимального круга
вопросов, связанных с измерением валидности. Более широко эти вопросы будут затронуты в отдельной главе 6.
Измерение репрезентативности — перепроверка тестовых норм
Разработчику теста имеет смысл приступать к обеспечению репрезентативности тестовых норм только на том более позднем этапе, когда доказана на приемлемом уровне валидность и надежность методики.
Мы не собираемся в этом параграфе подробно описывать всю кухню, связанную с формированием обширной репрезентативной выборки и статистической группировкой данных. Главное, в чем читатель-пользователь должен
быть отчетливо сориентирован,— это в определенных аргументах разработчика методики о том, как именно выборка стандартизации связана с рекомендуемым контингентом для применения методики. Главное — избежать
казусов, когда наблюдаются явные несоответствия. И дело тут не только в
количестве испытуемых, которые привлечены к измерению тестовых норм.
Это могут быть достаточно объемные выборки, составленные, например, из
студентов вузов. Не так уж сложно организовать под определенным административным давлением тестовое обследование сотен студентов разных
факультетов и специализаций (это проще сделать, чем привлечь к прохождению тестов действующих работников какой-нибудь организации). Но можно
ли после этого рекомендовать стандартизированный таким образом тест для
тестирования какого-либо иного контингента, кроме студентов? Вот в чем вопрос. К сожалению, у самих академических специалистов, профессионально
подготовленных к тому, чтобы организовать и обработать результаты стандартизационного психометрического исследования, часто не хватает иных
организационных ресурсов, кроме как привлечь студентов к массовому обследованию (или в наше время привлечь пользователей каких-то Интернетсайтов, которые по своему составу также близки к аудитории студентов — это
молодые и чаще всего образованные люди).
Поэтому задача грамотных пользователей тестов — проявлять бдительность и уметь перепроверять (пересчитывать) нормы «своими руками» — сразу после появления сколько-нибудь представительных данных на своем контингенте испытуемых93. Простейший прием для такой перепроверки — это
всем известный критерий Стьюдента для сравнения значимых различий
между средними в двух выборках. Его можно использовать уже тогда, когда
93 Профессиональные специализированные компьютерные тестовые системы предлагают,
как правило, возможность оперативного пересчета тестовых норм на обследованном контингенте. Это обеспечивала уже в 90-е годы разработанная автором книги тестовая оболочка Maintest-Testan (Shmelyov, 1995). Это обеспечивает сервис-модуль «мастер-тесты» на платформе HT-LINE (см. www.ht-line.ru).
312
Практическая тестология
Вы имеете на руках данные по небольшой группе ваших испытуемых, начиная от 30 человек. Но… есть и важное ограничение, за которым надо обязательно следить — это требование оперирования нормализованными данными, подчиняющимися закону нормального распределения. Поэтому внимательно следите за методическим руководством — обеспечил ли разработчик
нормализацию тестовой шкалы? Если несоблюдение нормальности на Вашей небольшой обследованной выборке (выборке применения) еще можно
простить, то несоблюдение нормальности для распределения стандартизированных баллов самим разработчиком теста на выборке стандартизации
уже исключает возможность применения простейшего критерия Стьюдента
и ставит вопрос об использовании аналогичных ранговых статистических
критериев для порядковых, процентильных шкал (разность ранговых сумм,
критерии Вилкоксона, Манна-Уитни и т.п.; см. Рунион, 1982).
Почему я рекомендую читателям банальный критерий Стьюдента? Потому что в наше время он доступен всем пользователям пакета MS Office.
В число статистических функций современных версий MS Excel включена
функция ТТЕСТ, позволяющая вычислять эмпирическое значение статистики Стьюдента для двух массивов данных. Правда, как правило, разработчики не снабжают пользователей со своей стороны самим контрольным
массивом данных. Поэтому приходится действовать не в один, а в 3 шага:
1) Вычислить по своему массиву эмпирическое среднее и стандартное
отклонение;
2) Вычислить эмпирическое значение критерия Стьюдента по формуле
двухвыборочного t-критерия для независимых выборок (4.24);
3) Применить экселевскую функцию Стьюдрасп для оценки значимости
вычисленного эмпирического значения t-критерия с числом степеней
свободы (n1+n2—2).
(4.24)
где
X1 — средний балл на выборке стандартизации (сареднее разработчика) объемом n1,
X2 — средний балл на выборке применения (среднее пользователя)
объемом n2,
S1 и S2 — соответствующие стандартные отклонения на выборке разработчика и на выборке пользователя94.
94 Внимание: при применении формулы (4.24) надо быть внимательным к тому, чтобы все
параметры — и параметры разработчика, и параметры пользователя одновременно выражались либо только на единой шкале сырых тестовых баллов, либо только на единой шкале стандартизированных баллов (например, в стенах), иначе произойдет вычислительная
ошибка. — Прим. автора.
Глава 4. Математическая тестология
313
На диске (приложение к книге) читатель может найти Эксель-модель
под названием «Критерий Стьюдента», в котором формула (4.24) применяется автоматически, и в «выходной ячейке» сразу выдается вероятность
ошибки при отвержении гипотезы о равенстве средних. Если эта вероятность меньше стандартного порога p<0.05, то мы должны сделать вывод о
том, что нормы разработчика для нашей практической выборки (выборки
применения теста) не подходят и нуждаются в пересчете.
Анализируя психометрический раздел в методическом руководстве к
тесту (психометрический отчет), современный грамотный читатель-тестолог должны уметь критически мыслить и следить за тем, не находится
ли разработчик в плену расхожих и устаревших стереотипов при анализе репрезентативности. Дело в том, что нередко обеспечение репрезентативности норм сводится к проверке нормальности распределения тестовых баллов: при этом проверяются на значимость вычисленные значения
асимметрии и эксцесса (доказывается отсутствие значимого перекоса,
пика или провала на колоколообразной кривой) и… все. Делается вывод
о том, что тестовое распределение подлежит нормальному закону и, следовательно, тестовые нормы являются репрезентативными. Более статистически надежная методика проверки репрезентативности заключается
в расщеплении выборки стандартизации пополам и в проверке близости
эмпирических распределений сырых тестовых баллов, полученных для
двух половин выборки, с помощью критерия Колмогорова-Смирнова.
Описание этого критерия выходит за пределы данной книги, посвященной элементарной математической тестологии. Тем более что пытливый
читатель может найти описание этого критерия ныне и в Интернете (на
сайте Википедии), а также в написанной нами еще в 1987 году психометрической главе в учебном пособии «Общая психодиагностика» (Бодалев,
Столин, 1987).
Измерение устойчивости распределения оценок
Не следует путать задачу обеспечения репрезентативности норм в
отношении психометрических тестов и задачу проектирования распределения оценок (или «квотирования грейдов») для локальных тестов знаний — педагогических и профессиональных. При «квотировании грейдов» (см. этап 2 в главе 2) мы решаем задачу относительного ранжирования
сотрудников с целью принятия оптимальных управленческих решений
и вообще свободны от соотнесения баллов с некими нормами на выборке
стандартизации. Тесты знаний — это, как правило, тесты локального применения в контексте отдельной организации, они не требует применения
понятия «репрезентативность тестовых норм». Ну, пожалуй, за исключением создания тестов профессиональных знаний для центров сертификации в масштабах отрасли.
314
Практическая тестология
Ниже мы покажем, как практический тестолог может самостоятельно
посчитать с помощью критерия Хи-квадрат некий аналог репрезентативности — устойчивость частотного распределения для оценочных категорий (грейдов). Предположим, мы протестировали 172 человека в организации и выставили каждому одну из четырех оценок. Применим расщепление обследованной выборки пополам и посчитаем частоту грейдов для
каждой половины выборки отдельно. При этом данные в таблице 4.20 выглядят таким образом:
Оценочные катеории (грейды)
D — неуд
C — удов
B — хорошо
A — отлично
Частота в первой половине
выборки
12
35
29
10
Частота во второй половине
8
31
33
14
Ожидаемые частоты
10
33
31
12
Таблица 4.20. Расчетный пример для измерения устойчивости распределения оценок.
Формула Хи-квадрат для таблиц сопряженности m*n:
(4.25)
Chi =
,
где fij — эмпирическая частота j-й оценки в i-й части (половине) выборки,
eij — ожидаемая частота j-й оценки в i-й части (половине) выборки.
Число степеней свободы для таблицы 2*4 равно 3, так как df=(n-1)*(m-1))
= 1*3=3.
Так как две половины выборки в данном случае равны, то ожидаемая
частота легко находится для каждого столбца как среднее арифметическое
двух значений — частот оценок для двух половин выборки в этом столбце
(см. последнюю строку в таблице 4.20).
Таким образом, посчитаем квадраты отклонений от ожидаемых частот для каждой из восьми клеточек таблицы. И для каждого слагаемого
произведем нормировку (деление) на ожидаемую частоту eij. Тогда для
нашего примера вычисленное эмпирическое значение Хи-квадрат равно
1.97, что меньше критического 7.81 для трех степеней свободы и уровня
значимости p<0,0595. Это означает, что выявленными различиями в ча95 Тут было бы логичней пользоваться левосторонними квантилями статистики Хиквадрат, но автор для простоты предлагает просто отвергать гипотезу о наличии значимых различий, то есть берутся в качестве критических значений обычные правосторонние квантили, которые можно найти, в частности, в Интернете, запросив в поисковике
Глава 4. Математическая тестология
315
стотности оценок между двумя половинами выборки можно пренебречь и
тест обнаруживает устойчивое (репрезентативное) распределение оценочных категорий (грейдов).
В приложении на диске приводится Эксель-модель, позволяющая применять формулу Хи-квадрат (4.25) для произвольных таблиц 2*4 (которые,
впрочем, легко переделать в таблицы 2*5, если применяется пять градаций оценок, а не четыре).
Подчеркнем, что предлагаемый здесь подход совершенно универсален по отношению к тем принципам, как формируются оценки и границы оценок. Это могут быть абсолютные категории на шкале «первичных
баллов» — по проценту правильных ответов (81 — нижняя граница А, 61 —
нижняя граница B и т.п.). Но это могут быть и относительные категории —
по точкам на процентильной шкале (например, выше верхнего квартиля
Q3 — оценка А, выше квартиля Q2 –- оценка B и т.п.).
Измерение достоверности
Измерение достоверности (fairness) НЕ выделяется в самостоятельную проблему в большинстве учебников психометрики, так же как само
свойство «достоверность» чаще рассматривается не самостоятельно, а
как подмножество проблем, связанных с обеспечением валидности.
По нашему убеждению, разумнее выделять достоверность в отдельное
психометрическое свойство. Почему? В силу наличия специфических
процедур, которые необходимо выполнять для измерения и обеспечения достоверности. Тем более это важно для тех условий, в которых до
сих пор осуществляются массовые тестовые проекты в России. Ведь нередко те, кто обязан следить за корректностью проведения процедуры
тестирования «на местах» (выполняя роль наблюдателя в помещениях,
где проходит тестирование), на деле оказываются «на стороне» тестируемых, причем той самой части тестируемых, которые нарушают правила — списывают, подсказывают и т.п.
Процедуры измерения достоверности существенно отличаются для
тестов различных типов — для личностных тест-опросников и для тестов
знаний.
Для личностных тест-опросников задача нередко сводится к обеспечению контроля за уровнем социальной желательности ответов. Для этого
либо в состав самих тест-опросников внедряются так называемые «служебные шкалы», или «шкалы лжи» (терминология, введенная разработчиками MMPI, EPI и их последователями), либо пользователи тестов сами
«Критическое значение статистики Хи-квадрат». До эпохи Интернета сам автор пользовался
таблицами значимости Хи-квадрат, как и формулами обработки таблиц сопряженности
m*n в книге (Артемьева, Мартынов, 1975). — Прим. автора.
316
Практическая тестология
подбирают и применяют короткий служебный тест-опросник, призванный проконтролировать уровень социальной желательности. Если между
рабочей шкалой тест-опросника и служебной шкалой лжи (L-шкалой96)
возникла значимая корреляция, значит, риск так называемых «мотивационных искажений», вызванных фактором социальной желательности,
весьма высок. При этом в контексте данной книги нам удобнее представить связь между рабочей шкалой и служебной шкалой L с помощью четырехклеточных таблиц сопряженности и фи-коэффициента корреляции.
В случае проверки достоверности строки и столбцы четырехклеточной таблицы сопряженности приобретают такой смысл:
Тест \ Критерий
Высокая группа
по L-шкале
Низкая группа
по L-шкале
Высокая группа по рабочей шкале
А
B
Низкая группа по рабочей шкале
C
D
Таблица 4.21. Четырехклеточная таблица сопряженности для проверки достоверности тест-опросника через корреляцию со шкалой социальной желательности (L-шкалой).
В данном случае обнаружение значимых величин фи-коэффициента
означает для разработчика теста не позитивное, а негативное событие —
наличие сцепления рабочей шкалы и L-шкалы. В терминах теории психологического эксперимента (Готтсданкер, 1982) наблюдается систематическое смешение диагностического фактора и артефактного (искажающего)
фактора социальной желательности. Действительно, давайте вдумаемся
опять в содержание клеточек A-B-C-D. Что означает, если A>B и C<D? Это
означает, что испытуемые, склонные «завираться» (давать социально-желательные ответы), попадают значимо чаще в высокую группу по рабочей
шкале (клеточка А), а те, кто откровенно констатирует у себя недостатки,
попадают чаще в низкую группу по рабочей шкале (клеточка D). Такое соотношение между числами в ячейках-клеточках означает наличие положительной корреляции, то есть завышение балла по рабочей шкале у тех
испытуемых, которые дают социально-желательные ответы. Значимый
отрицательный фи-коэффициент, когда A<B и C>D, означает отрицательную корреляцию, то есть тенденцию «лгунов» попадать в низкую группу.
Это, например, возникает в том случае, если «высокий полюс» рабочей
шкалы интерпретируется в терминах социально-нежелательной черты, такой как вредные привычки (алкоголизм, наркомания) или низкая
96 Нередко в литературе встречается аббревиатура SD-scale, что обозначает Social
Desirability, но это неудобно, так как вызывает смешение с аббревиатурой, принятой для
метода«семантического дифференциала» (semantic differential) — Прим. автора.
Глава 4. Математическая тестология
317
дисциплинированность (опоздания, затягивание сроков выполнения рабочих задач и т.п.) 97. Какой вывод должен сделать грамотный тестолог, если
он обнаруживает такое «сцепление»? Что такой тест-опросник в ситуации
экспертизы (в ситуации участия в тестировании в «вынужденном режиме») лучше либо не использовать вовсе (при фи-коэффициентах, значимых
на уровень p<0,01), либо использовать с крайней осторожностью — в качестве вспомогательного инструмента на фоне других, более достоверных
(при значимости на уровне вероятности ошибки в интервале 0,01<p<0,05).
Нередко проблему низкой достоверности тест-опросников в ситуации
экспертизы пытаются решить следующим образом — путем коррекции
(снижения или повышения) тестовых норм для контингента обследуемых
в этой ситуации. То есть достоверность обеспечивается за счет процедур,
касающихся другого психометрического свойства (репрезентативности
норм). Но… давайте хорошо подумаем над таким вопросом: а отменяется
ли при коррекции норм значимая корреляция между рабочей факторной
шкалой (диагностической шкалой теста) и фактором социальной желательности (служебной шкалой L)? Не нужно проводить отдельных экспериментов, чтобы уверенно ответить на этот вопрос отрицательно: «Нет, от
сдвига норм корреляция не отменяется». Что это означает? Это означает,
что более лживые испытуемые по-прежнему будут попадать чаще в «выгодную диагностическую группу» (с точки зрения оценки групп по фактору социальной желательности). К сожалению, по опыту автора (выступающего в качестве рецензента множества методико-ориентированных
исследований и разработок в течение уже десятилетий) именно такого
грамотного тестолого-методического, или диагностического мышления
очень часто не хватает самим нашим разработчикам, не говоря уже про
пользователей.
Особая методическая проблема — измерение и обеспечение достоверности при выполнении тестов знаний и способностей. В этом случае применение «шкал лжи» не имеет никакого смысла. Как же измерить уровень
фальсификации в этом случае? Один из практических приемов, который,
впрочем, сводится скорее к «визуальной интуиции», чем к строгим матметодам, заключается в визуальном анализе конфигурации распределения тестовых баллов. Если на кривой распределения в районе высокого
полюса вдруг появляется необъяснимый «пик» (локальный эксцесс), то это
означает с высокой вероятностью, что произошла «утечка ключей», и ряд
испытуемых получили высокий балл, который нельзя объяснить их реальным уровнем подготовки (см. рис.4.10).
97
Другой возможный случай значимо плотной связи между рабочей шкалой и шкалой социальной желательности появляется, когда испытуемым выгодно предстать в нежелательном свете: например, симулировать у себя наличие какого-то психического расстройства,
чтобы избежать призыва в армию и т.п. При этом часть испытуемых пытается фальсифицировать низкий балл по «социальной адаптированности» и сохранить хотя бы среднюю
«моральную одобряемость». — Прим. автора.
318
Практическая тестология
Рис.4.10. Визуальный признак «утечки ключей» на гистограмме распределения частот тестовых баллов — локальный максимум ближе к правому полюсу шкалы тестовых баллов (стенов).
По высоте неожиданного пика можно даже определить примерные
«масштабы катастрофы». Например, на графике 4.10 неожиданный «прирост» в высоте гистограммы для тестовых баллов 11 и 12 составил примерно 10 процентов от выборки, то есть шпаргалки с ключевым ответами
попали в руки примерно 10 процентам от всех участников тестирования.
Но… такой способ «измерения» достоверности является, разумеется, очень
неэффективным — это скорее констатация фактического провала в обеспечении информационной безопасности в системе тестирования, чем
заблаговременный (превентивный) способ измерения уровня опасности.
Как же обеспечить заблаговременное измерение и контроль достоверности в этом случае? Автор может рекомендовать такой прием, который был
испытан на собственном опыте. Как мы говорили еще в главе 3, на этапе
подготовке к массовому проведению тестирования испытуемым полезно
(даже необходимо) дать возможность познакомиться с демоверсией теста
знаний и/или способностей. Эту демоверсию можно предьявить двум
группам испытуемых в двух разных условиях, контролируя фактор анонимности:
1) Персонифицированные условия: все испытуемые в этих условиях получают доступ к демоверсии только при условии их корректной регистрации в компьютерной системе под реальными ФИО, совмещенными с табельным номером (номером зачетки студента) и какими-то
Глава 4. Математическая тестология
319
другими эффективными признаками идентификации реального испытуемого (демоверсия выполняется под наблюдением и т.п.).
2) Анонимные условия: в этих условиях испытуемые могут выполнять
демоверсию, не вводя никаких персональных данных о себе.
В результате мы получаем две гистограммы распределения тестовых
баллов по одной и той же методике. Если эти две гистограммы значимо
различаются (либо по критерию Стьюдента, либо по критерию Колмогорова-Смирнова), то это означает, что в организации существует серьезный
риск фальсификации тестовых баллов при проведении массового тестирования на реальном (экзаменационном, а не демонстрационном) тестовом
материале. Для грубого определения значимого различия между персонифицироваными и анонимными условиями опять-таки можно применить
и четырехклеточную таблицу сопряженности:
Переменная 1 \ Переменная 2
Высокая группа
Низкая группа
Персонифицированные
условия
А
B
Анонимные условия
C
D
Таблица 4.22. Четырехклеточная таблица сопряженности для проверки риска мотивационных искажений путем сравнения двух условий выполнения
теста — персонифицированных и анонимных.
Как формировать клеточки A-B-C-D в случае таблицы 4.22? Вначале нужно построить единую гистограмму распределения для совокупной выборки — без различения условий. На этой единой гистограмме нужно найти
точки на горизонтальной оси X (оси тестовых баллов), соответствующие
отсечению процентажа в размере 30 процентов с левого и правого хвостов
распределения (см. схематическую иллюстрацию на рис.4.11). Затем, после
того, как эти точки X1 (левая) и X2 (правая) найдены, можно подсчитывать количество испытуемых, попадающих в клеточки: в клеточку А попадают те
испытуемые, которые стоят правее точки X2 в группе, работавшей в персонифицированных условиях. Соответственно в клеточку B попадают те испытуемые, которые стоят левее точки X1 в группе, работавшей в персонифицированных условиях. И так далее. Значимый фи-коэффициент в данном
случае опять-таки сигнализирует нам не о позитивном, а негативном явлении — о том, что в персонифицированных условиях тестовый балл растет,
то есть испытуемые мобилизуют какие-то «особые ресурсы» для успешного
выполнения тестов (начинают пользоваться шпаргалками, подсказывают
и т.п.). Кстати, варьировать можно не только фактор анонимности, но и такой серьезный фактор, как «наличие в аудитории неподкупного наблюдателя» (в его отсутствие «грязи» при проведении тестирования, как правило,
возникает значительно больше), а также комбинацию нескольких факторов.
320
Практическая тестология
Рис.4.11. Две гистограммы распределения тестовых баллов, построенные
для двух условий тестирования — персонифицированных (квадратики) и
анонимных (ромбики).
О других, скорее организационно-технических мероприятиях обеспечения достоверности (а не о методах ее измерения) мы поговорим в
последующих главах книги — особенно в главе 6. Здесь же в заключение
параграфа следует подчеркнуть, что методология измерения достоверности (по сравнению с измерением других психометрических свойств) максимально близка к методологии «социального квазиэксперимента» (Кэмпбелл, 1980). Сам факт варьирования определенных условий является событием, меняющим отношение испытуемых к процедуре тестирования, то
есть сама измерительная процедура — это одновременно тоже своеобразное воздействие.
Диссертабельность психометрических исследований
В России собственно психометрических исследований проводится до
сих пор слишком мало. С чем это связано? Их развитие до сих пор сдерживается рядом привходящих бюрократических обстоятельств. Одно из
них — это неприспособленность методологии существующих диссертационных ученых советов для приемки таких кандидатских диссертаций по
психологии, основным содержанием которых является экспериментально-методическое исследование психометрических свойств тестовых методик. Тут необходимо безотлагательно провести определенный «ликбез»
Глава 4. Математическая тестология
321
прежде всего для самих председателей этих ученых советов, а также для
рядовых научных руководителей диссертаций. Дело в том, что практическое применение тестовых методик, как мы уже говорили в первой главе,
не образует достаточного количества собственно исследовательских данных и не предоставляет материала, достаточного для защиты диссертации, ибо при этом решаются чисто прикладные задачи ОБСЛЕДОВАНИЯ,
но не ИССЛЕДОВАНИЯ. Но вот проверка психометрических свойств — это
задача иного типа. Здесь появляется нормальный, обычный экспериментально-исследовательский контекст, и все признаки диссертационного
исследования особого жанра — экспериментально-методического:98
1) Есть экспериментальные гипотезы: например, это гипотеза H1 о том,
что такая-то тестовая методика обладает надежностью и/или валидностью. На экспериментальном уровне этой гипотезе противостоит альтернативная гипотеза Ho — о том, что данная методика надежностью
и/или валидностью не обладает.
2) Есть множество путей операционализации экспериментальной схемы — путем выбора адекватных критериев и процедур для проверки
экспериментальной гипотезы.
3) Выводы на основании психометрического исследования носят общезначимый характер и имеют более широкое применение, чем узкая
задача обследования лишь какого-то ограниченного контингента испытуемых.
4) В ходе психометрического исследования легко достигаются традиционные признаки диссертации — актуальность, новизна, практическая
значимость.
Пожалуй, единственным признаком, по которому методико-ориентированное психометрическое исследование отличается от традиционного
теоретико-экспериментального исследования, является отсутствие в выводах из подобного цикла исследований определенных теоретических положений — относительно свойств изучаемых предметов (измеряемых психодиагностических свойств). Но при минимальной изобретательности опытный научный руководитель должен всегда помочь соискателю усмотреть в
его методических результатах определенный «побочный продукт», связанный с получением новых общезначимых теоретических результатов. Главное при этом — не планировать получение теоретического результата в ходе
такого исследования как главную и ЕДИНСТВЕННУЮ задачу.
Решив научно-бюрократическую проблему присуждения кандидатского статуса (или хотя бы магистерского) психометрическим исследованиям, мы несомненно сдвинем в России с места тот маховик, который
еще не раскрутился, — маховик, запускающий комплекс методико-ориентированных исследований, опирающихся и поддерживающих друг друга.
98
На Западе диссертации такого плана очень распространены. — Прим. науч. редактора.
322
Практическая тестология
4.4. IRT-МОДЕЛИ ЗА ПРЕДЕЛАМИ ТЕСТОВ
НА ЗНАНИЯ И СПОСОБНОСТИ
В этом параграфе мы позволим себе немного выйти за пределы традиционной элементарной математической тестологии, точнее — за
пределы той тематики, которая обычно рассматривается в рамках элементарных математических процедур. При этом разумеется, уровень
детализации («разжевывания») при изложении математических формул
и понятий в этом параграфе уже не будет таким, каким он был в предыдущих параграфах.
Большинство работ, посвященных приложению IRT для конструирования тестов, относятся к тестам на знания и способности. Складывается неверное впечатление, что современная психометрика развивается вне
диагностики черт личности и установок поведения, а для измерения (диагностики) последних пригодна лишь КТТ — «классическая теория тестов»,
а также качественные экспертные оценки (как это и делается в практике
ассессмента). Но здесь мы постараемся на очень упрощенных примерах
показать, что это не так. При этом фактически никакого более сложного
математического аппарата, чем классическая модель Раша и некоторые ее
простейшие модификации, мы не предлагаем.
Модифицированная модель Раша для ресурсных кейс-тестов
В фокусе элементарной тестологии главным образом в течение без малого ста лет оказываются тесты, построенные по принципу multiple choice — с
выбором единственного ответа из множества предложенных. А в случае современных так называемых «кейс-тестов» (см. глоссарий и параграф 3.3) испытуемому предлагается, как правило, задача с множественным ответом —
можно выбрать много ответов из многих предложенных, то есть указать
все разумные и доступные способы поведения в неоднозначной ситуации.
В этом случае, как мы уже отмечали в прежних главах, каждый отдельный
ответ можно рассматривать как отдельное дихотомическое тестовое задание с отдельной характеристической функцией (с известной оговоркой на
их включенность в единый кластер). Но… что такое «трудность задания» в
случае кейс-теста? Суть предлагаемой нами простейшей модификации
формулы Раша (4.19) сводится в данном случае к следующему. Мы предлагаем говорить не о трудности, а об обратной к трудности величине — «легкости варианта решения кейс-задачи». Содержательно же в случае кейс-теста
можно говорить даже не столько о «легкости», сколько о «доступности варианта» или «провокативности» предлагаемого ответа: чем выше «провокативность», тем с большей вероятностью средний испытуемый выберет данный
ответ. Это в какой-то степени сходно с давлением со стороны фактора «социальной желательности», но носит не социально-нормативный, а скорее
Глава 4. Математическая тестология
323
ситуативный характер (недаром в западной литературе кейс-тесты чаще
встречаются под названием «Тесты ситуационных суждений» — situational
judgement tests (см. SJT, 2012). Итак, в формуле Раша (4.19) появляется знак
плюс вместо знака минус. В этом и заключается совсем небольшая модификация, но имеющая определенный содержательный смысл:
(4.26)
Pijk =
,
где
Pijk — это вероятность того, что i-й испытуемый, обладающий кросситуационной мотивационной чертой-установкой Ti99, выберет j-й способ
поведения, обладающий в k-й ситуации мерой доступности Sjk,
Exp(A) — это, как и в традиционной формуле 4.19, экспоненциальная
функция с натуральным основанием степени — числом e (2.71…),
Cc — корректирующая константа 0,6931, равная отношению 1/log2 (e)
(поправка на двоичные логиты).
Рассмотрим содержательный пример на материале двух схематизированных микрокейсов всего лишь с тремя вариантами правильного ответа
(намеренно упрощенных по содержанию), направленных на измерение просоциального (помогающего) поведения. Просоциальное, как и интеллектуальное, поведение — это поведение, которое по определению требует от человека
затрат определенных ресурсов, в данном случае моральных (требуется морально-волевое усилие, чтобы быть на высоте моральных требований).
1. Кейс-задание 1. Вы идете по улице и особенно никуда не спешите, скорее, просто рассматриваете витрины магазинов. Вас останавливает прохожий, здоровается, извиняется и вежливо спрашивает у Вас, как пройти по такому-то
адресу. Он называет при этом переулок, про который Вы слышали, но не можете быстро вспомнить, где он находится. Вам требуется определенное усилие,
чтобы вспомнить. Ваши действия:
1) Вы здороваетесь, останавливаетесь, объясняете, что сейчас постараетесь вспомнить, и, если удается вспомнить хотя бы направление, показываете
в каком направлении надо идти, и рекомендуете еще у кого-то уточнить, где
именно находится нужный переулок.
2) Вы кратко вежливо извиняетесь, что не знаете и не можете, к сожалению, ничем помочь, и идете дальше.
3) Вы не тратите времени и слов на разговоры, просто жестом показываете, что не знаете (пожимаете плечами, разводите руки), и идете дальше своей
дорогой.
99 Буквенное обозначение Tавтор в формуле предлагает для ассоциации с англоязычным
словом trait–черта. Кроме того, эта же буква легко ассоциируется с тестовым баллом, что в
данном случае вполне уместно. — Прим. автора.
324
Практическая тестология
2. Кейс-задание 2.. Вы идете по улице и очень спешите — опаздываете на важную деловую встречу. Вас останавливает прохожий, здоровается, извиняется и
вежливо спрашивает у Вас, как пройти по такому-то адресу. Он называет при
этом переулок, про который Вы слышали, но не можете быстро вспомнить,
где он находится. Требуется определенное усилие, чтобы вспомнить. Укажите
все возможные Ваши действия в данной ситуации (не одно, а несколько):
1) Вы здороваетесь, останавливаетесь, объясняете, что сейчас постараетесь вспомнить, и, если удается вспомнить хотя бы направление, показываете
в каком направлении надо идти, и рекомендуете еще у кого-то уточнить, где
именно находится нужный переулок.
2) Вы кратко вежливо извиняетесь, что не знаете и не можете, к сожалению, ничем помочь и идете дальше.
3) Вы не тратите времени и слов на разговоры, просто жестом показываете,
что не знаете (пожимаете плечами, разводите руки), и идете дальше своей дорогой.
Итак, в двух приведенных примерах все действия являются абсолютно одинаковыми, но различаются сами ситуации 1 и 2, в которых
эти перечни действий предложены. Как бы мы сравнительно оценили
доступность S11 и S12, то есть легкость выбора поступка 1 в ситуации 1 и в
ситуации 2? Конечно, по-разному! Любой эксперт (для этой экспертизы не
надо располагать особыми специальными знаниями, а только небольшой
психологической интуицией на уровне здравого смысла) оценит S11 скорее высоким баллом, а S12 — скорее низким баллом. Предположим, что мы
предложили экспертам самую рациональную и простую пятибалльную
лайкертовскую шкалу оценок доступности-провокативности100:
Балл 5 — вероятность поступка у человека со средней просоциальной
мотивацией намного (явно) выше 0,5,
Балл 4 — вероятность поступка немного (несколько) выше 0,5,
Балл 3 — вероятность не отличается от 0,5,
Балл 2 — вероятность поступка немного ниже 0,5,
Балл 1 — вероятность явно ниже 0,5.
Пусть S11 по результатам экспертной оценки (с привлечением нескольких независимых экспертов — не меньше трех человек) равно 4. Так как
обычную шкалу логитов с центром в точке 0 для удобства однобайтового
кодирования экспертных оценок мы сдвинули на три балла в сторону положительных значений, то в формуле (4.27) появляется корректирующая
константа -6:
(4.27)
100
Обычно в логике IRT-подхода параметры трудности измеряются по статистике решений,
а не оцениваются экспертным путем. Но начальные значения могут быть заданы экспертами, которые исходят из определенных содержательных соображений. — Прим. автора.
Глава 4. Математическая тестология
325
Тогда подстановка в формулу (4.27) S11=4 для испытуемого со средней
просоциальной мотивацией Ti=3 даст нам следующее значение прогнозируемой вероятности поступка №1 в ситуации №1:
Pijk
–0,67 (с округлением до второго знака).
Пояснение: для подстановки в модифицированную формулу Раша
(4.27) мы используем модифицированную таблицу 4.23 — для двоичных
логитов и для параметра «доступность» (обратного трудности в заданиях
на знания и интеллект).
Ситуативная доступность Sjk
Моральный ресурс Ti испытуемого i
1
2
3
4
5
1
0.06
0.11
0.20
0.33
0.50
2
0.11
0.20
0.33
0.50
0.67
3
0.20
0.33
0.50
0.67
0.80
4
0.33
0.50
0.67
0.80
0.89
5
0.50
0.67
0.80
0.89
0.94
4.23. Модифицированная таблица для прогнозирования вероятностей «поступков» (решений в кейс-тестах) на основе модифицированной формулы
Раша (к обычной шкале логитов приплюсовано по три очка и в строках, и в
столбцах).
А подстановка в формулу (2.25) S21=2 для испытуемого со средней просоциальной мотивацией Xi=3 даст нам по таблице 4.23 следующее значение прогнозируемой вероятности поступка №1 в ситуации №2 Pi21=0,33. То
есть тестологическая модель прогнозирует, что средний человек в спешке
не будет слишком церемониться с прохожими и тратить свое время в ситуации, когда он не может быстро дать правильный совет.
В настоящее время автор книги еще не завершил экспериментальную
проверку прогностичности модели, основанной на формуле (4.26), для психологических кейс-тестов на диагностику моральной мотивации. Тем не менее, я решил включить данный параграф в книгу, так как он, по моему мнению, развивает у читателя несколько более обобщенное понимание смысла
модели Раша, распространяя ее на несколько необычный для данной модели
тип тестов — тестов на моральную регуляцию поведения. Житейско-психологический смысл этой модели состоит в следующем: относительно легко
проявлять морально-одобряемое, просоциальное (помогающее) поведение в
326
Практическая тестология
легких ситуациях, которые к этому как бы сами фактически подталкивают.
В то же время моральное поведение в трудных ситуациях требует от человека
особых ресурсов, то есть определенной самоотверженности. Формула (4.26) —
это пример распространения тестологической, математико-психологической модели в область теоретических представлений о социально-психологических механизмах регуляции социального поведения личности.
Конечно, сама по себе замена в формуле Раша 4.19 знака минус на знак
плюс выглядит абсолютно тривиальной операцией и не заслуживает названия «модификация». Но дело в том, что переменные Ti и Sjk в формуле 4.26
могут быть, в свою очередь, подвергнуты декомпозиции — разложению на
аддитивные компоненты (слагаемые). Формула 4.26 полезна тем, что иллюстрирует саму возможность смены знака минус на знак плюс. Переменная S
может быть представлена, в свою очередь, как позитивными, так и негативыми компонентами c разными знаками: {S} =b1s1+b2s2+…bmsm.. Позитивные компоненты (bi>0) интерпретируются при этом как «мотивирующие стимулы», а
негативные (bi<0) — как «ситуационные мотивационные барьеры». Например,
в ситуации выбора профессиональной деятельности (или отдельного проекта) субъект позитивно мотивируется высокой зарплатой, а негативно — высоким уровнем опасности (вреда) для здоровья и т.п. Что перевесит — стимулы
или барьеры? От этого зависит, будет ли решение скорее принято (p>0,5) или
не принято (p<0,5). Причем формула Раша учит нас тому, что вероятность принятия решения тем выше, чем в большей степени вес позитивных ситуационных стимулов перевешивает вес мотивационных барьеров. В свою очередь,
переменная Т тоже может быть подвергнута декомпозиции {T} =b1t1+b2t2+…bmtm,
где bi — весовой коэффициент перед определенным из множества личностных
факторов (внутренних установок-диспозиций субъекта), знак которого указывает на направленность влияния данного фактора на принятие решения (bi>0)
или отказ от этого действия (bi<0). Примером внутренних позитивных факторов являются способности, а внутренних негативных — страхи (тревоги).
Например, в какой-то ситуации у субъекта есть объективная способность к
успешному совершению действия (bi>0), но присутствует страх, то есть отсутствует готовность к действию как уверенность в себе (bi<0). Если страх сильнее
способности, то со стороны внутренних факторов из множества {Т} на действие
будет скорее направлено негативное влияние, понижающие вероятность принятия решения ниже 0,5 (p<0). Но… аддитивная модель дидактически полезна,
однако на практике слишком проста: она предполагает независимость компонентов, тогда как на самом деле между внутренними факторами (установками индивида) и ситуационными факторами возникает взаимодействие. Пример взаимодействия — это наличие позитивного (или негативного) прошлого
опыта поведения данного субъекта в сходной ситуации. Если этот опыт актуализируется, то возникает иная матрица векторов {T} и {S}, чем в ситуации,
когда опыт не актуализируется. Но практически признание такой большой
роли ситуационного контекста означает, что вместо универсальных тестов
(для множества ситуаций) проще создавать валидные тесты, настроенные на
Глава 4. Математическая тестология
327
какой-то определенный узкий контекст, а это фактически и означает создание
SJT-тестов — кейс-тестов, ориентированных на узкий класс ситуаций.
IRT-модель для диагностики стилистических черт и установок
В конце 20-го века в области конструирования тестов произошла, как
выразились в своей книге С. Эмбретсон и С. Рейз, «тихая революция»: СТТ
(современная теория тестов), основанная на IRT-моделях, стала постепенно вытеснять КТТ (классическую теорию тестов) даже при измерении черт
и установок (Embretson, Reise. 2000).
В предыдущем параграфе мы рассматривали измеряемое (тестируемое)
свойство как некий ресурс. В этом случае черта Ti (trait) у некого i-го испытуемого — это фактически та же самая способность, то есть способность мобилизовать определенный ресурс в определенной ситуации. Чем больше этот ресурс
превосходит требования ситуации Sk, тем с большей вероятностью проявится
соответствующее данной черте поведение — j-й поступок. Но стилистические
черты по-другому взаимодействуют с ситуацией, чем ресурсные черты-способности. Субъект, обладающий стилистической чертой «наглость» (то есть
получающий удовольствие от грубого, бесцеременного обращения с окружающими), будет в приведенном кейс-примере выбирать поступок №3 не потому, что у него не хватает моральных ресурсов, а потому, что ему НРАВИТСЯ так
себя вести. Но с еще большей вероятностью «наглый субъект» будет выбирать,
вполне возможно, и такой поступок, который вообще не входил в предлагаемый выше перечень (не вписывался в ресурсную кейс-модель):
4) Вы скажете этому прохожему поучительным тоном, чтобы учился пользоваться картой (ведь в каждом современном смартфоне уже есть карта) и не приставал к другим людям на улицах.
5) Пошлете этого прохожего «куда подальше», не стесняясь в жестах и выражениях.
Для поступков 4 и 5 тоже нужна энергия, но другая (ее часто в житейском смысле называют «негативной») — энергия для определенной агрессивной реакции (вербально-негативная реплика — это, как известно, разновидность психологической, вербальной агрессии). Получается, что поступки №1—5 образуют некую шкалу убывания просоциальности вплоть
до нейтральности и затем — нарастания асоциальной агрессивности. Если
к тому же инструкция требует от испытуемого выбрать только одно действие из пяти возможных — самое для него вероятное, то мы получаем порядковую шкалу из пяти градаций101.
101 Кстати, если моим интеллигентным читателям поступок №5 покажется совершенно содержательно неправдоподобным, давайте несколько скорректируем сам «кейс» (описание
ситуации): «…к Вам подошел какой-то неряшливо одетый тип и грубым развязным тоном
едва ли не потребовал: «Ну, чувачок, покажи по-быстрому, наконец, где тут переулок N, а то
вокруг придурки какие-то — никто, вишь ли, ни хрена не знает». — Прим. автора.
328
Практическая тестология
В своей классической работе 1964 года К. Кумбс (Coombs, 1964) следующим образом формализовал обобщенные формулы для измерения способностей (abilities) и для измерения установок (attitudes). Не будем напрягать
читателя введением других обозначений, принятых в работе К. Кумбса, и
останемся в рамках принятых здесь нами обозначений для классической
модели Раша 4.19: X — измеряемое качество, Q — трудность задания. Вероятность решения в тестах способностей — это функция разности между
способностью X и трудностью задания Q, так что чем больше эта разность,
тем выше вероятность решения. А вероятность выбора ответа-реакции Т в
тестах на установки, по Кумбсу, — это функция модуля разности между X
и Т, то есть p = f|X-T|. При этом чем выше модуль разности между установкой X и ответом-реакцией T на некой единой шкале, тем ниже вероятность
выбора испытуемым ответа Т. Мы ниже проинтерпретируем модуль разности как «психологическое расстояние».
Еще в рамках КТТ (классической теории тестов) для фиксации квазиколичественных суждений разработан такой тип порядковых шкал, который стал известным под названием «лайкертовские шкалы» (по имени автора-математика, впервые формализовавшего процедуры сбора и анализа
результатов по этим шкалам, — см. Шкала Лайкерта, 2012). Одно из англоязычных названий этих шкал — graded response scale (GRS), что в переводе
означает «шкала градуированных ответов». Для лайкертовских шкал разработаны так называемые политомические модели IRT (одна из первых
базовых работ выполнена уже очень давно — в шестидесятые годы прошлого века: Samejima, 1969). Они предлагают читателям довольно сложный математический аппарат, как, впрочем, все публикации в журнале
Psychometrika и его приложении Psychometric monograph.
В этом параграфе автор осуществляет попытку изложения смысла политомических IRT-моделей «на пальцах» — с помощью упрощенной формулы (4.28), которая, однако, позволяет раскрыть суть этих моделей.
В формуле (4.28) вероятность выбора определенной градации из упорядоченной серии ответов связывается с расстоянием между установкой испытуемого и этой градацией. Лучше для пояснения смысла использовать
вместо термина градация термин «якорь» — ситуационный якорь как бы
«притягивает» к себе ответы (поступки) испытуемых с близкой установкой.
И ситуационный якорь Sjk, и стилистическая черта-установка Ti опять-таки
измеряются на шкале логитов и входят в следующую формулу:
(4.28)
где abs(x) — функция абсолютной величины числового аргумента x,
Bm — коэффициент (параметр модели), управляющий максимальновозможными вероятностями (максимумами на ICC-кривых),
Глава 4. Математическая тестология
329
Dj — коэффициент (параметр модели), связанный с дискриминативностью конкретного тестового задания, то есть коэффициент крутизны ICC-кривой (подобный аналогичному в формуле 4.21),
Am — параметр модели, отражающий среднее расстояние между T и S,
то есть среднее выборочное значение для abs(T-S) для всех возможных испытуемых и всех возможных ситуационных поступков.
Модель, описанная в формуле (4.28), названа нами условно «расстояние до якоря», ибо в ней вероятность выбора поступка объявляется функцией расстояния (или близости) между установкой-чертой испытуемого
Т и неким якорем на той же самой шкале, но представляющим ситуационную стратегию поведения S. Напомним-поясним, что если некая функция Dist(x1, x2) является функцией расстояния между двумя точками x1
и x2, то близость этих точек описывается обратной функцией MaxDist —
Dist(x1, x2), где MaxDist — возможный максимум расстояния. Упрощенность формулы (4.28) поясним на визуальном языке характеристических
кривых (см. рис.4.12): она заключается в том, что ветви кривых — это скорее «склеенные» S-образные кривые интегральной вероятности, чем ветви
колоколообразной (дифференциальной) кривой плотности вероятности.
Но в данном случае автор книги сознательно пренебрегает этой нестрогостью для того, чтобы выпятить смысл метрики, основанной на содержательно понятной идее «расстояние до якоря». Частично эта нестрогость
снимается ниже в формуле 4.29.
На рис.4.12 предлагается семейство характеристических кривых для
ответов, обладающих определенным «градусом», или градацией (аналог
трудности тестовых заданий), то есть имеющих определенное положение на шкале логитов. Для упрощения понимания будем считать, что
градация +2 соответствует высшему ответу на пятибалльной шкале из
пяти ответов, а градация -2 — низшему ответу (скорее близкому к противоположному полюсу) на этой же пятибалльной шкале. На графиках
мы видим, что кривые достигают максимумов в том случае, если уровень черты T однозначно соответствует «якорю» S, или градусу ответа.
Действительно, максимум в числителе формулы (4.27) достигается тогда,
когда черта Тi равняется якорю Sjk, а при увеличении расстояния abs(T-S)
вероятность выбора испытуемым i данного ответа j монотонно убывает102.
102 В данном случае термин «расстояние» мы применяем к формуле не традиционного евклидового расстояния, а к расстоянию первой степени с точки зрения метрик Минковского.
Впрочем, для одного измерения (одномерного пространства параметров) функции abs(A-B)
и корень((A-B)2) дают одинаковые результаты. Кроме того, график для большей визуальной
иллюстративности (для сохранения единообразия колоколообразных кривых) не нормирован, то есть площадь по каждой кривой не равна 1, хотя это более корректно для тестов с
множественным ответом, чем для тестов с выбором одного ответа на порядковой, лайкертовской шкале. — Прим. автора.
330
Практическая тестология
Рис.4.12. Ненормированные характеристические кривые для разных ответов при использовании упрощенной политомической IRT-модели «расстояние до якоря» (якорь, или градус — это мода, то есть абсцисса, соответствующая высшей точке на кривой).
Чтобы рассмотреть на содержательном примере, как работает формула
(4.27) приведем таблицу, которая позволяет быстро ориентироваться в некоторых простых случаях в плане соотношения между T и S:
Установка-черта испытуемого Ti
Ситуационный якорь (градус) Sjk
G1
G2
G3
G4
G5
-3.00
0,41
0,25
0,09
0,02
0,01
-2.00
0,48
0,41
0,25
0,09
0,02
-1.00
0,41
0,48
0,41
0,25
0,09
0.00
0,25
0,41
0,48
0,41
0,25
1.00
0,09
0,25
0,41
0,48
0,41
2.00
0,02
0,09
0,25
0,41
0,48
3.00
0,01
0,02
0,09
0,25
0,41
Таблица 4.24а. Ненормированные вероятности выбора ответа для пяти неуточненных градаций на шкале ответов в зависимости от установки-черты
испытуемого по формуле (4.27).
Глава 4. Математическая тестология
Установка T
331
Градация ответа (якорь S)
-2.00
-1.00
0.00
1.00
2.00
-4.00
0.74
0.21
0.04
0.01
0.00
-3.00
0.56
0.33
0.09
0.02
0.00
-2.00
0.39
0.34
0.20
0.06
0.01
-1.00
0.26
0.29
0.26
0.15
0.04
0.00
0.14
0.23
0.26
0.23
0.14
1.00
0.04
0.15
0.26
0.29
0.26
2.00
0.01
0.06
0.20
0.34
0.39
3.00
0.00
0.02
0.09
0.33
0.56
4.00
0.00
0.01
0.04
0.21
0.74
Таблица 4.24б. Нормированные вероятности выбора ответа на пятибалльной лайкертовской шкале (-2,+2) в зависимости от установки-черты испытуемого по формуле (4.27).
Так же, как и при построении кривых на рисунке 4.12, в таблицах 4.24
использованы следующие параметры модели: Bm=0,5; D=1.8; Am=2. Суммы
по строкам в таблице 4.24а так же, как и кривые на графике 4.12, не нормированы — сумма «вероятностей» не равняется 1. В отличие от кейс-теста, ответы на лайкертовской шкале являются строго-альтернативными, то есть
выбирается только один ответ из предложенных, так что сумма вероятностей всех ответов должна быть равна 1. Поэтому в таблице 4.24б мы произвели нормирование — путем вычисления доли каждой клеточки от суммы
по строке в таблице 4.24а. В результате этого мы приблизились к интерпретации столбцов таблицы 4.24б в качестве ответов на лайкертовской шкале
(-2,+2), ибо теперь сумма вероятностей этих ответов равняется ровно 1.
Для читателей, которые воспринимают общую логику дифференциальных функций, приведем другой график ICC на рисунке 4.13 и другую
таблицу 4.25, основанные на дифференциальной вероятности pd для двух
«минимально различных» точек Ti и Ti-1 на шкале измеряемой черты:
(4.29)
pd(Ti, Sj) = P(Ti, Sj) — P(Ti-1, Sj),
где
P(Ti, Sj) — интегральная вероятность ответа Sj испытуемого с установкой Ti,
P(Ti-1, Sj) — интегральная вероятность ответа Sj испытуемого с минимально более слабой установкой Ti-1,
pd(Ti, Sj) — дифференциальная вероятность ответа Sj испытуемого с
установкой Ti.
332
Практическая тестология
Подставляя на место интегральной функции P(Ti, Sj) правую часть из
классической формулы Раша (4.19), получаем формулу:
(4.30)
В электронной таблице (в приложении к книге) под названием «ICC
для лайкертовских шкал» по формуле (4.30) после нормировки получены
характеристические кривые для пяти вариантов ответов на рис.4.13 (параметр дискриминативности D в этом случае принят D=1, то есть применяется однопараметрическая модель 1PL Rasch).
Рис.4.13. Характеристические кривые для выбора пяти градаций ответов по
дифференциальной модели Раша.
Формуле (4.30) соответствует также следующая таблица вероятностей:
Для дифференциальной модели Раша (см. таблицу 4.25) на краях шкалы функция вероятности выглядит более крутой, чем для модели «расстояние до якоря», а для середины шкалы (для Т=0) — менее крутой. В остальном две модели дают весьма сходные значения — близкие в реальном эксперименте к статистической ошибке при измерении соответствующей
величины вероятности P(Xi, Tj).
Как читать таблицы 4.24 и 4.25? При равенстве якоря S и установки-черты Т в клеточке стоит максимальная вероятность. Эти вероятности размещаются на пересечении одноименных строк и столбцов,
Глава 4. Математическая тестология
333
Градация ответа (якорь S)
Установка T
-2.00
-1.00
0.00
1.00
2.00
-4
0.60
0.25
0.10
0.04
0.01
-3
0.53
0.28
0.12
0.05
0.02
-2
0.42
0.32
0.16
0.07
0.03
-1
0.25
0.32
0.25
0.12
0.05
0
0.12
0.23
0.29
0.23
0.12
1
0.05
0.12
0.25
0.32
0.25
2
0.03
0.07
0.16
0.32
0.42
3
0.02
0.05
0.12
0.28
0.53
4
0.01
0.04
0.10
0.25
0.60
Таблица 4.25. Таблица вероятностей выбора ответов на пятибалльной шкале в зависимости от установки испытуемых по дифференциальной модели
Раша.
например, в таблице 4.25 для восьмой строки со значением Т=1 максимальная вероятность 0,32 достигается на пересечении с пятым столбцом S=1 (далее все арифметические значения приводятся для таблицы
4.25). По мере удаления якоря S от установки Т вероятность снижается. Когда abs(T-S)=1, вероятность в восьмой строке для Т=1 равняется 0,25 (и вправо, и влево от максимума), то есть всего только на 0,07
ниже максимума. Когда abs(T-S)=2, то вероятность равняется уже 0,12,
что ощутимо ниже, хотя информативность этой плоской ICC в целом
минимальна. А вот для «акцентуированных» субъектов на полюсах
шкалы (когда Т=3 или Т=-3 и особенно когда Т=4 или Т=-4) вероятность
выбора крайнего ответа оказывается самой высокой, и модальный (самый частотный ответ) в этом случае оказывается более вероятным,
чем для «средних испытуемых» (0,60 для данного примера Т=4, то
есть уже выше половины). Для «средних испытуемых», которые размещаются в середине шкалы «просоциальность-эгоистичность» и для
которых Т=0, вероятности разных ответов в большей степени «размазываются» по лайкертовской шкале, и основная информация о них по
тесту носит слабый «негативно-прогностический характер» — они с
достаточно низкой вероятностью (всего 0,14) будут выбирать крайние
варианты поведения.
Возьмем условного испытуемого Сидорова, который располагает
на шкале логитов параметром черты-установки T=-1, то есть скорее находится ближе к полюсу «агрессивный эгоизм», чем к полюсу «помогающее поведение». Предположим, что вес «якоря», соответствующего
334
Практическая тестология
четвертому поступку во второй ситуации, S42=-1. Таким образом, «якорь»
и черта в данном случае совпадают. Какова вероятность выбора поступка №4 испытуемым Сидоровым? Она, согласно модели (4.27), по таблице
4.25 равняется 0,32. То есть наиболее вероятный ответ Сидорова — это
ответ №4 «поучительная речь в отношении прохожего». А с какой вероятностью Сидоров начнет откровенно «ругаться», то есть выберет ответ-поступок номер 5 с весом S 52=-2? По таблице 4.25 вероятность прогнозируется как 0,25. С такой же вероятностью Сидоров просто «пожмет
плечами» (ответ 3). Как видим, модель предполагает достаточно широкую область неопределенности в прогнозе поведения. Зато вероятность
поступка №1 в ситуации 2 (с весом S12=2) у испытуемого Сидорова С.С.
уже действительно очень низкая — только 0,05, то есть на уровне стандартной допустимой статистической ошибки прогноза. Еще ниже вероятность ответов с противоположного полюса шкалы для акцентуированных индивидов — с параметрами Т, отклоняющимися от центра
шкалы на 3 и 4 логита. Кстати, тут уместно заметить, что интервал, на
котором обычно варьируют логиты еще шире, — от минус 6 до плюс 6,
но мы не рассматриваем столь полярные значения, чтобы сократить
громоздкость таблиц и графиков.
Как выбираются параметры модели, подобные параметрам Bm, D и
Am в формуле 4.27? Путем подгонки моделей с разными параметрами
под реальные собранные данные. При этом производится сравнение
теоретических вероятностей P, вычисленных по формуле, с реальными эмпирическими вероятностями, которые встречаются в реальных
данных на множестве испытуемых (для успешной подгонки требуются сотни, а нередко тысячи испытуемых). Главное, чтобы после такой
подгонки разработчики теста предложили тестологу-пользователю
понятным образом устроенные прогностические таблицы, подобные
таблице 2.24б, хотя, увы, такое случается пока нечасто. Пока разработчики коммерческих тестов часто идут на поводу запросов со стороны
пользователей, не обладающих количественно-вероятностным мышлением и требующих от разработчика скорее объемных текстовых отчетов, чем каких-то непонятных для многих количественно-вероятностных таблиц.
Таким образом, измерив установку-черту T какого-то i-го испытуемого на определенных «тестовых ситуациях» (на определенных относительно безобидных кейсах) и получив экспертную оценку нового поступка Sjk в
новой ситуации k, мы пытаемся по формуле 4.28 спрогнозировать вероятность данного поступка у данного испытуемого в новой ситуации. В этом
прогностический смысл тестологических моделей и тестовых измерений. Впрочем, к прогностической валидности тестов мы более подробно
подойдем в главе 6, куда и отнесена тематика, связанная с вероятностной
точностью тестовых прогнозов и эффективностью кадровых решений на
основе тестовых результатов.
Глава 4. Математическая тестология
335
4.5. ВАЖНЫЕ ПРИКЛАДНЫЕ ФОРМУЛЫ
В этом заключительном параграфе четвертой главы мы приводим
некоторые формулы, которые, по нашему убеждению, очень важны для
практических работников (больше для них, чем для профессиональных
психометристов, которые, как правило, не сталкиваются с теми задачами,
с которыми сталкиваются практики).
Оптимальная трудность тестовых заданий
в тестах с выбором ответа
Конечно, тестологу не обязательно сообщать авторам тестовых заданий, какими именно формулами он воспользовался при определении оптимальной трудности тестовых заданий, но сам он должен готовить инструкцию авторам, опираясь на эти известные формулы.
Надо знать, что для заданий с выбором ответа (multiple choice) оптимальный уровень трудности вовсе не равен 0,5, как это может показаться на уровне здравого смысла. Из-за определенной вероятности случайного угадывания оптимальная вероятность правильного ответа должна быть всегда выше,
чем 0,5, но на разную величину в зависимости от числа альтернативных ответов. Например, при четырех вариантах ответа оптимальная трудность равна p=0,625. Как она вычисляется? По следующей формуле (Lord, 1952):
(4.31)
P= (1+1/k)/2,
где k — число вариантов ответа в задании с выбором одного правильного ответа (MC-item).
Очевидно, что при трех вариантах k=3 эта оптимальная трудность повысится и будет равна 0,666. Так что авторов надо инструктировать создавать задания полегче, чем «фифти-фифти» (тем более что большинство
авторов, особенно неопытные, тяготеют к перекосу в сторону слишком
трудных заданий).
По этим соображениям (риск появления большого числа слишком
трудных заданий) на практике полезна еще одна формула, которую мы
тоже приведем здесь без особого обоснования и разъяснения. Она связана с минимально допустимой долей правильных ответов (ниже нельзя).
В формуле 4.32 участвует уже не только число вариантов ответа k, но и численность обследуемой выборки n:
(4.32)
336
Практическая тестология
Например, при выборке в 90 человек (n=90) и четырех вариантах ответа (k=4) минимально допустимая трудность оказывается равной 0,325.
Обратите внимание, что мы говорим здесь о P как о доле правильных ответов, а не о «трудности» Q в строгом смысле — как об ожидаемой доле
ошибок.
Почему нам важно удалить из исследовательской версии (после пилотных испытаний) слишком трудные тестовые задания? Потому что в
них смешиваются сильные испытуемые и те, кто проходит тест с помощью тактики угадывания или даже тактики «случайного ответа».
Впрочем, для практической тестологии оптимальная трудность заданий зависит не только от числа правильных ответов, а от «точки отсечения»: оптимальными по трудности являются именно те тестовые
задания, которые лежат близко к «точки отсечения» на единой шкале
трудности заданий и способности испытуемых. Поэтому-то очень важно
научиться оперировать этой единой шкалой. И об этом пойдет речь ниже.
Подсчет баллов с учетом трудности тестовых заданий
К сожалению, в одном из самых значимых для практической тестологии вопросов, касающемся подсчета тестовых баллов испытуемых, до сих
пор среди специалистов не сложилось единого подхода. Можно ли отобразить тестовые баллы испытуемых на единую шкалу вместе с трудностью
заданий, не учитывая при подсчете баллов трудность заданий?
Многие авторы, в том числе применяющие IRT-анализ, отстаивают и математически обосновывают позицию, характерную для классической теории тестов, — за каждое решенное задание давать ровно
одно очко. Например, до сих пор можно встретить ссылки на упомянутую выше классическую монографию Фредерика Лорда, где индивидуальный тестовый балл рассчитывается только по принципу суммирования двух возможных значений «1» (правильный ответ) или «0»
(ошибка), а вес задания pi, отражающий долю правильных ответов, при
суммировании учитывается только для прогнозирования средних значений по тесту в целом или по какой подгруппе испытуемых (формула 16 в работе Lord, 1952). Такой подход требует размещения заданий в
тесте в порядке возрастания трудности — слабые испытуемые просто
не успевают добраться до трудных заданий и получить очки и за них
тоже.
Другие авторы, в основном связанные с разработкой алгоритмов
адаптивного тестирования, считают, что это совершенно нерационально: уж если мы получили более или менее статистически достоверные
параметры трудности и дискриминативности заданий, то надо их тем
или иным способом учитывать для более точного подсчета баллов (тестовых оценок) испытуемых. Но для практических нужд сторонники такого
Глава 4. Математическая тестология
337
подхода предлагают использовать так называемый MLE-метод (основанный на оценках максимального правдоподобия — maximum likelihood
estimation). По технике применения это то же самое, что использование
конверсионных таблиц: каждому сырому тестовому баллу X ставится в
соответствие значение измеряемой способности (истинного тестового
балла T) в соответствие с максимумами в строках таблицы сопряженности, построенной с помощью алгоритмов IRT-анализа (Weiss, 2004). Баллы
трудности всех заданий, решенных как правильно, так и ошибочно, учитываются в таких таблицах в неявном виде. Совершенно очевидно, что
пользование такими громоздкими таблицами для самих испытуемых совершенно недоступно или, как минимум, непонятно.
Таким образом, позиция первой категории специалистов удобна своей прозрачностью: можно по-прежнему «на пальцах» подсчитать по крайней мере «сырой» тестовый балл — путем суммирования числа правильных (ключевых) ответов. Позиция вторых сложна для восприятия и понимания со стороны не только испытуемых, но и практиков, проводящих
тестирование.
Со своей стороны, мы предлагаем в этой книге определенное компромиссное решение. Оно заключается в том, что отдельным тестовым заданиям после анализа пунктов (item analysis) присваиваются
не какие-то сложные для восприятия дробные весовые коэффициенты,
а задания просто делятся на категории, лучше всего на три — «легкие»,
«средние» и «трудные». И этим категориям ставят в соответствие какието совершенно простейшие целочисленные (натуральные) весовые коэффициенты: 1–2–3, например, или, как мы это пытались обосновать выше,
1–3–5. Назовем этот принцип подсчета баллов — суммирование правильных ответов с целочисленными весовыми коэффициентами для отдельных категорий заданий (легких, средних, трудных) — «целочисленным
взвешиванием».
Мы уже приводили выше примеры «целочисленного взвешивания». Вот еще один пример: испытуемый Петров ответил правильно
на 10 легких заданий (с весом 1), 5 средних (с весом 2) и 3 трудных (с
весом 3). Каков будет его тестовый балл, согласно «целочисленному
взвешиванию»? Это подсчитать можно опять-таки «на пальцах»: 10*1
+ 5*2 + 3*3 =29. Кстати, если бы легких, средних и трудных заданий
было больше в 10 раз (теоретически мы легко себе это можем представить) и Петров решил бы 100 легких, 50 средних и 33 трудных задания, то вклад каждой категории заданий в суммарный балл был бы
почти равным — примерно по 100 очков. «Почти», так как за трудные
задания Петров получил бы все-таки на одно очко меньше (ровно 99),
так как речь идет о целочисленном значении по количеству правильно решенных заданий.
Зададимся в этом параграфе такими двумя вопросами, на которые постараемся дать и обосновать утвердительные ответы «да»:
338
Практическая тестология
1) Совместим ли такой принцип «целочисленного взвешивания» с ключевой для современной IRT-психометрики идеей проекции и заданий, и
испытуемых на единую шкалу (логитов, в частности)?
2) Можно ли повысить эту совместимость, присваивая не только баллы
за правильный ответ, но и вычитая различные баллы за различные по
значимости ошибки?
Ниже постараемся сразу предложить решение второй задачи, из которой, по нашему мнению, вытекает положительный ответ и на первый вопрос.
Итак, зададим себе тот же самый вопрос 2, но в более простой форме.
Разве ошибка при решении легкой задачи должна приводить к такому
же вкладу в суммарный балл, как и ошибка при решении трудной задачи? Вернемся к метафоре взвешивания силы (способности) испытуемого
и трудности задания на единой шкале весов. Если вес (сила) испытуемого
оказался меньше веса (трудности) задания величиной в 3 условных «килограмма», то разве из этого логично следует вывод, что вес испытуемого
равен 0? А ведь именно так происходит, когда за ошибку мы даем ноль очков! Нельзя однозначно сказать, каков вес (способность) испытуемого, если
он не справился с заданием, имеющим трудность в 3 условных единицы
на некой единой шкале (в частности, на шкале логитов, но это не обязательно). Его истинный тестовый балл при этом может быть равен с определенной вероятностью не только 0, но и 1, и 2 — все это величины, которые
ниже балла 3, поэтому-то с некоторой высокой вероятностью (выше 0,5) испытуемый «не перевешивает на чаше весов» — не справляется с заданием
весом в 3 балла.
Ниже мы предлагаем такую простую формулу, которая доступна пониманию (и применению) со стороны практиков и учитывает «тяжесть
ошибки».
(4.33)
где
Xi — тестовый балл i-го испытуемого,
Qj — это целочисленная трудность j-го задания,
Qmax — максимально возможная трудность (самый высокий уровень),
m — общее число заданий в тесте,
Rij — ответ i-го испытуемого на j-е задание, принимающий всего 2 возможных значения: R=1, что означает «правильно», и R= — 1, что означает
«ошибка».
Покажем, как вычисляется тестовый балл X для того же самого испытуемого Петрова, который решает 10 заданий из 20 легких, 7 заданий из
Глава 4. Математическая тестология
339
20 средних и 3 задания из 20 трудных. Так как формула (4.33) учитывает
ошибки, а не только правильные ответы, то слагаемых оказывается уже не
три, а шесть. Для того чтобы прокомментировать каждое из шести слагаемых, приведем их в виде таблички:
Подстановка чисел
в формулу 4.33
Промежуточная
сумма
Вклад правильных ответов на легкие задания
10 *(1 + 1*3)
40
Вклад ошибочных ответов на легкие задания
10 *(1 – 1*3)
-20
Вклад правильных ответов на средние задания
7 *(2 + 1*3)
35
Вклад ошибочных ответов на средние задания
13 *(2 – 1*3)
-13
Вклад правильных ответов на трудные задания
3 *(3 + 1*3)
18
Вклад ошибочных ответов на трудные задания
17 *(3 – 1*3)
0
40 -20+35-13+18-0
60
Вклад группы заданий
Сумма
Тестовый балл Xi
60/60 = 1
Таблица 4.26. Пример расчета тестового балла по формуле, учитывающей
по-разному ошибки в заданиях разной трудности (формуле 4.33).
Итак, мы получили балл Петрова, равный точно 1. Что это означает
содержательно? Рассмотрим вначале легкие задания. Петров решил половину легких заданий. Значит, если бы тест состоял только из легких заданий, то его балл равнялся бы ровно 1, то есть уровню трудности легких
заданий на единой шкале. Если бы Петров решил более 50 процентов легких заданий, то его балл был бы больше 1, а если бы менее 50 процентов, то
меньше 1. А сколько процентов заданий среднего уровня должен решить
«абстрактный идеальный испытуемый», чтобы его тестовый балл на единой шкале и для этих заданий остался на уровне 1? Оказывается, не 7, как
получилось у Петрова, ибо 22/20 несколько больше 1, а ровно 6.666… заданий из 20 средних, чтобы получился балл равным точно 1. А трудных заданий «идеальный испытуемый» должен был решить ровно 3.333… из 20,
чтобы получить X=1 на блоке из трудных заданий тоже. Но мы в нашем
расчетном примере схитрили, чтобы не использовать бесконечные периодические десятичные дроби. В случае средних заданий мы увеличили
требуемое число на 0,333… до ближайшего целого 7, а в случае трудных заданий сократили — на те же 0,333... В результате по всем 60 заданиям уровень оказался «тот, что надо» — соответствующий трудности легких заданий Q=1.
Оказывается, что в модельном (идеальном) примере процент заданий, решенных на определенном уровне, не произвольный (чтобы
работала точная модель), а именно вполне определенный и напрямую
340
Практическая тестология
зависит от параметра Qmax в формуле, или, иными словами, от количества дискретных (целочисленных) уровней трудности заданий в тесте.
Если Qmax=3 (три уровня трудности), то X=1 достигается для средних заданий с Q=2 только в том случае, если доля правильных ответов равна
0,333 (одна треть). А для Q=3 доля правильных ответов для идеального
испытуемого со способностью X=1 равна 0,166… Присмотримся, а ведь
эти параметры гораздо более точно соответствует модели Раша, построенной на двоичных логитах, а не натуральных, то есть основание степени в показательной функции должно быть скорее 2, чем натуральное
число e. Впрочем, в логике двухпараметрических моделей все эти формулы (прогноза вероятности решения) различаются лишь крутизной
характеристической кривой тестового задания (ICC). Если на место D
в формулу (4.20) мы подставим константу 0,73, появляющуюся из отношения 2/e (в данном случае хуже ведет себя константа 0,69 — обратное
число к двоичному логарифму числа e), то мы получим лучшее приближение к нашей модели «целочисленного взвешивания». Желающий
пытливый читатель может легко проверить рассуждения автора и провести все необходимые расчеты с помощью готовой Эксель-модели под
названием «Подсчет баллов на шкале псевдологитов» (см. приложение
на диске).
Напомним, что для второго уровня трудности Q=2 в натуральной модели Раша (с числом e в основании степени) мы получаем вероятность
решения, равную 0,731 (вместо 0,666 в двоичной модели Раша). А эта вероятность дает нам для идеального модельного испытуемого уже другое
ожидаемое число решенных заданий на втором уровне трудности (или
на любом следующем уровне трудности — выше ступеньки, на которой
находится испытуемый). То же самое для уровня Q2=3. В этом случае простая формула 4.33 фактически не дает нам «совпадающих с моделью значений» — ожидаемого тестового балла X на единой шкале. Тем более эта
вероятность не дает нам таких совпадений с моделью при использовании
еще более простой формулы (которая чаще всего используется на практике) — простого взвешенного суммирования только правильных ответов
без штрафов за ошибки.
Впрочем, предлагаемая нами формула 4.33, увы, далеко не всегда дает
совпадающие значения даже с двоичной моделью Раша. Если мы возьмем
Qmax=4, то уже в этом случае расчет вероятности на основе двоичной модели перестает работать. Ниже приводятся три взаимосвязанных таблицы
4.27 (а, б и в), которые показывают, с каким постоянным шагом должна изменяться вероятность для Qmax=4, чтобы формула 4.33 возвращала нам тестовый балл испытуемого, который в точности совпадал бы с целочисленными значениями заданий определенного уровня трудности. Этот шаг
равен 0,125 (равно восьмая часть от 1) и подсчитывается для произвольного
Qmax по очень простой формуле Дельта = 0,5/Qmax. Как видим, Дельта равна
величине 1/2k из формулы 4.31.
Глава 4. Математическая тестология
Число
заданий
СЛАБЫЙ
испытуемый
341
Трудность
Qi
Вероятность
решения
Решено
Вклад
16
1
0,5
8
2,5
16
2
0,375
6
2,25
16
3
0,25
4
1,75
16
4
0,125
2
1
Трудность
Ошибок
16
1
0,5
8
-1,5
16
2
0,625
10
-1,25
16
3
0,75
12
-0,75
16
4
0,875
14
0
Qmax
4,00
ИТОГ
1
Таблица 4.27а. Пример подсчета балла с учетом ошибок для четырех граданий
трудности и для слабого испытуемого с баллом способности Х=1 на единой шкале.
Число
заданий
СРЕДНИЙ
Вероятность
испытуемый Трудность Qi
решений
Решено
Вклад
16
1
0,625
10
3,125
16
2
0,5
8
3
16
3
0,375
6
2,625
16
4
0,25
4
2
16
1
16
2
0,5
8
-1
16
3
0,625
10
-0,625
16
4
0,75
12
0
Трудность
Ошибок
0,375
6
-1,125
Qmax
4,00
ИТОГ
2
Таблица 4.27б. Пример подсчета балла с учетом ошибок для четырех градаций трудности и для среднего испытуемого с баллом X=2 на единой шкале.
342
Практическая тестология
Число
заданий
СИЛЬНЫЙ
испытуемый
Трудность
Qi
Вероятность
решений
Решено
Вклад
16
1
0,75
12
3,75
16
2
0,625
10
3,75
16
3
0,5
8
3,5
16
4
0,375
6
3
Трудность
Ошибок
16
1
0,25
4
-0,75
16
2
0,375
6
-0,75
16
3
0,5
8
-0,5
16
4
0,625
10
0
Qmax
4,00
ИТОГ
3
Таблица 4.27в. Пример подсчета балла с учетом ошибок для четырех граданий трудности и для сильного испытуемого с баллом X=3 на единой шкале.
Дает ли нам формула (4.33) возможность отказаться от дальнейшей
нелинейной нормализации и действовать так, как будто мы уже на
уровне сырых баллов Х по этой формуле получаем некую шкалу отношений? Нет, не дает. Очевидно, что тут требуется еще дополнительный
поиск — поиск определенного компромисса между универсальностью
слишком сложных (для практиков) математических моделей и неуниверсальностью простых моделей, которые пока более или менее хороши лишь для тестов с тремя или четырьмя уровнями трудности в заданиях и определенным «кратным» числом заданий разных категорий
трудности. Таким образом, сформулируем один из ключевых тезисов
данного параграфа.
Ученые-тестологи еще находятся в поиске разумного компромисса
между практичными и понятными решениями «для частного случая» и универсальными сложными для понимания математическими моделями, но, по-видимому, на этом пути не обойтись без так называемого «целочисленного взвешивания».
Чем же для практиков привлекательна шкала целочисленных значений 1–2–3 (или шкала 1–2–3–4)? Тем, что испытуемые, получившие баллы
Глава 4. Математическая тестология
343
в окрестности единицы (так что при округлении до целого получается 1),
немедленно попадают в ясную интерпретационную категорию — это слабые испытуемые, которые решают с вероятностью «фифти-фифти» только
простые задания, а средние и тем более сложные задания решают с малой
вероятностью. Этих работников я бы просто считал неперспективными,
если бы у меня был достаточный по численности «резерв кандидатов».
Что такое группа испытуемых со значениями тестового балла, близкими
к X=2? Это те, кто попадает в среднюю категорию испытуемых, способных
более надежно справляться со слабыми заданиями, «бороться на равных»
со средними и уступать в большинстве случаев при столкновении с сильными заданиями. Эту группу я бы посчитал перспективной для дополнительного производственного обучения. Конечно, их нельзя еще допускать
до работы (тем более до самостоятельной работы), но их можно и нужно
попробовать доучить в кратчайшие сроки. Группа сильных — это те, кто
«на равных» борется с трудными заданиями, справляется с квалифицированным большинством (две трети) средних и одолевает явное большинство, то есть более 80 процентов (четыре из пяти) легких заданий. Таких
уже сегодня можно допускать до работы, хотя и под наблюдением и руководством зрелых специалистов.
Кстати, простые числовые пропорции, на которые мы вышли в этом
параграфе, позволяют строить решающие правила по разделению участников на качественные категории даже при создании упрощенных псевдотестов — вроде традиционных контрольных работ, включающих всего лишь десяток задачек. Целесообразно включить в вариант 5 легких, 3
средних и 2 сложных задания и при этом установить следующие минимальные (пороговые) значения для «высокой категории» (для тех, получает
высокий оценочный балл): решить не менее половины трудных, квалифицированное большинство (две трети) средних заданий и абсолютное большинство (не меньше, чем 4 из 5) легких заданий.
Таким образом, главный вывод параграфа:
Применяя целочисленные градации при подсчете тестовых баллов,
мы сокращаем разрыв между практикой измерения (тестирования)
и практикой принятия кадровых решений.
Поверьте, господа математики, что логичный и понятный переход от
чисел к практике управления — это то самое слабое место тестологии, которое давно пора пересматривать с помощью более адекватных моделей
подсчета тестовых баллов, чем применение Т-шкал, IQ-шкал или шкалы
стенов. Автор по своему богатому опыту общения с участниками и организаторами ЕГЭ (руководя порталом ЕГЭ в первые годы эксперимента)
хорошо знает, что неочевидность принципов учета различной трудности
344
Практическая тестология
тестовых заданий (особенно для разных «параллельных» вариантов) вызывает массовое непонимание и массовый протест.103
Введя шкалу логитов, IRT-тестология лишь сделала первый «полушаг»
в этом направлении. Но, по-прежнему заставляя пользователей работать
с непонятными многим отрицательными баллами трудности на шкале
(-6, +6), IRT все еще затрудняет переход от чисел к категориальному подходу в оценке и управлении. Что означает практически утверждение «не
справился с заданием со значением трудности Q=-2?» Это для большинства практиков «темный лес». Пожалуй, лишь в случае шкалы температур
люди научились осмыслять отрицательные значения (в том смысле, что
«-2 — это два градуса мороза, и вода устойчиво замерзает в лужах»). А вот
что такое «-2» для оценки трудности тестовых заданий и способности испытуемых? Это для большинства, я уверен, еще долго будет загадкой. То
есть категориально-оценочный подход еще долго будет работать только в
области натуральных чисел — целых и положительных. Таков мой прогноз.
103 О том, каким образом в ЕГЭ учитывается различие в трудности и сложности тестовых заданий, смотрите книгу Н.Ф. Ефремовой (Ефремова, 2007). — Прим. автора.
345
Глава 5.
Организационно-технологическое
обеспечение тестовых систем
5.1. СИСТЕМНЫЙ ПОДХОД К ВНЕДРЕНИЮ ТЕСТОВ
В ОРГАНИЗАЦИИ
Когда мы рассматриваем компьютерное обеспечение современной тестологии, то неправильно сводить все только к перечню отдельных программных средств, призванных обеспечить решение отдельных задач: подготовку
тестовых заданий авторами в определенных форматах, согласование экспертных оценок этих заданий, автоматизированное проведение тестирования, количественную обработку результатов тестирования, качественную
автоматизированную интерпретацию и т.п. Для практиков гораздо важнее
отдельных компонентов связность всего процесса в рамках единой тестовой
системы. Если собрать отдельные очень хорошие компоненты, но созданные
разными разработчиками и плохо интегрированные в единое целое, то ценность такой «россыпи», по моему убеждению, уступает ценности единой системы, которая пусть даже состоит не из самых лучших, но хорошо увязанных друг с другом компонентов. «Россыпь» наиболее продвинутых специализированных программ удобна для исследователей-разработчиков, а для
практических тестологов более важна целостная система. А главное — пользователи каждого из этих компонентов должны быть реально подготовлены
для активной работы с ними. Если функциональные возможности отдельных компонентов превышают наличные возможности пользователей, то они
приносят больше «мороки», чем реальной пользы.
Внедрение компьютерной тестовой системы в любой организации не
может пройти успешно без создания определенных организационных и
социально-психологических предпосылок. В современной психологии
управления уже достаточно хорошо изучены социально-психологические
условия для успешного внедрения инноваций (Кабаченко, 2000). Именно
эти условия целесообразно учесть еще на этапе проектирования тестовой
системы. Нужно решить проблемы мотивационной и операциональной готовности участников к использованию тестовой системы: хотят ли и могут
ли участники использовать предлагаемую систему. На практике нередко
наблюдаются элементы волюнтаризма при решении вопросов внедрения:
система в ходе пятиминутной демонстрации вдруг понравилась первому
346
Практическая тестология
лицу (главному начальнику), и… он тут же принимает решение о ее приобретении, а уж если «деньги потрачены», то придется внедрять ее как систему для всех. Конечно, такой способ решения вопроса удобнее для маркетинговых служб компаний-разработчиков подобных систем: достаточно
удачно показать свой программный продукт лишь одному человеку (или
небольшому кругу лиц, принимающих решение). Но более ответственные
разработчики действуют не так, а предлагают пользователям «пробный период» (нередко на бесплатных условиях) — возможность пройти хотя бы в
сокращенном формате весь цикл из основных операций, причем не самому
начальнику, а тем людям, которым предстоит реально эксплуатировать систему, включая самих испытуемых (учащихся, работников). Нередко именно такой пробный испытательный период позволяет вскрыть те проблемы,
с которыми предстоит работать в ходе массового внедрения.
Другой способ обретения иллюзорной легкости в решении проблем
внедрения компьютерной тестовой системы заключается в том, что тестовая система как самостоятельная вообще… не внедряется, ибо не выделяется отдельно, а входит в состав обучающей системы в качестве подсистемы. Мотивация тестирования «входит» в организацию в этом случае
как бы «на плечах» мотивации обучения и самообучения сотрудников.
Казалось бы, это очень удачное решение. Но в дальнейшем мы постараемся показать, что надо все-таки задаваться вопросом, а насколько это «незаметное слияние двух мотиваций» надежно защищает тестовую систему
от нежелательных эффектов (имитация, фальсификация и т.п.)?
Различение понятий обучающей и тестовой системы
Вполне естественно, что в деятельности учебных учреждений (вузов,
прежде всего) тестовые системы, как правило, входят в состав различных
АОС — «автоматизированных обучающих систем».104 В наше время более
популярной стала, впрочем, аббревиатура LMS — learning management
systems (Bersin, 2009, см. также на русском языке статью «Дистанционное обучение» в Википедии, 2012). Одной из наиболее популярных компьютерных систем обучения, внедренных во многих вузах РФ, является,
например, бесплатно распространяемая система Moodle (см. также статью в Википедии). Среди пользователей системы проектирования сайтов Joomla популярность набирает версия LMS на базе этой платформы
(Joomla-LMS, 2012)105. Но остановимся в этом перечислении, так как обзор
104 Одна из наших первых, разработанных автором еще в начале 80-х компьютеризированных тестовых систем тоже входила в состав АОС «КСИДО» (Соколов и др, 1985).
105 Необходимо единообразие в обозначениях. Выбирая между АОС и LMS, научный редактор
предлагает здесь и далее в книге использовать англоязычные аббревиатуры, поскольку это стало
традицией для современной глобализированной софтверной культуры. — Прим. науч. редактора.
Глава 5. Организационно-технологическое обеспечение тестовых систем
347
различных LMS не является предметом настоящей книги. Важно подчеркнуть, что не только в вузах, колледжах и школах, но и во многих организациях, которые даже и не специализируются на обучении, тестовые
системы входят как подсистемы в определенные внедренные или внедряемые LMS (в крупных производственно-коммерческих организациях
функция обучения сотрудников выделена в самостоятельные подразделения — так называемые «корпоративные университеты»). Эти подсистемы
являются одним из ядерных элементов нового подхода к кадровому управлению под названием «управление человеческим капиталом» (HCM).
На рисунке 5.1 приводится иллюстрация различий между функциями текущего, или оперативного контроля, а также функциями входного и
выходного (аттестационного) контроля результатов обучения в LMS.
обучение
Входной
контроль
Аттестационный
контроль
Оперативный
контроль
Рис.5.1. Функции «входного», «оперативного» и «аттестационного контроля» в автоматизированных обучающих системах LMS.
Оперативный контроль в LMS очень часто сводится к самоконтролю
учащимся собственных знаний:
1) проходя промежуточные тестовые задания успешно, учащийся получает определенный мотивационный стимул для дальнейшего продвижения по материалам обучающего курса;
348
Практическая тестология
2) в жестконастроенных системах (не допускающих к следующим этапам-урокам без успешного выполнения контрольных упражнений по
предыдущим этапам-урокам) успех при оперативном контроле является уже формальным условием для продвижения;
3) ошибки в промежуточных тестоподобных заданиях и корректирующая обратная связь стимулируют учащегося к более глубокому повторному изучению тех материалов, которые оказались для него индивидуально более трудными.
Но… нам надо очень четко поставить здесь вопрос «ребром»: а являются ли тесты оперативного контроля (или тестообразные задания) тестами
в психометрическом смысле? В том смысле, в каком определены тесты в
контексте данной книги — как некий измерительный инструмент, отображающий участника тестирования на некой общезначимой количественной шкале достижений. Нет, в строгом смысле оперативные тесты
НЕ являются психометрическими или, скажем мягче, могут ими являться, но могут и не являться, ибо в этом нет необходимости. Многим учащимся достаточно мотивации в виде сравнения своих прошлых и новых
достижений, и для освоения обучающего курса они не нуждаются в дополнительной соревновательной мотивации — сравнении своих достижений с достижениями других по каждому разделу курса.106 Получая информацию только о величине первичного балла в процентах («Вы решили
правильно 75 процентов заданий»), учащийся при этом вовсе не знает, насколько высок или низок этот балл по сравнению со средним по группе.
Нередко в реальных организациях внедренные системы обучения и
системы тестирования фактически различаются лишь по содержанию
тестовых заданий: обучение опирается на профессиональные и производственные знания (и на уровень сформированности соответствующих
компетенций), а тестирование проводится чисто психологическое — на
неком отвлеченном материале, помогающем выявить компетенции в виде
способностей и профессионально-важных характерологических качеств
работника. Но это далеко не сущностный различительный признак. Основной различительный признак для систем обучения107 и тестирования
можно сформулировать так:
106 Автор книги в течение ряда лет на сотнях студентах наблюдал определенную закономерность, предоставляя самим студентам возможность в обучающей компьютерной системе HT-LINE «включить» или «выключить» режим доступа к таблицам достижений других
участников обучения (на условии «ты можешь видеть результаты других, если позволяешь
видеть свои результаты другим»). В разных подгруппах студентов этим режимом склонны
воспользоваться не более половины участников.
107
К классу систем обучения в данном контексте мы относим и различные системы тренинга, то есть системы развития некогнитивных навыков и личностных качеств. — Прим.
автора.
Глава 5. Организационно-технологическое обеспечение тестовых систем 349
Обучение ориентировано на внутрииндивидуальное сравнение и
направлено на рост и измерение индивидуальных показателей одного человека, а тестирование — на сравнение людей между собой.
Таким образом, дело не в содержании компетенций — не в предмете
обучения и тестирования, а в статусе результирующей информации. Профессиональные компетенции также могут быть протестированы. Таким
образом, в отличие от оперативного контроля, особая ситуация возникает
с входным и в особенности с аттестационным (выходном) контролем. Здесь
сравнение достижений учащихся (друг с другом) возникает неизбежно.
Даже если мы не сообщаем никому данные о процентилях, учащиеся все
равно узнают о том, что кто-то успешно прошел тестирование (испытания),
а кто-то — нет, просто потому, что кто-то оказывается зачисленным или
отчисленным. Поэтому тесты, которые используются для входного и выходного контроля, должны быть в идеале «калиброванными», или «отшкалированными» по статистическим правилам и процедурам, чтобы «точка
отсечения» не оказывалась для участников «произволом администрации».
Подобно тому, как в традиционных системах обучения итоговый экзамен оказывается совершенно особым мероприятием, требующим специальной подготовки и со стороны экзаменуемых, и со стороны экзаменаторов, так и в случае LMS входной и выходной контроль опираются на
особую тестовую подсистему, которая предъявляет к пользователям и информационным процессам ИНЫЕ требования, чем текущий процесс обучения-самообучения (по уровню информационной безопасности, в частности). Тут уместна и такая оговорка. Все сказанное насчет входного и выходного контроля как отдельных и особых мероприятий не означает, что
эти мероприятия предусматриваются всегда и во всех системах обучения. Есть системы обучения и самообучения, которые не предусматривают никакого особого не только входного, но и выходного контроля: достаточно набрать определенное количество «зачетных очков» за прохождение
определенных этапов-уроков, и сумма набранных очков автоматически
превращается в «зачет» по всему курсу. Такой подход удобен тем, что он
снимает массу острых вопросов, но вооружает ли он нас объективной информацией о результативности обучения?
Итак, определяя общее и различное в системах LMS и TMS мы должны
зафиксировать, что:
Автоматизированная система обучения и автоматизированная система тестирования могут сосуществовать как подсистемы в рамках одной организации, но могут и как две различные, независимые
друг от друга информационные системы. В последнем случае, как
правило, гарантируется большая объективность и независимость
процедур, но происходят серьезные операциональные потери из-за
рассогласования информационных ресурсов.
350
Практическая тестология
Понятия «система обучения» и «система тестирования» в общем случае являются пересекающимися: есть такие ситуации, когда обучение
осуществляется без всякого тестирования, также имеются ситуации, когда тестирование производится без всякого обучения, но чаще всего и то,
и другое производится в рамках одной системы, оперирующей одними и
теми же информационными ресурсам, так что преподаватель и учащийся
(в рамках LMS) превращаются в экзаменатора и экзаменуемого-тестируемого (в рамках TMS), соответственно.
Признаки автоматизированной системы тестирования (TMS)
Итак, что же такое автоматизированная тестовая система (TMS)? Можно ли говорить об автоматизации, если компьютеры используются в работе авторов, а также при обработке результатов тестирования, а испытуемые выполняют при этом тесты на бумаге? Нет, с нашей точки зрения,
ключевой признак TMS– автоматизация процесса тестирования. Наличие
той или иной степени автоматизации — это дополнительные признаки
TMS, но не определяющие сути дела. При этом различные TMS могут быть
в разной степени интегрированными. Мы вполне можем говорить о наличии TMS, если имеются разные системы для работы авторов тестовых заданий (системы поддержки авторов) и для работы испытуемых.
Организационно-управленческая модель тестовой системы
В соответствии с базовой аксиомой современной теории и методологии управления проектами (Грей, Ларсон, 2003) разработка модели любой
системы должна предшествовать внедрению этой системы. Эта аксиома
в высшей степени относится к внедрению систем тестирования, так как
цена ошибки из-за некачественного проектирования оказывается очень
высокой. При таком подходе проект порождает вначале особый продукт —
Информационную Модель Системы Тестирования (ИМСТ), которая затем
внедряется с учетом реальных особенностей реальной организации.
С нашей точки зрения, целесообразно проектировать ИМСТ в следующей последовательности, которая во многом сходна с этапами разработки
отдельного теста (см. главу 2):
1) нормативная база и программно-целевая документация (политикоправовые и этические ограничения, цели и критерии, положения и регламенты);
2) человеческие ресурсы (ЛПР или заказчики результатов, тестологи,
софт-инженеры, менеджеры-администраторы, авторы тестовых заданий, эксперты, испытуемые);
3) материально-техническая база (помещение, оборудование, линии связи);
Глава 5. Организационно-технологическое обеспечение тестовых систем
351
4) информационные ресурсы (компьютерные сети, программные средства коммуникации, программные средства проведения тестирования, программные средства обработки результатов тестирования, банки тестовых заданий);
5) методико-алгоритмическое содержание ИМСТ (контент).
Читателям, имеющим опыт внедрения тестов в своей организации, предлагается критически осмыслить свою последовательность действий — не является ли она в некотором смысле противоположной, то есть
начинается с методического контента, а завершается нормативной базой?
Основные функции
управления проектом
1) Планирование;
2) Организация;
3) Управление;
4) Контроль.
Основные этапы управления
1) Формулирование конечных целей и критериев достижения;
2) Определение ресурсов;
3) Анализ условий, включая временные ограничения;
4) Выделение промежуточных целей и этапов их достижения;
5) Распараллеливание процессов (создание сетевого графика
достижения целей);
6) Подготовка — мобилизация ресурсов;
7) Запуск и управление по этапам (промежуточным целям);
8) Контроль достижения конечных целей (даты и средства
контроля).
Таблица 5.1. Функции и этапы управления проектом.
В ходе проектирования TMS менеджеру-проектировщику рекомендуется заполнить (хотя бы просто для себя) 12 пунктов, указанных в таблице 5.1.
Электронный документооборот при создании TMS (АСТ)
Чтобы эффективно решить проблему подключения основных участников к системе тестирования, самое логичное решение на самом первом
этапе — это включить всех потенциально-значимых лиц в систему электронного документооборота для совместной работы над документами,
обеспечивающими нормативную базу системы тестирования в данной
локальной организации.
В настоящее время для Интранета (внутренней сети организации)
нет недостатка в развитых средствах документооборота. Но практически
чаще используются соответствующие сервисы, созданные в глобальных
сетях. Например, все пользователи почтовой системы Google mail автоматически получают возможность воспользоваться сервисом «Google
Documents», позволяющим не только публиковать файлы-документы,
но и коллективно редактировать их в режиме онлайн, подобном Wiki, —
тому самому сервису, который стал наиболее известным с распространением Википедии. Но практика показывает, что быстрее и эффективнее «проблемная группа» взаимодействует в режиме работы не с Google
352
Практическая тестология
Documents, а с Google Groups. Для этого менеджер с весьма средним уровнем компьютерной грамотности может за пять минут создать особую
группу под названием «Проект системы тестирования в организации
АБВГД» и в поле «кого пригласить» вбросить из буфера обмена список известных ему электронно-почтовых адресов значимых сотрудников. Отклик на рассылку приводит к автоматическому подтверждению участником своего членства в виртуальной проектной группе. Также очень
просто создать виртуальную сетевую группу с помощью таких специализированных, но простых по интерфейсу средств управления проектами как basecamp.com. Но все-таки Google Groups несколько удобней для
старта, так как не требует от неопытных пользователей вообще никакой
авторизации и ориентировки на каком-либо сайте — все сводится к групповой переписке внутри привычного для пользователя его собственного
почтового ящика. Внутри многих LMS предусмотрен форум для участников, так что определенную работу по интеграции группы исполнителей и согласованию основополагающих проектных документов можно осуществлять и на подобных форумах. Некоторое неудобство в этих
случаях заключается в том, что главный менеджер конкретного проекта,
как правило, не обладает в форумах всеми полномочиями модератора,
ибо административный интерфейс управления подобными форумами
устроен достаточно сложно. Кроме того, публичный характер переписки
на некоторых форумах неприемлем, если обсуждаются определенные
профессиональные секреты, которые должны быть скрыты от потенциальных испытуемых (студентов вуза, соискателей вакансий и т.п.). В нашей системе HT-LINE LMS мы предоставляем для подобной работы особую подсистему — закрытый (непубличный) «блог-форум», позволяющий
управлять закрытым кругом подписчиков с очень низкими компьютерными навыками — не умеющими (или не желающими из-за статусных
амбиций) даже вводить логины и пароли. Они входят в систему, главным
образом, с помощью простого клика по приглашающим авторизующим
гиперссылкам в их виртуальных почтовых ящиках.
Выбирая ту или иную систему управления проектом, позволяющую
организовать современную коммуникативную инфраструктуру TMS, менеджер-проектировщик должен учитывать следующие принципы и примеры эффективных коммуникативных сценариев:
1) Минимальная по числу кликов последовательность действий, реализующая заданную функцию (например, рассылка оповещений о новой версии документа одной кнопкой, совмещенной по функционалу с
кнопкой «отправить-опубликовать»).
2) Рассылка приглашений к обсуждению (виртуальному чату) одной
кнопкой (подобной кнопке like в социальной сети Facebook, сразу отображаемой на инфолентах всех «друзей»).
3) Тематическая группировка писем-откликов по теме.
Глава 5. Организационно-технологическое обеспечение тестовых систем
353
4) Возможность рассылок по подгруппам в адресной книге (ведь в TMS
участвуют разные подгруппы исполнителей, которых надо привлекать
порознь для разных вопросов).
На этапе документационного обеспечения TMS необходимо различать проектную и регламентирующую документацию. О первой мы
уже коротко писали выше (см. табл.5.1). Регламентирующая документация нужна для программирования организационного поведения участников процесса. Но следует учесть, что живые исполнители — это не
компьютеры, и программировать их поведение можно лишь с вероятностной точностью. Следует заранее учесть, что с определенной вероятностью исполнители будут отклоняться в своем поведении от предусмотренных правил и регламентов. Документы — это лишь необходимый,
но недостаточный инструмент управления. Подписанные участниками
(исполнителями) документы необходимы в ситуации разбора и анализа допущенных отклонений. Не следует полагаться на то. что сами по
себе документы будут изучены участниками без необходимых усилий
со стороны организатора TMS-АСТ по их разъяснению и совместному обсуждению. Ниже перечислим минимальный необходимый перечень документов:
1) Положение о тестировании (регламент тестирования);
2) Обязанности и полномочия менеджера-тестолога (главного администратора АСТ);
3) Технические задания авторам и экспертам;
4) Техническое задание софт-инженеру;
5) Правила участия (или «памятка испытуемого»);
6) Приказ о проведении тестирования (с указанием сроков и ответственных и ссылкой на положения и правила участия в качестве приложения к Приказу).
Очевидно, что в вышеизложенном перечне Приказ — это наиболее
значимый документ, но его можно создать только после того, как будут
созданы пять предшествующих документов. Разумеется, лицо, которому
надлежит подписать приказ, должно быть в курсе всей предшествующей
вашей работы и всех созданных промежуточных документов. Если этот
ЛПР все время откладывает знакомство с пакетом документов, то не стоит слишком огорчаться из-за этого. Это означает всего-навсего, что первому лицу Ваша система не настолько нужна, если он(а) не нашел время на
столь важную подготовительную часть работы. Уж лучше этот факт установить в самом начале, чем в разгар усилий по внедрению созданной системы.
Наиболее фундаментальный документ — это «Положение о тестировании». Его надо готовить особенно тщательно, привлекая к обсуждению
наиболее острых вопросов как можно больше участников процесса. Какие
354
Практическая тестология
разделы должны быть обязательно освещены в Положении? Укажем примерный перечень:
1.
2.
3.
4.
5.
6.
7.
8.
Цели и задачи тестирования;
Метод и методика;
Организаторы и участники;
Подготовка методики (авторы и эксперты);
Подготовка участников (консультации и демоверсии);
Место, время и оборудование;
Формат результатов и доступ к результатам;
Правила принятия решения на основе результатов.
Иногда правила поведения участников включают в документ «Положение», иногда выделяют в отдельную «памятку». Но основные вопросы,
на которые должен дать ответ этот документ (или раздел) таковы:
1) Что нужно, можно и что нельзя вносить в аудиторию,
2) Что можно спрашивать у дежурных экзаменаторов (наблюдателей) во
время тестирования,
3) За какие нарушения следуют предупреждения и удаление,
4) Какие действия за компьютером запрещены (перезагрузка, запуск параллельных окон, копирование данных),
5) Порядок апелляции по сбоям в процедуре и ошибкам в тестовых материалах.
Для необходимого взаимопонимания на этапе реализации проекта нужно правильно организовать его обсуждение на этапе подготовки
главных документов. Неправильная коммуникационная модель при
подготовке документа «Положение о системе» — это рассылка проекта по
электронной почте и сбор отзывов-предложений. При этом реализуется
так называемая «звездчатая коммуникограмма», которая вовсе не гарантирует удовлетворение всех участников процесса. Поскольку все замыкается на инициаторе — центральном звене в звездчатой схеме, то его
неизбежно могут упрекнуть в субъективизме и волюнтаризме — в произвольном и необоснованном учете одних предложений и игнорировании других.
В отличие от такой более привычной схемы на блоге можно обеспечить полную прозрачность для всех участников всех промежуточных версий документа, созданных всеми участниками. При
этом в отличие от Wiki-технологии в этом случае каждый участник
вправе брать для редактирования не последнюю версию, а ту, которая ему нравится в данный момент больше. В этом случае всем, имеющим доступ ко всем этапам коллективной работы, трудно упрекнуть организатора (или инициативную группу) в субъективизме и
келейности.
Глава 5. Организационно-технологическое обеспечение тестовых систем
Партнер 1
Партнер 2
Текст 1
Правка 1
355
Текст 2
Партнер 3
Правка 2
Рис.5.2. Звездчатая система согласования документа при наличии более двух
участников согласительного процесса.
Автор 1
Версия 1
Соавтор 2
Версия 1-2
Соавтор 3
Версия 1-2-3
Соавтор 4
Версия 1-4
Соавтор 5
Версия 1-4-5
Рис.5.3. Схема редактирования документа на блоге. Стрелками справа-налево показано, какой соавтор какую версию документа берет за основу, стрелками слева-направо — какой соавтор порождает новую версию документа.
А что делать, если в ходе таким образом организованной работы выявилось слишком много разногласий и спорных вопросов? Ничего не поделаешь, придется прибегнуть к голосованию. В этом случае недовольные
будут знать, что уступили в ходе демократического процесса, а не произволу одного лица, пусть и обличенного самыми высокими полномочиями. Один из способов аналитического подхода к голосованию — это постатейное голосование, которое обеспечивает одновременное право каждого
проголосовавшего на внесение своих дополнений и изменений в поддерживаемый (или отвергаемый) проект определенной статьи документа.
При организации голосования возникает риск недобора 66 процентов
(квалифицированного большинства) при жестко-альтернативной модели
голосования по версиям документа. В этом случае следует сразу воспользоваться мягкой (неальтернативной) моделью голосования: каждый участник согласительного процесса указывает на все версии документа, которые считает приемлемыми.
356
Практическая тестология
Почему демократичность на этапе подготовки документов так важна?
Это важный социально-психологический инструмент, обеспечивающий
в будущем более высокую лояльность исполнителей к системе, которая
должна быть им не навязана в готовом виде, но в создании которой они
сами принимали участие.
Электронные онлайн-опросы на этапе подготовки TMS (АСТ)
Некоторые наиболее острые и спорные вопросы необходимо выводить
не только на узкую группу исполнителей, но на более широкую группу —
на потенциальных испытуемых (студентов, сотрудников и т.п.). Для этого
удобно иметь в рамках компьютерных средств поддержки TMS-АСТ определенную подсистему проведения онлайн-опросов. Автор книги реально
проводил такие опросы, обеспечивая более высокий уровень принятия
того или иного формата тестовых заданий и процедуры тестирования.
Например, при постановке вопроса о том, что лучше — выполнять тест с
выбором ответа на компьютере или на бумаге, большинство опрошенных
студентов МГУ, уже начиная с 2005 года, голосуют за компьютерную форму проведения (впрочем, она кажется удобнее только после знакомства
с компьютерной демоверсией). В то же время для выполнения заданий с
развернутым письменным ответом студенты до сих пор выбирают работу
на бумаге (хотя голоса разделяются уже почти с балансом 50 на 50).
Онлайн-опросы — это также полезный инструмент обратной связи после проведения массового тестирования. Он позволяет выявить наиболее
«узкие места». Компьютерная форма таких опросов гарантирует участникам анонимность их ответов. В этом случае, как правило, всплывает ценная информация о том, что кто-то пользовался шпаргалками, что часть вопросов «утекла» и попала на какой-то Интернет-ресурс, доступный только
студентам (защищенный паролем от преподавателей почтовый ящик на
почтовом сервере). При совмещении массового опроса с голосованием следует сознательно выбрать один из следующих вариантов:
• Открытое голосование — результаты после каждого нового голоса видны всем участникам.
• Закрытое голосование — результаты не видны, пока все не проголосуют.
• Экспертное голосование — эксперты обязательно мотивируют свои
решения «против» (если обсуждается всего лишь одна рабочая версия
статьи документа).
Подключение участников тестирования на этапе подготовки TMSАСТ — это действенный инструмент не только для обеспечения лояльности, но и операционной готовности участников, особенно если опросы и
тесты проводятся в рамках одной компьютерной системы с использованием фактически одного и того же пользовательского интерфейса.
Глава 5. Организационно-технологическое обеспечение тестовых систем
357
Кадровое обеспечение и организационные роли
Собственно, выше уже не раз (включая введение и аннотацию) перечислены основные организационные роли в рамках корпоративной системы тестирования:
1) Главный координатор проекта АСТ (менеджер-тестолог);
2) Авторы тестовых заданий и эксперты по содержанию теста;
3) Софт-инженеры и операторы;
4) Дежурные администраторы-супервизоры в аудиториях (экзаменаторы);
5) Лица, принимающие решения по результатам тестирования (ЛПР);
6) Участники тестирования.
Компьютерная система тестирования должна обеспечивать дифференцированный доступ к различным режимам работы с тестами для всех этих
шести категорий. Например, авторы и эксперты имеют доступ к тестовым
заданиям (хотя бы для их перекрестной экспертизы), но не имеют доступа
к результатам тестирования. В то же время ЛПР должны получить доступ
к результатам, но им необязательно давать доступ к тестовым заданиям.
Софт-инженеры и операторы должны отлаживать различные режимы работы, в том числе в позиции участника, ЛПР или эксперта, поэтому у них самый широкий профиль доступа. А вот различными приглашающими рассылками и оповещениями должен заведовать главный менеджер-тестолог.
Впрочем, более подробный перечень ролевых функций вытекает из
подпунктов «Положения», в которых должны быть регламентированы
функции различных участников процесса.
Перечислим ниже примерный перечень функций менеджера-тестолога:
1) Подготовка материалов тестирования — руководство авторами и экспертами,
2) Подготовка процесса тестирования — руководство софт-инженером (-ами),
3) Подготовка участников — проведение консультаций и обеспечение демоверсий,
4) Организация супервизии (наблюдения в аудиториях) в ходе тестирования,
5) Предоставление для ЛПР (комиссии) результатов тестирования в регламентированном формате (впрочем, в случае автоматизации такая подготовка переходит на этап разработки АСТ и производится с участием
софт-инженеров).
А вот примерный перечень функций софт-инженера (впрочем, это
можно назвать пунктами технического задания для софт-инженера):
1) Обеспечение информационной безопасности (парольной защиты) для
тестовых материалов,
2) Обеспечение резервного копирования и базирования для тестовых материалов и протоколов (результатов) тестирования,
358
Практическая тестология
3) Контроль структурных и временных параметров сеанса тестирования
(при онлайн-тестировании),
4) Обеспечение установки, запуска и удаления программного обеспечения,
5) Создание форматов отчетов по результатам тестирования,
6) Внедрение и сопровождение компьютерной системы коммуникаций
(Интранет) всех участников тестовой системы.
5.2. КЛАССИФИКАЦИЯ ПРОГРАММНЫХ СРЕДСТВ
ПРАКТИЧЕСКОЙ ТЕСТОЛОГИИ
В этом разделе читателю будет предложена классификация программных средств, которые применяются для решения разных задач практической тестологии. Мы предлагаем построить классификацию на основании
тех классов задач и процедур, которые традиционно сложились:
а) подготовка тестирования,
б) проведение тестирования,
в) обработка результатов тестирования,
г) автоматизированная интерпретация результатов тестирования (принятие решения),
д) сопряжение тестов с обучением и ассессментом (в частности, для обеспечения комплексных экзаменов и т.п.).
Некоторые краткие буквенные обозначения программ являются общепринятыми (например, IRT-программы для обработки результатов
тестирования). Другие буквенные обозначения изобретены нами только
здесь — просто для удобства фиксации определенного класса программ.
Инструменты подготовки тестовых заданий (IWS-программы)
Этот класс инструментов имеет почти устоявшееся международное
обозначение item writing system (IWS). В разделе 3.1 мы во многом уже обсудили, как практически на сегодняшний день работают пользователи
при подготовке тестовых заданий. Большинство авторов до сих пор НЕ
использует специализированных инструментов, а пишет задания с помощью таких компьютерных программ общего назначения, как, например,
текстовой редактор MS Word (или его бесплатный аналог в рамках пакета
Open Office). Но такой подход порождает ряд технических неудобств даже
в тех случаях, когда предполагается последующее предъявление тестов на
бумаге, не говоря уже о компьютерном тестировании. Специализированные программы IWS создают следующие удобства:
1) Они помогают пользователю немедленно структурировать информацию так, чтобы тестовое задание соответствовало определенному
Глава 5. Организационно-технологическое обеспечение тестовых систем 359
классу по формату: с выбором единичного ответа, на ранжирование,
на соответствие и т.п.
2) Подготовленные задания не требуют дальнейшего форматирования
для их предъявления испытуемым в компьютерном режиме (из того
же редактора MS Word задания, как правило, нельзя немедленно «вставить» в тестовую программу без дополнительного редактирования,
если не используются особые шаблоны — см. раздел 3.1. «Техническое
оформление заданий в электронной форме»).
3) Подготовленные задания легко встраиваются в подсистему «анализа
пунктов» (item analysis), если эта подсистема предусмотрена в рамках
комплексной TMS — системы управления тестами, что облегчает при
просмотре статистических психометрических отчетов знакомство с
заданием не только по номеру в банке, но и по содержанию.
Надо сказать, что крупные фирмы-производители тестов нередко содержат свои IWS-инструменты в секрете и не поставляют их на продажу. Но при этом существуют производители коммерческих версий IWSпрограмм, например, международная компания QuestionMark, активно работающая на рынке уже более двух десятков лет. На сайте www.
questionmark.com легко можно зарегистрироваться для получения пробной бесплатной версии. Существуют онлайн-версии и клиентские модули IWS-программ:
1) Онлайн-версия. В этом случае предоставляется онлайн-доступ через
обыкновенный браузер, и созданные пользователем задания сохраняются в базе данных производителя — в рамках Личного кабинета
(personal room, personal account) пользователя.
2) Клиентский модуль — это программа, которую пользователь должен
«скачать» и установить на свой компьютер. Нередко клиентский модуль становится доступным только после оформления продажи, а вот
онлайн-версия открывается в личном кабинете лишь временно — в течение некого пробно-эксплуатационного периода.
Изучая ту или иную IWS-программу перед ее приобретением, пользователям рекомендуется обратить внимание на то, поддерживает ли эта программа определенные универсальные международные стандарты записи
файлов — SCORM или QTI. Дело в том, что для обучающих и тестовых систем
в мире выработаны определенные принципы разметки тестовых заданий в
файлах, которые специально предназначены для экспорта-импорта текстовых и количественных данных между программами,— в XML-файлах. Если
задания сохраняются в указанных стандартах, то тогда пользователь может
легко перенести их из одной компьютерной программы в другую, поддерживающую аналогичный стандарт. Это подобно тому, как текстовые файлы
в стандартном формате DOC или RTF переносятся из одной версии текстового редактора в другую (более новую и мощную по количеству функций).
360
Практическая тестология
Надо сказать, что сама по себе ценность IWS-программ не слишком
велика, если они не позволяют интегрировать тестовые задания с другими важнейшими компонентами теста — ключами, нормами, текстами интерпретационных сообщений, параметрами предъявления в ходе
тестирования и т.п. Важна включенность IWS в некий комплексный инструмент, который чаще всего называется «Конструктор тестов» (популярные англоязычные названия — test design software, test development
software, test creation software). Без подобной интеграции IWS-программы
удобны скорее для подготовки опросов, чем тестов, ибо представляют собой средства редактирования лишь отдельных элементов, но не теста
как целостной структуры.108 В качестве отдельных программ IWS удобны, когда в рамках большого проекта разделены роли между «главным
менеджером-тестологом», который работает, как правило, с целостным
тест-конструктором, и множеством авторов отдельных тестовых заданий,
которым поставляется лишь отдельная IWS-программа, или IWS-модуль
(или доступ к онлайн-редактору тестовых заданий). Создав тестовые задания с помощью этого модуля, авторы отправляют менеджеру-тестологу
(иногда просто по э-почте) задания в виде файлов, сохраненных в таком
формате, который удобен для тест-конструктора.
Таким образом, в рамках целостных тест-конструкторов IWS является, как правило, более или менее развитым компонентом. В данном
параграфе нет возможности (да и необходимости) предлагать читателю
обзор каких-то частных и конкретных систем (решений), тем более что
через буквально 2—3 года на рынке могут занять доминирующее положение совсем другие конкретные программы. Но стоит ввести некоторые
принципиальные различения, которые будут сохранять свое значение
еще долго. Одно из них — это различение между программными модулями (решениями) типа «форма» и программными модулями (решениями)
типа«разметка».
1) Решение типа «форма» — это более популярное решение, но следует
учесть, что оно ориентировано на начинающих пользователей и на не
слишком длинные тесты. В этом случае вопрос и тексты ответов записываются каждый в свою отдельную строку ввода. Подобным образом устроен сервис «опрос» в любом форуме (например, на платформедвижке IPB) или в любой социальной сети (например, в той же facebook.
com). Это решение обеспечивает быстрый старт, но… когда возникает
задача элементарного изменения порядка следования вопросов, то тут
же требуются средства, усложняющие интерфейс, дополнительные
режимы просмотра списка созданных вопросов (с выводом на экране
108
Обзор инструментов создания и проведения опросов выходит за пределы этой книги, но
все же в силу того, что тестологам часто приходится проводить не только тесты, но и опросы,
назовем наиболее популярные онлайн-инструменты для подготовки опросов (на 2012 — год
подготовки этой книги): surveymonkey.ru, virtualexs.ru, creativesurvey.ru. — Прим. автора.
Глава 5. Организационно-технологическое обеспечение тестовых систем
361
только начальных формулировок вопросов) и т.п. В пределе это решение ведет к появлению многооконного и многорежимного специализированного экранного конструктора, а не редактора. Пример достаточно развитой специализированной формы для описания тестового
задания вместе с возможностью прикрепления файлов-картинок дается на рисунке-скриншоте 5.4.
Рис.5.4. Режим формы в редакторе тестовых заданий в системе HT-LINE
MASTER-TEST.
2) Программы разметки (или редакторы тестов в узком смысле) используются реже и характерны для профессиональных инструментов. Они
предлагают пользователю описывать тестовые задания в окне обыкновенного текстового редактора, но с использованием определенных
символов — команд разметки. Конечно, этот язык разметки должен
быть более упрощенным, чем известные языки разметки типа HTML,
но все же он требует определенной умственной дисциплины в освоении системы символьных команд. Еще в 90-е годы автор книги разработал подобный модуль в рамках тест-конструктора ТЕСТАН (Shmelyov,
1996), предполагающий маркировку начала нового тестового задания с
помощью символа решетка-диез «#» в начале строки (с последующим
номером задания), а каждого ответа — с помощью номера ответа в прямоугольных скобках. Это решение позволяло автору задания легко с
помощью простейших команд редактирования переходить от перечня
ответов в строчку (см. пример 1 ниже) к перечислению ответов в столбец (см. пример 2 ниже). Кроме того, можно легко переставить последовательность номеров ответов в обратном порядке, так что первому ответу (по порядку следования) будет присваиваться более высокий числовой номер, что в некотором смысле облегчает дальнейшую обработку
(см. пример 3).
362
Практическая тестология
Пример задания 1:
#1. Куда впадает Волга?
[1] в Черное море [2] в Каспийское море [3] в реку Дон.
Пример задания 2:
#2. Куда впадает Волга?
[1] в Черное море
[2] в Каспийское море
[3] в реку Дон
Пример задания 3:
#2. Куда впадает Волга?
[3] в реку Дон
[2] в Каспийское море
[1] в Черное море
Но данное решение пригодилось фактически только для буквенноцифровых экранных режимов с фиксированным количеством знакомест
по строкам и столбцам экранной матрицы (в операционной системе DOS).
Уже для среды Windows, предполагающей более гибкую работу с размерами шрифтов, это решение оказывалось и не очень простым для программистов, и не очень удобным для пользователей. Особые требования
предъявили в последующем к решению типа «разметка» онлайн-языки
программирования.
Прошло время, и в 21-м веке язык разметки тестовых заданий потребовал еще более простых подходов, но одновременно совместимых с гибкой
перенастройкой пользователями размеров шрифтов на экране. Например,
в Лаборатории «Гуманитарные технологии» еще в 2004 году разработан
онлайн-редактор тестовых заданий, интегрированный в различные модули в системе HT-LINE, предполагающий маркировать текст вопросов
символом «?» в начале строки, тексты ответов — символом «=», а правильный (ключевой) ответ — символом «*» звездочка (причем ключевой ответ
с двойным весом маркируется двумя звездочками и т.п.). Опыт показывает, что для освоения такого простейшего языка разметки современному
пользователю на уровне студента вуза требуется не более трех минут (!).
В чем же состоит выигрыш от использования решения типа «разметка»? Во-первых, ряд операций оказываются интуитивно-понятными и
уже освоенными пользователем ранее в ходе многолетней практики использования редакторов текста — это все операции в работе с абзацами
и т.п. Ведь в экранном редакторе тестовое задание — это не более чем отдельный абзац. Поэтому с помощью обычных команд «копировать-вставить» можно легко перемещать абзацы, оперировать стилями в абзацах,
копировать абзацы-задания из одного файла-теста в другой файл-тест
и т.п. А во-вторых, в окно такого редактора легко вбросить (с помощью
Глава 5. Организационно-технологическое обеспечение тестовых систем 363
все тех же команд «копировать-вставить») уже готовый большой набор заданий из того же редактора типа MS Word, добавить к каждому заданию
определенную разметку, и… все — бывший бумажный тест уже компьютеризирован и готов для предъявления испытуемым (если, конечно, его
подхватывает именно в таком виде модуль предъявления теста — тестплейер).
Конструкторы, или редакторы тестов (TCS-программы)
Чем отличаются конструкторы тестов TCS от отдельных программ
по подготовке тестовых заданий IWS? Тем, что конструкторы (test
development software) предоставляют пользователю средства ввода и визуального редактирования других компонентов теста, а главное — связей
между этими различными компонентами: заданиями, шкалами, ключами, нормами, текстовками интерпретирующих сообщений и т.п. За последние полвека в мире создано множество компьютерных конструкторов
тестов. Нет смысла, опять-таки, перечислять их. Важно выделить определенные принципы их работы, которые, по-видимому, сохранятся неизменными еще какое-то количество лет после выпуска данной книги.
Например, есть два способа сопряжения пунктов и шкал, то есть ввода
ключей:
1) Маркировка шкал и весов в самом окне редактирования тестовых заданий (вопросов).
2) Отдельный интерактивный режим ввода ключей в формате матрицы
или в других интерактивных форматах.
Сформулируем следующее принципиальное требование к конструкторам (редакторам) тестов:
Гибкий и удобный редактор тестов должен сочетать оба подхода: редактирование ключей в текстовом редакторе вопросов и особый интерактивный режим «вопросы — шкалы».
Ниже опишем, как реализованы одновременно эти подходы в нашей
системе HT-LINE. Когда мы выше указывали на то, что ключевой (правильный) ответ может быть маркирован символом «*» (звездочка), то имелся в
виду как раз первый подход. Только в случае многошкальных ключей надо
указать номер шкалы и вес — это гораздо более универсальная запись. Тогда возникают следующие возможные записи, которые размещаются в одной строке с правильным ответом: {key=2,1} или {key=1,2}. Первая из этих
записей указывает, что программа при подсчете баллов должна дать при
выборе этого ответа данным испытуемым одно очко по тестовой шкале
номер 2, а вторая запись означает, что программа должна дать 2 очка по
364
Практическая тестология
шкале номер 1. Для улучшения читабельности самого перечня тестовых
заданий программа должна уметь в окне-редакторе как показывать «служебные строки с ключами», так и прятать их в зависимости от выбранного пользователем режима просмотра.
А вот режим интерактивной матрицы «пункты — шкалы» приводится
на рисунке-скриншоте 5.5:
Рис.5.5. Интерактивная матрица ключей в тест-конструкторе HTLINE MASTER-TEST.
Каждая клеточка матрицы ключей — это окошко, в котором может
стоять галочка, обозначающая связь между определенным ответом (по
строке матрицы) и определенной шкалой теста (по столбцу матрицы).
В приведенном на рис.5.5 примере все ключевые ответы относятся к шкале «Числовой интеллект» в Кратком Тесте Отбора КТО-2. Для удобства ориентировки при наведении курсора мышки на столбец программа должна
сообщать пользователю во всплывающем окне название шкалы, соответствующей столбцу. Интерактивная матрица ключей — особенно удобный
режим для ввода-редактирования ключей в тестах, в которых имеются
многозначные соответствия между пунктами и шкалами. Но интерактивная матрица неудобна для вставки новых тестовых заданий и перетасовки их местами, для этого лучше пользоваться окном-редактором, таким,
которое «не забывает» при перестановке задания подхватить вместе с текстом служебную информацию о ключах к нему.
Как переключаться от одного режима редактирования компонентов
теста к другим? Для этого хороший конструктор должен располагать сразу
Глава 5. Организационно-технологическое обеспечение тестовых систем 365
двумя средствами навигации — пошаговым мастером сборки и меню. Таким образом, сформулируем в виде тезиса следующее требование:
Гибкий и удобный конструктор тестов должен предоставлять пошаговый мастер сборки, последовательно проводящий пользователя по всем этапам создания теста, в сочетании с интерфейсом типа
«меню», позволяющим напрямую редактировать (в том числе повторно) отдельные компоненты теста.
Если Вы присмотритесь, как устроены те же самые сверхпопулярные
во всем мире офисные программы типа MS Excel или MS PowerPoint, то
для построения диаграмм или слайдов они предлагают также и пошаговые последовательные схемы работы пользователя, и меню-интерфейсы.
Пошаговые схемы очень помогают начинающим пользователям, которые
еще просто не помнят все параметры и компоненты того информационного объекта (в нашем случае теста), который им предстоит создать.
На рисунке-скриншоте 5.6 можно увидеть восемнадцать шагов (и, соответственно, восемнадцать пунктов меню), который проходит конструктор
MASTER-TEST в системе HT-LINE (разработчик-программист А.В. Орлов):
Рис.5.6. Перечень шагов в гибком, смешанном интерфейсе конструктора тестов MASTER-TEST в системе HT-LINE.
Не следует смешивать конструкторы тестов с программами проведения тестирования. Конструктор тестов может помочь разработчику и
в том случае, если планируется проведение теста в традиционной (впрочем, в наше время все более редкой) бумажной форме (paper-and-pencil).
366
Практическая тестология
Тест-плейеры для реализации
тестового диалога (TDS-программы)
Пожалуй, центральный модуль (по своей значимости и востребованности) в любой компьютерной тестовой системе — это модуль проведения тестирования. Это как бы проигрыватель уже готовых тестов — тестплейер. В данном коротком классификационном перечислении основных
программных модулей тестовой системы мы, конечно, не можем перечислить всевозможные разновидности тестового диалога, а тем более уделить им отдельное внимание. Например, для лиц с ограничением по зрению (или не умеющих читать) очень важна такая модификация TDS, когда
тестовые задания-вопросы зачитываются вслух. Предъявление заданий
на слух в наше время вполне может сочетаться с голосовым ответом испытуемого. Но мы здесь будем иметь в виду основную и наиболее частотную
разновидность тестового диалога — визуальное предъявление тестовых
заданий и считывание ответов компьютерной TDS-программой с клавиатуры или с помощью «мышки».
Некоторые начинающие программисты и разработчики тестов не
вполне осознают определенные альтернативы, которые стоят перед организацией визуального тестового диалога. Мы коротко перечислим здесь и
прокомментируем эти альтернативы:
1) Предъявление на экране одного или нескольких (или даже всех) тестовых заданий? Во втором случае испытуемый получает возможность
вернуться к предыдущим заданиям, просто пролистывая их на экране. В первом случае возврат к предыдущим заданиям может либо воспрещаться полностью, либо ограничиваться временем, отведенным на
решение одного задания, или определенным количеством шагов. Следует учесть, что предъявление нескольких или всех заданий сразу более характерно для опросов, а не для тестов; для последних более подходящий режим — это поэкранное предъявление (каждое задание на
отдельном экране).
2) Ввод ответов с помощью мышки или с помощью клавиатуры? Грамотное решение — это обеспечить одновременно и ту, и другую возможность. И дело не в том, что кто-то не умеет работать с мышкой (таких
пользователей осталось совсем мало), и не в том, что мышка может в
какой-то момент отказать. А дело в том, что для скоростного прохождения теста ввод с клавиатуры — это просто более быстрый и удобный способ работы, так как разные пальцы можно заранее разместить
на разных цифровых клавишах, соответствующих номерам ответов.
Только в этом случае программисты не должны забывать требовать нажимать на ту же самую цифровую клавишу дважды, для подтверждения правильности ввода.
3) Локальное предъявление заданий или подкачка с сервера? На самом
деле ни то, ни другое. Локальное предъявление не имеет альтернатив
Глава 5. Организационно-технологическое обеспечение тестовых систем
367
в плане скорости, но при этом должна быть обеспечена защита неполного протокола ответов на случай потери связи или сбоя по питанию.
Что такое локальное предъявление? В ходе онлайн-тестирования весь
тестовый материал, который будет предъявляться в ходе сеанса, вначале «перекачивается» с сервера в оперативную память компьютера, за
которым работает испытуемый, а затем сеанс тестирования оказывается уже независимым по темпу предъявления заданий от возможных
сетевых задержек. В настоящее время сетевая технология защиты получающихся при этом ответов опирается на инструмент, названный
AJAX: хотя каждое следующее тестовое задание не «подкачивается» с
сервера, каждый новый ответ испытуемого переправляется по сети на
сервер во временный файл. В случае потери связи (или в случае сбоя
по питанию) такой плейер обеспечивает возможность: а) анализа существующего на сервере временного файла, в котором сохранились
ответы испытуемого, б) возобновить сеанс с того самого «места» (с того
задания), на котором он был прервано. Надо сказать, что также полезно предусмотреть возможность не возобновлять прерванный сеанс, а
начинать тестирование заново, но принимать решение о том, что будет сделано в конкретном случае, должен не испытуемый, а дежурный
оператор (очный супервизор в тестовом помещении). То есть выбор
этой возможности правильнее защитить паролем, известным только
оператору. Здесь мы приходим, пожалуй, к ключевой особенности, отличающей любительское самотестирование от профессионального тестирования — к обсуждению роли оператора-супервизора.
4) Является ли тест-плейер инструментом одного испытуемого или он
предполагает роль оператора-супервизора? Рассмотрим предыдущий
пример, когда произошел сбой питания и необходимо возобновить сеанс тестирования с прерванной позиции. Если не предусмотрена роль
супервизора, то каждому испытуемому предлагается возможность
начать новый сеанс с… самого начала, то есть избежать фиксации тех
ошибок, которые в ходе прежнего сеанса уже вошли в протокол. Представим себе, что испытуемые узнали об этой возможности и надеются
использовать ее в свою пользу — чтобы повысить свой балл выше того
истинного, к которому они подготовлены в данный момент. Как они
тогда действуют? Просто имитируют «сбой питания»: выключают компьютер из сети, затем запускают тестовый сеанс заново с самого начала. При этом они могут неограниченное число раз исследовать банк
заданий, и сам факт наличия банка, превышающего по численности
тот набор заданий, который предъявляется в одном сеансе, теряет свою
ценность.
5) Как вводить персональные данные испытуемого? Кроме возобновления прерванного сеанса, можно назвать еще ряд ситуаций, когда в
диалог с тест-плейером может или должен вмешиваться оператор-супервизор. Именно оператор-супервизор должен вводить персональный
368
Практическая тестология
шифрокод, который идентифицирует испытуемого и защищает его
персональные данные. В соответствии с ФЗ РФ №162 «О защите персональных данных», не разрешается собирать персональные данные испытуемых и хранить их в сети без их письменного согласия (тем более, в глобальной сети, если хранение ответов и подсчет баллов предусматривается на сервере разработчика). В этом случае шифрокоды
испытуемых хранятся в сети, а таблица соответствия шифрокодов
персональным данным — вне сети (вне сервера разработчика тестов)
у уполномоченного представителя организации, осуществляющей тестирование своих сотрудников (студентов, кандидатов-соискателей).
6) Жесткая последовательность предъявления заданий или случайное
перемешивание? Конечно, есть тесты, которые требуют реализации
одной и той же однозначной и заданной последовательности заданий.
Это, например, тесты, обеспечивающие формирование актуальной
установки и диагностирующие способность испытуемого к ее преодолению (по типу известного психологам-диагностам арифметического
теста Лачинза). Но в общем случае современный тест-плейер должен
в своих настройках предусматривать возможность случайного перемешивания. Причем не только последовательности заданий, но и порядка предъявления на экране альтернативных ответов, так что правильному ответу каждый раз должны соответствовать разные позиции
на экране. Это «убивает» простейшие компактные шпаргалки по типу
«номер вопроса — номер ответа» и обеспечивает более высокую достоверность теста. Современное «перемешивание» — это не простое изменение последовательности внутри заданного набора, это выборка набора заданий из большого банка. В этом случае говорят об алгоритмах
типа RSIP (random selection from item pool) — случайной селекции из
банка заданий. Только на первый взгляд кажется, что это простые алгоритмы и достаточно лишь в одном месте программы задействовать
функцию генерации случайного числа (номера текущего задания)109.
Несколько более подробно об этих алгоритмах будет сказано ниже — в
связи с особенностями именно компьютерного тестирования.
7) Как контролировать расход времени и сообщать об этом испытуемому? Необходимо различать три вида временных лимитов: на сеанс в
целом, на отдельный тематический блок и на отдельное тестовое задание. Последний вид лимитов может обеспечить, разумеется, лишь
компьютерное тестирование. Но, как правило, выводятся на экран для
испытуемого только 2 счетчика времени (чаще в графической форме —
в виде тающего столбика): для отдельного задания и для тематического
блока (ибо время на сеанс складывается из времени на тематические
109 В приложении на диске читатель получает файл с примером того, как эта функция
Random работает при создании случайной последовательности заданий с помощью
обычной электронной таблицы Эксель. — Прим. автора.
Глава 5. Организационно-технологическое обеспечение тестовых систем 369
8)
9)
10)
11)
блоки при наличии блоков). Все счетчики лучше включать после инструкции, а не во время предъявления предтестовой инструкции. Визуальные счетчики не должны доминировать на экране, чтобы не слишком нервировать испытуемых. По нашим данным, лучшее место для
них на экране — это правый нижний угол, но никак не верхний левый
угол (место на экране, привлекающее наибольшее внимание, с учетом
правил чтения в нашей культуре). Остается открытым вопрос о том,
должно ли время «сгорать», если испытуемый переходит на новый тематический блок, не израсходовав полностью время на прошлый блок. Видимо, решение этого вопроса зависит от содержательной модели теста.
Можно ли предъявлять в ходе тестирования обратную связь о правильности предыдущего ответа? Ответ на этот вопрос для автора книги однозначен: если мы предъявляем обратную связь о правильности
ответа в ходе самого тестирования, то это не тестирование, а тренинг
(обучение), и в этом случае мы вправе говорить скорее о тренинг-плейере, а не о тест-плейере. Хотя… данную функцию лучше предусмотреть при конструировании (выборе) плейера, ибо эта функция очень
удобна при отладке разработчиком нового теста.
Поддерживать ли разветвляющийся диалог? Опять-таки разветвление — это не функция тестирования, а функция обучения или диагностического опроса, с которым тестирование все еще часто путают.
Разветвляющийся диалог, меняющий порядок предъявления заданий
в зависимости от предыдущих ответов, — это не процедура измерения, предполагающая стандартный набор заданий. Исключение —
модели так называемого «адаптивного тестирования» (об этом ниже).
Всегда ли разрешать откатку к предыдущему заданию? Ответ — не
всегда, конечно. Возьмем тестирование памяти. В этом случае предыдущий экран — это предъявление стимульного материала, который
предлагается запомнить, а следующий экран — это вопрос о том, что
было предъявлено на прежнем экране. В таком случае кнопка «назад»
должна вообще исчезнуть с экрана испытуемого (или должна быть деактивирована).
Как обеспечивать предъявление в тестовых заданиях графических, аудио- и видеофайлов? Среди разработчиков обучающих и тестовых программ уже давно нет особых дискуссий насчет технологии OLE (object
linked environment), позволяющей при наличии определенных модулей легко встраивать в задания графические и мультимедийные элементы. Но как в случае онлайн-тестирования их передавать с сервера
на компьютер клиента? По мере выполнения теста или сразу (еще до начала сеанса)? Хотя второе решение вызывает нередко длительное некомфортное ожидание перед началом тестирования, оно все-таки является
предпочтительным, ибо бОльшее методическое зло — это технологические задержки в процессе уже начавшегося тестирования, когда запущена регистрация времени по блокам и отдельным заданиям теста.
370
Практическая тестология
12) Где и как лучше предъявлять задания на понимание текста? Для подобных тестов напрашивается специальный двухоконный интерфейс, так, чтобы в одном из окон (например, верхнем) текст, по которому следуют вопросы на понимание, присутствовал бы всегда перед
глазами испытуемого. Но чаще всего такой двухоконный интерфейс
не делают и позволяют либо «откатиться назад» к тексту (что менее
удобно), либо специальной кнопкой в любой момент вызвать на экране
текст инструкции, в которую включен текст на понимание (это более
удобное и самое частотное решение данной проблемы).
13) В каких ситуациях удобен интерфейс, позволяющий перетаскивать
мышкой объекты на экране (drag-and-drop)? Очень броский и сильный рекламный ход для разработчиков — показать заказчику плейера интерфейс, устроенный по принципу drag-and-drop: пользователь
подхватывает с помощью курсора мышки какой-то визуальный объект на экране (слово или картинку), затем «тащит» его в поле экрана
и помещает в определенное место, соответствующее, например, тому
или иному «ящику-категории» для ответа. Но всегда ли подобный
интерфейс необходим? По нашему убеждению, в случае наиболее
массовых тестов с выбором из 4—5 вариантов одного ответа — этот
развлекательный и приятный интерфейс для тренинга и обучения
оказывается утомительным и эргономически-неоптимальным, когда
число заданий превышает 30—50. В этом случае испытуемому на самом деле проще всего нажимать на цифровую кнопку, соответствующую номеру ответа и подтверждать свой выбор повторным нажатием
на эту же кнопку. Другое дело — тесты сортировки, когда множество
объектов (например, слов) надо раскладывать на экране во множество различных слотов (тест на соответствие с большим числом элементов). Близкая ситуация — это тесты, построенные на текстах с
пропусками: испытуемому удобнее брать слово из набора ключевых
слов (их может быть несколько десятков!) и тащить его в определенное
место-пропуск в тексте на экране (подробнее о тестах контекстной
вставки см. ниже).
Итак, выше мы перечислили 13 вопросов, на которые надо дать ответ,
прежде чем выбирать тот или иной плейер из имеющихся (или браться
разрабатывать свой). И это далеко не полный перечень! Это только примерный набор вопросов, призванный показать читателю-программисту, не посвященному в тонкости тестирования, что требования к тестплейеру могут быть весьма дифференцированными и это вовсе не такая
простая «штучка», какой с виду представляется. Тут не проходит, казалось
бы, напрашивающаяся аналогия с простейшими моделями опросов-голосований, которые можно встретить едва ли не на каждом сайте и в рамках
которых вопросы с радио-кнопками для ответов просто следуют друг под
другом на интерактивной веб-странице.
Глава 5. Организационно-технологическое обеспечение тестовых систем
371
Рис.5.7. Образец интерфейса в заданиях на заполнение пропусков (автор благодарит Ю.А. Тукачева, приславшего ссылку на свой демонстрационный тест
такого рода на сайте LearnClick.com).
Инструменты психометрического
анализа результатов (IRT-программы)
В приложении к данной книге примеры расчетов приводятся для популярной офисной программы MS Excel. Но это не значит,
что мы рекомендуем всегда пользоваться только этой программой.
MS Excel — это лишь первый, фактически обучающий шаг в изучении
инструментов статистического анализа результатов тестирования.
Следующий шаг — это работа с хорошо известным специалистам пакетом статистических программ SPSS. В этом пакете, кроме различных методов факторного и кластерного анализа, уже можно найти ряд
специализированных инструментов именно для психометрического
анализа. Например, это расчет Альфа-коэффициента в разделе «Шкалирование». Использованию SPSS уже посвящено немало доступной
литературы, в том числе на русском языке (Наследов, 2005). Но все же
и этот пакет не является специализированным для нужд практической тестологии 110.
110 Профессиональные психометристы-тестологи в настоящее время все чаще применяют
гибкий и доступный в режиме онлайн статистический пакет R, в который включены специфические IRT-процедуры анализа пунктов. –Прим. автора.
372
Практическая тестология
В настоящее время благодаря сети Интернет и наличию специализированных сайтов все шире и доступнее оказываются для специалистов-психометристов различные программы, в которых реализуются принципы
современной психометрики — IRT-подхода к анализу результатов тестирования. Некоторые из этих программ являются бесплатными или условно-бесплатными (принцип shareware — «платишь, если пользуешься после
первого знакомства»). Например, это программа Multilog. Сейчас выпущена
уже седьмая версия этого программного продукта, что говорит о его популярности (Thissen, 2003). С помощью программы Multilog, например, выполнен IRT-анализ одной из версий опросника «эмоционального интеллекта»
(Coopera, Petrides, 2010). Одним из самых мощных (по размерности анализируемых массивов и подробности отчета) платных профессиональных инструментов, по всей видимости, является программа Winsteps (Winsteps,
2012). На сайте www.winsteps.com доступна сокращенная бесплатная версия этой программы под названием Ministep. Так же, как и программа
Multilog, программа Winsteps управляется с помощью командного файла,
требующего от пользователя значительных усилий не только по овладению
синтаксисом, но и по освоению условных обозначений параметров модели
анализа и модели данных. В предыдущей главе 4 приводятся некоторые эмпирические характеристические кривые тестовых заданий, полученные с
помощью программы Winsteps. Программа Winsteps, прежде всего, удобна
для применения классической дихотомической модели Раша, но вполне
пригодна и для политомических моделей (хотя в этом случае управляющий
файл с ключами-весами для каждого ответа оказывается очень громоздким). В своих отчетах она дает калибровку не только трудности заданий, но
и измеренной способности испытуемых, причем для каждого испытуемого устанавливается степень соответствия модели эмпирическим данным
(goodness of fit). Ниже в таблице 5.2 приводится фрагмент отчета, который
программа Winsteps выдает для отдельного задания из нашего теста «Поговорки» (по шкале «Большой пятерки факторов» B5 «Согласие»).
Достаточно знакомства с этим примером, чтобы читатель понял — без
внимательного чтения и освоения руководства (manual) к программе Winsteps
трудно понять что-то, кроме столбца Count, в котором указывается количество
испытуемых (в данном случае из выборки в 690 человек) для каждой из пяти
категорий ответа — от «вполне согласен» до «совершенно не согласен».
Значительно более современной по интерфейсу (используется визуальный интерфейс управления) является платная программа Xcalibre 4
(Xcalibre, 2012), хотя также, как и названные выше Multilog и Winsteps, она
требуют от пользователя знания математического английского языка111,
111 Автор книги до конца 2012 года не смог найти ни одного внятного примера реализации
отдельного IRT-пакета на русском языке, готового для внешнего использования (не разработчиками программы). Это, как правило, внутренние программы, подобные тем, которые
используются для обработки результатов ЕГЭ в рамках Федерального центра тестирования
Глава 5. Организационно-технологическое обеспечение тестовых систем
373
ITEM NUMBER: q16 Áåé ñâîèõ – ÷óæèå áîÿòüñÿ áóäóò
ITEM DIFFICULTY MEASURE OF -1.33 ADDED TO MEASURES
-----------------------------------------------------------------| CATEGORY OBSERVED |OBSVD SAMPLE|INFIT OUTFIT||STRUCTURE|CATEGORY |
|LABEL SCORE COUNT %|AVRGE EXPECT| MNSQ MNSQ ||CALIBRATN| MEASURE |
|------------------+ ---------- + --------- ++ -------- + ------- |
| 1 1
15 2| -1.41 -1.40| .97 1.12|| NONE | ( -3.63)| 1
| 2 2
53 8| -.77 -.89| 1.10 1.02|| -1.07 |
-2.10| 2
| 3 3
42 6| -.48 -.53| 1.03 .98||
.86 |
-1.33| 3
| 4 4
261 38| -.23 -.21| 1.16 1.04|| -.86 |
-.57| 4
| 5 5
319 46| .09
.10| 1.15 1.12|| 1.07 |
(.97)| 5
-----------------------------------------------------------------Таблица 5.2. Образец отчета программы Winsteps 3 для отдельного тестового задания по 690 испытуемым (данные любезно предоставлены автору книги Е.Ю. Кардановой).
ибо русскоязычных версий подобных программ не существует. Xcalibre —
это вполне продвинутый инструмент в плане реализации различных политомических алгоритмов (Rating Scale, Partial Credit и др.) для лайкертовских шкал. Хотя стоимость лицензии, приемлемой для профессиональной
работы с большими массивами, не малая (свыше 500 долларов США на 2012
год), все же ради знакомства с этим перспективным пакетом имеет смысл
начать с бесплатной укороченной версии, которая позволяет работать с
небольшими массивами 50 на 50 (по числу пунктов и испытуемых), что,
впрочем, достаточно для реализации учебных студенческих проектов.
Чем все перечисленные в этом параграфе инструменты не слишком удобны для практических работников? Тем, что настройка этих программ на конкретный массив данных, собранных пользователем, требует значительных
усилий, причем особенно на этапе «первого опыта» — на этапе освоения этих
программ. Это отталкивает от подобных инструментов практиков, для которых вопрос стоит так: либо полностью автоматизированная обработка и понятный «как дважды два» отчет, либо… вообще никакого психометрического
анализа. Поэтому в работе нашей лаборатории пользователям-практикам
предлагается в рамках системы HT-LINE гораздо более простой инструмент
анализа тестовых заданий — автоматический подсчет коэффициентов дискриминативности (КД) для каждого тестового задания по данным, собранным в ходе онлайн-тестирования, выполненного в HT-LINE. Достаточно навести курсор на командную строку «Анализ тестовых заданий» на странице
(там в 2000 годы использовался модифицированный алгоритм partial credit) или какие-то
модули обработки с элементами IRT, встроенные в комплексные обучающие системы (пример — Модуль создания электронных учебников на сайте http://siberia-soft.ru/node/97, в котором декларируется использованием модели Бирнбаума). Хотя можно ожидать изменения
ситуации в самое ближайшее время. — Прим. автора
374
Практическая тестология
«Результаты теста», как на экране выдаются КД для каждого задания вместе с
формулировкой самого тестового задания (см. рисунок-скриншот 3.2 в главе 3).
Указанным принципам краткости и прозрачности также соответствует, например, отчет о статистических свойствах тестовых заданий в обучающей системе Moodle (см. рис.5.8).
Рис.5.8. Статистический отчет с анализом вопросов в системе Moodle.
На рисунке-скриншоте 5.8 мы видим следующие достоинства интегративных систем, подобных Moodle или HT-LINE:
— минимум специфичных количественных данных (здесь это опять-таки «коэффициент дифференцированности», который в нашей книге
мы называем коэффициентом дискриминативности),
— наличие интерактивных элементов, позволяющих произвести определенную «очистку» данных в зависимости от результатов анализа (см.
вопрос «Какие попытки пользователя анализировать?» на рис.5.8).
Инструменты управления тестированием (ТМS-программы)
В отличие от всех предыдущих программных средств здесь речь идет об
интегративных автоматизированными системах, которые помогают состыковать между собой разные процессы и управлять ситуацией в целом. Эти
программные средства должны обеспечить важную оргтехническую функцию, которую в современной науке управления проектами и организациями принято называть «системная интеграция». По аналогии с LMS (системами управления обучением–learning management systems) мы называем их в
Глава 5. Организационно-технологическое обеспечение тестовых систем
375
книге TMS (test management systems). Именно TMS позволяют запустить процесс тестирования сразу (без дополнительных усилий, одной кнопкой) после
того, как процесс создания тестовых заданий (а также других компонентов
теста завершен). А сразу после того, как завершен сеанс тестирования, TMS
автоматически запускает модуль обработки — подсчета тестовых баллов, построения профиля, выдачи интерпретационных сообщений и т.п. Но, кроме интеграции описанных выше отдельных процессов, объектом которых
являются тест и тестовые данные, отличительной чертой полноценной TMS
является «модуль управления базой данных участников» (СУБД, или DBM–
database module), обеспечивающий приглашение участников к тестированию (в наше время — путем массовых рассылок по спискам электронных
адресов), а также соединение будущих протоколов и результатов тестирования с идентификаторами (персональными данными) участников.
Таким образом, функциональная архитектура TMS-АСТ в самом общем виде выглядит так, как она изображена на рис.5.9.
Надо сказать, что во многих практически реализованных системах модули TCM и DSM фактически объединены в
один — в «конструктор
тестов» (Tеst Construction
Module), то есть «модуль
поддержки
решений»
(Decision Support Module)
не выделяется как независимый. Но по мере
развития
«компетентностного подхода» (когда
предполагается возможность разной интерпретации результатов тестирования в зависимости
от использования разных
моделей компетенций)
выделение самостоятельного модуля DSM просто
напрашивается, ибо сама
по себе процедура тестирования и содержание
теста не предопределяют,
каким образом будут проРис.5.9. Обобщенная упрощенная функциональ- интерпретированы реная архитектура TMS — автоматизированной зультаты и какими будут
управленческие решения
системы управления тестированием.
(рекомендации) — многое
376
Практическая тестология
завит не от самого теста, а от принятой модели компетенций. Так что выделение модуля DSM является второй отличительной чертой современных интегративных систем управления тестированием.
Обобщенная схема 5.9 позволяют читателю ориентироваться при
оценке различных систем тестирования, существующих на рынке и поставляемых на бесплатных, условно-платных и платных условиях. Быстро становится понятным, какие функции развиты слабо или недостаточно дифференцированы в таких несколько устаревших бесплатных
системах как, например, MyTest (см. http://mytest.klyaksa.net) или Unitest
(см. http://1001soft.com/soft/unitest_system-944).
Еще одной важной отличительной чертой современных TMS является их трехуровневая сетевая организация — такая, при которой в системе
различаются три участника сетевого взаимодействия: а) сервер разработчика, на котором пользователю предоставляется «личный веб-кабинет»,
б) клиент-сервер пользователя-тестолога, который запускает тестирование, в) клиентские компьютеры участников тестирования (испытуемых).
Отношения между этими уровнями схематически показаны на рис.5.10.
По нашим сведениям на практическую реализацию подобной схемы в недавнее время перешли не только крупные западные поставщики тестовых
технологий, но и, например, также Вебсофт — отечественный разработчик обучающей системы Вебтьютер (см. www.websoft.ru).
Рис.5.10. Трехуровневая клиент-серверная организация сетевого взаимодействия в современных ТMS — системах управления тестированием.
На указанной схеме самым специфичным является второй уровень,
который предполагает наличие особого модуля, устанавливаемого на компьютере пользователя, с одной стороны, выполняющего роль «клиента» —
по отношению к серверу разработчика, а с другой стороны — являющегося
Глава 5. Организационно-технологическое обеспечение тестовых систем
377
сервером по отношению к компьютерам конечных испытуемых. В более
простых двухуровневых сетевых TMS этот модуль обычно отсутствует
или выполняет только одну из двух функций. Таким образом, в общем
случае рассмотрим три возможных конфигурации тестовой системы:
TMS-1) «Сервер разработчика тестов» — все пользователи-участники
выполняют онлайн-тесты, которые размещаются в глобальной сети на одном компьютере — у самого разработчика тестов (по такой схеме работают
большинство популярных сайтов, на которых размещаются онлайн-тесты
для самопознания; роль профессионального пользователя тестов отсутствует).
TMS-2) «Сервер пользователя тестов» — разработчик поставляет профессиональному пользователю тестов для размещения на его компьютересервере программы, с помощью которых пользователь тестирует по сети
(глобальной или локальной) своих сотрудников (студентов, соискателей
и т.п.). В этом случае теряется прямая и непрерывная связь внутри системы между пользователем и разработчиком теста.
TMS-3) «Система личных кабинетов на сервере разработчика» — это квазитрехуровневая схема, при которой второй уровень физически отсутствует как таковой, но виртуально воспроизводится в виде «личного кабинета»
профессионального пользователя на сервере разработчика. Эта схема реализует поставку тестов не в качестве программного продукта, а в качестве
информационной услуги (SaaS — software as a service). Распределение функций здесь подобно той ситуации, когда кто-то создает свой сайт с помощью
конструктора сайтов на определенном сервере, где размещаются сразу много разных сайтов, созданных на единой платформе (проекты типа www.
ukoz.ru, www.narod.yandex.ru). В случае схемы 3 пользователь работает с
программой TMS полностью через свой браузер (навигатор по Интернету).
По схеме TMS-3 в 2004 году создана и успешно развивается в нашей Лаборатории «Гуманитарные технологии» система HT-LINE (www.ht-line.ru).
Особое удобство этой архитектуры в том, что разработчик системы может
находиться в постоянном контакте с пользователем, осуществляя непрерывную методическую поддержку: ему ничего не стоит в любой момент
«заглянуть в личный кабинет к пользователю», чтобы поправить допущенные там ошибки. Недостатком системы личных кабинетов является
риск пиковых перегрузок на сервере разработчика, когда вдруг некоторые
массовые мероприятия (массовое тестирование) у независимых пользователей совпадают по времени и автоматически открываются сотни (и даже
тысячи!) одновременных сеансов тестирования. Из-за этого риска для
наиболее серьезных (массовых) корпоративных клиентов приходится создавать отдельные «виртуальные контейнеры» или даже отдельные физические сервера (чтобы их потоки информации были защищены от других
пользователей и не мешали, в свою очередь, другим). Возникает система
различных тарифов, различающихся главным образом по количеству разрешенных одновременных сеансов тестирования.
378
Практическая тестология
Трехуровневая схема как таковая (с реализацией второго уровня на
физических компьютерах пользователя) предусмотрена в нашей Лаборатории в проекте MAINTEST-5 (см. сайт www.maintest.ru), то есть, кроме личного кабинета (personal account), который разработчик открывает
для пользователя на своем сервере, пользователю поставляется отдельная
программа — клиент-серверный модуль MAINTEST, связанный постоянными сетевыми коммуникациями с личным кабинетом. Кроме повышения производительности для каждого отдельного пользователя, одним из
серьезных преимуществ этой архитектуры является автоматическое решение проблем, связанных с соблюдением Федерального закона РФ №162
«О персональных данных»: персональные данные об испытуемых, которыми располагает пользователь, уже не требуют никакого особого перекодирования, они просто остаются на уровне компьютеров пользователя (в
рамках его организации), а на сервер разработчика поступают протоколы,
снабженные вместо подлинных ФИО шифрокодами-идентификаторами.
Таким образом, различные модули-функции целостной TMS (см.
рис.5.9) распределяются при трехуровневой архитектуре между верхним
и средним уровнями:
— на верхнем уровне целесообразно оставить конструктор тестов TСМ
(аргумент: более опытный разработчик TMS всегда может оказать помощь пользователю, если последний создает свой собственный корпоративный тест знаний),
— также на верхнем уровне лучше локализовать модуль обработки DSM,
что повышает репрезентативность единого банка протоколов на сервере разработчика для психометрических тестов, поставляемых разработчиком;
— на среднем уровне лучше локализовать модуль базы данных DBM и модуль IRT-анализа (это разгружает сервер разработчика от части секретной информации и наиболее емких процессов в плане вычислительной нагрузки);
— на нижнем уровне реализуется тестовый диалог — модуль TDM (впрочем, нередко рациональнее не устанавливать на компьютерах испытуемых специальных программ, а предъявлять на них тест со второго уровня через «тонкого клиента» — универсальный браузер типа
MS Explorer, Android, Mozilla FireFox, Google Chrome, Opera, Safari и т.п.).
В настоящее время в полном разгаре революционный переход от отдельных тестовых программ с одноуровневой или двухуровневой сетевой
архитектурой к трехуровневой архитектуре. Этот переход сопряжен далеко не только с техническими проблемами установки и освоения пользователями новых систем. Требуется ломка определенных психологических
стереотипов, укрепившихся со времен «персонализации вычислений» —
перехода от систем коллективного пользования (Mainframe-архитектуры)
к локальным персональным компьютерам. Трехуровневая организация
Глава 5. Организационно-технологическое обеспечение тестовых систем
379
требует готовности от корпоративного пользователя (от руководящего звена компании-заказчика тестовых услуг) отказаться от такого, казалось
бы, очевидного преимущества, каким многим до сих пор представляется
хранение всей тестовой информации на собственных компьютерах в собственной организации. Но за последние 3 года, в 2010—2012, в России резко
выросло число пользователей (корпоративных пользователей, представляющих организации), которые понимают выигрыш от размещения части
функций TMS и информационных материалов на сервере разработчика:
1) Повышается надежность (сохранность) благодаря профессиональному
и регулярному резервному копированию,
2) Повышается информационная безопасность (особенно если разработчик профессионально организует систему контроля надежности паролей, обеспечивает дополнительную аутентификацию с помощью электронных ключей доступа, аналогов электронной подписи и т.п.),
3) Снижаются издержки на обслуживание (администрирование) системы на собственном сервере,
4) А главное — повышается репрезентативность и другие психометрические свойства универсальных психометрических тестов, во многом
производные от широкой базы данных.
Сходная революция наблюдается при переходе частных пользователей (физических лиц) к хранению собственной персональной информации (вплоть до результатов своих медицинских анализов) на удаленных
сетевых глобальных файл-серверах (как это происходит не только в удаленных почтовых системах типа gmail.com, но и специализированных
для этих целей — типа evernote.com). Все больше пользователей (особенно
после потери бесценной информации вместе с собственными смартфонами, ноутбуками и обычными компьютерами) убеждаются в справедливости известной пословицы: «Подальше положишь — поближе возьмешь».
Как говорил С.А. Пачиков (разработчик evernote.com): «Некоторые пользователи благодарили и признавались мне, что с появлением evernote они
хотя бы знают, где именно надо искать их документы, которые до этого,
если обнаруживались, то в самых неожиданных местах и на очень разных
носителях…».
Трехуровневая архитектура тестовой системы может показаться некоторым читателям с непривычки слишком сложной. Но спешу утешить
таких читателей, что… все познается в сравнении. С некоторыми корпоративными клиентами мы реализуем уже и четырех- и даже пятиуровневые
схемы взаимодействия, потому что крупная организация, имеющая иногородние филиалы, создает личные кабинеты для каждого своего филиала, и тогда головному офису предоставляется «родительский» (старший
в иерархии) веб-кабинет, позволяющий увидеть данные во всех «дочерних кабинетах». В свою очередь, внутри отдельного кабинета страницы
индивидуальных конечных пользователей объединяются в подгруппы,
380
Практическая тестология
соответствующие отдельным подразделениям, и у каждой подгруппы появляется свой пользователь-супервизор (руководитель подразделения) —
со своей особой «рабочей веб-страницей», с которой разрешается переход
(с целью просмотра-доступа) на индивидуальные страницы всех участников из этого подразделения.
Экспертные системы
интерпретации результатов тестирования (EIS)
Данная книга в значительной мере посвящена внедрению и практической эксплуатации тестов с достаточно простой схемой интерпретации
результатов тестирования. Это тесты знаний и профессиональных достижений (умений, компетенций), разделенные на достаточно понятные
тематические блоки. Если каждому тематическому блоку соответствует
определенная шкала (субшкала) теста, имеющая конструкцию так называемой альфа-шкалы (чем выше балл, тем лучше), то такой многофакторный (многошкальный) профиль испытуемого не нуждается в особой интегративной интерпретации.
Дело усложняется с введением понятия «избыточная компетентность»
(overqualification), то есть при установлении оптимума компетенций для
занимаемой должности. Например, сотрудник владеет английским на
уровне advanced, включающим разговорные навыки, когда для данной
работы требуется всего лишь уровень intermediate и навыки чтения англоязычной документации. Так называемые «бета-шкалы» указывают на
эти оптимальные значения, отличные от полюсов (от максимальных значений). В разделе 1.5 «Тестирование и принятие решений» мы уже ввели
и обсудили формулу близости реального профиля к идеальному — профилю самого эффективного сотрудника (то есть к модели компетенций,
реализованной в форме «идеального профиля»). Именно подобный подход
позволяет формализовать учет эффекта «избыточной компетентности»: соискатель с самыми высокими баллами по всем шкалам оказывается обладателем не самого высокого показателя пригодности по сравнению с
кандидатом, обладающим умеренными значениями, но близкими к идеальному профилю.
Но и поправка на близость к идеальному профилю не является достаточной для некоторых сложных индивидуализированных диагностических задач, когда индивидуальный профиль оказывается не похожим ни
на один «типовой», когда «идеального профиля» вообще нет, а тем не менее
требуется дать какие-то рекомендации для принятия решения по этому
человеку. В этих случаях требуется использовать экспертный опыт, который «когнитивными инженерами» переносится в «базу знаний» в виде
некого комплекса эвристических решающих правил. Программирование
этих баз знаний и эвристических правил вывода требует от разработчика
Глава 5. Организационно-технологическое обеспечение тестовых систем
381
овладения особыми языками программирования систем искусственного
интеллекта — Пролог, Лисп и т.п.).
В 2010 году в Санкт-Петербургском госуниверситете К.Р. Червинская
успешно защитила первую докторскую диссертацию в нашей стране по
экспертным системам в психодиагностике (Червинская, 2010). В соавторстве с О.Ю. Щелковой К.Р. Червинская разработала программы, которые
имитируют ход рассуждения опытного психолога-диагноста, анализирующего профиль результатов испытуемого по методике MMPI и ее русскоязычным аналогам (Червинская, Щелкова, 2002). К несчастью, в 2011 году
Ксения Ральфовна безвременно ушла из жизни, но автор книги надеется,
что это направление в программно-методическом обеспечении современной тестологии в России будет развиваться. Близкий по своей общей логике подход к анализу логических комбинаций шкал реализован в отношении теста СМИЛ (аналог MMPI) в работах Л.Н. Собчик (Собчик, 2003).
Определенные перспективы для использования баз знаний в интерпретации тестов открываются с развитием так называемых семантических сетей (иногда это направление в разработках условно обозначают как
«Веб 3.0»). Прототипом для подобных семантических сетей может служить
разработанная нами в соавторстве с В.И. Похилько еще в 90-е годы программа ТЕЗАЛ (ТЕЗарус Автоматизированный Личностный — Шмелев,
Похилько, 1988; Шмелев, 2002). Для того чтобы получить список личностных черт для произвольной психодиагностической методики в экспертную систему ТЕЗАЛ необходимо загрузить список личностных черт, характерных для выявленных у испытуемого значимых факторных шкал.
Программы управления ассессментом (AMS)
На первый взгляд, программы управления ассессментом (AMS) мало
чем должны отличаться от программ управления обучением (LMS), ведь
обучение так же, как и ассессмент, предполагает многообразие различных
оценочно-контролирующих процедур. Кроме тестов, это:
— устный экзамен (аналоги собеседования-интервью в ассессменте),
— это письменные контрольные-эссе (аналог кейс-заданий со свободным
развернутом решением в ассессменте),
— это учебно-имитационные, диагностические игры (аналог деловой
игры в ассессменте)
и т.п.
Казалось бы, что и здесь, и там реализуется некий единый подход с
подсчетом суммарного балла сложением баллов, полученных учащимся
(кандидатом) по различным разделам, причем полученным различным
путем — то выставленным автоматизированной системой, то выставленной преподавателем (экспертом в ассессменте).
382
Практическая тестология
Но все же сам по себе ассессмент имеет определенную специфику
как мероприятие (цикл мероприятий), которое реализуется в виде более
жестко-синхронизированных и компактных по времени сессий, требующих высокой информационной безопасности. Одно дело — это неспешный (в свободном ритме) процесс самообучения: пользователь LMS
в своем ритме неделями и даже месяцами проходит раздел за разделом
в неком обучающем курсе, контролируя сам себя. Другое дело — это
жестко привязанная к работе определенных экспертов компактная ассессмент-сессия, требующая высокой секретности контролирующих
(тестовых) материалов, высокой точности реального взаимодействия
всех участников во времени и месте спланированных мероприятий
и т.п. Ассессмент-сессия имеет очень много общего с экзаменационной
сессией — этим особым периодом в циклах обучения, который характеризуется наличием исключительно оценочных, а не обучающих мероприятий. Преподаватели, оказывающиеся на сессии в роли экзаменаторов (членов экзаменационных комиссий), — это фактически эксперты,
которые осуществляют экспертную оценку знаний — «образовательный
ассессмент». Таким образом, ассессмент-системы AMS — это фактически
особый режим в рамках LMS, а именно режим обеспечения экзаменационной сессии.
Ниже кратко перечислим ряд специфических задач, которые помогают решить AMS-системы (или LMS в особом режиме «сеанса аттестации»):
— контроль допуска к экзаменам (по количеству набранных очков в ходе
текущего контроля и предварительных оценочных мероприятий, по
заполненным полям учетной карточки участника и т.п.),
— планирование расписания оценочных мероприятий в ходе сессии
(расписание экзаменов),
— запись обследуемых на определенные сеансы оценочных мероприятий (дата, время и аудитория — с учетом пропускной способности аудиторий, в частности, компьютерных классов),
— аккредитация разрешенных компьютерных рабочих мест (так,
чтобы исключить возможность выполнения оценочных мероприятий, в частности, квалификационных тестов с компьютеров, подключенных к локальной сети по беспроводному соединению WiFi,
за пользователями которых не ведется очного наблюдения супервизоров),
— онлайн-мониторинг процессов выполнения оценочных мероприятий
с центрального сетевого компьютера (с рабочего места старшего экзаменатора или менеджера-организатора сессии),
— случайный выбор вариантов оценочных процедур (экзаменационных
билетов) самим обследуемым (экзаменуемым),
— разветвление последовательности оценочных процедур для разных
подгрупп обследуемых (экзаменуемых),
Глава 5. Организационно-технологическое обеспечение тестовых систем 383
— предъявление для каждой оценочной процедуры пошаговых инструкций, специфичных именно для аттестационного сеанса (экзаменационной сессии),
— расчет итогового балла (экзаменационного балла) с учетом различного
веса различных оценочных процедур,
— редактирование логических формул перевода итогового балла в вербальные оценки-категории «отлично», «хорошо» и т.п.
На рисунке-скриншоте 5.11 приводится пример особого редактора, позволяющего создать пошаговые инструкции для каждой оценочной процедуры в ходе сеанса аттестации, ввести формулы расчета итогового балла и перевода в вербальные категории оценок-грейдов — «отлично», «хорошо» и т.п.
Рис.5.11. Редактор пошаговых инструкций для сеанса аттестации (экзаменационного режима работы) в системе HT-LINE LMS.
Конечно, обыкновенное суммирование баллов по разделам (процедурам) не требует сложного интерактивного аппарата управления расчетами. Но в нашей собственной практике педагогической работы со студентами по курсу «Основы психодиагностики» в МГУ возникла, например,
такая задачка: учесть в суммарном накопленном балле (СНБ) максимальный результат из двух попыток сдачи студентом тестового экзамена.
Для того, чтобы реализовать такой подход, разработчику HT-LINE LMS
Н.Н. Страхову пришлось создать механизм интерактивного ввода-редактирования формул, включая формулу, возвращающую максимум из двух
переменных, — max(X, Y). На рисунке-скриншоте 5.12 приводится пример
практического применения созданного редактора формул.
384
Практическая тестология
Рис.5.12. Редактор формул для расчета суммарного накопленного балла
(СНБ) в системе HT-LINE LMS.
Таким образом, программная система HT-LINE LMS обеспечивает все
указанные выше функции в специальном режиме «аттестация-экзамен»,
поэтому может служить примером программы управления ассессментом
(AMS).
Конечно, овладение подобными достаточно сложными инструментами управления (планирования, выполнения и контроля) вызывает,
особенно на первых шагах, трудности. У пользователей может сложиться
впечатление, что проще «работать по старинке», чем осваивать такие сложные инструменты. Поэтому завершая данный раздел 5.2, сформулируем
некий общий тезис-рекомендацию:
Для овладения сложной логикой систем планирования и управления комплексными оценочными проектами (тестовыми, экзаменационными или ассессмент-сессиями) рекомендуется последовательно освоить работу в этих системах в различных ролях, начиная
с более простых: вначале в роли обследуемого (на особом имитационном семинаре-тренинге, где роли преподавателей и менеджеров
выполняют опытные ведущие), затем в роли преподавателя-эксперта, и лишь на третьем этапе в роли главного менеджера-координатора проекта, причем вначале, разумеется, под руководством опытного наставника.
Глава 5. Организационно-технологическое обеспечение тестовых систем 385
5.3. ОСОБЕННОСТИ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ
В ЭПОХУ ИНТЕРНЕТА
Если еще в начале 80-х годов 20-го века при появлении дисплейных
классов на базе мини-ЭВМ компьютерное тестирование и компьютерная
психодиагностика обсуждались во многом лишь как перспектива (Шмелев, 1984), то приход массовых персональных компьютеров сделал через
пять лет эту перспективу актуальной реальностью (Шмелев, 1990). А уже
следующее, последнее десятилетие прошлого века ознаменовалось массовой компьютеризацией не только научных психологических лабораторий, но и рабочих мест практических психологов на предприятиях и в
организациях. Персональные компьютеры все чаще стали использоваться
не только для подготовки и обработки результатов тестирования, но в ходе
самого тестирования — для предъявления тестовых заданий и фиксации
ответов испытуемого. Постепенно из передовых научных лабораторий в
массовую практику тестирования стали приходить такие новые технологические возможности, которые связаны с компьютерной революцией и о
которых мы уже вели и будем вести речь в этой главе:
— случайное формирование вариантов тестов на основе банка заданий,
— индивидуальный хронометрический контроль и регистрация времени решения заданий,
— адаптивное тестирование (приспособление последовательности заданий к испытуемому),
— мультимедийная стимуляция (сочетание словесной, графической,
слуховой и прочей стимуляции вплоть до анимационных роликов в
качестве стимульных объектов),
— интерактивная настройка стимульного материала на индивидуальные ответы, полученные от самого испытуемого в ходе первых этапов
тестирования (пример — репертуарный тест личностных конструктов
на компьютере и т.п.),
— и, наконец, применение сложных многоэкранных игровых и имитационных тестов, в которых использованы фактически все возможности, перечисленные выше.
Но все эти инновации на рубеже веков затмило появление Интернета.
Точнее, часть из упомянутых выше инноваций стали в эпоху Интернета
более активно внедряться и распространяться, а часть в какой-то степени
«притормозились», ибо Интернет привнес с собой такие масштабы тестирования, которые подтолкнули скорее к экстенсивному росту в плане распространения традиционных методик (к их большей массовости), чем к
интенсивной работе над новыми методическими решениями.
Темп технических коммуникационных инноваций в эпоху Интернета (или в эпоху телекоммуникационной революции, совпавшей с компьютерной революцией) стал настолько стремительным, что многие
386
Практическая тестология
тестологи-разработчики в течение первого десятилетия 21-го века (да и
до сих пор!) тратили больше сил лишь на то, чтобы поспевать за техническим прогрессом, чем углубленно развивать что-то качественно новое.
Главная черта Интернета — это скорость распространения тестов не только среди пользователей-администраторов, проводящих тестирование на
других испытуемых, сколько, прежде всего, среди пользователей-испытуемых, выполняющих тестирование на себе. Аудиторией, на которую потенциально сориентирован любой тест, «выложенный в Интернет», стал
ВЕСЬ МИР (!) или, по крайней мере, та его часть, которая говорит (читает) на языке предлагаемого теста. Сами пользователи-испытуемые могут
настолько легко пересылать друг другу ссылку на заинтересовавший их
тест (не только по электронной почте, но и на популярных форумах, а чуть
позднее — в социальных сетях), что роль пользователей-администраторов,
являющихся посредниками между разработчиком теста и испытуемыми,
если не отмирает, то становится незначительной, по крайней мере в плане
распространения теста. Возникла новая социально-психологическая ситуация, новая инфраструктура взаимодействия между разработчиками,
пользователями-администраторами и пользователями испытуемыми.
Она породила новые перспективы, с одной стороны, но и новые проблемы
и риски — с другой.
Самотестирование в Интернете и проблема достоверности
Итак, в эпоху Интернета, особенно среди молодежи, удобным и модным развлечением стало проходить тесты в интерактивном онлайн-режиме с немедленным получением обратной связи в виде результатов — в
количественном и текстовом выражении. Посещаемость некоторых сайтов с популярными тестами для измерения IQ, а также личностными развлекательными методиками достигает нескольких тысяч пользователей
в день (!), а суммарная численность соответствующих запросов в поисковиках — десятки тысяч в день только в одном русскоязычном Интернете
(Рунете). Численность группы «Тесты» в популярной молодежной социальной сети Vkontakte.ru к концу лета 2012 года достигла почти 60 тысяч человек. А ведь там же есть еще группы, сходные по тематике: «тесты FORYOU»
(45000), «Психологические тесты» (19000), «Тесты и головоломки» (19000),
«Приворот. Тесты и снятие порчи и сглаза» (12000), «Бесплатные психологические тесты» (5500) и множество более мелких. Но нужно учесть, что
большинство пользователей предпочитают оставаться анонимными и вовсе не регистрируются в каких-то постоянных группах. В глобальной сети
можно найти сотни одних только тестов интеллекта. Об уровне авторов
(точнее сказать, «провайдеров», или поставщиков») этих тестов красноречиво говорит такое обращение к подписчикам (участникам) группы «Бесплатные психологические тесты»:
Глава 5. Организационно-технологическое обеспечение тестовых систем
387
Автор сообщения Shinigami You-Ki: Данный тест «раскроет» ваш мозг. Реальные данные вашего IQ. Сервис платный. Но сумма небольшая. Единственное,
что отличает такой тест от других — его актуальность и его 100% достоверные
данные. Поэтому и платно. Добро пожаловать.
Понятно, что эта группа не слишком тщательно модерируется, если,
несмотря на название «бесплатные тесты», здесь, как мы видим, предлагается платный тест. Если еще пять-семь лет назад (в середине нулевых
годов) тесты на сайтах позволяли держателям подобных сайтов получать
очень незначительный доход от баннерной рекламы (на каждом вопросе теста менялся рекламный баннер, тем самым резко увеличивая число показов), то в десятые годы разработчики любительских тестов стали
активно брать плату и с самих пользователей-испытуемых — через SMSплатежи с мобильных телефонов и другие платежные системы.
Итак, кто же является поставщиками такого массового предложения?
Это, прежде всего, молодые (а иногда просто совсем юные) программисты-одиночки или мелкие компании, освоившие не только создание так
называемых «приложений для социальных сетей», но и «подкрутившие»
к своим тестам определенные системы приема Интернет-платежей — перечисления «электронных денег» с одних электронных кошельков на другие. Спрос и предложение пошли рука об руку, и возникла целая отрасль
мелкой коммерции.
Эта новая ситуация создает неоднозначные последствия для развития
тестологической практики и тестологической культуры. Не все они отрицательные, часть из них вполне положительные. Но все эти последствия
обязательно надо учитывать, создавая собственную систему тестирования в своей организации, так как самые главные ее участники — испытуемые — существуют не в вакууме, а формируют свои представления о
тестах и тестировании на массовых и доступных Интернет-сайтах и соцсетях. Попробуем назвать, по крайней мере, главные и очевидные последствия:
1) Тренинг определенных компьютерных навыков пользователей-испытуемых. Это, очевидно, некоторое положительное последствие. Если
ранее (в 90-е годы) до основного тестирования испытуемому требовалось предложить какую-то тренировочно-ознакомительную серию
заданий, чтобы он просто освоился с интерфейсом тестового диалога,
то теперь это делать совсем не обязательно. Нужно просто опираться
на тот формат тестового диалога, который является в Интернете наиболее популярным для развлекательных тестов, то есть проектировать
тестовый диалог в формате так называемого «веб-интерфейса»: радиокнопки, чек-боксы, клавиши «дальше», «назад», строки ввода, движки
прокрутки экрана и т.п. Впрочем, эти интерактивные элементы характерны для веб-интерфейса вообще, а не только для развлекательных тестов. Все это уже во многом стандартизировано, и разработчику
388
Практическая тестология
приходится с этим считаться. Автор об этом факте пишет не голословно, а знает ситуацию по опыту выполнения тестов на скорость большим количеством Интернет-пользователей, а также студентов-первокурсников. Все они выходят на такой тест уже отлично подготовленными.
2) Возросшая психологическая готовность и привычка выполнять тесты.
Это тоже положительное последствие. Одновременно с формированием
пользовательских навыков постоянно растет общая готовность пользователей выполнять тесты, причем такие, в которых требуется выполнять задания очень быстро. Конечно, нельзя до сих пор сказать, что все
пользователи психологически готовы к такому режиму работу (об этом
см. параграфы этой книги, посвященные экзаменационной и компьютерной тревожности). Но все же ситуация значительно изменилась за
последние годы. Теперь двадцатилетние пользователи-испытуемые
воспринимают и компьютеры, и тесты гораздо легче, чем люди старших поколений, не получившие в юности подобного опыта.
3) Стимулирование и развитие самопознания. Это неоднозначное последствие. С одной стороны, сама потребность самопознания в процессе ее удовлетворения развивается и укрепляется. И это приводит к
личностному росту и другим положительным социальным эффектам.
Но… более осведомленные о своих личностных свойствах люди, а также более рефлексивные в отношении особенностей тех или иных тестов, могут более изощренно искажать информацию, если посчитают
это для себя выгодным.
4) Утечка секретной методической информации. А вот это однозначно негативное последствие. Многие пользователи-испытуемые мечтают заранее пройти те самые тесты, которые им могут предложить во время
конкурсного (или аттестационного) тестирования. Этот неправедный
спрос, конечно, тоже порождает столь же неправедное предложение.
Пользуясь возможностью создавать анонимные сайты, их создатели,
объявляя себя сторонниками так называемого «свободного распространения информации» (а на самом деле являясь «стяжателями посещаемости любой ценой») выкладывают туда все, что им удалось добыть — экзаменационные тесты на правила дорожного движения, тесты ЕГЭ (которые, якобы, будут в «следующем году»), тесты профотбора
на востребованные офисные специальности, популярные личностные
психологические тесты и т.п.
Наши опросы, которые мы проводили среди коллег-разработчиков тестов
в последние годы (в частности, в блогосфере на сайте www.ht.ru), показывают,
что сами разработчики до сих пор не вполне осознают (не все осознают), что
нынешняя ситуация выдвигает совершенно иные требования к режиму профессиональной (коммерческой тайны), к информационной безопасности при
распространении тестовых технологий (Шмелев, Науменко, 2009). Если еще
Глава 5. Организационно-технологическое обеспечение тестовых систем 389
на рубеже 21-го века в специализированных журналах можно было открыто
публиковать тесты целиком (в уверенности, что эти журналы никто, кроме
профессиональных пользователей и разработчиков тестов, не читает), то сейчас это делать слишком неосмотрительно: их читают и ими активно пользуются Интернет-пираты, создающие откровенно пиратские тестовые сайты
(не буду здесь их перечислять, чтобы не создавать им дополнительной рекламы, но выйти на них через поисковые сервера не составляет особого труда).
В новую эпоху требуется совершенно иной, гораздо более высокий уровень
профессиональной солидарности разработчиков и профессиональных пользователей-администраторов — с тем, чтобы оберегать создаваемые с таким
трудом профессиональные инструменты от их стремительной девальвации
из-за «эффекта разглашения» (disclosure). Жизнь любого теста итак коротка в
силу того, что «эффект разглашения» включается в определенном объеме после всякого нормального (санкционированного) проведения теста. Но если
происходит утечка (несанкционированное копирование и предъявление), то
тест может «умереть» еще до первого массового официального применения.
Готовы ли нынешние пользователи тестов работать в этих условиях? Нет,
далеко не все. Некоторые совсем не понимают, почему любое дополнительное
копирование самых секретных тестовых компонентов (ключей и норм) создает дополнительный риск утечки, не понимают, почему самой секретной
(самой свежей) должна быть новая версия теста, доступная непосредственно
с сервера разработчика — в режиме «личного кабинета». А попытки получить
тест «в руки», на «собственные сервер» (в распоряжение собственной организации) повышает риск утечки, так как расширяется круг лиц, которые имеют
к тесту доступ и при этом совсем мало заинтересованы в режиме секретности (например, некоторые юные и несознательные «перелетные сисадмины»,
которые работают в одной организации лишь несколько месяцев, а затем перелетают в другую, а иногда являются внештатными специалистами, обслуживающими одновременно несколько организаций).
Серьезные профессиональные провайдеры тестовых услуг с мировым
именем (такие, как SHL, например) не случайно настаивают на предъявлении тестов в Интернете с размещением на своем собственном сервере. Это связано вовсе не только с одной лишь жадностью — стремлением
брать деньги за каждую отдельную обработку результатов, но во многом
и со стремлением обеспечить достоверность тестовых результатов (защиту от фальсификаций) и продлить жизнь тестовым инструментам. При
этом роль профессиональных пользователей-администраторов вовсе не
отмирает, а на самом деле РАСТЕТ: в их задачи входит обеспечение информационной безопасности на местах (в тех аудиториях, где открывается
доступ к онлайн-тестам) — ввод секретного пароля доступа к секретным
веб-страницам с профессиональными тестами, очное наблюдение за тем,
как участники выполняют тест (не подсказывают ли друг другу соседи,
не подглядывают ли в шпаргалки, не открывают ли запрещенные окна со
справочной информацией и т.п.).
390
Практическая тестология
Телетестинг и модель «онлайн-обработка»
В 1997—2001 годах автор книги являлся руководителем группы разработчиков, создавших и оформивших патент на систему тестирования
«Телетестинг» (Шмелев, 1997б; Шмелев, Серебряков, Ларионов, 1999). Некоторые идеи этого проекта сохранили свою актуальность и по сей день,
несмотря на то, что разнообразие моделей сетевого тестирования с тех пор
резко возросло.
Обычное онлайн-тестирование предполагает работу пользователя в режиме онлайн — актуального соединения компьютера пользователя с сервером, на котором размещен тест. Происходит двухсторонний обмен данными
между компьютером пользователя («клиентом» в сетевой терминологии) и
сервером — так, как это изображено на схематическом рисунке 5.13а
.
Рис.5.13а. Модель обмена данными «Онлайн-диалог».
В 90-е годы онлайн-соединение было еще очень неустойчивым во многих
пунктах региональной сети «Телетестинга» (а она к 2001 году насчитывала
почти 150 представительств по России). Это, а также ряд других обстоятельств
вызвали к жизни схему «Онлайн-обработка» (рис.5.13б): в этом случае пользователь «скачивает» тестовый модуль из собственного персонального раздела
на сервере разработчика, проводит само тестирование в режиме оффлайн, а
затем (во время второго подключения) подкачивает на сервер все протоколы,
собранные в единый архив, для их оперативной обработки.
Рис.5.13б. Модель обмена данными «Онлайн-обработка».
При этом в персональном, защищенном паролем разделе на сервере
разработчика самому профессиональному пользователю доступны данные тестирования, накопленные только в его собственном центре, и не доступны данные других пользователей-администраторов. Интересно заметить, что в проекте «Телетестинг», в отличие от системы HT-LINE, мы еще
не использовали термин «Личный кабинет», но персональный закрытый
Глава 5. Организационно-технологическое обеспечение тестовых систем
391
раздел функционировал уже именно как персональное пространство на
сервере разработчика (personal account). Важно подчеркнуть, что «личный кабинет» предоставляется не пользователям-испытуемым, а именно
пользователям-администраторам. Тем самым данный подход не ослабляет, а укрепляет роль профессиональных пользователей тестов.
Переход к такой схеме сотрудничества между пользователями и разработчиками, какую предполагала технология «Телетестинг», означал
революцию, прежде всего, в количестве собранных протоколов тестирования. Если в течение 80—90-х годов разработчики жили буквально «на
голодном пайке» — большинство пользователей никогда не снабжали разработчиков результатами, накопленными в собственной организации, то
с появлением схем, подобных «Телетестингу», у разработчиков вскоре появились многотысячные массивы данных, автоматически обеспечивающие репрезентативность психометрических тестов.
Веб-портфолио результатов тестирования
Понятие «веб-портфолио» появилось в эпоху Интернета в связи с потребностью представлять работодателям некую сумму образовательных и
производственных достижений кандидата на определенную должность.
Если в 90-е годы кандидаты ограничивались главным образом отсылкой резюме по электронной почте, то в 2000-е годы они стали все чаще создавать
в Интернете презентационные «страницы-визитки», или «сайты-визитки»,
которые содержали постоянно обновляющуюся информацию о достижениях. Наличие такой веб-страницы облегчает объединение информации от
разных пользователей, в частности, от рекомендателей (последние сами в
любой момент могут проконтролировать, какую именно информацию от
их имени публикует кандидат или корректно ли работает гиперссылка на
их собственные веб-страницы в рамках социальной сети и т.п.). Позднее понятие веб-портфолио стало проникать и в сферу образования — как некий
веб-аналог дневника (послужного списка) образовательных достижений
учащегося, находящегося в открытом доступе в Интернете.
Что такое данные тестов? Это тоже сведения об определенных достижениях кандидата (или учащегося). Но зададимся вопросом, как эти данные
должны попадать на персональные презентационные страницы (сайты) —
благодаря ручной работе самого хозяина страницы или автоматически?
Очевидно, что в первом случае доверие таким тестовым данным, которые
«по дороге» сам испытуемый может отредактировать, не слишком велико.
А вдруг кандидат что-то при этом приукрасил? Гораздо более достоверной
выглядит такая тестовая информация, про которую ее потребитель (работодатель) точно знает, что она размещена на веб-портфолио автоматически — в результате работы тестовой программы, неподконтрольной испытуемому, а подконтрольной разработчику (или провайдеру) теста.
392
Практическая тестология
Где и как, на каких сайтах могут и должны размещаться подобные
персональные веб-страницы? Кто должен иметь к ним доступ? В зависимости от назначения веб-портфолио на эти вопросы можно ответить
по-разному. Одно дело, когда испытуемый может по своему усмотрению открыть или закрыть доступ к подобным страницам для других
пользователей (например, сообщив кому-то пароль). Эта ситуация будет во многом аналогичной той, которая складывается в отношении результатов медицинских анализов, полученных в независимых диагностических медицинских центрах на условиях конфиденциальности:
сам пациент не может ничего изменить в распечатке с результатами
анализа, но может решить, кому и когда можно показать эту распечатку.
Другую ситуацию нужно обозначить другим термином, например,
«веб-досье». В отличие от портфолио сам испытуемый не может произвольно управлять доступом к своему «веб-досье», ибо этот информационный ресурс не принадлежит ему, а лишь в лучшем случае становится ему известным и доступным наряду с другими пользователями
этой информации. Во многих корпоративных системах тестирования
индивидуальные страницы испытуемых, где накапливаются результаты подобных тестирований, скорее имеют статус «веб-досье», чем
«веб-портфолио». Этими данными управляет администратор корпоративной базы данных в интересах ЛПР (лиц, принимающих решение) в
данной организации.
Важным технологическим условием создания и «веб-портфолио», и
«веб-досье» является возможность устойчивой идентификации одного
и того же испытуемого при выполнении разных тестов. В социальных
сетях веб-портфолио могут автоматически накапливаться на личных
страницах участника сетевого клуба, тогда функцию идентификаторов
принимают на себя параметры авторизации — логин и пароль участника сети. В отсутствие сети тестовая система TMS должна сама содержать в себе возможности подобной идентификации испытуемых —
должна предусматривать систему «учетных записей» (или карточек)
для каждого испытуемого, индивидуальные логины и пароли. Без этого накопление веб-портфолио оказывается невозможным.
К сожалению, в настоящее время лишь немногие пользователи тестов понимают необходимость использования постоянных учетных
записей в ходе корпоративного тестирования. Мы наблюдаем временную переходную стадию: на сотрудниках многих организацией проводится множество тестов в режиме онлайн с использованием технологии «Личный кабинет», но… при этом каждый тест запускается
как бы сам по себе — с запросом несколько различной идентифицирующей информации об испытуемом (в одном тесте требуется фамилия, в другом — псевдоним, в четвертом — табельный номер, в одном
тесте требуется возраст, в другом — дата рождения, в третьем — код
Глава 5. Организационно-технологическое обеспечение тестовых систем 393
подразделения и т.п.). Такая ситуация предполагает огромное количество ручной работы по переносу всей этой разношерстной информации в единую базу данных. А ведь выход простой (хотя и требующий
усилий на первом этапе) — освоить систему учетных записей, которая присутствует в каждой сколь-нибудь развитой обучающей или тестовой системе.
На рисунке-скриншоте 5.14 читатель может познакомиться с личной страницей участника «Клуба испытателей тестовых технологий»
(КИТТ), созданного на сайте www.ht-line.ru под руководством автора книги. В этом случае мы имеем дело именно с веб-портфолио, поскольку участник клуба сам может менять пароль доступа к своей вебстранице, копировать и отсылать кому-то ссылки на страницы с результатами пройденных тестов, которые хранятся в системе много лет
для каждого из более 5000 членов клуба.
Рис.5.14. Пример веб-портфолио с результатами тестирования — личная
страница участника онлайн-клуба КИТТ (Клуба испытателей тестовых
технологий) на сайте www.ht.ru.
Условный участник клуба Иванов И.И., как видим, из двух тестов, попавших на скриншот 5.14 (всего на персональной странице их около 40),
прошел второй, но не прошел первый. В графе второго теста БАТ-1 мы видим гиперссылку на страницу с индивидуальными результатами испытуемого. Открыв «блок команд управления», сам участник клуба может
изменить любое поле своей учетной карточки — псевдоним, пароль, личную фотографию и т.п.
394
Практическая тестология
Распределенные базы тестов
и тестовых заданий в Интернете
А существует ли уже сегодня такая техническая возможность, чтобы
на одной веб-странице испытуемого автоматически появлялись результаты разных тестов, созданных разными разработчиками, то есть размещенных на разных серверах? Пока автор книги нигде не встречал подобной реализации, если говорить о специализированных тестовых системах. Но самые модные и продвинутые по функционалу социальные сети
близки к этому (типа Facebook, Vkontakte). В этих сетях уже сегодня различные разработчики размещают созданные у них на сервере компьютерные игры с помощью особого стандартизированного интерфейса взаимодействия с внешними программами — API (application program interface).
Так что указанная возможность будет, очевидно, реализована уже в
самое ближайшее время. На сегодня здесь больше политических и экономических барьеров, чем технических проблем. В том, в чем заинтересованы пользователи тестов (в интеграции и унификации тестов, созданных
разными разработчиками), пока не слишком заинтересованы сами разработчики, разобщенные по разным коммерческим компаниям, имеющим
несовместимые коммерческие интересы. Но как только появится достаточно мощная экономическая мотивация к такой интеграции, тут же все
технические проблемы будут решены. Именно по этим причинам многие
разработчики компьютерных игр охотно продвигают свою продукцию в
социальные сети — тем самым они многократно повышают тиражи своей
продукции. Таким образом, распределенные базы тестов, доступных из
собранных в одном месте каталогов, — это дело самого ближайшего будущего. По ссылке с названием теста на своей собственной странице пользователь-испытуемый будет вызывать и проходить тест, который создан
определенным разработчиком, протокол ответов будет обрабатываться
на сервере разработчика, а результат (профиль и текстовой портрет) будет
опять-таки доступен с личной веб-страницы пользователя той или иной
интегральной системы (социальной сети, в частности, хотя специализированная тестовая система напрашивается здесь хотя бы потому, что
пользователи вовсе не хотят, как правило, показывать свои результаты тестирования всем своим «виртуальным друзьям»).
Таким образом, мы будем наблюдать все более и более укрепляющиеся
двухсторонние связи между пользователями-испытуемыми и разработчиками тестов,— это очевидная и прогнозируемая тенденция. Ну а как же в
эти взаимоотношения будут вклиниваться пользователи-администраторы
(менеджеры-тестологи)? Неужели они окажутся на вторых ролях — зависимыми от того, захочет ли им показать свои тестовые результаты какой-то человек или не захочет. Нет, конечно. Будут развиваться и тестовые системы,
ориентированные на принцип «веб-досье», то есть управляемые не испытуемыми, а теми лицами, которые заказывают тестовые результаты, то есть
Глава 5. Организационно-технологическое обеспечение тестовых систем 395
администраторами. В системе HT-LINE уже сегодня реализована возможность такой гибкой перенастройки личного веб-кабинета менеджера-тестолога (не требующей дополнительного программирования) — со страницы
пользователя-испытуемого просто удаляется возможность редактирования
испытуемым своей карточки, а также включается возможность парольной защиты результатов от самого же испытуемого — новый функционал,
открытый именно владельцам личных кабинетов (не путать с личными
веб-страницами для испытуемых). Тем самым в то время как в одном вебкабинете может быть реализован проект типа онлайн-клуба испытателей
тестовых технологий, построенный по принципу «веб-портфолио», в другом кабинете личные страницы испытуемый получают статус «веб-досье» и
полностью управляются другим лицом — владельцем веб-кабинета, получающим возможность открывать и закрывать тестовые сессии, показывать или
закрывать от испытуемых полученные ими результаты и т.п. Тем самым в
рамках одной системы один кабинет функционирует как «открытый клуб», а
другой кабинет — как закрытая корпоративная система тестирования.
Отдельный разговор — о тестовых заданиях. Очевидно, что особые
возможности для создания мощных банков тестовых заданий возникнут в ближайшее время. И произойдет это благодаря особым сервисам,
обеспечивающим совместную работу в одном операционном пространстве (в одном кабинет-проекте) сразу нескольких авторов тестовых заданий. На платформе HT-LINE в Лаборатории «Гуманитарные технологии»
мы проводим уже несколько лет семинар-тренинг по конструированию
тестов с практикумом, на котором когда каждый слушатель создает свой
набор тестовых заданий по какой-то общей тематике (компьютерная грамотность, знания по делопроизводству, статистике и т.п.) не отдельно от
других, а в едином веб-кабинете. Нажатием одной кнопки «слить тесты в
единый» ведущий семинара немедленно может объединить индивидуальные маленькие тесты в единый большой банк заданий, который затем
предъявляется единой выборке испытуемых-добровольцев, так что все
участники семинара получают ценную статистическую обратную связь
по созданным им заданиям.
Другое решение, предусмотренное в той же системе HT-LINE, предполагает большую взаимную независимость авторов тестовых заданий.
В этом случае создается система из так называемых «дочерних кабинетов», которые подчиняются одному «родительскому кабинету». Пользователь каждого дочернего кабинета (рядовой автор) может видеть только
собственные тестовые задания, зато пользователь родительского кабинета может видеть задания всех авторов и может их объединить в единый
банк, пригласив каждого автора для перекрестной онлайн-экспертизы тестовых заданий, созданных другими авторами. Режим экспертизы проиллюстрирован в главе 3 на рисунке 3.12. Такое решение подходит для
работы с опытными авторами, которые могут находиться в отношениях
определенной конкуренции друг с другом.
396
Практическая тестология
Но дальнейший шаг в развитии также легко предвидеть. Это будет
уход от банков заданий, созданных на одной платформе и одном сервере,
и переход к банкам заданий, которые хранятся на разных серверах (технология хранения и слияния, подобная той, что используется уже сегодня
при скачивании фильмов, хранящихся по кусочкам на разных сайтах, —
технология «торрент-порталов»). Определенные технические предпосылки для распределенных банков тестовых заданий такого типа уже есть —
это стандартные системы описания тестовых заданий в стандартах и
форматах SCORM или IMSQTI. Выигрыш от такого подхода весьма велик
и вскоре станет очевиден не только для единичных передовых разработчиков, но и для профессиональных пользователей тестов — это повышение информационной безопасности тестовых материалов. Нельзя будет
«утащить» весь банк, взломав какой-то один сервер, нужна еще и особая
программа, агрегирующая задания с разных серверов по определенному
алгоритму. И опять-таки технических проблем здесь на сегодня меньше,
чем проблем, связанных с нынешним отставанием специалистов в уровне их профессиональной ориентировки в новом глобально-интегрированном информационном мире.
Виртуальные профессиональные сообщества тестологов
Дефицит взаимопонимания и согласованных действий между разработчиками и профессиональными пользователями может быть ускоренно
сокращен в рамках особых виртуальных профессиональных сообществ.
Наш опыт создания подобного сообщества на сайте www.ht.ru показал,
что мало просто собрать в одном месте электронные адреса и фотопортреты известных специалистов, надо проделать немалую работу по выработке содержательной повестки дня в работе этого сообщества, найти формат
общения, соответствующий доминирующим установкам и ожиданиям.
Если в рассылках, приходящих по электронной почте, их ничего не заинтересует, специалисты, скорее всего, будут просто игнорировать большинство таких рассылок и ни разу не зайдут на веб-страницу сообщества.
В этом небольшом параграфе, посвященном виртуальным сообществам, мы не имеем возможности, да и не видим смысла повторять содержание довольно большой статьи, выпущенной автором книги в журнале
«Образовательная политика» — «Коммуникация, кооперация и конкуренция в самоорганизующихся профессиональных Интернет-сообществах»
(Шмелев, 2010). Важно подчеркнуть некоторые организационные принципы, которые были эмпирическим путем нащупаны автором в ходе живой
работы по организации Интернет-сообщества на www.ht.ru:
1) Сложившихся специалистов несколько проще вовлечь в коллективную работу сообщества, если предоставить им определенное суверенное пространство с широкими авторскими правами. В этом смысле
Глава 5. Организационно-технологическое обеспечение тестовых систем
397
проще начать интеграцию с создания системы авторских блогов (авторских форумов), чем с ходу приступить к совместной работе над
какими-то общезначимыми документами (в режиме коллективного
Wiki-редактора). Новый специалист в сообществе на www.ht.ru часто
приглашается на виртуальное интервью как «гость месяца», и для этого ему выделяется персональный блог-форум, открытый для любых
вопросов.
2) Чтобы преодолеть инерцию и пассивность на начальных этапах, необходимо настраивать достаточно «агрессивную» систему приглашающих рассылок по почтовым адресам — такую, которая оповещает буквально каждого члена сообщества почти обо всех новых сообщениях,
появляющихся на блогах-форумах сообщества. То есть вначале следует
по умолчанию всех подписать на все блоги, предоставив возможность
избирательной «отписки», нежели сразу же начинать с обратного — предоставлять права активной подписки на выборочные блоги. Вторая возможность была также апробирована и дала… нулевой результат: потенциальные участники сообщества были недостаточно мотивированы,
чтобы активно подписываться на чужие блоги и включались в совместные обсуждения только в том случае, если их активно вовлекали в это
несколько «навязчивые» автоматические оповещения и рассылки.
3) Ориентировку в статусе различных информационных ресурсов невозможно создать «на словах» — нужен практический опыт знакомства с
этими ресурсами. Например, трудно объяснить, что подпроект «Указатель методика-автор» не содержит никакой методической информации по самим методикам, но содержит лишь отсылки (гиперссылки)
к определенным сайтам и адресам, где эти материалы можно найти
и спросить у самих авторов разрешение на использование методики
в некоммерческих целях (без посредников, напрямую). Только включенный опыт использования этого проекта в контексте собственной
научной работы или руководства своими студентами и аспирантами
позволяет это осмыслить. Таким образом, практическое воплощение
идеи «распределенной базы тестов» крайне трудно осуществить изза существующих достаточно жестких стереотипных ожиданий: все
стремятся создать собственную базу на «своей территории». То, что
Интернет — особое информационное пространство, стирающее определенные границы и трансформирующее понятие «своя территория»,
с огромным трудом постигается участниками с другим историческим
опытом.
4) Необходимо разъяснять новую реальность не на словах, а создавая
какие-то конкретные проекты и вовлекая в них специалистов. Пример
проекта, который может показаться несерьезным, но все-таки облегчает психологический порог (барьер) подключения коллег к совместной
работе: создаем вместе новый Тест Юмористических Фраз, то есть вместе собираем для него афоризмы.
398
Практическая тестология
5) Проводя опросы и подготавливая совместные решения (коллективные
документы), нужно крайне осмотрительно и церемонно относится к
использованию голосов участников. Как сочетать при этом анонимность (желательную на первых порах для многих участников) и возможность контроля достоверности итоговых данных (сколько именно
«за», сколько «против» определенного проекта)? Участники сообщества
должны позволять публиковать на форумах сообщества итоговые результаты опроса в анонимной форме.. В результате сам участник может проконтролировать правильность использования его голоса, но не
раскрывает перед всеми участниками свою позицию.
6) Для продвижения инноваций нужно опираться скорее на узкую группу активистов (5—10 человек — не более!), чем привлекать более широкую группу специалистов (в 100—200 человек). Широкие группы чаще
всего охвачены консервативными и пессимистическими настроениями. На рисунке-скриншоте 5.15 приведены результаты опроса-голосования по перспективам создания системы сертификации в области
психодиагностики. Многие респонденты сформулировали в 2008 году
консервативно-пессимистический прогноз, а ведь уже в 2011 году на
5-м съезде РПО были торжественно вручены первые сертификаты специалистам и авторам сертифицированных методик (благодаря огромным усилиям прежде всего челябинской команды под руководством
Н.А. Батурина).
7) Для ускоренного формирования дееспособного сообщества крайне не
хватает очных встреч в режиме «выездного семинара с погружением», который многократно бы ускорил процессы командообразования
(взаимного доверия) и освоения определенных технических навыков.
Именно в ходе таких семинаров задачу создания совместных распределенных банков методик и тестовых заданий можно и нужно поставить и начать решать совместно.
Какие серьезные продукты появились в результате деятельности
И-сообщества? Это план выпуска журнала рецензий на методики, вокруг
которого сплотился коллектив наиболее активных и влиятельных участников сообщества; новая программа курса «Основы психодиагностики
для вузов» (по всем позициям этой программы было реализовано постатейное голосование 20 преподавателей подобных курсов в стране); отбор
тезисов по психодиагностике на Пятый съезд РПО; проект стандартов требований к психодиагностическим методикам (см. Приложения к данной
книге); проект требований к квалификационным работам студентов, посвященных измерительным (тестовым) методам.
Чтобы в какие-то моменты вывести рабочую группу, которая создает определенный продукт, из режима «перманентной открытой дискуссии» (ее в принципе невозможно остановить в открытом публичном сообществе), приходилось создавать особые информационные
Глава 5. Организационно-технологическое обеспечение тестовых систем 399
Рис.5.15. Статистика ответов участников И-сообщества, не включенных
в процесс разработки проекта добровольной сертификации специалистов и
методик.112
площадки — «закрытые блоги-форумы», к которым получали доступ только члены, включенные в рабочую группу (комиссию), работающие над
определенной четко поставленной задачей и занимающиеся редактированием конкретного документа.112
Если касаться совсем содержательных направлений авторского сотрудничества, то следует самокритично заметить, что за исключением отдельных малозначимых конкурсов авторов тестовых заданий нам (автору
книги) пока не удалось встроить в коммуникацию И-сообщества ту работу
по созданию и расширению банка тестовых заданий по различным дисциплинам, входящим в состав тестологии, которая велась и ведется до
сих пор на прямых контактах с авторами, многие из которых не включены в И-сообщество (некоторые отказались под лозунгом «Я в принципе не участвую ни в каких социальных сетях!» и т.п.). То есть механизмы
И-сообщества в этой работе вплоть до 2012 года все еще не были использованы.
В целом автор книги, несмотря на указанные здесь трудности, оптимистично смотрит на перспективы виртуальных сообществ и их
112 Всего в опросе «Психодиагностика в РФ через пять лет» в 2008 году принял участие 51 специалист. На рис.5.15 показаны ответы только тех участников И-сообщества, которые не вошли в состав рабочей группы, непосредственно занятой разработкой проекта сертификации
(10 человек). Заметно, что велик разброс в суждениях, и почти половина не верят в реальность осуществления обсуждаемого проекта. — Прим. автора.
400
Практическая тестология
возрастающую роль в развитии тестологии в России, тем более, что на
подходе новые поколения специалистов, более технически грамотные и
свободные от старых стереотипов и, как хотелось бы надеяться, от барьеров недоверия.
Проблемы супервизии и аутентификации испытуемого
Интернет-эпоха создала новые искушения и новые риски. Огромным
искушением для администраторов тестирования стало проведение тестов
на «рабочих местах» то есть, в том самом режиме, в каком в большинстве
организаций проводится дистанционное компьютерное обучение офисных работников. Когда «испытуемый и так справляется», когда почти все
выглядит совершенно автоматизированным, зачем еще тратить личное
время, чтобы заниматься какой-то суетой — организовывать какой-то контроль выполнения теста. И только столкнувшись с вопиющими случаями
откровенно неправдоподобных результатов, только выяснив, что какой-то
тест целый отдел решал «всем миром», незадачливый менеджер-тестолог
постигает значимость супервизии, иными словами, важность роли надсмотрщика за процессом.
Конечно, самый правильный и естественный способ супервизии —
это просто стоять за спинами тестирующихся и следить за тем, чтобы
испытуемые не нарушали правила: не пользовались шпаргалками, не
переговаривались между собой, не открывали бы на своих мониторах параллельные окна со справочной информацией, превращающей тест в профанацию. А если сам организатор тестирования и тестируемые находятся
в разных городах (так довольно часто происходит в случае многофилиальных компаний). Ведь доставляется же при этом обучающий курс прямо на
рабочие места сотрудникам филиалов. Почему же не может быть таким же
экономичным способом доставлен тест? Командировать из центра наблюдателя в региональный филиал просто дорого, и тут начинают изобретать
разные технические паллиативные решения:
— контроль испытуемых за компьютерами во время тестирования с помощью видеосвязи «а ля Skype»,
— аутентификация испытуемого по индивидуальной манере печатать
(скорости доступа к определенным клавишам на клавиатуре),
— контроль с помощью специальных биометрических устройств (подобных тем, которые используются при создании биометрических паспортов — фотография спектра глазной радужки, дактилоскопический
контроль и т.п.).
Но… если вдуматься, то ни один из этих методов не дает достаточных гарантий, а лишь «сдерживает боязливых» — боязливые могут испугаться и отказаться от фальсификации. А нахалы? А нахалы, увы,
Глава 5. Организационно-технологическое обеспечение тестовых систем
401
знают, что Скайп (Skype) не сработает, если шпаргалка будет лежать не
на коленках, а будет прикреплена над монитором, так что Вы, даже в
условиях непрерывного наблюдения через Скайп, не сможете понять,
куда смотрит испытуемый и когда именно он подглядывает в шпаргалку. Нахалы также знают, что любой биометрический дистанционный контроль можно обойти, если разные люди привлекаются к разным процедурам: одни участвуют в биометрической аутентификации,
а другие — в выполнении теста. А что касается особенностей нажатия
клавиш на клавиатуре (typing dynamics), то легко можно обосновать,
что в условиях экзаменационного стресса они изменяются, к тому же
во многих тестах не требуется особой работы с клавиатурой, и если после первой пробы со свободным вводом предъявляются задания с выбором ответа, то для этой первой пробы может быть приглашен «законный» испытуемый (тот, кого должны тестировать), а для выполнения
остальных заданий — подставной.
Тем самым на сегодня следует ответственно констатировать, что надежным методом аутентификации является ТОЛЬКО очная супервизия.
При этом очень важно контролировать, насколько супервизоры мотивированы на честное выполнение своих обязанностей, насколько они дорожат
своим местом и своей репутацией, чтобы не вступать на местах в сговор с
испытуемыми.
5.4. МОДЕЛИ, АЛГОРИТМЫ И ПОДХОДЫ В КОМПЬЮТЕРНОМ ТЕСТИРОВАНИИ
Случайный выбор из банка заданий
Выше в этой книге мы уже не раз упоминали об автоматизированном
формировании вариантов на основе банка тестовых заданий. В приложении к книге на диске дается пример упрощенного алгоритма с использованием Эксель-функции случайного выбора RANDOM, которая возвращает в электронную ячейку случайное число из заданного интервала. Но
есть немало разновидностей этого общего алгоритма. Мы предлагаем их
все условно называть «случайный выбор из банка заданий» (RSIP -random
selection from item pool). Но при этом следует понимать, что на самую общую идею случайного выбора накладывается немало ограничений:
1) Необходимо, чтобы варианты получались примерно равные по трудности,
2) Необходимо обеспечить, чтобы в вариантах примерно поровну были
представлены все тематические блоки.
402
Практическая тестология
Например, предположим, что в тесте на компьютерную грамотность
среди 60 заданий должны присутствовать такие три темы: «Офисные
программы», «Электронная почта» и «Поиск в Интернете». В этом случае
требование тематической репрезентативности выражается в следующем
ограничении: из 60 заданий 20 должны представлять первую тему, 20 —
вторую, 20 — третью. В свою очередь, внутри каждого тематического блока
должны присутствовать в заданных пропорциях легкие, средние и трудные задания. Это ограничение называется «блочная рандомизация». Целесообразно различать, по крайней мере, 2 подхода к построению алгоритмов случайного выбора с блочной рандомизацией:
1) «Квадратно-гнездовой метод»: каждое задание банка вписывается в
одну клеточку таблицы «Трудность * Тема», моделирующей структуру
варианта размерностью, как правило, 3*K, где 3 — число уровней трудности, K — число тематических блоков (на самом деле каждому заданию в базе присваиваются 2 независимых атрибута, но это уже «тонкость», не меняющая сути дела, хотя снижающая наглядность). И в
процессе случайного выбора для каждой клеточки таблицы функция
рандомизации применяется M раз, причем M подсчитывается с помощью простейшей формулы M=Целое(K*Nij), где Nij — количество заданий банка в клеточке таблицы, соответствующей уровню трудности i и
теме j, а K –стандартный понижающий коэффициент, или доля банка,
которая предъявляется в варианте (коэффициент представленности).
Такой метод не требует особых усилий при его программной реализации и может быть применен даже начинающим, полупрофессиональным проблемно-ориентированным программистом.
2) Структурная модель теста. В этом случае для каждого варианта строится некая принципиальная модель (иногда ее называют «спецификация»,
она уже упоминалась нами в разделе 2.2). Это вектор длиной в K заданий,
которые будут предъявлены в варианте. На каждой позиции в этом векторе разработчик указывает, каким должно быть задание по категории
трудности и тематической категории. Выбрав определенное задание
для определенной позиции, программа случайного выбора исключает данное заданий из тех, среди которых осуществляется дальнейший
случайный поиск — на следующие позиции в модели. Данный подход
оправдан, когда структура варианта призвана существенно исправить
определенную неравномерность самого банка заданий. В этом случае
побочный эффект заключается в том, что задания из банка входят в варианты с существенно различной частотностью, и по некоторым редкочастотным заданиям даже не хватает статистики для оценки их психометрических свойств (в частности, дискриминативности).
Более тонкие и сложные задачи приходится решать, когда кроме разбиения заданий по трудности и тематической категории в банке появляются задания «фасетного типа», реализующие одну и туже
Глава 5. Организационно-технологическое обеспечение тестовых систем 403
логико-семантическую структуру, то есть относящиеся к определенной
тематической микрокатегории. На задания такого типа при генерации
варианта накладывается еще одно важное ограничение: нельзя допустить
попадание в один вариант двух заданий из одной микрокатегории заданий-клонов, ибо успешное решение одного задания такого типа, как правило, приводит к успешному решению его «близнеца».
На рисунке-скриншоте 5.16 показано, как реализуется управление
атрибутами «трудность» и «микротематика» в редакторе тестов HT-LINE
MASTER-TEST. При этом трудность кодируется номером «категории», а «микротематика» — именем подкатегории (в данном случае это имя «ряды»).
Выбор опции «Случайное предъявление» в данном случае интерпретируется программой именно как признак «блочной рандомизации» — такой, которая уравновешивает случайные варианты по тематической структуре и
трудности включенных в них заданий (строго говоря, в данном случае, речь
идет скорее о псевдослучайных вариантах, чем о случайных).
Рис.5.16. Управление категориями и подкатегориями тестового задания в режиме «Форма» в системе HT-LINE MASTER-TEST.
Сколько должно быть заданий в банке и сколько в варианте? По нашему опыту, должно быть обеспечено, как минимум, пятикратное превосходство численности заданий в банке по сравнению с численностью
заданий в варианте. Поскольку минимальный вариант — это где-то 50 заданий, то минимальный банк, следовательно, должен содержать не менее
250 заданий (см. рисунок 5.17).
По опыту автора 250 заданий вполне хватает для квалификационного
тестирования знаний в течение одного дня в одном компьютерном классе
на 15 посадочных мест. Если проводить в день 10 сеансов (продолжительностью около 1 часа каждый), то это примерно 150 человеко-тестов. Если за один
день необходимо протестировать 300 человек, потребуется 2 компьютерных
класса, то есть не менее 30 посадочных мест. Если двух таких классов нет, то
404
Практическая тестология
50
50
50
250 в банке
Рис.5.17. Рекомендуемое соотношение численности тестовых заданий в минимальном банке и варианте, который предъявляется в ходе одного сеанса
одному испытуемому.113
уже на следующий день в единственном компьютерном классе нельзя использовать минимальный банк в 250 заданий — надо иметь «второй состав»,
то есть не менее 250 новых заданий на второй день. Почему? Потому что
«сплоченные испытуемые» «не дремлют» и за ночь реконструирует больше
половины из банка заданий, предъявленных им накануне.
Контроль времени на компьютерах113
Особые содержательно-технические тонкости возникают, когда мы
снабжаем программу тестирования определенными функциями управления и регистрации времени. Во-первых, тут приходится различать управление временными ограничениями и регистрацию времени решения отдельных заданий. В случае управления ограничениями целесообразно
различать лимиты на тест в целом L1, на тематический блок L2 или на отдельное задание L3. Каждый из этих трех параметров целесообразно программировать отдельно, хотя при этом следует учитывать, что они не являются полностью независимыми друг от друга. Разумеется, лимит на тест в
целом (или на отдельный блок) не может складываться как сумма лимитов
на отдельные задания. Параметр L1, как правило, в 3 раза (не менее чем в
три раза) меньше, чем произведение K*L3, где K — число заданий в варианте.
Если мы даем на решение 60 заданий 40 минут (в среднем по 40 секунд на
одно задание), то L3 целесообразно ограничить не 40 секундами, а 120 секундами, то есть дать по 2 минуты на одно задание — примерно в три раза больше, чем среднее время на одно задание. Впрочем, в гетерогенных тестах,
состоящих из разнородных тематических блоков, лимиты L3 для каждого
блока могут быть различными, как и лимиты L2. При этом разработчик
113
На рисунке 5.17 схематически изображены только три блока, соответствующие только
трем вариантам, хотя в общем случае порождается не менее пяти непересекающихся вариантов и множество пересекающихся. — Прим. автора.
Глава 5. Организационно-технологическое обеспечение тестовых систем 405
теста должен отдавать себе отчет в том, что чем выше отношение L3/L1, тем
в большей степени для испытуемого тест становится тестом «выбора удобных заданий». В тех случаях, когда это отношение превышает 3, лучше явно
предупреждать испытуемых в инструкции, что прежде, чем углубляться в
решение отдельного задания, испытуемому надо интуитивно оценить вероятность успеха, так как нецелесообразно тратить много времени на задания, с которыми испытуемый совсем плохо знаком (либо по тематике, либо
по логико-семантической структуре и т.п.).
Что касается собственно измерения затрат времени (с точностью до секунд) на решение каждого отдельного задания, то эта функция в компьютерном тестировании становится важным инструментом контроля достоверности. Получив в протоколе целую серию правильных ответов на какой-то
тематический блок, выданную определенным испытуемым с «неправдоподобной скоростью» (по 2—3 секунды на задание), тестолог обязан проверить,
не произошла ли утечка ключей или другой вид нарушений информационной безопасности (может быть, кто-то подсказывал испытуемому из-за
плеча — из тех, кто заведомо знаком с банком заданий). Но не только «сверхскоростной правильный ответ» должен настораживать, но и «сверхмедленный правильный», а также «сверхмедленный неправильный» — тоже! Дело
в том, что сам факт двукратного (и более) превышения испытуемым затрат
времени на относительно нетрудоемкое задание может говорить о том, что
он пытался найти готовый ответ либо в полном банке заданий, скопированном на карманное устройство, либо на каком-то поисковом сайте. Наш
опыт проведения олимпиады «Телетестинг» в 1997—2001 годах показал, что
очень удобно для каждого пункта проведения тестирования (для каждого
сеанса, который сопровождал определенный супервизор — наблюдатель в
компьютерном классе) подсчитывать особый индекс «хронометрической
достоверности» — процент заданий, по которым правильные и ошибочные
ответы остаются в пределах доверительных интервалов по затратам времени. Когда этот процент оказывается очень низким (то есть испытуемый систематически выходит за доверительные интервалы — то в сторону «сверхбыстрых правильных ответов», то в сторону «сверхмедленных ответов»), то
это говорит о дефектах в организации процесса тестирования — вплоть до
возможного явного или неявного сговора супервизора с тестируемыми в
данном пункте проведения.
Адаптивное тестирование (AT-алгоритмы)
Никак не претендуя на то, чтобы заменить обширную специальную
литературу, посвященную адаптивному тестированию, опишем в этом
параграфе лишь несколько основных принципов и походов, о которых
надо знать практическому менеджеру-тестологу. Во-первых, сформулируем общее определение адаптивного тестирования:
406
Практическая тестология
Адаптивным называется такая разновидность компьютерного тестирования, когда порядок предъявления заданий находится в определенной зависимости от ответов испытуемого в ходе текущего сеанса тестирования.
Адаптивное тестирование напоминает поведение преподавателя, задающего дополнительные вопросы на устном экзамене: если экзаменуемый отвечает на основной вопрос в билете уверенно и правильно, преподаватель задает один сложный дополнительный вопрос и достаточно
быстро ставит ему высокую оценку. Если экзаменуемый отвечает плохо
(подглядывает все время в собственный конспект и т.п.), то преподаватель
задает легкий дополнительный вопрос и в случае неудачного ответа ставит низкую оценку, опять-таки ускоряя ход событий.
Мы считаем, что целесообразно различать следующие виды адаптивного тестирования:
1) Точечно-ветвящиеся алгоритмы (статическое ветвление). В этом случае следующий вопрос зависит от строго определенного ответа на предыдущий вопрос. Эта модель не связана с текущим подсчетом баллов
по шкалам, так что скорее относится к адаптивным опросам, чем к
адаптивному тестированию.
2) Завершение по достижению порога крайней группы (по западной классификации это ближе всего к «pass-fallCAT», то есть к тестам на «зачетнезачет» — см. Computerized adaptive testing, 2012). Проще пояснить
этот вариант, если предположить, что в тесте, допустим, 100 заданий, и
границы крайней группы изначально строго заданы как 70 (для верхней группы) и 30 (для нижней). Пусть какой-то испытуемый набрал 70
правильных ответов, не выполнив еще всех 100 заданий, но выполнив
только 80 заданий. Если речь идет только о его «допуске» (зачислении
в верхнюю группу), то совершенно не обязательно продолжать тест до
100 заданий, его можно уже остановить, сэкономив время и ресурсы
как самого испытуемого, так и компьютерного класса. Точно так же для
зачисления в «нижнюю» группу достаточно набрать 70 ошибок, и тест
также можно сразу же останавливать.114
3) Поисковые, или динамически-ветвящиеся адаптивные алгоритмы. С формально-математической точки зрения, это наиболее
114 Особый вариант двухпорогового адаптивного тестирования представляет собой несколько более сложный алгоритм, при котором для более коротких выборок заданий устанавливается более высокая граница для зачисления в крайнюю группу. Примерно такой же контраст по критерию Хи-квадрат (на уровне ошибки p<0.001 в отвержении гипотезы принадлежности к средней группе) достигается, если, решив вполовину меньше заданий (не 100,
а всего лишь 50), испытуемый набирает не 70, а 80 процентов правильных ответов (40 из 50).
Алгоритм двух сближающихся порогов был использован нами практически в ходе компьютерного зачета-допуска по курсу «Основы психодиагностики» в МГУ (см. Шмелев, 2002б).
Подробнее об этом в данной книге см. раздел 7.2. — Прим. автора.
Глава 5. Организационно-технологическое обеспечение тестовых систем
407
оптимальные алгоритмы. Если бы превышение способности над трудностью задания всегда приводило бы к успешному решению, а обратная ситуация всегда бы приводила к ошибке, то кратчайший способ
измерения способности сводился бы к известному дихотомическому
поисковому алгоритму: на первом шаге предъявляется задание средней трудности, затем в случае успеха — более трудное задание из середины более трудной половины шкалы, а в случае неуспеха — менее
трудное задание из середины менее трудной половины шкалы, и так
далее на каждом шаге. Казалось бы, таким путем можно потратить
всего лишь LOG2 (N)+1 шагов, чтобы однозначно точно определить способность, располагая банком в N заданий разной трудности. Но вероятностный характер зависимости решения от разности между способностью и трудностью (как это и предполагает модель Раша) объясняет,
почему число шагов для измерения трудности на самом деле не может
быть равно двоичному логарифму от «длины шкалы». Более оправданными на практике оказываются «менее размашистые» поисковые
алгоритмы: после очередного успеха оставшийся интервал шкалы
делится не пополам, а просто предъявляется наиболее близкое из тех
более трудных заданий, которые еще не были предъявлены данному
испытуемому в данном сеансе. Разумеется, эффективность таких АТалгоритмов находится в прямой зависимости от точности калибрования заданий по трудности, что достигается средствами IRT-анализа.
Поэтому данный подход наиболее тесным образом связан с современными IRT-моделями и требует для своей практической реализации
значительных по объему выборок, предварительно обследованных в
режиме исследовательской версии теста — в режиме исчерпывающего
(неадаптивного) предъявления банка заданий. Будучи трудоемкими в
разработке, «поисковые алгоритмы» приносят значительный эффект
на этапе их применения: примерно те же самые уровни надежности
и валидности тестов достигаются при 2,5-кратном сокращении числа
заданий в варианте (то есть вместо 50 заданий, например, достаточно
предъявлять всего лишь 20 — примерно с тем же эффектом). При этом
один из «тонких» моментов этого подхода заключается в выработке
оптимального правила «результативной остановки» — формально-статистического критерия, после достижения которого доверительный
интервал истинного значения тестового балла признается достаточно
узким. Одно из эвристических правил подобной остановки базируется
на идее «расходящихся рядов» и проиллюстрировано на рис.5.18.
После каждой удачной попытки предъявляется более трудное задание (из верхней части шкалы трудности), но наименее трудное из
числа непредъявленных, а после каждой ошибки, наоборот, предъявляется более легкое задание (из нижней части шкалы), но наименее легкое из числа непредъявленных. Начиная с какого-то момента, все квадратики оказываются наверху, а все ромбики — внизу, то
408
Практическая тестология
Рис.5.18. Иллюстрация поискового алгоритма «расходящихся рядов»: квадратиками обозначены неудачные попытки, ромбами — удачные. Более подробные пояснения в тексте.
есть после успеха предъявляются настолько трудные задания (на
рис.5.18 с рангами трудности 28 и выше), что испытуемый с каждым из них уже не может справиться, а после неудачи, наоборот,
предъявляются настолько легкие задания (на рис.5.19 с рангами
трудности 13 и ниже), что со всеми этими легкими заданиями испытуемый справляется. То есть правило остановки в данном случае
формулируется просто: если в 6 попытках начинают следовать друг
за другом удачи и ошибки, то тестирование прекращается. По своему смыслу такое правило остановки не намного сложнее и является
весьма близким к тому правилу, которое сформулировано в устном
тесте умственного развития Слоссона, но там применяется метод
восходящего ряда: тестирование прекращается после пяти ошибок
подряд. А где лежит в случае «расходящихся рядов» истинное значение тестового балла испытуемого? Где-то в середине «интервала неопределенности», то есть в нашем примере в районе медианы между заданиями ранга 14 и 28, то есть около балла 21115, такого балла, где
вероятность успеха приближается к 50 процентам.
115
Вообще поисковые алгоритмы адаптивного тестирования имеют значительное сходство
с различными методами измерения порогов в сенсорной психофизике: методами границ,
установки, истинных и ложных случаев, случайных двойных рядов и т.п. Но следует обратить внимание на специфичные и несходные черты для этих двух задач. Метод расходящихся рядов, описанный в этой книге, никак не подходит для сенсорной психофизики хотя
бы потому, что испытуемый уже после нескольких попыток будет знать, что надпороговые
и подпороговые сигналы просто следуют один за другим. — Прим. автора.
Глава 5. Организационно-технологическое обеспечение тестовых систем 409
Обратим также внимание, что три ошибки подряд на верхнем полюсе шкалы трудности — это примерно 15 процентов из
общего числа попыток в тесте из 20 заданий, а три правильных
ответа подряд на нижнем полюсе (для самых легких заданий) —
это также симметрично 15 процентов от общего числа попыток.
То есть от «хвостов распределений» отсекаются процентажи
(процентные доли), соответствующие модели нормального распределения. Впрочем, наглядность данного правила остановки
вовсе не означает, что данный алгоритм является на практике эффективным. Возникает риск двух проблемных ситуаций:
слишком ранняя (случайная) и слишком поздняя остановка теста. Причем, если с первой ошибкой сравнительно легко бороться: просто «не включать» правило остановки ранее 15-й попытки, то второй проблемой может случиться такой казус, что тестирование будет продолжаться слишком долго. Содержательно
второй случай возникает на практике из-за того, что слишком
эмоционально-лабильные (тревожные) испытуемые после серии неудач перестают справляться даже с заведомо легкими для
себя заданиями. Кроме того, данный алгоритм требует, чтобы
задания классифицировались с высокой точностью на большое
число градаций по уровню трудности, что практически добиться крайне трудно, а для некоторых тематических областей просто невозможно.
5) Варьирующая ветвящаяся стратегия адаптивного тестирования
с высокой глубиной анализа. В предыдущем разделе мы уделили
особое внимание простейшему алгоритму, который можно отнести к ветвящимся моделям адаптивного тестирования. Но, как мы
видели на рисунке 5.18, простейшая модель «расходящихся рядов»
учитывает правильность-ошибочность решения лишь на глубину
в один предыдущий шаг. А ведь компьютер обладает гораздо более мощными вычислительными способностями! Отличительной
особенностью варьирующей ветвящейся стратегии с высокой глубиной анализа является пошаговая переоценка уровня подготовленности испытуемого на основании ВСЕХ предыдущих попыток,
которая производится после каждого выполненного задания теста
(Сергеев, 2007). Но… именно эти алгоритмы создают гораздо более
сложные условия для их выполнения «на пальцах», то есть оказываются, увы, менее прозрачными для тех, кто далек от математико-статистической теории измерений.
6) Лестнично-адаптивный метод. Не оспаривая достоинства ветвящихся
алгоритмов, опишем здесь такой подход, который, по нашему опыту,
имеет ряд ощутимых преимуществ именно для практической тестологии в силу, прежде всего, «прозрачности» — легкости его восприятия
широкой публикой.
410
Практическая тестология
Рис. 5.19. Трехуровневый лестничный алгоритм адаптивного тестирования.
Как уже отмечалось выше, на практике изящный алгоритм «расходящихся рядов» трудно реализовать, так как он требует такого числа
градаций трудности заданий (степеней трудности), которое невозможно
получить. Часто можно установить лишь самую приблизительную, огрубленную шкалу трудности тестовых заданий — с точностью до трех ступенек — «легкие задания» (более 70 процентов правильных ответов), «трудные» (менее 40 процентов правильных ответов) и «средние» (остальные).
Конечно, и при такой грубой трехуровневой шкале можно применить «поисковый» алгоритм, но он оказывается слабоэффективным в плане сокращения числа заданий в сеансе. Для такой структуры банка заданий более
удобен алгоритм восходящей трудности, или лестничный алгоритм. Вначале испытуемому, как игроку в компьютерной игре, предлагается пройти «самый легкий уровень» — предъявляются только легкие задания. При
этом процент правильных ответов постоянно сравнивается с «верхним
порогом» Xp. Как только этот процент (текущий первичный балл) превосходит Xp, то испытуемый сразу же переводится на более высокий уровень.
В результате такого подхода более слабые испытуемые получают только
легкие заданий, середняки — легкие и средние, но не добираются до трудных, а самые сильные испытуемые получают доступ к трудным заданиям, за которые дается более всего очков.
Трехуровневый восходящий метод адаптивного тестирования, конечно, является весьма грубым инструментом116, и от него не следует ожидать такого же уровня точности (при таком же снижении длины сеанса),
116 Хотя в настоящее время широко применяются и еще более примитивные решения, как,
например, в программном комплексе «Тесты 2009»: здесь в трехуровневом адаптивном
алгоритме после первых пяти правильных ответов испытуемый сразу отправляется на…
верхний, самый трудный уровень (Тесты, 2009). — Прим. автора.
Глава 5. Организационно-технологическое обеспечение тестовых систем
411
как от поисковых алгоритмов. Но одно немаловажное психологическое
достоинство этого метода заключается в том, что предъявление в начале
теста более легких заданий наилучшим образом сказывается на хорошо
подготовленных и одновременно тревожных испытуемых. Сталкиваясь с
неожиданной для себя, обескураживающей неудачей в самом начале тестирования (что не исключено при поисково-дихотомическом подходе),
эти испытуемые, как правило, теряют присутствие духа и могут показать
слишком низкий результат, даже неправдоподобно низкий. Напротив,
успешное решение легких заданий в начале теста придает тревожным испытуемым дополнительное чувство уверенности, и они лучше справляютсясо всем тестом.
Для практической реализации «трехуровневого восходящего» алгоритма необходимо решить 2 статистико-тестологические задачи, ответив
на 2 вопроса: 1) как определить пороговое значение Xp на каждом уровне; 2)
сколько очков присваивать за успешное решение легких, средних и трудных заданий.
В ходе олимпиады «Телетестинг» для определения Xp мы применили
следующее приближенное уравнение, основанное на критических значениях статистического критерия Хи-квадрат с одной степенью свободы
(Шмелев, Ларионов, 1999):
(5.1)
Chiэмп= (2Xp — N)2 /N,
где Xp — число правильных ответов, N–минимальная численность заданий одного уровня, после предъявления которых начинается проверка X>Xp.
По формуле 5.1 для N=10 находим, что Xp=8 (то есть восемь правильных
из десяти ответов) еще не дает значимой величины Хи-квадрат (только 3,6,
что меньше значения Chiкрит=3,84 на уровне ошибки p<0,05), а вот величина Xp=9 (девять правильных ответов из десяти) уже дает Chiэмп=6,4, что является вполне значимой величиной (близкой к Chiкрит=6,63 даже на уровне
ошибки p<0,01). То есть уже после десяти заданий в случае 90 и более процентов правильных ответов испытуемому вполне можно предъявлять задания более высокого уровня трудности.
Теперь определим, сколько очков надо давать за решение заданий трех
разных уровней трудностей. Для этого воспользуемся формулой двоичных логитов 4.17 для оценки трудности заданий117. Если в среднем легкие
117 Этот случай как раз иллюстрирует дидактическую выгоду от использования двоичных,
а не натуральных логарифмов в формуле логитов — числовые соотношения между вероятностью успешного решения и трудностью задания оказываются более понятными. — Прим.
автора.
412
Практическая тестология
задания репрезентативная выборка испытуемых решает правильно в 80
процентов случаев, то мера трудности этих заданий может быть приближенно измерена на шкале логитов в интервале (-6,+6) следующей величиной log2 (20/80) = log2 (0,25) = -2. Тогда логично сформулировать, что средняя
мера трудности трудных заданий на шкале логитов будет примерно соответствовать симметричной величине +2, а средних заданий — нулю. Если
мы хотим избавиться от отрицательных значений при подсчете тестовых
баллов, то приплюсуем к каждому из трех значений константу 3 и получим следующую очень простую таблицу начисления очков за правильные
решения:
Очки за правильный ответ
Легкие задания
Средние задания
Трудные задания
1
3
5
Таблица 5.3. Упрощенное начисление очков для заданий трех уровней трудности.
Приведем числовой пример, поясняющий, как подсчитывается балл
для тестов такого типа. Пусть некто Иванов решил 12 заданий из 15 легких,
12 из 15 средних и 5 из 20 трудных (всего 50 заданий в тесте). Применим
теперь обобщенную формулу (1.1) подсчета баллов для заданий с разными
весовыми коэффициентами, то есть просуммируем баллы с весами: 1*12 +
3*12 + 5*5 = 73 сырых очка. Подобный подход к начислению очков в лестично-адаптивной схеме мы реализовали в ходе олимпиады «Телетестинг»
и получили высокие показатели внешней валидности — по сравнению с
традиционным бланковым централизованным тестированием, который
выполняли по тем же предметам те же самые испытуемые (Шмелев и др.,
1999).
Надо пояснить, что лестничный алгоритм в нашей трактовке вообще
исключает правило остановки: все испытуемые выполняют фиксированное и одинаковое число заданий, и это обстоятельство вызывает меньше
нареканий со стороны участников тестирования, чем ситуация, когда
участники выполняет разное количество заданий. Но важно подчеркнуть,
что в этом случае участники выполняют разные задания по трудности —
каждый ближе к тому уровню трудности, к которому он готов. Ну, а что делать, если какой-то испытуемый слишком «рано» для самого себя забрался
на третий уровень — на уровень трудных заданий? Ведь полностью нельзя
исключить вероятность случайного высокого результата (9 из 10) правильных ответов на среднем уровне? Следует ли в этом случае оставлять этого
испытуемого бороться с заведомо трудными для него заданиями? Не будет ли для него балл в этом случае занижен из-за того, что он просто выдаст сплошные ошибки в борьбе с этими трудными заданиями? Да, будет
снижен. И читатель сам может составить ряд простых числовых примеров, чтобы в этом убедиться. Пусть некто Петров справился с 9 легкими
Глава 5. Организационно-технологическое обеспечение тестовых систем
413
заданиями из 10, затем с 9 средними из 10, а затем смог дать лишь 3 правильных ответа из 30 возможных на третьем самом трудном уровне. Тогда
его балл будет равен 1*9+3*9+5*3 = 51. В то же время балл Сидорова, который
«остался» на среднем уровне, может быть: 1*9+3*20= 69 очков. И это будет
выглядеть как несправедливость. Поэтому, конечно, после первой же десятки неудачных попыток (9 ошибок из 10) на «трудном» уровне Петрова
надо вернуть на средний уровень и оставить его там — решать 20 оставшихся заданий именно среднего уровня. Тогда его формула подсчета баллов может выглядеть примерно так: 1*9+3*9+1*5+3*10=71, что больше, чем
у испытуемого Сидорова, то есть Петров не оказывается наказанным за
слишком успешное (для само себя) первое выступление на среднем уровне.
Мы предполагаем, что в 21-м веке именно очень простые, прозрачные
(понятные широкой публике) алгоритмы адаптивного тестирования будут становиться все более популярными. В конце 20-го века произошел
определенный временный казус, когда из-за математической сложности
поисковых ветвящихся алгоритмов оказалось под запретом их применение для аттестационного тестирования в ряде ответственных тестовых
проектов (например, в SAT — тесте для абитуриентов США) — на том основании, что они якобы ставят испытуемых в неравные условия, так как
испытуемые решают задания разной трудности и вообще получают…
разное число заданий в тесте. Но более прозрачные алгоритмы, оставляющие шанс подсчитать тестовый балл для родителей и детей просто «на
пальцах», должны со временем поправить ситуацию. Ведь эти алгоритмы
дают более надежные и валидные результаты, чем обычные тесты с единым для всех уровнем трудности заданий. Даже ребенку можно объяснить, что при взвешивании картошки на чашечных весах, лучше использовать гирьки, соразмерные весу картошки, а не выкладывать на чашу весов заведомо тяжелые или заведомо легкие гирьки.
Также стоит отметить и такой полезный эффект, который имеет адаптивное тестирование в плане воздействия на повышение достоверности тестов:
банк заданий в таком случае дольше сохраняется в тайне, ибо его нельзя просматривать с помощью простого механического ввода любого ответа (с помощью «прощелкивания») — чтобы добраться до трудных заданий, надо всетаки потратить время и силы на решение легких и средних заданий.
Компьютерные тесты контекстной вставки
Традиционные тесты, состоящие из множества отдельных локальных
вопросов, предъявляют особые требования к переключаемости внимания и гибкости смыслового восприятия испытуемых. В этих условиях
не могут проявить себя те испытуемые, которые более склонны к длительной концентрации, чем к переключению внимания (см. таблицу 1.6
414
Практическая тестология
о недостатках метода тестов в главе 1). От этого недостатка свободны в
значительной степени тесты, основанные на глубоком освоении и понимании некого связного целостного текста. Но создавать вопросы на понимание целостного текста — очень трудная задача для разработчика. Наш
опыт проведения спецпрактикума по конструированию тестов на старших курсах в МГУ говорит о том, что весьма способные студенты могут не
без труда задать по специальному (профессиональному) тексту длиной в
2000—3000 знаков (полторы странички текста) не более 10 вопросов на понимание, а еще 10 рождаются с великим трудом (для эффективного практикума такого рода требуется не менее 20 вопросов).
Но есть методический прием, который избавляет преподавателей (разработчиков тестов) от такой сложной работы. Этот прием мы в нашей недавней статье назвали «Метод контекстной вставки, сокращенно МКВ» (Шмелев, Портнова, Страхов, 2012). В психологической литературе этот метод
известен как метод Эббингауза и чаще называется «Заполнение пропущенных слов». В системах обучения этот метод чаще фигурирует под названием
«cloze test». Нам важно подчеркнуть, что испытуемый в этом случае должен
вставить слово не в отдельное, вырванное из контекста высказывание, а в
целостный текст. Если испытуемому не хватает понимания контекста в целом, можно не заполнять сразу первые несколько пропусков. Можно начать
заполнять пропуски с тех, которые наиболее удобны и очевидны. После этого становится легче понимать смысл текста в целом и можно вернуться к
ранее пропущенным пунктам. Таким образом, моделируется деятельность,
связанная с реконструкцией более целостного знания.
В системе HT-LINE для применения контекстной вставки создан специальный сервис под названием Page-test. На рисунке-скриншоте 5.20 показано, что именно должен сделать разработчик для того, чтобы в тексте
появились пропуски — заключить определенное слово (лучше специальный термин) в прямоугольные скобки.
Рис.5.20. Режим редактирования задания «контекстная вставка» в модуле
HT-LINE PAGE-TEST.
Глава 5. Организационно-технологическое обеспечение тестовых систем
415
В прямоугольных скобках можно указать не только одно слово (один правильный ответ), но целый ряд синонимов, перечисленных через особые разграничители — в данном случае прямые разделительные линии. Также в прямоугольные скобки можно ввести слова-дистракторы (неправильные ответы)
и задать режим «выпадающих списков». Не перегружая читателей книги подробным рассказом о том, как устроен именно сервис page-test (это ведь лишь
один из возможных примеров компьютерной реализации контекстной вставки), укажем на такие его принципиальные возможности, которые появляются
у разработчика-тестолога только благодаря компьютерным технологиям, но
фактически невозможны при реализации на бумаге. Речь идет об автоматизированном пересчете результатов за счет интерактивного расширения круга возможных правильных ответов после первого этапа сбора данных. На рисунке-скриншоте 5.21 можно увидеть, как выглядит интерактивная страница
page-test со статистикой ответов испытуемых на каждый пункт теста.
Рис.5.21. Интерактивный режим анализа заданий в сервис-модуле page-test,
позволяющий расширять набор ключевых слов.
Просто поставив галочку рядом с новым синонимом (не предусмотренным изначально разработчиком теста), можно обеспечить не только
автоматическое появление этого слова в списке правильных ответов (модификация ключа к тесту), но и пересчитать результаты тех испытуемых,
которые использовали данный синоним, в пользу более высоких значений. В примере на скриншоте 5.21 таким синонимом, который был выбран множеством испытуемых (более 20) и добавлен в список ключевых
слов позднее, стало слово «дробных» (см. пункт 5). Кстати, этот же режим
позволяет «простить» испытуемому ввод слов с опечатками. Для этого
надо, например, просто поставить галочку рядом со словом-ответом «репрезентативности» (см. пункт 2).
416
Практическая тестология
Впрочем, проблема синонимии отчасти сокращается, если испытуемого сориентировать на использование обширного словника, который
программа строит автоматически по всем словам, включая дистракторы,
и встраивает в инструкцию. Если таких слов оказывается около 100 (половина из них — дистракторы), то воспользоваться словником методом «подбора» оказывается просто невозможно — гораздо легче придумать нужное
слово «из головы» и просто свериться с тем, присутствует ли оно в списке
допустимых (в него входят все ключевые слова, но не только они).
На студентах МГУ в 2012 году удалось измерить эмпирическую валидность метода контекстной вставки — путем расчета линейной корреляции
между результатами факультативного теста контекстной вставки и экзаменационными баллами выборки из 70 студентов-добровольцев по курсу «Основы
психодиагностики». Для разных серий теста были получены значимые корреляции от 0,5 до 0,38, причем эти показатели были достигнуты не для суммы правильно вставленных слов, а для более сложного показателя — сводного
индекса «скорость-точность» (более быстрое выполнение теста контекстной
вставки приводило к более высокому сводному индексу). Подробности психометрических экспериментов с использованием метода описываются в указанной выше статье (Шмелев, Портнова, Страхов, 2012).
Завершая этот параграф, следует предостеречь читателей от использования «контекстной вставки» без очного контроля за тем, как испытуемые
выполняют этот тест. Наш опыт показал, что, работая самостоятельно (без
наблюдения преподавателя), студенты быстро осваивают «паразитарную
технологию», обесценивающую результаты МКВ, — пересылают друг другу по почте скриншоты (или просто файл-копии) со своими уже заполненными веб-страницами. Именно этим объясняется падение валидности от
первой серии к третьей — к моменту подключения к этому факультативному заданию слабых и недобросовестных студентов, которым было интереснее получить ничтожные бонусные очки, чем проверить себя.
Поэкранное предъявление отдельных вопросов в традиционных тестах
все-таки несколько лучше защищает тестовый материал от такого способа фальсификации. Так что приходится выбирать: либо использовать тест
контекстной вставки, контролируя «из-за спины» все действия студентов
за компьютером (и лучше всего в локальной сети с отключенной возможностью пересылки материалов по электронной почте), либо с самого начала
надо объявлять этот тест тренингом-упражнением, которое не дает ощутимых очковых накоплений в суммарный накопленный балл по курсу.
Имитационно-игровое моделирование и его ограничения
Тема использования компьютерных игровых методов для нужд психологического и квалификационного (профессионального) тестирования является слишком обширной для того, чтобы пытаться осветить ее в
Глава 5. Организационно-технологическое обеспечение тестовых систем
417
рамках небольшого параграфа и без того большой книги. Эта тема заслуживает даже не отдельной главы, а целой отдельной книги. Написав еще
в 80-е году популярную брошюру «Мир поправимых ошибок», я и сейчас
склонен рассматривать компьютерные игровые методы как очень перспективный подход, за которым будущее. Но… темп внедрения игровых
методов в компьютерное тестирование оказался не таким высоким, как
это можно было ожидать 25 лет тому назад. Конечно, созданы знаменитые
игровые тренажеры (типа авиасимуляторов и т.п.), которые оказали реальную помощью в практике начальной подготовки, тренинга и диагностики
определенных профессионалов. Но массового внедрения подобных методов в практику тестирования пока не произошло. Анализ причин этого замедления сам по себе может быть поучительным источником определенной полезной информации для практических тестологов. Я бы выделил
следующие четыре причины:
1) Проблемы надежности. Определенное содержательное несоответствие
ожиданий пользователей от тестов и от компьютерных игр. От развлекательных компьютерных игр пользователи ожидают сюжетного
разнообразия и красочности различных мультимедийных эффектов.
А эти факторы, как ни странно, не повышают, а часто, напротив, снижают измерительную надежность. В интересных играх одна и та же
игровая ситуация не должна повторяться дважды. А в тестах требуется многократное повторение достаточно элементарных действий, чтобы измерить точность их выполнения с надлежащей надежностью, но
это… просто скучно.
2) Проблемы валидности. Очень часто игровое поведение пользователей компьютерных игр оказываются слишком своеобразным и плохо моделирует поведение этих же людей в реальной жизни. Вживаясь
в практику многочисленных игр, за которыми нынешняя молодежь
проводит много часов едва ли не каждый день, эти пользователи нарабатывают у себя особый стиль игрового поведения и мышления, не
слишком характерный для них в реальной жизни. В игре срабатывают
механизмы компенсации и гиперкомпенсации тех проблем, которые
существуют у человека в реальности, — его радуют в самом себе сверхрешительность, настойчивость, изобретательность и другие черты, которых в реальной жизни ему не хватает. Эта проблема уже нередко обсуждалась в литературе в терминах «трудности переноса» той информации о человеке, которую можно получить от его игрового поведения,
на его реальное поведение.
3) Кадровые проблемы. Высокая себестоимость игрового дизайна и программирования. Современные компьютерные игры — это очень дорогой программный продукт, требующий в ходе создания значительных расходов на очень квалифицированный и разнообразный
персонал (сюда относятся не только программисты, но и художникианиматоры, музыканты и другие узкие специалисты, включенные
418
Практическая тестология
в дорогостоящее производство, по масштабам близкое к кинопроизводству). Высокие потребности рынка компьютерных игр в подобных
специалистах привели к тому, что они оказались в буквальном смысле
«раскупленными» фирмами, специализирующимися на многотиражных развлекательных играх, и кадровое обеспечение научных лабораторий по производству «скучных тестов» пострадало (причем вовсе не
только в России, но в России особенно).
4) Консерватизм пользователей тестов. Темп научно-технической революции 21-го века вошел в явное противоречие с известным консерватизмом тестологического сообщества. Возьмем, всемирно известный
личностный тест-опросник MMPI или тестовую батарею Д. Векслера
для измерения интеллекта. Они набирали свою популярность в течение… полсотни лет, пока накапливались богатейшие данные об их валидности для решения разнообразных задач. И многие пользователипрактики привязаны именно к такому устоявшемуся методическому
инструментарию. Сколько еще должно пройти времени, чтобы какойто игровой тест (как, впрочем, и любой новый тест) сравнился по своей степени «обкатанности» с самыми популярными традиционными
тестами? Очевидно, что требуются десятилетия, а не один-два года.
Осуществив целый ряд игровых проектов с помощью игровых тестов
«Стимул» и «Мимикс» в 90-е годы (Джерелиевская, Шмелев, 1993; Гребенюк, Шмелев, 1994), в 2000-е годы автор книги, убедившись в их невысокой прикладной востребованности (невысокой рентабельности игровых
разработок), вынужден был отойти от разработки игровых тестов — просто для того, чтобы сохранить минимальный костяк своей лаборатории.
Однако можно ожидать, что в самое ближайшее время появятся тесты,
в которых будут скомбинированы принципы игрового моделирования и
кейс-тестирования. То есть кейсы будут предъявляться на компьютерном
экране не в виде одного лишь вербального описания, а скорее в виде некоторых видеосюжетов, в которых проблемная ситуация будет разыгрываться актерами, подобно тому, как это предстает в реалистичном игровом кино. А затем? А затем могут последовать не только предложения по
управлению поведением игрового персонажа (что логично ожидать от
компьютерных игр), а некоторые вопросы к испытуемому на интерпретацию поведения персонажей, прогнозирование их будущего поведения
и т.п.
Новые возможности для контроля достоверности
Многие перечисленные выше компьютерные технологии, как мы уже
говорили, повышают достоверность тестов. Например, это случайный
выбор из банка заданий, перемешивание ответов, адаптивное тестирование, аутентификация испытуемых с помощью компьютерных средств
Глава 5. Организационно-технологическое обеспечение тестовых систем
419
(видеомониторинг с помощью веб-камер и т.п.). Но отдельного внимания
заслуживают те инструменты, которые спрятаны очень глубоко от глаз
внешних наблюдателей (и тем более испытуемых) и касаются функционирования серверов, на которых накапливаются результаты сетевого
тестирования. В нашей системе HT-LINE созданы специальные средства
мониторинга текущих процессов — числа одновременно запущенных
сеансов тестирования, числа запущенных процессов обработки и т.п.
На скриншоте 5.22 приводится «моментальный снимок» такого рода мониторинга.
Рис.5.22. Мониторинг процессов на сервере тестирования HT-LINE.
Что дают такие новые возможности оперативного наблюдения? На второй диаграмме на рисунке 5.22 мы можем наблюдать серию практически
регулярных пиков по числу одновременных сеансов тестирования. При
появлении этих пиков дежурный администратор сразу же должен задаться вопросом: «А являются ли эти пики предсказуемыми? А что или кто
стоит за этими пиками — какие организованные группы испытуемых
начинают одновременное тестирование с фиксированными интервалами, похожими на определенные заранее спланированные сеансы? Тут
же после обнаружения подобных пиков надо обратиться к данным журнала (лог-файлу), где фиксируется, с каких IP-адресов приходят подобные
массовые запросы. Если эти IP-адреса соответствует известным корпоративным пользователям, у которых производится заранее спланированное регулярное тестирование с участием наблюдателей, то тогда можно
успокоиться, все в порядке. Но если за этим стоит какая-то спонтанная
420
Практическая тестология
активность самоорганизовавшихся испытуемых, то, скорее всего, результаты такого тестирования будут недостоверными, и об этом надо предупредить владельцев соответствующего «личного веб-кабинета».
Другая новая возможность обеспечения достоверности связана с регулярным (фактически непрерывным) контролем за текущими значениями средних баллов по последней порции тестовых протоколов, прибывающих на сервер тестирования: если вдруг эти средние показатели стали
«зашкаливать» (приблизились к максимально возможным значениям),
значит что-то произошло в том пункте (в той организации), где в данный
момент выполняется компьютерное тестирование. Возможно, что испытуемые пользуются шпаргалками или выполняют тесты коллективно при
попустительстве местного супервизора.
5.5. КОМПЬЮТЕРНАЯ ИНТЕГРАЦИЯ ТЕСТОВЫХ И ЭКСПЕРТНЫХ ОЦЕНОЧНЫХ ПРОЦЕДУР
В заключительных разделах первой главы мы уже говорили о том, что
будущее развитие тестирования будет происходить по линии разработки
определенных моделей интеграции тестовых данных и экспертных оценок. Эта непростая задача потребует развития очень гибких и очень универсальных компьютерных средств.
В настоящее время пользователи, сталкиваясь с задачей интеграции
тестовых и экспертных данных, чаще всего делают это с помощью полуручных подходов: импортируют в Эксель данные тестирования и экспертные оценки, и это многим кажется вершиной компьютеризации, но…
немногие понимают, что Эксель — это не слишком удобный инструмент
для обработки так называемого «куба данных» — трехсторонних массивов, которые образуются при этом.
Куб данных и место результатов тестирования
Предположим, что пятеро кандидатов на одно вакантное место прошли один тест и побеседовали с двумя интервьюерами. Положим (для простоты), что и тесты, и эксперты оценивали всего лишь три одинаковых
показателя-компетенции — «профессионализм», «дисциплину» и «мотивированность». Увидеть и тем более осознать «куб данных» не так просто. Мы привыкли к плоским двухсторонним таблицам «строки — столбцы» И каждый раз нам удобнее сводить трехмерную структуру к той
или иной двумерной, подобно тому, как стереометрическую фигуру нам
удобнее увидеть с трех сторон — в виде трех двумерных проекций. Вот
смотрим на структуру данных, которая связана с одним-единственным
Глава 5. Организационно-технологическое обеспечение тестовых систем
421
обследуемым, и получаем знакомую и удобную двумерную таблицу (см.
таб. 5.4).
Компетенция\Источник
Тест 1
Эксперт 1
Эксперт 2
Профессионализм
Т-балл Иванова
Э-балл Иванова
Э-балл Иванова
Дисциплина
Т-балл Иванова
Э-балл Иванова
Э-балл Иванова
Мотивированность
Т-балл Иванова
Э-балл Иванова
Э-балл Иванова
Рейтинг по источнику
Рейтинг по тесту 1
Рейтинг по Эксп. 1
Рейтинг по Эксп. 2
Общий рейтинг-балл
Рейтинг-балл Иванова
Таблица 5.4. Двумерный срез куба данных относительно одного-единственного испытуемого.
А где в Эксель разместить данные по другому испытуемому, например, Петрову? На другом «листе» в файле-книге. Таким образом, на втором
листе появятся данные по Петрову, на третьем — по Сидорову и т.п. — все
таблицы, аналогичные по своей структуре той, которая изображена как
таб.5.4. И задача проектирования «куба данных», казалось бы, решена.
Но… где и как построить-подсчитать интегральный рейтинг-балл по каждому испытуемому? Самый простой способ состоит в том, чтобы на каждом листе вычислить суммы вначале по столбцам (по тесту в том числе), а
затем обобщенный балл по трем показателям согласно формуле взвешенного рейтинга (см. формулу 1.3) будет давать нам для каждого испытуемого некоторый рейтинг-показатель. Уф, вздохнем мы удовлетворенно. Казалось бы, работа выполнена — мы получили для каждого испытуемого
итоговый рейтинг-балл — показатель качества. И ничего страшного, что
все эти рейтинг-баллы размещены на разных листах, ведь у нас всего-то
навсего пять кандидатов. Так что, все эти рейтинг-баллы очень легко сравнить между собой — они умещаются просто-напросто в оперативной памяти, хотя и не лежат на одном листе.
А теперь зададимся вопросом: «А подходит ли Вам такая технология
работы, если у Вас не пять, и даже не пятьдесят, а пятьсот испытуемыхкандидатов?». Вот тут-то и становится понятным, что пятьсот отдельных
электронных листов — это просто не только неудобно, это просто невозможно построить в Эксель. Придется разворачивать наш «куб данных» в
Эксель-листах по-другому. Завести три листа: на первом — данные по тесту (для всех 500 испытуемых), на втором — данные от первого Эксперта 1, на третьем — данные от второго эксперта 2. А не будет ли уже в этом
случае уже трудновато вписать в таблицу формулу взвешенного рейтинга,
которая бы собирала данные с разных листов? Все ли пользователи легко
владеют в MS Excel ссылками на ячейки, разбросанные на разных листах?
Так постепенно на собственном опыте мы приходим к осознанию того,
422
Практическая тестология
что нужны специализированные программные средства обработки и
представления такого рода многомерных массивов данных.
Рис.5.23. Схематичные веб-страницы испытуемых-респондентов из разных
групп, проходящих различные тесты и оценивающихся по разным подмножествам критериев экспертной оценки (планам).
Но комбинаторика возможных вариантов значительно возрастает, когда от простого однородного «куба данных» практическая ситуация уходит
в сторону специализированных тестов и специализированных наборов
экспертных критериев (планов) для различных групп испытуемых-респондентов. На веб-страницах этих групп респондентов компьютерной
TMS проектировщик должен суметь отобразить доступ к различным тестам и обратную связь по различным планам. При этом специфика разделов обратной связи заключается в том, что здесь респондент получает
доступ не к процедурам, а к результатам процедур, которые выполняют
другие пользователи — эксперты (или другие участники оценивания, как
в случае «круговой оценки» по типу 360 градусов).
По-другому мы увидим эту же структуру данных, если взглянем на
нее через веб-страницы экспертов (экзаменаторов) — тех, кто выносит
оценки работникам (студентам). План работы экспертам нужно задать в
виде явной матрицы, которой нужно дать особое имя — это Матрица Экспертных Задач (см. таб. 5.5):
Интерактивная Матрица Экспертных Задач позволяет разработчику
проекта электронного ассессмента назначать экспертам определенные
Планы (то есть списки оцениваемых, соединенные со списами критериев
оценивания).
Глава 5. Организационно-технологическое обеспечение тестовых систем 423
План-Экспертиза 1
Эксперт 1
Х
Эксперт 2
Х
…
Эксперт N
X
План-Экспертиза 2
План-Экспертиза M
Х
Х
X
Х
Х
Таблица 5.5. Упрощенное схематическое двумерное отображение Матрицы
Экспертых Задач.
Указанная выше матрица Экспертных задач приводит на рис.5.24 к
следующему отображению Планов-задач на веб-страницах Экспертов
(оценщиков):
Рис.5.24. Схематичные веб-страницы экспертов с разными предписанными
планами оценивания (по составу оцениваемых и критериям).
Для проектирования подобных сложных структур данных нужны
уже довольно сложные программные инструменты, а главное — опытные пользователи-проектировщики, ибо даже без всякого программирования создание подобных проектов является сложной задачей,
требующей особой подготовки (в голове надо держать образно-концептуальную модель трехмерной структуры данных — подобно тому, как
архитектор видит в уме трехмерный образ будущего здания). Именно в этом случае помощь опытных специалистов, создающих проекты
«под ключ» в режиме SaaS (software as a service), является выходом из
положения.
424
Практическая тестология
Альтернативные и сквозные подмножества факторов и критериев
Чаще всего практики, которые чисто интуитивно объединяют данные
тестов и свои собственные оценки (получаемые в ходе интервью), не задумываются вовсе над формальными аспектами задачи интеграции. А ведь
без определенной формализации, без создания полного перечня возможных
случаев невозможна серьезная компьютеризация, а значит, грамотная и быстрая реализация масштабных проектов. Что мешает проведению этой формализации? Наш опыт консультативно-аналитической работы с практиками
(исполнителями комплексных, но интуитивно структурированных систем
оценивания) показал, что существенную трудность для формализации привносит непонятная для самих практиков неоднозначность взаимоотношений между тестовыми факторами (теми переменными-компетенциями,
которые оценивают тесты) и оценочными экспертными критериями (теми
переменными-компетенциями, которые оценивают эксперты).
Ниже в таблице 5.6 мы приведем примерный перечень переменных
(компетенций), из которого видно, что существуют, по крайней мере, три
различные категории тестируемых переменных (факторов) и оцениваемых переменных (критериев):
1) только тестируемые (тестовые),
2) только экспертируемые (экспертные),
3) и тестируемые, и экспертируемые одновременно (назовем их условно
«сквозные», хотя они образуют область пересечения двух множеств, и в
формальном смысле их правильнее называть «пересекающимися»).118
Конечно, можно попытаться оценить экспертным путем навыки устного счета или запас слов, но это совершенно нерационально, ибо требует от
самого эксперта выполнения множества рутинных операций, с которыми
прекрасно, лучше эксперта справляется любая тестовая компьютерная программа. Поэтому первые две переменные-компетенции мы вполне можем
отнести к категории «тестовых факторов» — в таблице 5.6 плюсы стоят для
этих переменных лишь в одной колонке — во второй. Но также очень трудно всерьез полагать, что последние две компетенции можно подвергать тестированию, ведь они такие плохо-формализуемые, а главные требующие
реальной включенности в реальную ситуацию общения. Поэтому последние переменные-компетенции мы относим к категории «экспертных критериев». Но существует и третья категория оценочных переменных — та,
которую можно подвергать и тестированию, и экспертной оценке, и от этой
118 В главе 1 (раздел 4) мы называли первую и вторую категории переменных (когда только она присутствует) ситуацией «дополнения», а третью категорию (когда только она присутствует) — ситуацией «наложения». И тогда, и сейчас мы предлагаем читателю не вполне
формализованные, скорее экспрессивно-бытовые термины, так как не рассчитываем на то,
что читатель владеет строгими теоретико-множественными понятиями вроде «симметрическая разность» и т.п. — Прим. автора.
Глава 5. Организационно-технологическое обеспечение тестовых систем 425
взаимодополнительности двух различных процедур только вырастет точность и объективность (надежность и валидность) интегральной оценки.
Оцениваемая
переменная
Оценивается
экспертами
Тестируется
Устный счет (в уме)
+
Словарный запас
+
Стрессоустойчивость
+
+
Критическое мышление
+
+
Категория
переменных
Альтернативные
тестовые факторы
Коммуникативная
синтонность
+
Делегирование
ответственности
+
Сквозные факторыкритерии
Альтернативные
экспертные критерии
Таблица 5.6. Пример альтернативных и сквозных оцениваемых переменных.
Итак, что же происходит в сознании тех специалистов по оценке, которые
вообще не формулируют никаких задач по интеграции данных, так как они
саму возможность интеграции… попросту не видят? А дело в том, что для них,
как показывает наш анализ, существуют, как правило, прежде всего, лишь
альтернативные переменные типа 3 «Экспертные критерии», которыми они и
ограничивают свою оценочную деятельность. В лучшем случае в их сознание
проникают еще и переменные типа 1 «Тестовые факторы», но и в этом случае
им непонятно, как может быть сформулирована задача интеграции. В этом
случае работает не интегративная схема, а схема поэтапной селекции: а) провели отдельно экспертные оценки и оставили тех, кто прошел этот этап, 2) провели на оставшихся тесты и оставили тех, кто прошел этот этап. Иногда последовательность (но редко!) бывает противоположной. Но главное — не требуется
при этой последовательной схеме решать саму задачу интеграции. Откуда такой подход происходит? От инерции прежних ручных способов тестирования,
а также прежних ручных способов обработки данных. Когда и то, и другое — и
тестирование, и экспертная оценка производятся кустарными способами, то
вполне рациональной кажется стратегия сокращении числа экспертируемых
(и тестируемых) как можно скорее. Но компьютеризация тестирования и сбора экспертных оценок отменяют эту архаическую стратегию и создают новую
историческую возможность — повышать валидность комплексной оценки за
счет применения всех оценочных процедур практически ко всем обследуемым, для которых создается и постоянно поддерживается веб-портфолио — совокупность результатов всех оценочных процедур. Таким образом, сама задача интеграции оценок возникает и осмысляется как реальная лишь на новом
технологичном, а не кустарном базисе — на основе систем, поддерживающих
хранение всех оценочных данных по всем оцениваемым на индивидуальных
веб-страницах в рамках единой системы тестирования и оценки.
426
Практическая тестология
Мгновенное тиражирование сложных оценочных проектов
Ниже на рис.5.25 приводится схема основных функциональных связей в системе управления ассессментом на платформе HT-LINE.
Рис.5.25. Общая функциональная архитектура системы управления ассессментом на платформе HT-LINE.
Глава 5. Организационно-технологическое обеспечение тестовых систем
427
Один из главных практических эффектов, который обеспечивается с
использованием систем, подобных HT-LINE, заключается в том, что многие виды информационной активности перекладываются на плечи самих
обследуемых: они самостоятельно регистрируются в системе по приглашающим ссылкам в своих почтовых ящиках, они самостоятельно последовательно проходят цепочку оценочных процедур, руководствуясь гиперссылками на своих веб-страницах и так далее.
Важно обратить внимание на различия в структурах веб-страниц оцениваемых (респондентов) и оценивающих (экспертов). В традиционной
схеме оценивающие — это участники процесса, которые сами по себе не
получают никаких результатов, никакой обратной связи, а порождают
эти результаты (в отличие от ситуации «круговой оценки», когда оценивающие сами становятся оцениваемыми).
Другая примечательная особенность архитектуры, изображенной на
рисунке 5.25, — это логичная последовательность в применении трех оценочных процедур:
— опросов (как правило, это анкетные опросы, которые не дают количественной информации, но позволяют собирать важные биографические и другие качественные данные),
— тестов (предоставляют формализованную количественную информацию без участия оценивающих),
— экспертное оценивание, или шкалирование.
Рассмотрим функциональный блок «Сервис-проект» на рис.5.25. Создав определенную последовательность оценочных процедур на своей
странице «Проектирование этапов оценки», тестолог благодаря возможностям компьютерной системы автоматически распространяет этот проект
на все веб-страницы всех участников, зарегистрированных в проекте — и
в роли оцениваемого, и в роли оценивающего. Почему автор уверен в том,
что без подобных систем эйчары уже не смогут обходиться в самом ближайшем будущем? Потому что процессы глобализации и интеграции информационных ресурсов (в рамках всемирных социальных сетей и смежных глобальных проектов) будут неизбежно приводить к тому, что количество кандидатов, одновременно претендующих на практически любую
вакансию (а не только на самые привлекательные), будет резко возрастать,
и придется справляться с постоянно растущими объемами информации.
Оперативное управление формулами расчета рейтинга
Кроме массового охвата кандидатов и доступа к их индивидуальным
веб-страницам, системы управления ассессментом будут обеспечивать
и такую эффективную возможность, как оперативное изменение не только весовых коэффициентов, но и самих логико-математических формул
428
Практическая тестология
подсчета рейтинга. Собрав данные по 200—300 кандидатам, специалист
по оцениванию может увидеть, что рейтинг-формула, предусмотренная
«по умолчанию» (при равных весах всех оценочных критериев), дает несколько странный топ-список кандидатов, профиль которых (по его качественному анализу) уступает профилю тех кандидатов, которые почемуто оказываются «за бортом». Но редактор формул, встроенный в эту систему, позволяет не только суммировать баллы с разными весами, но ввести
ряд критериев как альтернативные (учитываются данные лишь под одному критерию из двух — по максимальному), или как взаимопроверяющие
(дают вклад в суммарный рейтинг лишь в том случае, если дают близкие
результаты) и т.п. Изменив формулу, пользователь может немедленно
включить пересчет рейтинг-листа для всех обследованных 200—300 кандидатов, получая на верхушке листа уже совершенно другой список имен.
Таким образом, имеются все возможности для отказа от подсчета рейтинг-баллов только по аддитивной формуле взвешенного рейтинга типа
(1.3). Хотя развитие подобных подходов требует определенного логико-математического опыта, читателю следует в принципе знать, что такие технологические возможности появляются уже сейчас и опережают методическое мышление пользователей.
Ближайшее будущее компьютеризации тестирования заключается в
том, что будет резко расширяться круг пользователей, способных понимать высочайший экономический эффект (в плане экономии личного времени, прежде всего, самого тестолога) от освоения и внедрения подобных
систем. Чтобы воспринять этот тезис не голословно, а «пощупать его своими руками», читателю рекомендуется отправить в разделе «демоверсия»
на сайте www.ht-line.ru заявку на получение веб-кабинета HT-LINE в свое
личное пользование на пробный бесплатный период.
5.6. РЕВОЛЮЦИОННЫЙ ПЕРЕХОД
К ОНЛАЙН-ТЕСТИРОВАНИЮ
В 2010 году, выступая на конференции в Челябинске, Дэвид Бертрам
сообщил, что по данным британской фирмы SHL, оказывающей услуги по
профессиональному тестированию во множестве стран, уже 90 процентов
сеансов тестирования выполняется в режиме онлайн. Что это означает?
Тесты выполняются в разных странах, а единый сервер тестирования,
откуда тесты «подкачиваются» и где происходит обработка, установлен в
штаб-квартире фирмы в Великобритании.
В России тоже произошел аналогичный резкий переход, хотя и несколько позднее — к 2012 году. Об этом говорит соотношение числа клиентов нашей Лаборатории «Гуманитарные технологии», которые пользуются оффлайн-системой тестирования MAINTEST и которые пользуются
Глава 5. Организационно-технологическое обеспечение тестовых систем 429
Рис.5.26. Две круговые диаграммы иллюстрируют резкий переход российских
пользователей от оффлайн-тестирования к онлайн-тестированию.119
онлайн-системой HT-LINE (см. рис.5.26). В 2012 году уже более сотни компаний (из без малого двухсот корпоративных клиентов) абонировали
личные кабинеты HT-LINE, в которых в год выполняются тысячи сеансов
тестирования. Уже не только суперкрупные и крупные компании (такие,
как Сбербанк, РЖД, Лукойл и т.п.), но и большинство средних компаний
поняли преимущества личных веб-кабинетов: они ускоряют оперативный запуск тестов сразу в нескольких территориально-разделенных подразделениях одной компании с возможностью управления процессом из
единого центра, где в единой базе сразу накапливаются все данные. Причем этот узел управления и просмотра результатов доступен сразу из нескольких точек и в принципе сразу нескольким руководителям компании
(ни один из них не получает монопольных преимуществ в доступе к результатам тестирования, что опять-таки повышает уровень коллегиального доверия к этим результатам).119
Значительно повысилась сама скорость ввода компьютерных тестов в
эксплуатацию, так как не надо производить нередко замысловатые процедуры установки оффлайн-программ на каждом отдельном компьютере
(или сервере локальной сети) в каждом подразделении (эти процедуры
затрудняются разнотипными настройками операционных систем, средствами защиты от вторжения чужого прогрпммного обеспечения и т.п.).
А главное — начал интенсивно плавиться лед недоверия к размещению
конфиденциальной методической и кадровой информации на сервере
чужой организации — разработчика тестовых технологий (именно это в
России является более серьезной преградой, чем слабая техническая вооруженность). Все больше пользователей начали понимать, что передача
на «чужой сервер» результатов тестирования вовсе не означает передачу персональных данных о своих сотрудниках. Ведь достаточно просто
119 Автор благодарит Е.В. Воскресенскую — руководителя коммерческого отдела Лаборатории «Гуманитарные технологии» — за предоставление указанных диаграмм и за саму идею
наглядной динамики. — Прим. автора.
430
Практическая тестология
передать идентификационные номера, а кадровая база остается внутренней собственностью самой компании-пользователя. Также резко повысилось доверие к устойчивости самих Интернет-коммуникаций (еще пять
лет назад Интернет-соединение слишком часто терялось в самый неподходящий момент).
Что означает эта революция с точки зрения развития тестологии?
По моему убеждению, это означает, прежде всего, повышение концентрации производства: более востребованной оказывается продукция меньшего числа разработчиков — тех, кто предлагает наиболее качественные
тесты и наиболее удобные сервисы. Но конкуренция между этими несколькими ведущими разработчиками будет нарастать, хотя при этом у
пользователей будет появляться более широкий доступ к разным производителям тестов — в том числе зарубежным. А это значит, что пользователю
придется экстренно осваивать те профессиональные критерии, которые
позволят ему самому решать, какая тестовая продукция по-настоящему
качественная, а какая — всего лишь «рекламный пузырь». Аналогия простая — развитие Интернета приводит к появлению нескольких конкурирующих браузеров (потеснивших в недавнее время еще доминировавший
MS Internet Explorer), и пользователю приходится самому разбираться и
самостоятельно переключаться с менее эффективных на более эффективные (применительно к профилю его собственных задач). А те, кто не может разбираться сам, превращаются в людей, теряющих интеллектуальную независимость.
431
Глава 6.
Валидность, рентабельность и достоверность
психометрических тестов
Проблему валидности тестов, пожалуй, следует считать ключевой проблемой тестологии. Еще раз сформулируем определение валидности, но в
более практико-ориентированном ключе, чем это мы делали в первой главе:
Валидность — это мера соответствия результатов тестирования заявленной цели тестирования, в частности, тому свойству (или свойствам), которое измеряется.
В этой трактовке присутствует одновременно и понятие «измеряемое
свойство» и понятие «цели тестирования», и надо бы разобраться, как они
соотносятся. Цель практически-ориентированного тестирования, как
правило, состоит в прогнозе определенного социально-значимого поведения, которое называется «критериальным поведением», а измеряемое
свойство считается причиной «критериального поведения» (см. рисунок
1.5 в первой главе). Если тест на самом деле не измеряет то свойство, которое является причиной критериального поведения (например, эффективной профессиональной деятельности), то в этом случае говорят, что тест
НЕ обладает валидностью, НЕ способен прогнозировать критериальное поведение.
Приведем пример. Возьмем в качестве «критериального поведения»
эффективность деятельности профессионала в так называемых «авральных ситуациях» (когда в условиях дефицита времени возникает угроза
серьезных финансовых потерь либо угроза здоровью или даже жизни людей). Какие свойства работников мы полагаем причинно-связанными с
эффективностью в авральных ситуациях? Прежде всего, «стрессоустойчивость»: человек осознает высокий риск, но продолжает на этом фоне действовать активно и организованно, а не пассивно или хаотически. Создавая тест на стрессоустойчивость, мы рассчитываем на то, что он способен
спрогнозировать эффективность деятельности в авральных ситуациях, то
есть мы предполагаем наличие трех видов связей:
1) Стрессоустойчивость действительно влияет на поведение в авральной
ситуации, является в данном случае компетенцией (причинным фактором эффективности).
432
Практическая тестология
2) Тест обладает психологической валидностью — действительно измеряет именно «стрессоустойчивость» (имеется связь между тестовыми заданиями и измеряемым свойством).
3) Тест обладает прагматической валидностью — его результаты позволяют
прогнозировать эффективность деятельности в авральных ситуациях.
Очевидно, связь типа 3 является следствием наличия связей типа 1 и 2.
Хотя при проверке валидности мы непосредственно измеряем только связь
3 чаще, чем связи 1 и 2. Обнаруживая эмпирически связь типа 3, мы, как
правило, должны сделать вывод о том, что существуют связи типа 1 и 2.
Итак, начнем в этой главе с того, что более подробно, чем ранее, рассмотрим виды валидности, точнее различные методы ее проверки — методы валидизации.
6.1. ПРОБЛЕМА ВАЛИДИЗАЦИИ И ВИДЫ ВАЛИДНОСТИ
В этом первом разделе данной главы мы постараемся ввести определения и пояснения для основных понятий, связанных с различными видами валидности. Освоение читателем этих понятий требуется нам для
обсуждения определенных проблем на профессиональном языке.
Экспертная валидизация по содержанию тестовых заданий
В классическом определении валидности, предложенном Ли Кронбахом (Cronbach, 1970), валидность рассматривается в большей степени
как свойство процедуры интерпретации результатов тестирования, чем
свойство процедуры проведения теста. С одной стороны, это, безусловно,
верно, так как именно в ходе интерпретации раскрывается содержание
измеряемого свойства. Но, с другой стороны, при таком подходе из фокуса внимания ускользает ядерный компонент процедуры тестирования, а
именно содержание тестовых заданий, то есть не рассматривается та деятельность, которую испытуемый выполняет при решении тестовых заданий. А ведь именно содержательный анализ тестовых заданий раскрывает направленность теста.
Содержательная валидность (content validity) раскрывается двумя способами:
1) В рамках авторской концепции — через то теоретическое обоснование
содержания тестовых заданий и способов его порождения, которое
предложил автор теста. Этот способ обоснования особенно эффективен
для таких тестовых заданий, которые моделируют профессиональную
деятельность.
Глава 6. Валидность, рентабельность и достоверность
433
2) С помощью независимых экспертов, которым предписывается раскрыть содержание заданий, имея дело только с самими заданиями.
Совершенно очевидно, что второй способ применяется гораздо реже и
является на порядок более трудоемким, но именно он дает гораздо более
ценную информацию в плане гарантий воспроизводимости теста как научного инструмента в руках различных специалистов.
Здесь мы не будем описывать этот второй способ во всех подробностях. Опишем лишь общую схему сбора и анализа экспертных оценок такого рода. Для реализации этого метода надо привлечь, кроме автора, как
минимум, двух независимых специалистов (но лучше бы четырех, чтобы
получился коллектив из пяти оценщиков). Этим экспертам предъявляют
все задания теста (лучше вперемешку с какими-то фоновыми заданиями
из другого тест) и просят определить, к какому тестируемому свойству из
предложенного списка относится каждое задание. В результате от каждого
эксперта получают матрицу суждений, как в таблице 6.1:
Свойство 1
Задание 1
Свойство 2
…
Свойство K
Оценка степени
соответствия
Задание 2
…
Задание N
Таблица 6.1. Матрица экспертных оценок соответствия тестовых заданий
и тестируемых свойств (тематическая категоризация эмпирических индикаторов).
В результате заполнения трех (или пяти) индивидуальных матриц
типа 6.1 по каждому заданию можно проверить согласованность экспертных оценок: если все эксперты относят задания к одному и тому же свойству, то содержательная валидность этого задания получает экспертное
подтверждение. Если же хотя бы один эксперт (даже один из пяти, не говоря про одного из трех) относит задание к другому свойству, то содержательная валидность задания признается неоднозначной (размытой, неопределенной). Например, вопрос тест-опросника «В трудных ситуациях
я готов брать на себя роль лидера в коллективе» не является однозначным
по своей области валидности (даже в рамках самой грубой двухфакторной классификации свойств темперамента): он относится как к фактору
«Стрессоустойчивость» (эмоциональная устойчивость), так и к фактору
«Социальная экстраверсия».
Данная процедура применяется на практике главным образом в случае малоочевидных психолого-характерологических тестов и реже в случае измерения интеллектуальных способностей, и уже совсем редко в
434
Практическая тестология
предметно-педагогических тестах. Хотя в последнем случае она весьма
уместна для кейс-тестов, ибо многие задания в этих тестах маскируют
свою принадлежность к определенному тематическому разделу предметной дисциплины, и эту принадлежность еще надо реконструировать с помощью независимых экспертов.
Синонимами понятия «содержательная валидность» следует считать
такие термины, как «концептуальная валидность», а также «контент-валидность».
Эмпирическая валидность различных тестов
по внешнему критерию
В разделе 4.1 мы уже рассмотрели подход к измерению эмпирической
валидности с помощью четырехклеточной таблицы сопряженности. Здесь
остановимся несколько подробней не на математической, а на содержательной стороне дела.
Зачем вообще нужна эмпирическая валидизация? Почему она так
важна именно для практической тестологии? Дело в том, что экспертная оценка содержания тестовых заданий гарантированно подтверждает лишь одну связь из трех рассматриваемых выше — между «тестовыми
баллами» и «измеряемым свойством» (связь 2). Но поскольку при этом не
проверяется связь между «свойством» и «критерием» (связь 1), то на основании экспертной оценки содержания нельзя сделать вывод о валидности
теста по прагматическому критерию, то есть о его практической полезности. Для этого надо независимо от оценки содержательной валидности
проверить эмпирическую валидность, то есть произвести эмпирическую
валидизацию.
С формальной стороны измерить корреляцию между тестом и критерием несложно, для этого требуется лишь минимальная математическая
грамотность. Выбрать подходящий коэффициент корреляции, соответствующий формальному статусу критерия (четырехклеточного, рангового
или линейного) вовсе не так трудно, как добыть информацию о критерии.
Главной проблемой при проведении эмпирической валидизации является
оценка достоверности самого источника информации о критериальном поведении. Хорошо, если критериальная деятельность имеет четко документированную результативность. Например, объективно документирована
выработка годных деталей рабочим у станка, или масса, скорость и дальность перевозки грузов водителем-дальнобойщиком, или число договоров,
заключенных с клиентами каким-нибудь агентом (страховым, рекламным, по операциям с недвижимостью). Но автор книги часто сталкивался с
тем, что нередко в организации, заказывающей тестирование сотрудников
или кандидатов, вообще нет формализованных способов фиксации эффективности деятельности (ключевых показателей эффективности, или КPI).
Глава 6. Валидность, рентабельность и достоверность
435
В этом случае пытаются прибегнуть к опросам линейных руководителей,
которых просят оценить эффективность работы подчиненных. И мы получаем весьма субъективно-искаженную информацию, которая нередко отражает в большей степени то, насколько у данного руководителя сложились
отношения с тем или иным подчиненным, чем объективную эффективность (впрочем, об этом пойдет разговор ниже).
В таблице 6.2 даются приближенные интервальные значения возможных показателей эмпирической эффективности для разных видов тестирования в сравнении с другими оценочными процедурами, применяемыми для оценки персонала (в этой таблице автор попытался объединить
собственный опыт с данными, взятыми из различных литературных источников). Таблица 6.2, несомненно, очень похожа на таблицу 4.19, но содержит более широкую информацию, позволяющую сравнить валидность
тестов и других оценочных процедур.
Оценочная процедура
Примерный интервал
эмпирической валидности
(по внешнему критерию)
Интервью
(оценки интервьюера без специальной подготовки в области ассессмента)
0,1 — 0,2
Тест-опросники личностные (характерологические, мотивационные)
0,2 — 0,4
Проективные методики
0,3 — 0,5
Тесты способностей и интеллекта
0,4 — 0,6
Оценки включенных наблюдателей
(«360 градусов»)
0,3 — 0,6
Анализ документов по кандидату
(данных резюме, квалификационных свидетельств, рекомендаций и т.п.)
0,3 — 0,7
Тесты квалификационные
0,5 — 0,7
Ассессмент (деловые игры, экспертные оценки
имитационных упражнений)
0,4 — 0,7
Производственные (количественные) данные
эффективности (отдельные KPI)
0,6 — 0,9
Таблица 6.2. Сравнительные интервальные оценки эмпирической валидности для различных оценочных процедур.
В следующей главе 7 мы специально остановимся на сравнительной
валидности различных процедур в области оценки образовательных достижений и увидим там сходную картину. Например, валидность устных и письменных экзаменов, как правило, находится в интервале,
436
Практическая тестология
характерном для ассессмента, а валидность тестовых экзаменов — в районе валидности квалификационных тестов (что, впрочем, естественно, так
как эти две процедуры по многим признакам можно считать тождественными).
В таблице 6.2 заслуживают отдельного комментария определенные
графы (строки) и термины. Во-первых, из последней графы мы получаем
следующую информацию, важную для понимания значительного разброса (размаха интервалов) в других графах. Дело в том, что между различными показателями производственной эффективности корреляция фактически никогда не достигает максимального возможного значения 1.0,
поскольку сами источники этой информации вовсе не идеальны. Между
«количеством выпущенных изделий» и «экспертными оценками начальником своих работников» (второе, кстати, ближе к категории «оценки
включенных наблюдателей) корреляция вообще может быть лишь около
0,6. Почему? Из-за того, что во всякие экспертные оценки (тем более оценки включенных наблюдателей) вмешиваются субъективные факторы. Поэтому для валидизации тестов лучше, если есть такая возможность, строить комплексный критериальный показатель, в котором используется
сразу несколько различных показателей KPI (key performance indicators)120.
Почему самыми валидными среди трех категорий тестов (личностные
опросники, тесты способностей и квалификационые тесты, или специальные тесты достижений) оказываются квалификационные тесты? В данном
случае под квалификационными тестами мы понимаем такие, которые
измеряют не просто профессиональные знания, но моделируют профессиональные задачи (кейсы). Так как квалификационные тесты в самом содержании своих тестовых заданий обеспечивают наиболее точную фокусировку на содержании моделируемой (прогнозируемой) деятельности,
поэтому-то коэффициенты валидности для них достигают самых высоких
значений.121 Валидность тест-опросников оказывается ниже главным образом по причине мотивационных искажений, то есть возможности применения испытуемыми некорректных стратегий выполнения таких тестов
(эти искажения касаются практически всех процедур, которые так или иначе основаны на стандартизированном самоотчете). Валидность тестов способностей (тестов интеллекта и различных когнитивных функций) меньше
страдает от фальсификации, но более широкая область валидности этих
методик хуже соответствует конкретной моделируемой (прогнозируемой)
деятельности, чем в случае узконаправленных квалификационных тестов.
120
На русском языке показатели KPI все чаще упоминаются как КПЭ — «ключевые показатели эффективности». — Прим. автора.
121 Следует пояснить, что нигде в таблице 6.2 не имеются в виду совсем неудачные и некорректные тесты, сконструированные с нарушением известных правил тестологии. Нижние
границы интервалов валидности примерно отражают данные, полученные для вполне корректно созданных тестов того или иного типа. — Прим. автора.
Глава 6. Валидность, рентабельность и достоверность
437
Впрочем, следует признать, что в современной литературе можно найти значительный разброс в оценках валидности различных оценочных методов. Главная причина этому — различные условия проведения, но сказывается и разнобой в терминологии. В частности, заслуживает внимания часто цитируемая таблица (у нас под номером 6.3), опубликованная в рамках
одного из первых обширных сводных исследований, использовавших метод так называемого «метаанализа данных» (Schmidt, Hunter, 1998)122. Тесты
общих когнитивных способностей (IQ-тесты) были взяты в этой работе в качестве «сквозного инструмента» в силу того, что они обладают наивысшей
эффективностью по сочетанию «цена-качество», то есть дают наибольшую
прогностичность при наименьших затратах на проведение.
Оценочный метод
Валидность метода при одиночном
применении
Инкрементная
(возросшая)
валидность
в комбинации
Тесты общих когнитивных способностей
.51
Показатели эффективности (KPI)
.54
.63
Структурированное интервью
.51
.63
Тесты знания работы
.48
.58
Перечень достижений
.45
.58
Тесты лояльности / благонадежности
.41
.65
Неструктурированное интервью
.38
.55
Ассессмент-центры (Центры оценки)
.37
.53
Биографические данные
.35
.52
Тесты-опросники организованности
.31
.60
Проверка рекомендаций
.26
.57
Стаж работы (в годах)
.18
.54
Балльная оценка профессионального образования и опыта
.11
.52
Продолжительность образования (в годах)
.10
.52
Тест-опросники интересов
.10
.52
Таблица 6.3. Валидность тестов когнитивных способностей (IQ-тестов),
использованных в одиночку и в комбинации с другими методами (Sсhmidt,
Hunter 1998).
122
По-видимому, одним из первых русскоязычных обзоров западных работ по метаанализу
валидности оценочных процедур является статья Е.А. Куприянова в электронном журнале
«Организационная психология» (Куприянов, 2011). — Прим. автора.
438
Практическая тестология
По таблице 6.3 хотелось бы выделить два момента: 1) наивысшая валидность достигается при использовании тестов интеллекта в сочетании
с тест-опросниками благонадежности (0,65), 2) на удивление низкими оказываются, по данным этих авторов, показатели валидности такого дорогостоящего метода, как «Центр оценки» (только 0,37).
Прогностическая валидизация
Как это говорилось уже неоднократно ранее в этой книге, тесты нужны
в практической работе в меньшей степени для оценки текущей ситуации, а в
большей степени — для прогноза критериального поведения. Но это означает,
что для проверки прогностической способности теста мы должны производить
замер (извлечение) критериальной информации не параллельно с проведением
тестирования и тем более не заблаговременно (до тестирования), а существенно
позднее тестирования. На рис.6.1 схематически изображена ось времени и понятия «проспективной валидизации» и «ретроспективной валидизации» в зависимости от времени проведения теста и сбора критериальных данных.
Рис.6.1. Схематическое изображение времени тестирования и сбора критериальной информации при проспективной (прогностической) и ретроспективной валидизации (течение времени изображается слева направо).
Возникает своеобразная парадоксальная ситуация или даже конфликт
между заказом со стороны руководства и необходимостью для тестолога
отложить ответ на вопрос о практической валидности теста до момента
сбора отсроченной критериальной информации. Иными словами, на самом деле мы не можем ничего прогнозировать по тесту сразу после его
первого проведения. Первое проведение оказывается, увы, чисто «исследовательским», а не практическим мероприятием. Только дождавшись более
поздних критериальных событий и измерив связь между ними и тестовыми (более ранними) результатами, можно получить сведения о прогностичности теста. Таким образом, решиться на последующее использование теста для принятия «превентивных» (упреждающих) решений можно
лишь при втором проведении теста (в рамках второй тестовой сессии).
Недостаточность ретроспективной валидизации для прогностического
использования теста можно пояснить на таком условном, метафорическом
примере. Представим себе течение времени как течение некой реки. Момент
вынесения решения по тесту можно сравнить с местом установки фильтра,
Глава 6. Валидность, рентабельность и достоверность
439
а момент сбора критериальной информации — с местом забора воды из этой
реки (для технических или питьевых нужд). Зачем устанавливать фильтр
ниже по течению, чем место забора? Очевидно, что имеет смысл устанавливать фильтр только выше по течению (раньше) места забора (левее на оси времени, изображающей ход времени слева-направо на рис.6.1).
Нередко пользователи не обращают внимание, что в психометрическом
отчете по тесту разработчик описывает не проспективную, а ретроспективную валидизацию. Большинство проверок эмпирической валидности по
методу «известных групп» (или «контрастных групп») реализует фактически не проспективную, а именно гораздо более дешевую ретроспективную
схему валидизации. Например, тест подается как некий инструмент для
выявления криминогенных черт личности. Но обследованию в ходе валидизации подвергались две контрастные группы, сформированные по факту
уже происшедшего в прошлом события: законопослушные испытуемые и
осужденные преступники, отбывающие наказание в местах лишения свободы. В результате мы не знаем, какова истинная направленность причинной
связи между критериальным событием и тестовым баллом. Возможно, что
само посткритериальное событие (лишение свободы после осуждения за совершенное преступление) было причиной появления у заключенных определенных «криминогенных черт». Ведь не секрет, что особая субкультура в тюремных камерах и лагерях трансформирует характер человека, изменяет его
мировоззрение (не в лучшую сторону), его мотивационно-ценностные ориентации, его стиль социального приспособления (в сторону более жестокого
отношения к слабым и подобострастного подчинения сильным).
Точно такой же артефакт из-за ретроспективной схемы валидизации может возникнуть, когда в качестве известной группы берут больных. Допустим,
в рамках профилактичекой медицины создается тест на выявление характерологических факторов, обуславливающих предрасположенность к какому-то заболеванию психосоматического происхождения (это может быть язва желудка,
астма, гипертония и тому подобные болезни, которые в большинстве случаев
принято считать «болезнями от нервов»). Но способен ли тест, прошедший валидизацию на госпитализированных больных, прогнозировать заболевание
в будущем? Не очевидно. Более того, скорее всего имеется так называемый
«эффект госпитализации», который выражается в изменении эмоционально-психического статуса человека, признанного больным и помещенного в
стационар, то есть маргинальный тестовый профиль скорее свидетельствует
о последствиях госпитализации, чем характеризует предрасположенность к
психосоматическому заболеванию. На самом деле проверка прогностической
валидности медико-психологических тестов требует обследования огромных
по объему выборок и ожидания в течение нескольких лет наступления критериальных событий (накопления достаточного числа случаев определенных заболеваний среди участников протестированной выборки).
Очень близкий артефакт мы получаем при валидизации теста на известных группах студентов, среди которых одни — те, кто успешно сдал
440
Практическая тестология
последнюю сессию, а другие — те, кто ее «завалил». Нужно ли объяснять,
что социально-психологический статус «должника» существенно отличается от состояния того ж самого студента, когда он еще не был этим «должником? Для проспективной валидизации вузовского теста его результаты
надо сравнивать не с результатами прошедшей сессии (прошедших сессий), а с результатами будущих сессий.
Под руководством автора книги было выполнено исследование прогностической валидности методики «Профориентатор» (Серебряков и др., 2010).
Из общего массива в 12000 записей (по базе клиентов профориентации Московского центра тестирования «Гуманитарные технологии» за 4 года) были
отобраны для телефонного опроса более 1500 бывших старшеклассников с сохранившимися контактными телефонами и протоколами тестирования за
2005—2006 гг. По специально разработанной анкете было проведено телефонное интервью с 457 людьми. Была собрана статистика по двум переменным: а)
соответствие или несоответствие вузовской специальности, выбранной абитуриентом, результатам по тесту «Профориентатор» (с точностью до шести
категорий по сфере деятельности — гуманитарная сфера, техническая и т.п.);
на рисунке 6.2 не соответствующий выбор назван «случайным», б) удовлетворенность абитуриента совершенным выбором; на рисунке 6.2 эта переменная названа «субъективно правильный» или «неправильный» выбор.
Рис. 6.2. Сравнение связей успешного («правильного») выбора профессии и
рехультатов тестирования по методике «Профориентатор». Высота
столбца отражает процентные доли при общей численности обследованных в 457 человек
Глава 6. Валидность, рентабельность и достоверность
441
Полученный фи-коэффициент корреляции по соответствующей четырехклеточной табличке сопряженности (А=67, B=33 и т.п.) оказался невысоким (всего 0,26), но значимым при такой численности выборки на уровне
p<0,001. На первый взгляд может показаться, что получена невысокая прогностичность и эффективность профориентационной рекомендации на
основе теста, однако, как мы покажем далее (см. раздел 6.3), 0,26 — это на
самом деле достаточно высокий показатель (см. об этом ниже раздел 6.3).
Если бы это не было так, то доля клиентов, обратившихся в наш Центр по
принципу «сарафанного радио» (по рекомендациям от знакомых), не была
бы все годы такой значительной (от 30 до 45 процентов).
Конструктная валидность
Конструктная валидность — это один из основных теоретических
типов валидности, указывающий на степень отражения заявленного
свойства в результатах теста. В качестве конструкта в психодиагностике
могут выступать практический или вербальный интеллект, эмоциональная устойчивость, интроверсия, понимание речи, переключаемость внимания и пр. В ходе педагогических измерений мы говорим о таких конструктах, которые имеют прямое отношение к учебной деятельности, — о
любознательности, об усидчивости, об исполнительской точности учащегося в ходе определенных упражнений и т.п. Специфические конструкты
для организационной психологии — это лояльность, инновационная восприимчивость, сплоченность персонала. Иначе говоря, конструктная валидность определяет область теоретической структуры психологических,
психолого-педагогических или профессионально-психологических явлений, измеряемых с помощью теста или особых экспертных оценочных
процедур.
Казалось бы, обсуждая конструктную валидность, мы попадаем в область сугубо академических изысканий и разработок. Но, как говорится, нет ничего практичнее хорошей теории. В педагогике и профессиональной оценке конструктная валидность относится к обоснованию той
модели компетенций, которая лежит в основе педагогического или профессионального многомерного теста. Тест, базирующийся на развитой,
логически-связной теоретической модели, оказывается защищенным
от множества казусов — случайных артефактов, которые подстерегают
любую методику, когда она погружается в бурный океан эмпирических
данных. Будучи уверенными в логически-стройной теории, лежащей в
основе теста, мы легче обнаруживаем такие артефакты, как сознательное
применение многими испытуемыми определенной фальсификационной
стратегии, искажающей истинные тестовые баллы. А в тех случаях, когда
у нас нет никакой теории, мы вынуждены слепо доверять данным, которые сами по себе такого отношения вовсе не заслуживают.
442
Практическая тестология
Но конструктная валидность не была бы столь привлекательным
видом валидности именно для практиков, если бы она была связана
только со спекулятивно-теоретическими постулатами. Именно конструктная валидность может быть операционализирована и измерена.
Когда именно та или иная компетенция приобретает статус «работающего конструкта»? Тогда, когда мы получаем согласованные экспертные оценки при использования данной переменной для оценивания
экспертами определенных людей. Точно так же операциональным
критерием конструктной валидности тестов является согласованность
баллов по тестам, построенным различным образом, но измеряющим
один и тот же конструкт.
Таким образом, среди конкретных методов измерения конструктной
валидности, наиболее популярно сопоставление нового теста с другими
методиками с известным содержанием. При таком подходе для новой тестовой методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или
предполагаемой связи с исследуемым. При этом валидность характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно (см. далее параграф «конвергентная и дискриминантная
валидности»).
Важным аспектом является внутренняя согласованность (внутренняя
валидность123), отражающая то, насколько определенные пункты теста (задания, вопросы) подчинены основному направлению теста как целого,
ориентированы на обнаружение (измерение) одних и тех же конструктов.
Как мы уже неоднократно говорили выше, для анализа внутренней согласованности ответы на каждое задание коррелируют с общим результатом
теста. Таким образом, выявление гомогенности (однородности) подмножества тестовых заданий, образующих определенную тестовую шкалу,
является с теоретической точки зрения эмпирико-статистическим доказательством существования определенного конструкта.
Именно наличием определенных правил измерения (верификации)
понятие «конструкт» отличается от родственного понятия «концепт». Пока
мы говорим, например, о креативности как определенной теоретическипостулируемой способности, мы обсуждаем только «концепт». Но когда мы начинаем говорить, что креативность можно измерить такой-то и
такой-то методиками, мы начинаем обсуждать именно «конструкт» — то
123
В литературе до сих пор нет единодушия, как трактовать внутреннюю согласованность
(консистентность) — как внутреннюю валидность, или как надежность-гомогенность. Я
считаю, что при наличии одного автора мы должны говорить о надежности, а при наличии
разных авторов (у тестовых заданий, входящих в одну шкалу) — о внутренней валидности. — Прим. автора.
Глава 6. Валидность, рентабельность и достоверность
443
есть переменную, которую можно определенным образом операционализировать — измерять и фиксировать. Эмпирическим признаком креативности на уровне конструкта оказываются такие свойства как, например,
гибкость — способность испытуемого быстро менять способ решения от
задачи к задаче. Эксперты, которые устанавливают конструктную валидность, должны анализировать те эмпирические индикаторы, на которых
базируется тест, то есть как именно тестовые задания выражают концепт.
Если обнаруживается несоответствие между концептом и его операционализацией в конкретном содержании тестовых заданий, то конструктная
валидность не обеспечивается. Таким образом, в процедурах экспертного анализа содержания заданий конструктная валидизация сближается
фактически с содержательной валидизацией — проверкой содержательной валидности.
Конвергентная и дискриминантная валидность
Мы можем предполагать концептуальную близость (родственность)
определенных измеряемых свойств в силу того, что одно свойство входит в структуру другого — более комплексного, или в силу того, что
одно свойство является причинным фактором для развития другого.
Тогда мы ожидаем, что соответствующие этим концептам оценочные
процедуры должны «конвергировать» — давать близкие, хотя и не совпадающие результаты. Например, успехи по геометрии должны, согласно нашему теоретическому прогнозу, положительно коррелировать
(давать не совпадающие, но близкие результаты) с успехами по математике в целом (и по алгебре, в частности), так как, несмотря на наличие компонента «визуальная смекалка», в геометрии тоже требуется
определенная математизированная строгая логика в работе с основными понятиями, выраженными в виде вербальных категорий. Если мы
имеем наборы заданий (тестов) по геометрии и алгебре, которые дали
нам совсем не связанные результаты, то, руководствуясь теоретическими ожиданиями, мы должны скорее критически отнестись к наборам
заданий, чем изменить наши представления о теоретических концептах. Вносим коррективы в набор заданий и получаем ненулевую (хотя
и не равную 1) корреляцию результатов — значит, мы добились конвергентной конструктной валидности.
В случае если мы считаем концепты совсем не связанными друг с
другом, мы ожидаем отсутствия корреляции между соответствующими
операциональными понятиями (конструктами) и измерительными процедурами. Этот второй случай и называется «дискриминантная валидность». Подытожим краткое рассуждение в виде упрощенных определений (они скорее служат мнемотехническим средством, чем раскрывают
смысл этих непростых понятий):
444
Практическая тестология
О конверегентной валидности двух тестов мы говорим, когда баллы
по этим тестам дают теоретически ожидаемую нами значимую статистическую связь (корреляцию); о дискриминантной валидности —
когда баллы дают теоретически ожидаемую нами практически нулевую корреляции (не отличающуюся значимо от нуля).
Должны ли баллы по черчению и геометрии коррелировать? Наверное,
да, так как оба эти предмета опираются на общую для них способность
(компетенцию) — «визуальную смекалку». Но должны ли коррелировать
между собой черчение и алгебра? Практически не должны, то есть соответствующие наборы заданий (тесты) должны обладать дискриминантной валидностью. Разве что слабая корреляция возможна на основе такого неспецифического фактора как «общее прилежание» (старательность,
мотивированность учащегося на успешное обучение в школе). То есть
если мы не будем отбрасывать совсем немотивированных учеников (прогульщиков и лоботрясов), то среди старательных учеников немного чаще
должны встречаться учащиеся, которые хорошо успевают и по черчению,
и по алгебре одновременно, чем такие, которые хорошо успевают по одному из этих предметов и совсем неудачно учатся по другому. Но… если мы
очистим выборку от немотивированных учеников, то по идее мы должны
ожидать совсем незначительную, почти нулевую корреляцию между тестами по алгебре и по черчению.
Наш схематический пример позволяет построить геометрическую
модель соотношения трех конструктов — «тест по черчению», «тест по
геометрии» и «тест по алгебре» (см. рис.6.3). Первый и третий тест в этой
тройке изображаются на этом рисунке фактически ортогональными (взаимно-перпендикулярными) векторами, а второй («тест по геометрии»)
изображается вектором, который проходит как некая биссектриса — лежит между ортогональными осями. Вертикальную ось на этом рисунке
мы можем интерпретировать как чистый «абстрактно-математический
интеллект» (или «нумерический интеллект» по известной теории, развитой в работах Терстоуна и Вернона, — нужна ли ссылка? Или это общеизветно?), горизонтальную — как чистый «пространственно-механический
интеллект» (именно он предопределяет успехи в черчении124). А «тест по
геометрии» представлен как «смесь», комбинация двух факторов интеллекта — математического и пространственного.
Аналогично на рисунке 6.4 проиллюстрированы отношения конвергентной и дискриминантной валидности между однофакторным тестом
тревожности Жанет Тейлор (тест-опросник MAS) и двухфакторным тестом темперамента Г. Айзенка (тест-опросник EPI). Однофакторный тест
124 В черчении в большей степени, чем в алгербре, проявляется такой фактор как «аккуратность-прилежание», но в данном случае для простоты и иллюстративности примера мы
предлагаем от всего лишнего абстрагироваться. — Прим. автора.
Глава 6. Валидность, рентабельность и достоверность
445
Рис.6.3. Схематическая иллюстрация отношений между тремя тестами — «алгебра», «геометрия» и «черчение» — в виде векторов в двухфакторном пространстве — «пространственный интеллект» (ось Х) и «математический интеллект» (ось Y).
тревожности Тейлор дает минимальные баллы в левом верхнем квадранте
двухфакторной модели темперамента — для эмоционально-устойчивых
экстравертов (сангвиников) — и дает максимальные баллы в правом нижнем квадранте для эмоционально-неустойчивых (невротичных) интровертов (меланхоликов). В логике пары понятий «конвергентная-дискриминантная валидность» тест MAS обладает необходимой минимальной
конвергентной валидностью в отношении фактора «эмоциональная нестабильность» (фактор N Айзенка, вертикальная ось на рисунке 6.4), но НЕ
обладает необходимой дискриминантной валидностью в отношении фактора «экстраверсия» (горизонтальная ось). Таким образом, тест-опросник
MAS игнорирует высокую невротичность нестабильных экстравертов, каковыми являются холерики.
ɄɈɇɋɌɊɍɄɌɇȺə ȼȺɅɂȾɇɈɋɌɖ
ɫɬɚɛɢɥɶɧɨɫɬɶ
ɷɤɫɬɪɚɜɟɪɫɢɹ
ɢɧɬɪɨɜɟɪɫɢɹ
ɧɟɣɪɨɬɢɡɦ
MAS
Рис.6.4. Иллюстрация понятий конвергентная и дискриминантная валидность на примере тест-векторов «тревожность (MAS)», «экстраверсия» и
«нейротизм».
446
Практическая тестология
Каковы должны быть величины коэффициентов корреляции, чтобы признать конверегентную валидность двух методик существенной? Часто это
корреляции на уровне 0,2 — 0,3. Но психологи (причем, весьма авторитетные)
чаще всего сами выражают крайнюю неудовлетворенность такими низкими
коэффициентами, просто «стыдятся» их публиковать, сами не очень хорошо
понимая логику вероятностного прогнозирования на базе тестовой диагностики. Вспоминается такой эпизод. В 2008 году совместно с известнейшим в
нашей стране психологом-диагностом Людмилой Николаевной Собчик мы
предприняли экспериментальное исследование на сайте www.ht.ru. Оно было
направлено на измерение конвергентной валидности теста цветовых предпочтений (в модификации «парные сравнения», а не ранжирование цветов, как
у Макса Люшера) и двухфакторного опросника темперамента (модификации
известного опросника EPI Г. Айзенка). Мы получили ряд значимых корреляций для предпочтений определенных цветов с баллами по шкалам «Экстраверсия-Интроверсия» и «Нейротизм-Стабильность». Все парные корреляции
оказались в районе 0,20, а это на выборках более 400 участников статистически значимые величины. Более высокие значения (впрочем, не превышающие 0,3) были получены для некоторых комплексных производных показателей. Но… самым интересным моментом явилась совершенно разная реакция
двух соавторов исследования на полученные результаты. Для меня они были
несомненным позитивным свидетельством в пользу цветовой диагностики (я
впервые получил подобные корреляции «своими руками» на столь представительных выборках), а для Людмилы Николаевны — источником серьезного
огорчения («слишком низкие корреляции») и серьезных сомнений, прежде
всего, в тест-опроснике, примененном для проверки конструктной валидности (архивные материалы этой публичной дискуссии достунпы на блоге
Л.Н. Собчиной на сайте www.ht.ru). Ниже в разделе 6.3 мы поговорим о неправильной трактовке психологами самих числовых значений корреляции 0,2
или 0,3, о непонимании вероятностного смысла этих значений.
Экспертная валидизация с помощью оценивания испытуемых
Выше мы говорили о ситуации, когда для обоснования содержательной валидности теста перед экспертами ставится задача оценить и соотнести с различными конструктами отдельные тестовые задания. Но чаще
объектом экспертных оценок в тестологии являются не задания, а сами
испытуемые, выполняющие тест. Это делается для того, чтобы подсчитать
корреляцию между тестовыми баллами и экспертными оценками. В таблице 6.4 для наглядности представлена очень простая структура данных:
и тест, и эксперты оценивают один и тот же конструкт. Все, что нас интересует в данном случае, — это коэффициент корреляции между двумя
столбцами таблицы — между тестовым баллом и усредненной (по принципу медианы) экспертной оценкой в последнем столбце.
Глава 6. Валидность, рентабельность и достоверность
Испытуемый
Испытуемый 1
Тест
Балл
Эксперт 1
Эксперт 2
…
447
Усредненная
экспертная оценка
Оценка
Испытуемый 2
…
Испытуемый N
Таблица 6.4. Структура данных при расчете корреляций между тестом и
экспертными оценками по испытуемым.
Если между тестом, направленным на измерение креативности, и
экспертными оценками, выставленными тем же самым испытуемым по
оценочной шкале «креативность», обнаружена значимая корреляция, то
это означает сразу 2 вещи:
1) Тест обладает конвергентной валидностью с экспертными оценками
по данному диагностическому конструкту.
2) Эксперты адекватно осмыслили и применили данный конструкт для
оценивания именно «креативности» — того самого свойства, которое
подвергалось тестированию.
Таким образом, не заставляя экспертов оценивать сами тестовые задания (что удобно хотя бы из тех соображений, что при этом тестовые задания не раскрываются), мы можем добиться косвенной содержательной
валидизации теста, получив значимую корреляцию между тестом и экспертными оценками по испытуемым. Данный прием особенно эффективен в тех случаях, когда:
А) Мы не располагаем доступом к высокообразованным экспертам (специализирующимся в области проф- и психодиагностики), которые
могут оценить сами тестовые задания, так что в роли экспертов мы
фактически привлекаем включенных наблюдателей (руководителей,
коллег и т.п.).
Б) Измеряемый тестом конструкт не слишком сложен для включенных
наблюдателей.
Например, по конструкту «общительность» вполне возможна такая
несложная схема валидизации теста. А вот по очень специальному конструкту «полезависимость», пожалуй, вряд ли удастся использовать эту
схему. Впрочем, можно попробовать на небольшой группе, убедиться в
том, что оценщики дают несогласованные результаты (трактуя сложный
для них конструкт по-разному), и отказаться от дальнейшего наращивания выборки.
448
Практическая тестология
Дискриминантная валидность тестовых баллов
и экспертных оценок
Впрочем, использование экспертных оценок для проверки одной лишь
конвергентной валидности в строгом смысле не является достаточным
основанием для вывода о валидности теста. Нужно проверить еще и дискриминантную валидность. Это становится возможным, если множество
компетенций (оценочных конструктов), которые измеряются с помощью
теста, находится в отношениях «наложения» (или приближенного номинального тождества) со множеством компетенций, которые подвергаются
экспертной оценке. В таблице 6.5 приведена более сложная структура данных, которая возникает в таких случаях.
Испытуемый
Испытуемый 1
Тестовые баллы
Усредненные экспертные оценки
Конструкт 1 Конструкт 2 Конструкт 3 Конструкт 1 Конструкт 2 Конструкт 3
Балл
Балл
Балл
Оценка
Оценка
Оценка
Испытуемый 2
…
Испытуемый N
Таблица 6.5. Структура данных, иллюстрирующая массив тестовых баллов и экспертных оценок по одному и тому же множеству испытуемых и
по одному и тому же множеству оценочных конструктов (компетенций,
или критериев оценивания).
Если для всех столбцов, представляющих баллы в таблице 6.5, посчитать попарные корреляции со всеми столбцами, представляющими экспертные оценки, то мы получим матрицу, весьма похожую на известную
матрицу Кэмпбелла и Фиске — «многих черт и многих методов» (multitraits and multi-method matrix). Эта матрица проиллюстрирована схематическим примером ниже в таблице 6.6. Так же, как и в таблице 6.5, рассматривается пример оценивания только трех оценочных конструктов,
но этот пример читатель легко может обобщить для произвольного множества K одноименных конструктов.
Итак, в каком случае мы говорим о конвергентной валидности двух
систем шкал — тестовых и экспертных? В том случае, если по главной диагонали матрицы 6.6 стоят значимо-высокие и положительные коэффициенты корреляции между одноименными шкалами — R11 R 22 иR33. Чтобы
подчеркнуть это значимое отличие от нуля, автор поставил на главной диагонали удвоенный значок «больше». А вот вне главной диагонали по идее
должны стоять незначимые, близкие к нулю коэффициенты корреляции.
Глава 6. Валидность, рентабельность и достоверность
449
Тесты\ Эксперты
Экспертная
Экспертная
Экспертная
шкала 1
шкала 2
шкала 3
«Организованность» «Стрессоустойчивость» «Инновационность»
Тестовая шкала 1
«Организованность»
R11>>0
R12
R13
Тестовая шкала 2
«Стрессоустойчивость» R21
R22>>0
R23
Тестовая шкала 3
«Инновационность»
R32
R33>>0
R31
Таблица 6.6. Матрица корреляций между гипотетическими тестовыми и
экспертными шкалами, иллюстрирующая проверку дискриминантной валидности125.
Именно отсутствие корреляций между разноименными шкалами является свидетельством дискриминантной валидности тестовых и экспертных
шкал относительно друг друга.125
Тут принципиально важно подчеркнуть относительность двух источников информации — теста и экспертных оценок — в качестве источников информации о валидности. Ни первый, ни второй источник
нельзя считать априори идеальным. Например, в таблице 6.6 мы можем получить значимую корреляцию R 13 между тестовой шкалой 1 «Организованность» и экспертной шкалой 3 «Инновационность». О чем это
говорит? Не столько о дефектах в конструкции теста, сколько о недиффиренцированности (недискриминативности) экспертных оценок, то
есть о том, что эксперты считают «инновационно ориентированными»
сотрудниками более организованных сотрудников, смешивая (склеивая в сознании) два разных оценочных конструкта. А вот если бы при
нулевом (практически нулевом) значении R 13, мы получили бы значимо высокий коэффициент R 31, то следовало бы делать противоположный
вывод — о низкой дискриминативности именно теста, который приписывает высокую инновационность тем испытуемым-сотрудникам, которых эксперты оценили как «организованных». Впрочем, для большей
уверенности в том, в какой системе шкал произошла «склейка», надо
еще проанализировать не только матрицу корреляций между тестовыми и экспертными шкалами, но и 2 матрицы внутренних корреляций
(матрицы интракорреляций) — внутри тестовых шкал и внутри экспертных шкал. Если тестовые шкалы между собой не дают высоких попарных корреляций, а экспертные дают такие корреляции, то корректнее
сделать вывод о низкой дифференцированности экспертных оценок, чем
о низкой дифференцированности тестовых измерений.
125
В таблице 6.4 мы уже говорим именно о шкалах, а не о конструктах, так как при расчете
корреляций (точнее, ДО расчета) необходимо произвести нормализацию тестовых баллов и
экспертных оценок, то есть произвести «шкалирование». — Прим. автора.
450
Практическая тестология
6.2. ВАЛИДНОСТЬ И ЭФФЕКТИВНОСТЬ
ПРОФЕССИОНАЛЬНОЙ ДЕЯТЕЛЬНОСТИ
Выше мы уже ставили вопрос о достоверности самой критериальной
информации. Здесь поговорим об этом подробнее. Концентрируя внимание главным образом на собственном профессиональном объекте — тестах, тестологи нередко абстрагируются от того, что с самым главным
критерием для проверки валидности тестов — эффективностью деятельности — ситуация выглядит, как правило, вовсе не безоблачной. Если в
сфере образования такой критерий, как «успешность сдачи последней
сессии» (или нескольких сессий), является весьма формализованным и
достаточно содержательным, то в профессиональных производственных
организациях разумный критерий надо нередко еще только «строить».
Самое простое в организационном (и интеллектуальном плане) решение — это взять в качестве «высокой» контрастной группы (группы эффективных) тех сотрудников, которые просто долго работают в организации и
не имеют никаких документированных нареканий по работе, а в качестве
«низкой» контрастной группы — тех, кто либо часто переходит с одного
места на другое («летуны»), либо имеет явные документированные нарекания (штрафы, выговоры и т.п.). Но… как только выяснится, что по этому
простому критерию оказывается невалидным (не дает значимых корреляций) Ваш кейс-тест, довольно-таки дорогой по затратам на разработку
(суммарному времени интеллектуальных усилий), выглядящий вполне
разумным и для разработчиков, и для самих испытуемых, то тут же возникнут вполне уместные (хотя и запоздалые) сомнения, а правильно ли
выбран сам критерий? Вскоре может выясниться, что «документированные нарекания» отражают главным образом дисциплинарное поведение
сотрудников: в «высокую» группу попадают за своевременное появление
на рабочем месте, а в «низкую» — едва ли не самые продуктивные работники — некоторые из тех, кто, засиживаясь за компьютерами сверхурочно, добиваясь результата в заданные сроки, на следующее утро просто
физические не могут подняться заблаговременно, чтобы избежать риска
транспортных пробок, и т.п.126 Оказывается, что надо учесть сроки выполнения производственных заданий (хотя бы сроки сдачи отчетности об их
выполнении), сложность решаемых задач (а кто ее может корректно оценить, если руководитель сам является скорее «универсальным менеджером» и не знает технологического процесса в деталях?). Вот так возникает
проблема построения множества различных показателей эффективности
(отдельных KPI) и системы их интеграции — сводного индекса.
126 Конечно, такая ситуация кому-то может показаться неправдоподобной, но мы ее наблюдали воочию в тех организациях, где система документирования нарушений существовала сама по себе, а система реального решения сложных производственных задач — сама по
себе. — Прим. автора.
Глава 6. Валидность, рентабельность и достоверность
451
Различные KPI — откуда их брать и как сводить
в единый показатель
Увы, как говорится, «спасение утопающих — дело рук самих утопающих»: в организации может просто не оказаться НИ одного человека, кроме самого тестолога, способного поставить вопрос о формализованных критериях учета эффективности деятельности. Поэтому
именно практический менеджер-тестолог должен быть готов и морально, и интеллектуально к выполнению этих работ — работ по построению сводного критерия эффективности на базе отдельных KPI
(key performance indicators).
В отсутствие одного-единственного формализованного показателя, который бы был убедительным во всех отношениях, работа сводится к тому, чтобы изобрести, кроме одного показателя, еще и несколько других, призванных компенсировать недостатки первого и
друг друга. Допустим, мы считаем главным показателем для страхового агента количество совершенных сделок (договоров со страхователями). Но при этом понимаем, что сделки имеют разную ценность
для организации, и эта ценность не выражается целиком лишь в сумме договора. Одно дело — традиционное направление страхования
(транспортное, допустим). Другое дело — инновационное или просто
«не раскрученное» в нашей стране (например, страхование жизни).
Компания заинтересована освоить новую рыночную нишу и бросает
на «страхование жизни» наиболее инициативных и изобретательных
своих сотрудников. И что же получается? Из-за неразработанности новой рыночной ниши показатель эффективности (главный KPI) у этих
самых ценных сотрудников по факту оказывается на какой-то ощутимый период (на целый первый год) НИЖЕ, чем показатели эффективности сотрудников, работающих на традиционных участках. Что же
делать? Придется для построения объективного показателя эффективности в формулу расчета вводить весовой коэффициент «риска» (или
значимости, или какое-то другое возможно название). Как его оценить? Очень часто кажется, что нет другого способа, кроме экспертных оценок. Но… если вдуматься, то тут возможна статистическая
нормализация внутри различных KPI. У нас есть просто «под руками»
полезная аналогия для выполнения этой процедуры — нормализация
внутри субтестов для построения интегрального показателя по тестовой батарее. Для применения простейшей линейной нормализации
по каждому KPI мы можем вычислить среднее и стандартное отклонение (по всем работникам) и рассчитать нормализованный KPI. Это понятное для тестологов преобразование может привести к повышению
оценок работников, которые трудятся на сложном участке. В таблице
6.7 приводится пример этого преобразования.
Сырой показатель KPI на трудном участке X2
Сводный сырой
рейтинг ценности
сотрудника
Нормированный
показатель KPI
на легком участке Z1
Нормированный
показатель
KPI на трудном
участке Z2
Сводный
нормированный
рейтинг ценности
Практическая тестология
Сырой показатель KPI на
легком участке X1
452
Работник 1
24
2
26
60
30
90
Работник 2
20
3
23
50
35
85
Работник 3
6
6
12
15
50
65
Работник K
6
12
18
15
80
95
Среднее
значение
20
6
Стандартное
отклонение
4
2
…
Таблица 6.7. Пример, иллюстрирующий расчет рейтинга ценности сотрудников на базе нормированных показателей KPI.
Поясним данные арифметического примера в таблице 6.7. Предположим, два первых сотрудника 1 и 2 работают главным образом на сравнительно легком участке и производят на этом участке в расчетное время
20 и более единиц продукции (заключают 20 и более договоров в месяц).
А сотрудники 3 и K работают на трудном участке и производят в 2—3 раза
меньше единиц продукции на этом трудном участке. Если мы рассчитываем рейтинг ценности сотрудников путем примитивного суммирования сырых показателей, то работники на трудном участке оказываются внизу рейтинг-листа. Но если нормировать данные по формуле (4.4),
переводящей сырые показатели в Т-шкалу (с параметрами среднее — 50,
стандартное отклонение — 10), то на первое место вырывается сразу работник K — тот, который резко превосходит других по продуктивности
на трудном участке (его показатель на три сигмы выше среднего на этом
участке).
Конечно, подобный подход возможен далеко не во всех организациях. Требуется определенная численность (статистика) работников на всех
участках, включая трудные, чтобы эмпирические статистические показатели среднего и стандартного отклонения можно было принять за некий
эталон для нормализации. Но все же данный пример способен проиллюстрировать очень важный тезис:
Глава 6. Валидность, рентабельность и достоверность
453
Тестологическая грамотность, компетентность практических тестологов должна быть применена не только к результатам самих тестов,
но и к показателям эффективности деятельности работников.
Дефекты субъективного оценивания на производстве и псевдо-KPI
Выше мы уже говорили, что в отсутствие объективных статистических данных о производственной эффективности руководство организации нередко проводит опросы непосредственных руководителей работников, эффективность которых необходимо оценить. Искажений, которые
мы получаем в ходе такого рода оценивания, так много, что этот источник
информации впору называть «псевдо-KPI».
Но что делать, если другой информацией мы не располагаем? Можно
ли как-то «очистить» этот источник, чтобы все-таки его использовать? Для
понимания процедур, пригодных для «очистки», целесообразно проанализировать причины искажений и дефектов в субъективных оценках работниками друг друга и начальниками своих подчиненных. В свое время
еще советские социальные психологи выполнили эффективные исследования, в которых искажения в субъективных оценках были достаточно
точно классифицированы на основе межиндивидуальных различий в
применении различных эталонов оценивания и различных механизмов
проекции — ассимилятивной или контрастной (Кроник, 1982).
1) Эгоцентрическое ассимилятивное восприятие — в качестве эталона
принимается самооценка, и работает ассимилятивный механизм проекции. Для защиты самооценки большинство эгоцентричных субъектов склонны занижать оценки тех лиц, которые их самих превосходят,
приближая оценки других к своей самооценке.
2) Эгоцентрическое контрастное восприятие — в этом случае субъект
преувеличивает степень отличия других от себя самого. Это характерно для лиц c завышенной и-или с уязвимой самооценкой.
3) Социоцентрическое ассимилятивное восприятие — в качестве эталона субъект принимает некое представление о средних показателях в
группе и при этом преуменьшает различия между людьми.
4) Идеализированное ассимилятивное восприятие — субъект выносит почти всем максимально высокие оценки (удобная стратегия для минимизации возможных конфликтов — преследования со стороны обиженных).
и т.п.
Можно ли обеспечить эффективную систему поправок в искаженные
оценки, если мы не знаем, какую именно модель оценивания применяет
454
Практическая тестология
данный конкретный человек — субъект деятельности оценивания? Очевидно, что без распознавания этой модели это сделать нельзя. А можно ли
распознать модель? Теоретически можно, но для этого надо иметь возможность сравнить субъективные оценки и объективные оценки одних и тех
же работников (студентов в случае учебных заведений). Например, сдвиг
в сторону эгоцентрических ассимилятивных искажений можно обнаружить, если имеются объективные данные хотя бы о количестве дисциплинарных нарушений (количество опозданий за последнее полугодие), а
также субъективные оценки сотрудником Х этих же данных плюс самооценка сотрудником Х самого себя по уровню дисциплинированности.
Можно ли прогнозировать, что по другим критериям (по которым нет объективных данных) у данного сотрудника Х, скорее всего, проявятся также именно эгоцентрические ассимилятивные искажения? Да, можно. Это
будет приближенный прогноз, но все-таки внесение таких поправок даст
более точную информацию, чем буквальное использование искаженных
оценок.
«360 градусов» как попытка объективизации
субъективных оценок
Одним из методов, призванных нивелировать искажения в субъективных оценках, получаемых от «внутренних экспертов» (сотрудников
организации, где работает оцениваемый), в настоящее время считается
метод «круговой оценки личности», или, как его принято чаще называть
в последнее время, — «360 градусов» (Уорд, 2006). В основе этого метода
лежит примерно та же самая методология, что и в классической социометрической технике, разработанной еще в первой половине 20-го века
Я.Л. Морено, — технике, позволявшей измерить статус человека с помощью оценок, данных людьми, окружающими этого человека. В ходе
метода «360 градусов» опрашиваются не только руководители данного
сотрудника (объекта оценивания), но и коллеги одного ранга, подчиненные (если у данного сотрудника есть подчиненные), а также клиенты,
или сотрудники других организаций (если он работает на линии внешних связей организации с физическими или юридическими лицами)127.
Предполагается, что некий перекос, свойственный одним источникам
информации, выравнивается с помощью других оценок, которые несут
с собой не только иные искажения, но и некоторые элементы объективности в оценках. Подобное предположение характерно не только для ме127 Если к оценке присоединяются внешние к организации лица (потребители, клиенты,
поставщики, партнеры), то метод 360 называют уже «540 градусов», хотя, по мнению автора, и в том, и в другом случае количество градусов — это весьма условная метафора. — Прим.
автора.
Глава 6. Валидность, рентабельность и достоверность
455
тода «360 градусов», не только для методологии, основанной на агрегировании независимых экспертных оценок, но и вообще для всей методологии приближенных измерений:
Чем больше независимых источников информации мы привлекаем,
тем с большей вероятностью оценки приближаются к истинным.
Хотя в отношении коллег по одной организации это, конечно, лишь
допущение, которое выполняется на деле далеко не всегда. Приходится
учитывать, что в ходе сбора «круговых оценок» срабатывают не только
различные сугубо индивидуальные механизмы оценивания, но и определенные стратегии оценивания, характерные для ВСЕХ сотрудников в
данной конкретной организации. Они-то и вносят систематические, а
не разнонаправленные искажения. Например, в какой-то организации
принято «покрывать друг друга» (по крайней мере, в плане дисциплинарных нарушений и мелких нарушений технологии производства). Вместо
объективизации мы сталкивается с «круговой порукой» — стремлением
сотрудников завысить оценки других, рассчитанным на аналогичное
встречное отношение со стороны этих других. На фоне этого искусственного «благополучия» резким диссонансом могут выглядеть вдруг возникающие низкие оценки каких-то людей, которые «выпадают из коллектива».
Причем, как показывает углубленный анализ, выпадать они могут вовсе
не потому, что работают объективно хуже других, а потому, что не соблюдают неписаные нормы данной группы (не «прикрывают» ошибки и просчеты своих коллег).
В литературе, посвященной методу «360 градусов», делается особый
акцент на сборе оценок в режиме анонимности (что оказывается возможным, прежде всего, в ходе компьютеризированного сетевого проведения
методики). Но и в этом случае независимые исследователи выявляют невысокую корреляцию между этими «круговыми оценками» и объективными KPI — на уровне 0,3 (а в отсутствие анонимности корреляция вообще снижается до 0,1). Анонимность не является полной гарантией от
«взаимного укрывательства». Сопротивляясь проникновению в «неписаные нормы» своего внутреннего взаимодействия, группа может проявить
удивительную сплоченность, выдавая друг другу заведомо завышенные
оценки даже в условиях полной анонимности: все объединяются друг с
другом против «исследователей», а также начальства, желающего выносить дифференцированные оценки сотрудникам на основании оценивания по методике «360 градусов». Сам по себе этот метод не снимает вопроса о сопротивлении и не является менее конфликтным инструментом,
чем метод тестов.
Таким образом, прежде чем принимать решение об использовании данных «360 градусов» в качестве «объективного» критерия для
валидизации тестов, нужно каким-то образом подтвердить, что в
456
Практическая тестология
данной конкретной группе в целом доминируют отношения здоровой
критики и самокритики (характерные для здоровых коллективов), а
не отношения «взаимного укрывательства» (характерные для антиколлективов).
Какой же источник информации нам поможет понять, имеем ли
мы дело с коллективом или с антиколлективом (группой, сплоченной на основе группового эгоизма)? Вот здесь-то, по убеждению автора книги, несомненную пользу могут принести тесты профессиональных знаний (квалификационные тесты). Если Вы проведете подобное
тестирование, добившись того, чтобы результаты были достоверными
(не сфальсифицированными), то участники протестированной группы
(какого-то подразделения организации) обязательно получат разные
результаты (кто-то обязательно окажется не столь знающим специалистом). После этого сравните данные подобного тестирования и данные
«кругового оценивания». Если в случае «кругового оценивания» получается гораздо более выраженная асимметрия (перекос) в сторону более высоких оценок, то это означает, что в данной группе наблюдается
общая стратегия «взаимного укрывательства», то есть на самом деле
«круговое оценивание» нельзя рассматривать в данной группе как объективный источник информации в отношении и всех остальных компетенций. Подробнее о том, как срабатывает такая стратегия взаимной
проверки валидности тестов и «внутренних экспертных оценок», мы
поговорим также в главе, посвященной методам проверки валидности
вузовских экзаменов.
Располагая в составе нашей системы HT-LINE методами компьютеризированного сбора данных не только в виде сервис-модуля тестирования,
но и в виде модуля «360 градусов», мы в нашей лаборатории имеем реальную возможность быстро проводить одновременно на одних и тех же сотрудниках и квалификационное тестирование (тесты профзнаний), и
сбор «круговых оценок». Их расхождение дает очень серьезную «пищу для
размышления» — выводов о том, на каких именно основаниях люди дают
оценки друг другу в данной организации. Но, к сожалению, приходится
признать, что заказчики, как правило, не видят особого смысла в том, чтобы применять сочетание разных методов: чаще всего заказывается либо
одно, либо другое. Какие разъяснения способны убедить заказчика? Непонимание ценности комплексного подхода к оцениванию можно метафорически сравнить с попытками врача измерять у людей либо только рост,
либо только вес. Но ведь наиболее информативным показателем нарушения здоровья является как раз разрыв, дисгармония в этих двух показателях! К сожалению, в отношении психологической и профессиональной
оценки эта истина далеко не столь очевидна, и чаще всего заказчик хочет
использовать либо тестовый метод, либо проводить опросы типа «360 градусов», либо очень дорогой «ассессмент-центр» — оценку силами внешних
экспертов.
Глава 6. Валидность, рентабельность и достоверность
457
6.3. УПРОЩЕННАЯ ФОРМУЛА ТОЧНОСТИ
БИНАРНОГО ПРОГНОЗА
До сих пор даже среди вполне грамотных специалистов (в том
числе кандидатов и докторов наук) весьма распространено мнение,
что коэффициент валидности надо возводить в квадрат, чтобы узнать
точность прогноза. При таком подходе коэффициенту корреляции
между тестом и критерием в размере 0,3, якобы, соответствует 9%-ная
точность прогноза. Согласно другому мнению, коэффициент валидности буквально соответствует вероятности прогнозируемого события,
то есть коэффициент валидности, равный 0,3, означает ровно 30-процентную точность прогноза 128. В этом параграфе мы постараемся объяснить с содержательной и формально-математической стороны, почему обе точки зрения неверны и могут повлечь за собой серьезные
ошибки в управлении кадрами.
Путаница с возведением в квадрат во многом вызвана смешением тех принципов матстатистики, которые используются для анализа
надежности, и несколько иных принципов, пригодных для анализа
валидности. Квадрат корреляции — это классическая мера соответствия измеренного и истинного значения тестового балла (см. главу 4,
посвященную измерению надежности). А под истинным баллом чаще
всего даже специалисты склонны подразумевать «идеальный показатель валидности». На самом деле практическая валидность — это мера
соответствия теста не истинной шкале измеряемого свойства, а шкале принимаемых решений. Эта шкала является, как правило, вовсе не
интервальной и даже не порядковой, а номинальной, то есть различительной только с точностью до категорий принимаемых решений.
Рассмотрим ниже ситуацию, когда таких категорий всего две: «выше
точки отсечения» (hire) и «ниже точки отсечения» (reject).
В свое время еще в 1939 году в «Журнале прикладной психологии»
вышла статья, которой было суждено стать одной из самых цитируемых статей в мире в области тестологии и индустриальной прикладной психологии (Taylor, Russell, 1939). Ее авторы — Х. Тейлор и
Дж. Расселл — привели убедительные аргументы, раскрывшие ошибочность связывания точности прогноза с корреляционным отношением (квадратом коэффициента корреляции). С тех пор диаграммы
и таблицы Тейлора-Расселла опубликованы во множестве учебников
и руководств по психологическому и профессиональному тестированию (см., например, Кулагин, 1984;, Saccuso, 1995; Анастази, Урбина,
2001).
128 При определенных ограниченных условиях такое представление в отношении инкрементной валидности, как мы покажем в данном параграфе, оказываются вовсе не бессмысленным. — Прим. автора.
458
Практическая тестология
Рис.6.5. Диаграммы Тейлора-Расселла (1939), разбивающие эллипсоиды рассеяния на четыре области, соответствующие комбинациям двух бинарных
переменных: «нанять — отказать по результатам теста» (hire-reject) и
«успех-неудача в профессиональной деятельности» (success-failure).
Пояснение к рисунку 6.5. На более узком эллипсоиде (правый рисунок), соответствующем более плотной корреляции между тестовым баллом и критерием (эффективность деятельности), больше точек попадает
в первый и третий квадранты, соответствующие адекватному решению
(точному прогнозу) на основе теста: приему на работу (hire) успешных
работников (success) и отказу в работе (reject) неуспешным работникам
(failure).
В подавляющем большинстве практических ситуаций, подобных ситуации профотбора, нам нужно принимать на основе теста решение, которое трансформирует шкалу тестовых баллов в бинарную переменную
(или дихотомическую категорию) — «принять — отказать». Нам важно добиться не количественной точности в прогнозе (какова именно будет производительность каждого принятого работника в параметрах продукции
в единицу времени), а лишь качественной точности, что можно сформулировать так: «принятый нами работник оказался успешным» (например,
успешно прошел испытательный срок). Доля таких работников (удачно
принятых на работу) от всех принятых на работу была названа Тейлором и Расселом термином «коэффициент успеха» (SC — success coefficient).
На диаграмме 6.5 коэффициент успеха (точность прогноза) — это отношение площади А к площади А+B, то есть, SC = A/(A+B).129
Кроме коэффициента корреляции между тестом и критерием, ТейлорРасселл рассмотрели еще 2 переменные, от которых зависит коэффициент успеха, — это «базовый уровень» (BR — baserate) и «отношение отбора»
129
Надо сказать, что в диаграммах, опубликованных в самой статье Тейлора и Рассела, а
также в переопубликованных диаграммах во всех учебниках, используется другая буквенная нумерация квадрантов — по часовой стрелке. Но поскольку эта нумерация расходится
с принятой нумерацией клеток четырехклеточной (четырехпольной) таблицы сопряженности, мы приводим в этой книге другое буквенное обозначение квадрантов в диаграммах
Тейлора-Расселла. — Прим. автора.
Глава 6. Валидность, рентабельность и достоверность
459
(SR — selection ratio), которые могут быть определены через частоты событий в четырехклеточной таблице следующими формулами: BR = (A+C)/N и
SR = (A+B)/N, где N = A+B+C+D — общее число обследованных.
Содержательно переменная «базовый уровень» (BR) отражает так называемую «легкость профессии»: чем больше BR, тем выше вероятность
(при прочих равных условиях), что любой кандидат добьется успеха при
выполнении данной профессиональной работы. BR отражает успешность
профессиональной адаптации, которая имеется ДО всякого применения
теста как инструмента отбора, сужающего круг кандидатов. Для совсемсовсем легких профессий применение тестов не имеет смысла: ибо почти все, кто берется за эту работу, справляются. Горизонтальная линия на
диаграмме, рассекающая эллипсоид на верхнюю и нижнюю половины,
при легкой профессии проходит очень низко, так что область «Success»
начинает доминировать независимо от того, где пройдет «линия отбора»
(вертикальная линия). Для совсем-совсем трудных профессий опять-таки
тест не слишком нужен: горизонтальная линия поднимается так высоко,
что почти все кандидаты «проваливаются» — увольняются после испытательного срока, так как не демонстрируют требуемых производственных
показателей (не дают компании дохода, а приносят больше убытков).
Содержательно переменную «отношение отбора» (SR) было бы правильнее называть «коэффициентом отсева» (величина 1-SR): чем больше
кандидатов отсеивается (чем ниже коэффициент отбора), тем правее оказывается расположенная вертикальная «линия отбора» на диаграмме 6.5,
тем выше доля успешных среди принятых.
На основании связей между VC (коэффициентом валидности), BR (легкостью профессии), SR (отношением отбора) и SC (коэффициентом успеха)
Тейлор и Рассел опубликовали в своей статье весьма громоздкие трехмерные таблицы (они заняли много страниц в журнале), в которых выходной переменной-функцией, зависимой от трех других, оказалась именно
переменная SC (коэффициент успеха), значения которой разместились в
клеточках таблицы. При этом связь SR с указанными тремя аргументами, включая валидность VC, оказалась нелинейной: авторы стремились
рассчитать вероятность критериального события с максимальной точностью и вводили нелинейные поправки, связанные с моделью нормального
распределения двух основных переменных — тестового балла и критерия
(производительности труда)130. Таблицы оказались настолько громоздкими, что авторы многих учебников приводят эти таблицы либо с большими сокращениями, либо в приложениях (например, Кулагин, 1984). Но,
несмотря на громоздкий результат, Тейлору и Расселу удалось добиться
главного — они доказали, что вероятность успеха в прогнозировании SC
на основании тестов значительно превышает уровень 0,5 — уровень слу130
При этом Тейлор и Рассел взяли за основу таблицы, опубликованные еще в 1931 году Пирсоном — автором знаменитого коэффициента линейной корреляции. — Прим. автора.
460
Практическая тестология
чайного угадывания бинарной переменной (при BR=0,5), или, более точно выражаясь, всегда превышает базовый уровень BR, когда коэффициент
валидности теста VC оказывается хотя бы незначительно выше нуля. Это
превышение точности прогноза над точностью случайного угадывания
(или прогноза без применения теста) получило название «инкрементной
валидности» (добавленной валидности).
Пожалуй, первыми, кто решил усомниться в правильности расчетов
Тейлора-Рассела стали Норман Абрахамс и его соавторы (Abrahams et al.,
1970). Для расчета валидности они применили не линейный коэффициент
Пирсона, а точечно-бисериальный коэффициент, разумно предположив,
что, по крайней мере, одна из двух переменных (критерий) является категориально-бинарной, то есть принимает значения всего лишь на двух
уровнях — «успех-неудача». В результате для многих клеточек таблицы
спрогнозированная вероятность успешного прогноза (коэффициент успеха SC) оказалась несколько выше (см. таблицу 6.8).
Валидность
BR=0.4 SR= 0.4
BR=0.5 SR= 0.5
BR=0.6 SR= 0.6
(VC)
Тейлор
Абрахамс
Фикорр
Тейлор
Абрахамс
Фикорр
Тейлор
Абрахамс
Фикорр
0.0
0.4
0.4
0.4
0.5
0.5
0.5
0.5
0.5
0.5
0.0
0.44
0.45
0.46
0.54
0.54
0.55
0.54
0.54
0.55
0.2
0.48
0.5
0.52
0.58
0.58
0.6
0.58
0.58
0.6
0.1
0.50
0.55
0.58
0.62
0.62
0.65
0.62
0.62
0.65
0.4
0.56
0.6
0.64
0.67
0.67
0.7
0.67
0.67
0.7
0.5
0.6
0.67
0.7
0.72
0.72
0.75
0.72
0.72
0.75
0.6
0.64
0.71
0.76
0.77
0.77
0.8
0.77
0.77
0.8
0.7
0.69
0.80
0.82
0.84
0.84
0.85
0.84
0.84
0.85
0.8
0.75
0.89
0.88
0.90
0.9
0.9
0.90
0.9
0.9
0.9
0.82
0.98
0.94
0.98
0.98
0.95
0.98
0.98
0.95
Таблица 6.8. Сравнительные значения спрогнозированной успешности (полезности) теста (SC) на основе таблиц Тейлора-Рассела, Абрахамса и на основе
фи-коэффициента (по формуле 6.1).
Исходя из практики нашей собственной преподавательской работы, мы считаем, что более высокая точность в таблицах Тейлора-Рассела
обесценивается непрозрачностью расчетов коэффициента успешности
SC. В дидактическом плане гораздо эффективнее использовать простую
Глава 6. Валидность, рентабельность и достоверность
461
приближенную формулу, которую автор книги вывел самостоятельно и
которая основывается на фи-коэффициенте четырехклеточной корреляции, то есть на огрубленном предположении, что обе связываемые переменные — и тест, и критерий — являются на самом деле бинарными (дихотомическим категориями).
(6.1)
SC = BR+VC*(1-SR)
Для сбалансированных (симметричных) строк и столбцов четырехклеточной таблицы, то есть для значений BR=0.5, SR=0.5, рассекающих
корреляционное поле пополам и по вертикали, и по горизонтали, формула
6.1 еще более упрощается:
(6.2)131
SC = 0.5+ VC*0.5
Или в других, возможно, более естестественных для читателя обозначениях формула 6.2 будет выглядеть так:
P= 0,5 + r*0.5
где p — вероятность успешного прогноза, r — корреляционная мера
валидности (коэффициента корреляции между тестом и критериальным
бинарным событием).
При подстановке в формулу 6.2 знаменитого (можно сказать, пресловутого) значения коэффициента валидности r=0.3 (известный предел прогностической эффективности для многих тестов, основанных на концепции черт личности), мы получаем точность прогноза p=0.65. То есть превышение над уровнем случайного угадывания 0.5 составляет 15%.
Еще раз рассмотрим четырехклеточную таблицу сопряженности в ее
самой обычной конфигурации (с точки зрения размещения клеточек А, B,
C и D):
Тестовая группа
Профессиональная успешность
Высокая
Низкая
Высокая
А=70
B=30
Низкая
C=30
D=70
Таблица 6.9. Гипотетическая четырехклеточная таблица совместной частотности (сопряженности) двух бинарных переменных — тестовой группы и критериальной группы (по уровню профессиональной успешности).
131
По-видимому, одними из первых на простейшую формулу 6.2 обратили внимание Р. Розенталь и Д.Б. Рубин (Rosental, Rubin, 1982; цит. по Фер, Бакарак, 2010, с. 263).
462
Практическая тестология
Приведенная здесь таблица 6.9 в точности совпадает с таблицей 9.6,
приведенной в свежем русскоязычном переводе книги «Психометрика»
на странице 261 (Фер, Бакарак, 2010).
По широкоизвестной в литературе формуле 4.15 рассчитаем фикоэффициент корреляции Phi между переменной по столбцам и переменной по строкам в таблице 6.2:
После этого по упрощенной формуле 6.2 получаем точность прогноза:
SC = 0.5 + 0.4*0.5 = 0.7, или 70%
Чтобы понять, насколько велика или мала точность прогноза в 70%, давайте вспомним, что такое так называемое «конституционное большинство» в парламенте Российской Федерации, позволяющее изменить путем
голосования основной закон страны — конституцию. Это вовсе не 95% депутатов, а только две трети — примерно 67% депутатов. Таким образом, коэффициент валидности 0,4 для теста, направленного на прогноз итогов голосования в Госдуме по конституции страны, дает нам на самом деле примерно такую же точность прогноза в отношении голосования, какую дает
само голосование в плане его репрезентативности (представительности)
в отношении населения страны — в районе 70 процентов (ведь примерно
треть населения, представленные третью депутатов в Госдуме, оказываются в этом случае против изменений в конституции).
Соотношение меры корреляции и меры вероятности я пытаюсь иллюстрировать на лекциях для студентов-гуманитариев с помощью следующего простейшего графика (см. рис.6.6). Опыт показывает, что многие просто «забывают», что корреляция, в отличие от вероятности, изменяется
на более широком интервале — от минус единицы, поэтому нулевой корреляции соответствует точность угадывания равновероятной бинарной
переменной в 50 процентов («фифти-фифти»). Поэтому любая корреляции,
значимо отличающаяся от нуля, приводит к значимому приросту над точкой случайного угадывания в 0.5.
Важно заметить, что при нормировании частот по первой строке таблицы 6.7 к 100 процентам (что, впрочем, там уже выполнено) точность
прогноза SC однозначно соответствует численности лиц, попадающих в
ячейку А (в процентах к численности высокой тестовой группы A+B). Тем
самым мы иллюстрируем очень простой содержательный смысл точности прогноза на основе теста: эта точность выражается в проценте лиц,
которые отобраны по тесту и оказались профессионально-успешными (эффективными в работе).
Глава 6. Валидность, рентабельность и достоверность
463
Рис.6.6. Графическая иллюстрация соотношения между мерой корреляции
и мерой вероятности.
Также немаловажно подчеркнуть, что при сбалансированной численности высокой и низкой тестовых групп вычисленное значение Фикоэффициента однозначно соответствует очень простому коэффициенту
дискриминативности D (см. формулу 3.2 в главе 3).
В таблице 6.6 наряду со значениями SC из таблиц Тейлора-Рассела
и Абрахамса мы приводим отдельный третий столбец, рассчитанный
по формуле для фи-коэффициента валидности 4.15 и по упрощенной
формуле точности прогноза 6.1. В приложении к книге на диске можно получить доступ к более подробным таблицам, полученным на
основе формулы 6.1. Беглое сравнение разных столбцов в таблице 6.5
показывает нам, что формула, конечно, работает весьма приближенно и приводит к определенному завышению значений успешности
прогноза (добавочной валидности). Для практических целей лучше
использовать формулу 6.1б c коэффициентом коррекции Kr, понижающим значение добавленной валидности на некую величину (1-Kr).
Величина коэффициента Kr, по нашему мнению, может быть близка
к ретестовой надежности (то есть, его значения могут быть в районе
0,6 — 0,8):
(6.1б)
SC = BR-VC*(1-SR)*Кr
Но все же самое главное, что помогает понять формула 6.1, — это те
принципы, по которым прогностическая эффективность тестов на самом
деле заведомо превышает 50 процентов (хотя и не достигает 95 процентов
в силу, как правило, низкой валидности), то есть совершенно некорректно
говорить о точности прогноза в терминах квадрата корреляционного показателя валидности.
464
Практическая тестология
Формула 6.1 создает семейство линейных графиков при разных значениях «базового уровня» (BR) и «отношения отбора» (SR). Эти графики приводятся на рисунке-диаграмме 6.7:
Рис.6.7. Семейство линейных графиков, иллюстрирующих формулу 6.1б (значение Kr=0.8).
На графиках на рисунке 6.7 отсутствует равновероятный случай (BR=0.5
и SR=0.5), при котором достигается наилучшее приближение к истинным
значениям добавленной валидности. Но понятно, что эта линия лежит
ровно посередине между линиями №2 и №5, для которых SR=0.5. Графики
вполне наглядно иллюстрируют следующие содержательные закономерности, описанные еще Тейлором и Расселом и их последователями:
1) С ростом валидности теста точность прогноза (превышение над базовым уровнем) всегда растет.
2) С ростом «базового уровня» BR (или параметра «легкость профессии»)
вероятность успеха растет, но не влияет на крутизну (наклон) графика,
то есть не влияет на добавленную валидность (что естественно).
3) Со снижением «отношения отбора» SR (точнее — с ростом коэффициента отсева 1-SR) повышается крутизна графика, так что при более «жестком отсеве» на самом деле растет добавленная валидность (и соответственно, точность прогноза).
Глава 6. Валидность, рентабельность и достоверность
465
Людям, далеким от количественного мышления, могут показаться
странными такие усилия по измерению точности прогноза SC: зачем вникать в эти цифры, связанные с таким количеством параметров — показателями валидности VC, базового уровня BR, отношения отбора SR? Не все
ли равно 0,72 или 0,78, например? Но надеюсь, что следующие параграфы
лучше проиллюстрируют смысл этих усилий. Введенные в этом параграфе представления о добавленной валидности имеют для нас очень большое значение при обосновании рентабельности метода тестов, а также
формул, которые можно практически использовать для экономического
обоснования внедрения тестовых систем.
Одним из важных следствий, которые можно получить из формулы
6.1, является иная формула фи-коэффициента четырехклеточной корреляции — через параметры «базовый уровень» BR, «отношение отбора» SR и
эмпирическую вероятность события А (успеха среди отобранных):
(6.3)
где N = (А+B+C+D) — сумма элементов таблички, или численность выборки обследованных,
A/N — эмпирическая вероятность события А (сочетание успешности
по критерию и высокого балла по тесту).
Формула 6.3 имеет полезный дидактический смысл, раскрывающий
связь корреляции и добавочной валидности. Дело в том, что в числителе
этой формулы в скобках мы наблюдаем разность между эмпирической
частотой события А и теоретически ожидаемой частотой, которая по известной формуле независимых событий равна произведению краевых
вероятностей по строке и столбцу матрицы сопряженности — успеха BR
на вероятность высокого балла по тесту SR. Чем больше эта эмпирическая
вероятность превосходит ожидаемую вероятность, тем выше корреляция,
то есть тем выше валидность теста.
6.4. РЕНТАБЕЛЬНОСТЬ ТЕСТА.
Простые формулы для расчета экономического
эффекта тестирования
Понятие добавленной валидности (инкрементной валидности), а
также формулы ее расчета крайне важны для измерения экономического эффекта от внедрения теста. Очень многие программы тестирования терпели крах по одной простой причине — их разработчики не
466
Практическая тестология
могли доказать заказчикам (или начальству), что запланированные
ими достаточно громоздкие подготовительные мероприятия принесут
какой-то ощутимый экономический эффект, то есть повысят рентабельность производства.
Применим для расчета рентабельности тестового отбора известную в
области экономики и социальной психологии формулу ожидаемой полезности, которая для принятия вероятного решения в мероприятии с двумя
возможными исходами имеет следующий вид:
(6.4)
E = p * S — q*F — С,
где E — ожидаемая полезность (экономическая эффективность),
p — вероятность предсказанного успеха,
S — цена успеха (сумма сделок),
q — вероятность НЕпредсказанной неудачи
(упрощение q = 1 — p)
F — цена неудачи (убыток от неудачи) 132
С — себестоимость участия.
Эту формулу очень часто применяют ко многим вероятностным решениям, например, к принятию решения в азартных играх (играх со
случайным исходом) или к лотереям. Согласно формуле 6.4, ожидаемая
полезность — это разность между ожидаемым выигрышем p*S и ожидаемым проигрышем q*F, вычисленным по теории вероятности (если не
учитывать себестоимость). Но как раз себестоимость проведения теста,
как мы увидим, крайне важна для расчета экономической эффективности тестового отбора (да и не только тестового — любой системы отбора
по определенному критерию).
Как определить в случае тестирования параметры p и q для подстановки в формулу ожидаемой полезности 6.4, понятно. Cложнее определить параметры S, F и С. Как мы выяснили только что в предыдущем
параграфе 6.3, вероятность успеха p — это как раз показатель SC, или
доля тех работников из числа принятых по результатам тестирования
(А+В), которые стали успешно справляться (клеточка А в таблице сопряженности). Но тогда q — это величина, традиционно обратная к p, то
есть q=1-p, то есть это доля тех работников из числа принятых по результатам тестирования (А+В), которые не смогли успешно справляться
(клеточка B в таблице сопряженности).
132 Теория ожидаемой полезности возникла как своеобразный побочный продукт в рамках
теории игр, разработанной Фон Нейманом и Моргенштерном в 40-е годы 20 века. — Прим.
автора.
Глава 6. Валидность, рентабельность и достоверность
467
Рассмотрим классический пример лотереи с огромным, но маловероятным
выигрышем. Если размер ожидаемого в лотерее выигрыша — 1 миллион рублей
(S=1 000 000) — мы умножим на очень низкую вероятность этого выигрыша —
один человек на 1 миллион участников (p=0,000001), то получим ожидаемый
выигрыш в размере S*p = 1 рубль. Если при этом стоимость участия в лотерее
С равна десяти рублям, и ожидаемый проигрыш составит F*q = 0*0,999999=0,
то ожидаемая полезность составит -9 рублей, так как 1 – 0 – 10 = –9. Тем самым ожидаемая полезность Е окажется величиной отрицательной: в среднем
при бесконечном продолжении игры каждый игрок будет проигрывать в каждом
туре примерно 9 рублей (разность между 1 и 10), а организаторы будут получать доход с каждого участника в каждом туре в размере 9 рублей, погашая свои
орграсходы и получая прибыль в тем больших размерах, чем больше участников
им удастся привлечь.
Несколько сложнее определить параметры S и F, то есть не вероятности, а размеры выигрыша и проигрыша в ситуации выбора работника
(платежи за соответствующие исходы). Тут тестологу явно потребуется
помощь экономиста, ибо в разных организациях успех и неудача складываются по-разному. Все было бы проще, если бы успех S сводился лишь к
доходности операций, выполненных успешным работником, но из этого
показателя надо вычесть величину затрат на этого работника — его зарплату, себестоимость поддержания его рабочего места и т.п. Точно так же
убыток F оценивается как разность между удачными операциями и прямым убытком (упущенной выгодой) от неудачных операций. У тестолога
нет, как правило, достаточно данных, чтобы корректно учесть все составляющие для S и F. Тем не менее, простейший шаг в определении величин
S и F должен сделать сам тестолог — именно он должен проявить инициативу, вызвав некие ответные уточняющие действия со стороны экономистов. Например, и S, и F в случае продавцов (или менеджеров по продажам)
можно приближенно оценить как суммы средней выручки, которую приносят эффективные продавцы (выполняющие плановый показатель по
объему) и неэффективные продавцы (не выполняющие плановые показатели).
Расчет рентабельности слабовалидного,
но дешевого инструмента отбора
Попытаемся с помощью формулы ожидаемой полезности рассчитать
экономическую эффективность (рентабельность) от использования недорогого (по затратам на саму методику) теста с достаточно низким показателем инкрементной валидности 0,2. Если, например, средний эффективный продавец продает в месяц товаров на сумму в 200 тысяч рублей,
а средний неэффективный — на сумму 50 тысяч рублей (при средней
468
Практическая тестология
зарплате любого продавца С= 50 тысяч рублей), то при вероятности успеха
SC=0,7 мы получаем следующую оценку ожидаемой полезности:
E = 0,7*200 000 + 0,3*50000 — 50 000 = 105 000 рублей133.
Но тут же задумаемся, является ли эта сумма корректной оценкой
рентабельности от внедрения системы тестирования (системы тестового отбора)? Очевидно, нет. Тут не учитываются, как минимум, две очень
важные вещи:
1) В оргзатраты С входит не только зарплата самого работника, но и затраты W на само проведение тестирования (ведь это дополнительное мероприятие, без которого до его внедрения организация вообще как-то
обходилась). Обозначим эту сумму затрат для уточнения формулы 6.3
буквой W и назовем себестоимостью тестирования.
2) Также необходимо вычесть базовую полезность Eb, которая достигалась в организации без всяких тестов (еще до внедрения тестового отбора). В простейшем случае эта величина связана просто с параметром
BR — легкость профессии (см. предыдущий параграф). Если BR = 0,6 без
всяких тестов (просто потому что 60% любых нанятых продавцов достигают успеха), то базовая полезность для нашего примера равняется
Eb = 0,6*200 000 — 0,4*50 000 — 50 000 = 90 000 рублей.
Таким образом, уточненная формула расчета показателя рентабельности тестирования V может выглядеть так:
(6.5)
V = n*(Е — Eb — W),
где Е — ожидаемая полезность в месяц в расчете на одного (среднего)
работника, отобранного по тесту,
Eb — базовая полезность (ожидаемая польза от работников, не отобранных по тесту),
W — себестоимость тестирования.
Что входит в себестоимость тестирования W? Это, конечно, не только
зарплата тестолога, но также себестоимость его рабочего места (рассчитанная в том числе с помощью учета стоимости квадратных метров арендуемой
площади под одного работника офиса, месячной амортизации оборудования, всевозможных платежей за электроэнергию, Интернет-трафик и т.д.
и т.п.). Допустим, месячная зарплата специалиста по оценке персонала (тестолога) равняется 60 тысячам рублей, а себестоимость его рабочего места в
133
Второе слагаемое в формуле в данном случае присутствует с плюсом, потому что низкоэффективные продавцы тоже приносят доход, хотя он и не погашает затрат на их зарплату и
содержание в организации. — Прим. автора.
Глава 6. Валидность, рентабельность и достоверность
469
месяц — округленно 10 тысяч рублей. Тогда правильнее будет оценить W в
пересчете на одного тестируемого: 70 тысяч поделить на N — количество протестированных (обследованных). Себестоимость программно-методических
средств на одного тестируемого примем условно за 1 тысячу рублей (пусть
стоимость обработки результатов одного профессионально-выполненного
психометрического теста на удаленном сервере разработчика составляет в
среднем примерно 30 условных единиц на 2012 год). Тогда подставим в формулу 6.4 заданные арифметические значения и вычислим рентабельность на
тот случай, если в месяц по тесту отбираются пять сотрудников:
V5 = 5* (105 000 — 90 000 — 70 000/5 — 1000) = 70 000 — 70 000 = 0 рублей.
Точные расчеты, подставив любые значения, читатель может совершить с помощью Эксель-модели «Формула рентабельности теста», включенной в электронное приложение к книге на диске.
Таким образом, мы подсчитали, что отбор пяти сотрудников в месяц
уже через месяц окупает содержание внутри организации одного тестолога и использование им определенной тестовой компьютерной программы
(хотя эффекта рентабельности нет, но нет и убытков). Конечно, если не нанимать тестолога в штат, а использовать его по принципу «аутсорсинга»,
то есть как внештатного сотрудника-совместителя, можно резко сократить величину W. Теперь рассмотрим, как при тех же параметрах — невысокой валидности 0,2 и тех же различиях в доходности от деятельности
успешных и неуспешных работников — меняется рентабельность тестирования в зависимости от количества отбираемых кандидатов-соискателей. Рассмотрим случаи отбора трех и десяти работников в месяц:
V3 = 3* (105 000 – 90 000 – 70/3 – 1000) = 45 000 – 73 000 = – 28 000 рублей.
V10 = 10* (105 000 – 90 000 – 70/10 – 10 000) = 150 000 – 80 000 = 70 000 рублей.
Как видим, при небольших объемах оценочной работы организации нерентабельно держать в штате отдельного специалиста по оценке (тестолога) —
надо брать его даже не на полставки, а на четверть ставки, не больше. Но если
масштабы ощутимы (каждый месяц набирается в штат 10 новых работников),
то содержание отдельного тестолога оказывается не только доступным, но и
дает экономический эффект в размере, достаточном для обеспечения зарплатой новых специалистов (конечно, если 70 тысяч поделить на 10, то это будет
слишком мало, но одного нового офисного работника, кроме самого тестолога,
на этот эффект экономии можно прокормить). Впрочем, нам важно тут не добиваться какой-то особой правдоподобности приведенного вычислительного
примера, сколько показать читателю, как можно применять формулы 6.3 и 6.4, а
также показать, что экономического эффекта можно достичь и с помощью низковалидного, вероятностного инструмента оценки. Причем этот эффект можно
доказать руководству (заказчику) с помощью вполне доступных вычислений.
470
Практическая тестология
Расчет рентабельности высоковалидного,
но дорогого инструмента отбора
А теперь рассмотрим другой подход к отбору, связанный с применением дорогой экспертной технологии — ассессмент-центра. Не секрет, что
себестоимость проведения этой методики в расчете на одного кандидата
приближается к месячному окладу специалиста и составляет примерно
50 000 рублей (в ценах 2012 года, причем автор берет расценки, предлагаемые далеко не самыми дорогими и «раскрученными» консалтинговыми
компаниями). Какова же должна быть валидность этого инструмента, чтобы оправдать затраты, если по-прежнему S=200 000, а F=50 000? Предположим, организация НЕ держит в своем штате специалистов по ассессменту,
и все затраты сводятся к оплате услуг сторонней организации, тогда в пересчете на одного работника при p=0,9 (инкрементная валидность равна
0,6 при самом высоком коэффициенте валидности 0,8, который для ассессмент-центров практически никогда не достигается) получаем ожидаемый
эффект с учетом зарплаты самого продавца:
E2= 0,9*200 000 + 0,1*50 000—50 000 = 135 000,
а затем рентабельность с учетом базовой эффективности 90 000 и себестоимости обследования 50 000:
V1 = 1*(135 000 — 90 000 — 50 000) = 135 000 — 140 000 = -5 000 рублей.
Получается, что из-за высокой себестоимости проведения в расчете на
один месяц это убыточная процедура. Причем ее убыточность не снижается при росте числа обследованных, так как затраты состоят целиком из
переменных, а не постоянных издержек. То есть, рост валидности (точности отбора) не компенсирует слишком высокий рост себестоимости проведения134. Для того, чтобы на 10 обследуемых достичь такого же коэффициента рентабельности, как при использовании низковалидного, но относительно дешевого теста, необходимо снизить себестоимость ассессмента
до примерно 38 000:
V10 = 10*(135 000 — 90 000 — 38 000) = 450 000 — 380 000 = 70 000 рублей.
Конечно, оправданность в использовании более дорогих и точных
инструментов возникает не только вследствие их более высокой валидности, но более всего — вследствие высокой разницы между отдачей от
эффективных и неэффективных сотрудников. В нашем примере эта разница достаточно высока — 150 тысяч в месяц (или, другими словами, она
является четырехкратной). А допустим, эта разница составляет всего 50
134
Хотя в более отдаленной перспективе отсутствие затрат на штатного специалиста повышает эффективность в расчете не на один, а на несколько месяцев, но при этом надо быть
уверенным, что приглашенный специалист точно проработает в организации эти несколько месяцев. — Прим. автора.
Глава 6. Валидность, рентабельность и достоверность
471
тысяч: средний эффективный продавец приносит в месяц 150 тысяч рублей, а неэффективный — 100 тысяч. В этом случае максимальная оправданная цена на точную ассессмент-услугу — не более 15 000 (в пересчете
на один месяц, если же рассчитывать на трехмесячный период, то допустимая цена оказывается выше в три раза). Читателю предлагается самому подставить в формулы 6.3 и 6.4 новые значения и вычислить, при какой
себестоимости услуги ее ожидаемая ценность приводит к нулевой сумме
(гораздо проще это можно сделать, подставив требуемые значения в подробно прокомментированные клеточки готовой Эксель-модели в электронном приложении к данной книге).
Таким образом, подытожим сравнение дешевых низковалидных и
дорогих высоковалидных дорогих инструментов. Как видим, каждый из
этих инструментов находит свою «нишу» для применения.
Низковалидные дешевые инструменты более рентабельны в отношении массового отбора на низовые позиции, где разница в отдаче между
эффективными и неэффективными сотрудниками невелика, в то время
как высоковалидные дорогие инструменты более оправданы при штучном отборе на высокие позиции (топ-менеджмент), где эффективные сотрудники могут дать гораздо больше, а низкоэффктивные могут просто
разорить организацию.
Как считать эффективность через производительность труда
В предыдущем примере мы имели дело с продавцами, эффективность
деятельности которых легко количественно оценить — через стоимость
проданных ими товаров. А как произвести расчеты на основе формулы ожидаемой полезности, если мы имеем дело с работниками, которые
сами ничего не продают (сотрудники собственно производственных подразделений и вспомогательных служб компании)? Может быть, формула
ожидаемой полезности в отношении этих, наиболее массовых категорий
работников вообще не работает? Нет, тоже работает! И опять-таки самому практическому тестологу приходится знать, как ее применить, хотя в
этом случае он вынужден уже совсем забраться на поле экономиста — приступить к расчетам, связанным с производительностью труда. Но опятьтаки без определенной инициативы со стороны тестолога, как показывает
опыт, никто в организации не будет производить никаких уточняющих
расчетов. Первый прикидочный расчет приходится выполнять самому тестологу.
К оценке производительности труда мы подходим обычно, когда есть
какая-то типовая операция (или набор типовых операций), и мы смотрим,
сколько таких операций выполняет тот или иной работник за определенный интервал времени — день, неделю, месяц, год. Но… если для станочных рабочих (выпиливающих на токарном станке одну и ту же деталь)
472
Практическая тестология
такую типовую операцию выделить очень просто, то для многих офисных
работников это непросто сделать. В каждом отдельном случае приходится приложить серьезное творческое усилие. Хорошо, если для какого-то
работника существует такой очевидный формальный количественный
показатель, как «число деловых писем» (многие менеджеры тратят сейчас
огромную долю своего рабочего времени именно на деловую переписку),
или количество ответов на запросы клиентов (для дежурного инженераконсультанта на «горячей линии поддержки»). Сложнее оценить работу
программистов, например. Ее пытались нормировать (еще во времена советской плановой экономики) — по числу операторов на языке программирования, написанных и отлаженных в течение одного дня. Но сложность решаемой программистской задачи на самом деле не измеряется в
числе операторов. Бывают такие алгоритмически сложные задачи, которые требуют написать очень компактный код программы из небольшого
числа операторов, и над этой задачей программист вынужден просидеть
гораздо дольше, чем над простой задачей, которая включает сотни однотипных операторов (по оформлению типового интерфейса на разных вебстраницах, например). Тем не менее, в отношении программистского труда (как и в отношении труда многих офисных работников) можно с определенными оговорками взять за единицу измерения производительности
труда понятие «задача». Многие нынешние автоматизированные системы
управления проектами (например, в нашей лаборатории внедрена популярная система RedMine) рассматривают именно «задачи» как единицы
планирования и отчетности в деятельности программистов. Это могут
быть задачи на «поддержку», «изменение», «исправление ошибки», «расширение функциональности». Они разные, но главное, что их всех сближает, — каждая задача требует от исполнителя «настроя» — умения отложить другие и взяться за эту в нужный момент, вникнуть и разобраться
в условиях, найти решение. Теперь у нас появляется возможность весьма
приближенного, но все-таки измерения производительности.
Мера производительности многих работников интеллектуального труда — это число задач, решенных в определенный интервал времени (например, за месяц).
Допустим, один работник А (например, это программист) решает в
среднем в месяц 20 задач, а другой работник В — только 10 задач135. Тогда
формулу ожидаемой полезности мы модифицируем так, чтобы рассчитать среднемесячную производительность путем умножения оклада на
коэффициент производительности. Это позволяет оценить фактическую
стоимость, приобретенную организацией. Проиллюстрируем этот подход
сразу на предложенном числовом примере. Если у нас только 2 работни135
Здесь и ниже мы допускаем, что задачи двух программистов примерно равны по трудоемкости. Если это не так, то предлагаемые расчеты не будут корректны. — Прим. науч. редактора.
Глава 6. Валидность, рентабельность и достоверность
473
ка по данной специальности в организации (два программиста), то очевидно, что средняя производительность — это 15 задач в месяц (среднее
арифметическое между 20 и 10). Коэффициент производительности работника А тогда легко определить по формуле 20/15 = 1.33… Коэффициент производительности работника В равняется 10/15 = 0,66… Предположим, что
вероятность отбора эффективного работника по тесту у нас опять равна
p=0,7. Тогда формула 6.3 модифицируется так:
(6.5)
E = p * W*A1+ q*W*A 2 — w
где W — среднемесячная зарплата работника данной категории (оклад),
A1 — коэффициент производительности труда работника из «высокой
группы» по тесту,
А 2 — коэффициент производительности труда работника из «низкой
группы» по тесту.
Для нашего числового примера по формуле 6.5 получаем:
E=0,7* 60 000*1,33 + 0,3*60 000*0,66 — 60 000 = 8 000 136
Следовательно, в нашем случае экономия от тестовой процедуры отбора составит порядка 8 тысяч рублей в месяц на одном работнике. Это
примерно в два раза ниже, чем полученный нами эффект экономии при
отборе продавцов (там было 15 тысяч в месяц), но ведь и контраст в производительности у нас в этом случае только двухкратный, а не четырехкратный. Так что мы получили сопоставимые суммы эффекта — сравнимые
с масштабами вкладов рассматриваемых работников. Понятно, что в нашем случае специалисту по оценке с помощью такого инструмента надо
отбирать не 5, а где-то 9 работников в месяц, чтобы окупить для организации собственную зарплату и себестоимость своего рабочего места. В противном случае надо выводить эту услугу на аутсорсинг.
Ну, а если у работников определенной категории число задач по определению не различается? Как оценить, например, производительность
двух бухгалтеров, каждому из которых нужно сдать в срок квартальный
отчет? Нельзя же просить более производительного подготовить 2 отчета за
один квартал, ведь второй отчет просто не нужен. Но тут надо вспомнить,
что понятие «производительность» тесно связано не только с количеством,
но и качеством продукции. Если один бухгалтер должен вносить в среднем по 3 исправления в каждый свой отчет (исправляя ошибки, которые
выявил проверяющий орган), а другой — только 1 ошибку, то по критерию
136 Для большей строгости в этом примере тоже следовало бы применить еще одну переменную — вычесть базовую эффективность Eb, но мы не стали этого делать для того, чтобы
просто не перегружать читателя, ведь переменная Eb фактически не влияет на сравнительную
эффективность двух различных инструментов отбора. — Прим. автора.
474
Практическая тестология
качества производительность второго оказывается в три раза выше. Тогда
мы можем с некоторой (изрядной в данном случае!) долей приближения
вычислить среднюю производительность (2 ошибки в квартал) и ввести
коэффициенты A1 и A2 для первого и второго бухгалтера. В дальнейшем
перед нами открывается перспектива применения формулы 6.5.
В данной главе изложен упрощенный математический подход, основанный опять-таки на дискретных случаях, связанных с селекционным
решением — А (успешная адаптация отобранных) и B (неуспех отобранных). По моему убеждению, такой подход приоткрывает для практических психологов путь к пониманию хотя бы самых базовых логических
основ в расчетах рентабельности, хотя обеспечивает, конечно, не самые
точные вычисления.
Читателям, заинтересованным получить доступ к современной зарубежной литературе по тематике рентабельности тестов, мы бы порекомендовали в качестве достаточно компактного и современного источника обзорную статью Хайнца Холлинга в онлайн-журнале Methods of
Psychological Research (Holling, 1998). В частности, в этой статье довольно
методично выводится наиболее устоявшаяся и известная в этой области
формула B-C-G, названная так еще в 1965 году по имени трех авторов —
Brogden-Cronbach-Gleser:
(6.6)
ΔU = NSTSDyrxyzmx — C:
где ΔU — прирост полезности от внедрения теста,
NS — количество отобранных сотрудников,
Т — длительность рассматриваемого периода,
SDy — стандартное отклонение (standard deviation) в производительности труда отобранных сотрудников,
rxy — коэффициент корреляции между тестом X и производительностью труда Y,
zmx — средний стандартизированный тестовый балл в рассматриваемый период,
С — себестоимость тестирования.
Практическая реализация формулы B-C-G опять-таки сталкивается с
тем, что оказывается непростой задачей измерить в сопоставимых (ценовых) шкалах производительность труда (и связанный с ней параметр SDy)
и себестоимость тестирования С в заданный (учетный) период времени T.
В заключение параграфа хотелось бы на упрощенном арифметическом
примере показать принципиальное родство подходов, выраженных в нашей формуле 6.3 и в формуле B-C-G. Пусть представитель высокой группы
по тесту приносит фирме месячный доход в размере 200 тысяч рублей, а
представитель средней — в размере 100 тысяч рублей. Пусть вероятность
успешного прогноза по тесту SC=0,7 (эта же величина p формуле 6.3). Для
простоты базовую ожидаемую доходность Eb вычислим как средний
Глава 6. Валидность, рентабельность и достоверность
475
показатель между 200 и 100 тысяч, то есть это будет 150 тысяч. Тогда, отвлекаясь от себестоимости С (или W в наших обозначениях), по формулам 6.3
и 6.4 получаем экономический эффект на одном сотруднике в следующем
размере:
V=0,7*200 +0,3*100 — 150 = 20 тысяч рублей
Теперь подставим эти же числовые значения в упрощенную формулу
6.6. По нашей формуле 6.2 показателю Sc=0,7 соответствует корреляция
между тестом и критерием в размере rxy= (SC-0,5)*2 = (0,7—0,5)*2 = 0,4. Стандартное отклонение для трех значений 200, 150 и 100 равняется SD=50 (базовый уровень включим в число рассматриваемых значений). Тогда получаем без учета численности сотрудников (то есть для одного сотрудника),
длительности Т и величины тестового балла Zm по формуле 6.6 получаем
дополнительную полезность, равную
ΔU = rxy * SD = 0,4*50 = 20 тысяч рублей.
Хотя, конечно, автор понимает, что в данном случае тождество результата
достигнуто с помощью несколько произвольного способа учета вклада базового уровня производительности в «стандартное отклонение» производительности (впрочем, можно просто при расчете SD делить на N, а не на N-1).
По опыту автора, тестологу нет смысла добиваться величайшей точности
в своих предварительных расчетах, так как руководство (заказчик) все равно
поручит все пересчитать своим экономистам. Но… тестолог хотя бы обозначит логику и смысл подхода — где и как искать определенные переменные и
принципы расчетов. Если этот организационный толчок в этом направлении
не сделает сам тестолог, то это за него в наших организациях не сделает никто.
6.5. ЭКОЛОГИЧЕСКАЯ ВАЛИДНОСТЬ
И ТИПЫ ДИАГНОСТИЧЕСКИХ СИТУАЦИЙ
Этот параграф мы попытаемся начать с некоторого обескураживающего заявления: все приведенные выше формулы расчета эффективности
6.3 — 6.6 категорически лишаются всякого смысла, если результаты теста
оказываются сфальсифицированными. Формулы и расчетные числовые
примеры по этим формулам дали нам определенную надежду, что практический тестолог, работающий в штате обычной крупной организации,
может доказать свою самоокупаемость — доказать, что «не зря ест хлеб».
Но… если этот тестолог не может уследить за тем, имеется или нет фальсификация в его процедурах, с помощью указанных выше формул создается лишь временная иллюзия эффективности. Почему временная? Потому что она легко развеивается, как только кто-то захочет эти расчеты
476
Практическая тестология
перепроверить на сотрудниках, реально прошедших отбор в данной конкретной организации. Да, вначале Вы берете вероятностный параметр SC
(или p в формулах ожидаемой полезности) из методического руководства,
представленного разработчиком теста (который добывает этот параметр
в относительно «стерильных» условиях), и на основании этого параметра
строите достаточно оптимистичный расчет. Но… не надо нам самим забывать, что этот расчет — это лишь прогноз, но еще не факт. Этот прогноз еще
предстоит превратить в факт — доказать, что тест именно так (или немногим хуже) работает в нашей собственной организации, где мы применяем
данную тестовую технологию отбора.
Для этого на отобранных нами испытуемых надо снова строить уже не
прогностическую, а реальную четырехклеточную табличку сопряженности A-B-C-D, то есть проверять, насколько группа работников, попавших в
высокую группу по тесту (в клеточки А+В) совпадает с группой работников,
попавших в высокую группу по эффективности реальной работы (А+С). Или,
иными словами, насколько реальная эффективность подгруппы А (успешных по тесту и успешных в работе) превосходит эффективность подгруппы
В (также успешных по тесту, также прошедших отбор, но менее успешных в
реальной работе). Оценив параметры p, q, S и F на наших реальных данных,
мы можем, увы, испытать жуткое разочарование, не получив никакой ощутимой ожидаемой полезности. И что же делать? Многие при этом сомневаются в самой выбранной методике и делают категорический вывод: «Тест
не работает!». Но… не следует спешить именно с таким выводом. Лучше для
начала сформулировать более осторожное предположение: «Может быть,
тест НЕ работает именно в данных условиях?». Что это предположение означает практически? Оно означает, что мы сами не выполнили некоторые
важнейшие предписания методического руководства, не обеспечили необходимых условий для проведения методики. Например, в руководстве
категорически сказано: администратор (пользователь) теста должен лично
следить за каждым испытуемым, чтобы тот не применял… элементарных
«шпаргалок». А мы поставили программу тестирования на компьютеризированные рабочие места сотрудников и… пошли пить кофе в местный кафетерий. Очень, казалось бы, удобное, совершенно бесконфликтное решение:
«Все, кто хочет и может, пользуйтесь, пожалуйста, какими угодно шпаргалками, пользуйтесь подсказками коллег, залезайте в параллельных окнах в
Википедию (и на другие сайты с информацией, помогающей ответить на
тестовые задания) и т.п.». Но цена этого бесконфликтного решения вскоре
обязательно даст о себе знать: невежественные нахалы будут не просто набирать одинаковые баллы с испытуемыми из «реальной высокой группы»,
но будут набирать даже более высокие баллы, так что образуется «псевдовысокая группа», которая обязательно будет НЕ совпадать с группой эффективных реальных работников.
Таким образом, ключевой проблемой практической тестологии на
местах оказывается вовсе не проблема «лабораторной валидности» (той,
Глава 6. Валидность, рентабельность и достоверность
477
которую регистрирует разработчик теста), а проблема «местной достоверности» — того свойства тестовой методики, которую обеспечивает не разработчик теста, а как раз призван обеспечивать его пользователь в местных условиях — в условиях применения в конкретной организации.
Ну, а если при применении методики, даже обеспечив все условия проведения (строго наблюдая за всеми испытуемыми), мы все же получаем
резкое (значимое) снижение валидности по сравнению с той, о которой сообщает разработчик? В этом случае мы должны говорить, что методика обладает низкой достоверностью или низкой «экологической валидностью» —
неустойчива к переносу из «лабораторной среды» в реальную организацию,
не приспособлена для применения в «полевых условиях» («полевыми» на
научном сленге называются такие условия, в которых повседневно работают и живут сами испытуемые, и они по определению отличаются от «лабораторных» условий, в которых работают и живут разработчики методик,
являющиеся, как правило, академическими специалистами).
Как уже говорилось выше, понятие «экологическая валидность» впервые предложил применять к этому кругу проблем наш соавтор по учебному пособию «Основы психодиагностики» В.Н. Дружинин (Шмелев, Борисова, Дружинин и др, 1996). До этого автор этой книги обозначал весь этот
контекст одним термином — «обеспечение достоверности».
Различение ситуации клиента и ситуации экспертизы
Различные ситуации, в которых проводится тестирование, отличаются друг от друга по существенным социально-психологическим признакам, которые ниже мы перечислим в форме вопросов:
— Кто инициатор обследования — сам обследуемый, диагност-тестолог
или какие-то третьи лица (учителя, родители, руководители и т.п.)?
— Кто пользователь результатов, кто принимает решение на их основе —
сам обследуемый, диагност-тестолог или какие-то третьи лица?
— Способен ли испытуемый осознать диагностический конструкт (предмет
тестирования) в момент чтения инструкции или в ходе выполнения теста?
— Способен ли испытуемый разгадать связь определенных ответов на вопросы теста (на тестовые задания) с диагностическим конструктом?
— Связывает ли испытуемый свои интересы с фактором социальной желательности (стремится ли произвести выгодное впечатление) или,
наоборот, связывает их с какими-то неблагоприятными результатам
(стремится симулировать психическое расстройство, например)?
По нашим многолетним наблюдениям, целесообразно различать, прежде
всего, два диаметрально противоположных типа ситуаций тестирования:
А) добровольного самопознания по инициативе и в интересах самого испытуемого, или так называемую «ситуацию клиента»,
478
Практическая тестология
Б) обследования по инициативе и в интересах руководства организации,
или так называемую «ситуацию экспертизы».
Во многих случаях, и особенно в случае личностных тест-опросников,
приходится создавать различные тестовые нормы для этих двух типов ситуаций, ибо они значимо отличаются.
В нашем исследовании, выполненном в 2006 году совместно с В.В. Одинцовой, были в явном виде выявлены значимые различия в тестовых нормах
(в показателях среднего с учетом стандартного отклонения по Т-критерию
Стьюдента) для тест-опросника «Большая пятерка» в ситуации клиента и в
ситуации экспертизы (Шмелев, Одинцова, 2006). А именно это проявилось
в том, что в ситуации экспертизы нормы (средние показатели по шкалам)
оказались смещенными в сторону высоких полюсов «Большой пятерки»
факторов — тех полюсов, которые ассоциируются с социальной желательностью — в сторону Общительности, Стрессоустойчивости, Организованности,
Согласия. Подчеркнем, что эти изменения возникли не потому, что какие-то
испытуемые пользовались шпаргалками, а потому, что традиционный формат тестовых вопросов оказывается не защищенным от рефлексии испытуемых, которые могут в большинстве случаев определить, как лучше ответить
на вопрос, чтобы произвести более выгодное впечатление.
Если эти изменения в стратегии приводят к существенным изменениям в распределении тестовых баллов и качественном составе экстремальных групп (испытуемых с высокими и низкими баллами по тесту),
то значит, тест не обладает ситуационной устойчивостью. Но… означает
ли это, что тест не обладает при этом достоверностью? Нет, не обязательно. Достоверность следует считать свойством теста только применительно к ситуациям, для которых тест рекомендован. Если за пределами этого
круга ситуаций тест провоцирует фальсификационную стратегию, то это
не значит, что тест не обладает достоверностью, это означает, что тест некорректно используется. Это можно сравнить с применением лекарств в
случае заведомо известных, выявленных противопоказаний, о которых и
лечащего врача, и пациента производители предупреждают в аннотации.
Например, в аннотации к лекарству ясно написано: «Не смешивать с алкоголем», а больной продолжает употреблять спиртное…
Мотивационные искажения, стратегии фальсификации,
их признаки
Итак, сформулируем ключевой тезис этого параграфа 6.4:
В разных социально-психологических ситуациях у одних и тех же
испытуемых возникает РАЗНАЯ ситуационная мотивация, разная
стратегия выполнения одного и того же теста.
Глава 6. Валидность, рентабельность и достоверность
479
Важно учесть, что вовсе не всегда мотивационные искажения возникают лишь в сторону социально-желательного результата. Возможны
определенные ситуации, когда испытуемый заинтересован показать
социально-негативный результат. Это, например, ситуации симуляции или аггравации определенного психического расстройства. Под
симуляцией, как правило, понимают полное отсутствие расстройства
как такового у самого испытуемого. В случае «аггравации» само расстройство в незначительной степени может присутствовать, но испытуемый склонен преувеличивать, «отягчать» серьезность проблемы.
Почему? Возможно, он стремится разжалобить либо психолога-консультанта, либо каких-то лиц, принимающих решение, и вызвать у них сочувствие и стремление помочь.
Описанные явления (симуляция, аггравация и другие стратегии
искажения результатов) вскрыты и изучены, прежде всего, в прикладной клинической (медицинской) психодиагностике. Но неправильно
думать, что они характерны только для медицинской психодиагностики и не встречаются в педагогическом и профессиональном тестировании. Мы встречали таких подростков, которых родители насильно приводят на профориентационное тестирование. Эти подростки могут из-за сопротивления родительскому сценарию их будущей
профессиональной карьеры специально «завалить тест» — осознанно
неправильно решить задания теста. Происходит симуляция низкого
тестового балла.
Риски мотивационных искажений усиливаются при появлении в
диагностической ситуации сочетания нескольких признаков:
А) Наблюдается явный или скрытый (чаще скрытый) конфликт интересов между испытуемыми и другими участниками процесса тестирования;
Б) В методике преобладают тестовые задания, которые позволяют испытуемому понять, как именно ему нужно отвечать в своих интересах.
Понятно, что в таких тестовых заданиях, где присутствует правильный ответ (в тестах знаний, умений или способностей), испытуемый понимает, что для повышения тестового балла надо использовать
либо шпаргалки, либо подсказки, либо просить кого-то выполнить тест
вместе себя и т.п. А для понижения тестового балла можно просто, например, ввести в протокол случайные или одинаковые ответы (только
первые или только последние). Многие, но далеко не все из этих стратегий фальсификации могут быть обнаружены с помощью формальных
критериев (см. ниже). Отдельные проблемы возникают при применении тест-опросников, требующих особых приемов контроля за достоверностью (также см. ниже).
480
Практическая тестология
Главный инструмент анализа мотивационных искажений и признания результатов тестирования действительными (или недостоверными) — это компетентность администратора-тестолога, предъявляющего тест испытуемому.
Тем не менее, сформулировав этот ключевой тезис, мы все-таки считаем, что практическому тестологу необходимо знание методических, технических и организационно-психологических приемов борьбы с особыми видами фальсификации. Хотя бы потому, что в ситуации группового
тестирования за поведением каждого участника просто трудно уследить.
Так что тезис, сформулированный только что, особенно уместен в ситуации индивидуального обследования (один на один), а также в ситуации,
когда одновременно тестируются небольшие группы (до 5—7 человек —
вспомним психологический закон, связанный с объемом оперативной памяти «семь плюс-минус два»).
Эффект самоорганизующейся выборки (добровольцев)
Тестолог, который занимается проверкой (или перепроверкой) тестовых норм, должен обязательно учитывать определенные искажения, которые возникают из-за различий в мотивации между кооперативными
добровольцами и теми, кто не хочет выполнять конкретный тест.137 Очень
редко тестолог имеет возможность формировать выборку стандартизации
(ту, на которой рассчитываются тестовые нормы) на основе сплошного
участия — всех членов какой-то социальной или профессиональной группы, независимо от их отношения к участию в тестировании. Чаще всего
действует принцип «добровольного участия» — тест выполняют только те,
кто откликнулся на предложения тестолога это сделать. Возникает эффект
так называемой «самоорганизующейся выборки» — в выборку попадают
только те, кто хочет сотрудничать с тестологом (с организаторами тестирования). Чем, как правило, отличаются эти люди от остальных?
А) Добровольцы в целом более успешны в выполнении тестов, более
мотивированы на высокие результаты, и поэтому тестовые нормы на этой
выборке часто оказываются выше (в случае тестов с правильными ответами — на знания и способности).
Б) В случае тест-опросников добровольцы, как правило, дают более откровенные ответы, меньше подвержены воздействию фактора социальной
желательности (меньше стремятся давать одобряемые ответы).
137 Вот, кстати, пример проблемы, явно иллюстрирующий ограниченность возможности
непосредственного наблюдения, — как наблюдать за поведением тех, кто просто НЕ явился
и НЕ участвует ни в каком тестировании вовсе? –Прим. автора.
Глава 6. Валидность, рентабельность и достоверность
481
Таким образом, не имея возможности «добраться» до тех испытуемых,
которые НЕ хотят добровольно проходить тест, мы очень неточно интерпретируем результаты этих испытуемых, когда ситуация добровольного
клиента меняется на ситуацию принудительной экспертизы.
Но эффект самоорганизующейся выборки иногда проявляется и совсем иначе — например, в выборку стремятся попасть люди, которые скорее не согласны с организаторами тестирования, чем согласны. Назовите
Ваш тест-опросник словом «Антигороскоп» (тест, направленный на опровержение астрологических прогнозов), и в этом тестировании на добровольной основе примут участие как раз те, кто интересуется астрологией
и склонен доверять астропрогнозам. В этом случае добровольцы могут искажать результаты как-то по-другому — не в сторону гипотез, неявно сформулированных экспериментаторами (организаторами тестирования).
6.6.
МОТИВАЦИОННЫЕ ИСКАЖЕНИЯ
В ТЕСТ-ОПРОСНИКАХ
Для тестов-опросников тестология (психометрическая психодиагностика) разработала особые приемы выявления мотивационных искажений и ситуационных стратегий.
Что могут и что не могут шкалы лжи
в личностных тест-опросниках?
Хорошо известно, что во многих тест-опросниках применяются так
называемые «шкалы лжи». Иногда их называют «шкалами социальной
желательности», иногда — «служебными шкалами». Они направлены не
на измерение какого-то устойчивого свойства индивида, а на выявление
его ситуационной стратегии при выполнении тест-опросника. Если испытуемый набирает по шкале лжи балл выше некого обозначенного разработчиком порогового значения, то протокол признается недостоверным.
Шкалы лжи — это контроль достоверности не на уровне методики в целом, а на уровне отдельного протокола — на уровне ситуации применения
теста в отношении конкретного испытуемого.
Что нужно знать грамотному пользователю тестов (и тем более начинающему разработчику) про шкалы лжи?
1) Как разрабатываются шкалы лжи. Шкалы лжи разрабатываются на
основе особого психометрического анализа тестовых заданий (вопросов). В ходе разработки теста испытуемым (всем участникам психометрического пилотного эксперимента или только подгруппе) ставят
специальную задачу: «Постарайтесь выполнить данный опросник
так, чтобы произвести наиболее благоприятное впечатление». Далее
482
Практическая тестология
по собранному массиву протоколов для каждого задания выполняется
анализ, который опять-таки может сводиться к применению четырехклеточных частотных таблиц сопряженности: выявляются задания,
по которым ответы испытуемых значимо коррелируют с типом инструкции («обычной» или «на фальсификацию»). В шкалу лжи включают те задания теста, по которым для этих таблиц получены значимые
фи-коэффициенты. Но чаще в тест-опросник включают уже готовые
шкалы.
2) Использование готовых шкал лжи. Чаще всего при разработке
шкал лжи используются в качестве прототипа уже готовые наборы
вопросов — из соответствующих шкал, включенных в другие тестопросники. Но, чтобы не нарушать лицензионную чистоту нового методического инструмента, готовую шкалу используют только в исследовательской версии, а затем — в собственной практической (коммерческой) версии методики разработчики заменяют эту «чужую готовую
шкалу лжи» на собственную, созданную из собственных тестовых заданий. При этом на исследовательском массиве производится следующий анализ. По отношению к этим готовым шкалам из нового набора
вопросов отбирают те, которые дают значимую корреляцию ответов с
попаданием испытуемых в высокую или низкую группу по готовой
шкале лжи.
3) Подобный анализ проводят не только по отношению к пунктам, которые
рассматриваются как кандидаты на включение в состав шкалы лжи, но
по отношению ко всем вопросам из пула. То есть при анализе достоверности каждого отдельного задания, включенного в состав рабочей шкалы, применяется как бы «обратная логика вывода»: задание считается
достоверным не при наличии, а в отсутствие значимой корреляционной связи с готовой шкалой; в противном случае задание становится
кандидатом на включение в шкалу лжи. В таблице 6.8 приводится пример структуры данных с использованием готовой шкалы лжи для отбора новых тестовых заданий и включения их в новую шкалу лжи.
Задание 1
Задание 2
…
Задание M
Балл по готовой шкале лжи
Испытуемый 1
Верно
Неверно
Верно
Высокая группа
Испытуемый 2
Неверно
Верно
Верно
Низкая группа
…
…
…
…
…
Испытуемый N
Неверно
Верно
Неверно
Низкая группа
…
Таблица 6.10. Пример структуры данных для создания шкалы лжи из новых
вопросов теста при наличии в исследовательской версии вопросов, входящих в
готовую шкалу лжи.
Глава 6. Валидность, рентабельность и достоверность
483
Как заполняются клеточки частотной таблицы сопряженности
по таблице типа 6.10? Для каждого тестового задания строится своя
таблица сопряженности — при этом в клеточку А попадают испытуемые, которые отвечают «верно» на данное тестовое задание и при этом
одновременно попадают в высокую группу по шкале лжи; в клеточку
В попадают испытуемые, которые отвечают «верно» на задание, но попадают в «низкую группу», и так далее. В приведенном фрагментарном
примере таблицы 6.10 ответы на задания 1 и 2 «совпадают» с попаданием в крайние группы по шкалам, но задание 1 при этом получает «прямой ключ» (так как корреляция оказывается положительной), а задание
2 — «обратный ключ» (так как корреляция оказывается отрицательной).
3) Типы служебных шкал. Не все служебные шкалы сводятся к контролю «социальной желательности». Для обнаружения такой позиционной
тактики, как например, «соглашательство» (испытуемый соглашается со всеми утверждениями, содержащимися в каждом вопросе тестопросника) просто подсчитывают общий процент ответов «верно» для
всего набора тестовых заданий. Вторая служебная шкала F в MMPI (в
отличие от первой служебной шкалы «грубой социальной желательности», которая обозначается буквой L) измеряет уровень согласия с суждениями, в которых констатируется наличие определенных психических трудностей и проблем (симптомов): эта шкала включает только
пункты с «прямыми ключами», то есть балл начисляется только при
ответе «верно». Шкала F интерпретируется как шкала «аггравации»,
«отягчения симптомов», связанного либо со стремлением «пожаловаться на жизнь» и спровоцировать сострадание, либо со стремлением
симулировать наличие какого-то психического заболевания. Для выявления стратегии «случайного ответа» в тест вводят особые показатели «консистентности протокола» — на базе заданий, дублирующих
друг друга либо текстуально, либо по смыслу. Среди 566 заданий MMPI
оригинальных насчитывается 550, а 16 заданий — это повторы. Если
испытуемый отвечает на вопросы в случайном порядке, то примерно
в половине случаев (8 из 16) испытуемый дает различные ответы в первый и во второй раз. В то же время добросовестный испытуемый (сотрудничающий с диагностом-тестологом) дает, как правило, не больше 1—2 рассогласованных ответов на эти 16 повторяющихся заданий.
Следовательно, граница в районе 4 рассогласованных ответов по этой
шкале максимально-правдоподобно (минимизируя риск ошибок в ту
и в другую сторону) разделяет добросовестных испытуемых и тех, кто
применял тактику «случайный ответ».
4) Индивидуальные случаи. Не все индивидуальные тактики выполнения теста могут быть выявлены и измерены с помощью служебных
шкал. Одно из существенных ограничений накладывает допустимая
продолжительность сеанса тестирования. Одно дело ситуация обследования пациента в клинике: там в распоряжении тестолога может быть
484
Практическая тестология
несколько часов личного времени испытуемого (не надо забывать, что
тот же опросник MMPI, насчитывающий более полутысячи вопросов,—
это прежде всего клинический тест). А на производстве, согласно нашим
опросам на сайте www.ht.ru, руководство редко соглашается отрывать
сотрудников на тестирование более чем на полчаса. Тест-опросники становятся в результате короткими, и в них невозможно встроить дублированные вопросы, особые вопросы на «аггравацию» и т.п. Кроме того,
некоторые испытуемые пытаются изобразить не просто «социальную
желательность», а желательный профиль «идеального работника» — таким, каким они себе его представляют. Например, нанимаясь на работу в качестве «контролера качества» (менеджера качества), работник
стремится изобразить себя «эмоционально устойчивым», «организованным», «принципиальным», но не слишком «сочувствующим», «доверчивым», «общительным». И если его субъективная модель образа «идеального контролера» совпадает с той «моделью компетенций», которая сложилась и принята в организации, он, скорее всего, преуспеет в конкурсе
на эту должность. Но субъективная модель «желательного профиля» не
всегда бывает адекватной. Кто-то может иметь совершенно особые представления о «ситуационной желательности», подчеркивая у себя сентиментальность, впечатлительность и даже ранимость. Это неплохо для
отбора на позицию «социального работника» (основная функция — «помогающее поведение»), неплохо для артиста, но совершенно не годится,
например, для «менеджера по продажам». Приходится понимать, что
риск искажений — это неотъемлемый риск многих опросников, который может быть снижен, но не может быть полностью исключен.
Ипсативные тест-опросники и их недостатки
Одна из эффективных стратегий снижения риска фальсификаций в
тест-опросниках — применение так называемого «ипсативного формата
вопросов». В каждом задании испытуемому предъявляются не одно, а 2
или более суждений, из которых испытуемому надо выбрать «более подходящее суждение» или из которых надо выбрать наиболее и наименее
подходящие суждения. Суждения в группу (пару, тройку или четверку)
подбираются так, чтобы они оказались с одним и тем же знаком (и лучше близким весом) по шкале социальной желательности. Таким образом,
испытуемому приходится выбирать либо из двух социально-одобряемых
суждений о своем характере, либо из двух социально-порицаемых суждений. Вот пример выбора из одобряемых суждений:
Укажите, какое из двух суждений, А или В, больше подходит в Вашем случае:
А) Мне трудно отказать человеку в помощи, даже если это мешает мне при выполнении какой-то собственной задачи.
Глава 6. Валидность, рентабельность и достоверность
485
Б) Я требую от людей неукоснительного соблюдения общепринятых моральных
норм, даже если это приводит к тому, что мои отношения с этими людьми
ухудшаются.
В этом задании сталкиваются высокие полюса двух разных социально-желательных факторов — «Помощь людям» (альтруизм) и «Честностьморальность» (выполнение социальных правил и норм). Выбирая утверждение А, испытуемый предпочитает «репрезентировать себя» скорее как
альтруистичного, чем высокоморального человека, а выбирая суждение
В — скорее как высокоморального, чем альтруистичного.
А вот пример задания, требующего выбора из двух социально-порицаемых суждений:
А) Я не стремлюсь поддерживать людей, пытающихся во что бы то ни стало ради
собственных карьерных амбиций внедрить какой-то новый метод работы,.
Б) Мне часто не хватает уверенности и хладнокровия, когда надо быстро принимать какое-то решение, влияющее на многих людей.
В этой паре суждений сталкиваются два негативных полюса следующих факторов «Большой пятерки»: а) низкий полюс фактора «Новаторство», б) низкий полюс фактора «Эмоциональная стабильность-стрессоустойчивость». Выбирая А, испытуемый выражает готовность показаться
скорее консервативным, чем эмоционально-нестабильным (тревожным).
Ипсативная версия тест-опросника «Большая пятерка», разработанная в нашей Лаборатории «Гуманитарные технологии», показала более высокую валидность в ситуации экспертизы: стремясь поднять профиль по
одному фактору, испытуемые неизбежно должны были мириться с тем,
что по какому-то другому фактору их профиль «падал». Данные о большей
устойчивости ипсативных опросников к фальсификации (давалась инструкция представить себя в наиболее выгодном свете) и более высокой
критериальной валидности ипсативных версий по сравнению с нормативными версиями тех же тест-опросников были получены и в зарубежных исследованиях (Bartram, 2007; Brown, 2008)138.
Но… «ипсативные опросники» не следует считать совершенной и
безупречной технологией. Это скорее вынужденная технология в ситуации риска массовых фальсификаций. Они вполне хороши в отношении
очень многих людей (большинства) с так называемым «средним профилем» (когда средний показатель индивидуального профиля близок к
популяционной медиане — среднему баллу по всем испытуемым). Но…
надо обязательно учитывать, что ипсативные тест-опросники дают значительную погрешность в случае тех достаточно часто встречающихся
138 Автор благодарит научного редактора А.С. Науменко за любезное предоставление ценной
информации об этих публикациях. — Прим. автора.
486
Практическая тестология
испытуемых, которые объективно обладают «поднятыми» или «сниженными» профилями по большинству факторов. Различение этих двух
случаев (адекватной и неадекватной ипсативной диагностики) схематически проиллюстрировано на рисунке 6.8. Алгебраическая сумма всех
«пиков» и всех «провалов» на профиле А (выше и ниже медианы) равна
нулю, и по отношению к этому профилю тест-опросники ипсативного
формата вполне адекватны. А вот по отношению к испытуемому, у которого профиль поднят по всем факторам (случай В), ипсативная технология приведет к неадекватному понижению профиля по факторам 3 и
5 — они искусственно окажутся ниже медианы (среднего балла по стандартной Т-шкале).139
Рис.6.8. Тестовые профили, для которых приемлемо (А) и неприемлемо (В)
применение тест-опросников ипсативного формата.
Четырехполюсная модель личностной черты
Другой способ преодолеть низкую достоверность личностных тестопросников связан с использованием так называемой «четырехполюсной
модели личностной черты» (Шмелев, 2002). В отличие от «шкал лжи» здесь,
так же как и в случае ипсативного формата, речь идет про защиту от фальсификаций на уровне методики, а не на уровне отдельного протокола.
139
Это ограничение отчасти снимается, когда шкал становится очень много — более 30. —
Прим. науч. редактора.
Глава 6. Валидность, рентабельность и достоверность
487
Четырехполюсная модель черты восходит своими корнями к представлению о добродетели, описанному еще в «Этике» Аристотеля: добродетель есть некая «золотая середина» между крайностями. Например,
«щедрость» есть середина между крайностями «скупость» и «расточительство», а «смелость» — середина между «трусостью» и «бесшабашностью»
(или «безрассудством»). Но специальный психолингвистический анализ,
проведенный отдельно автором этой книги при построении компьютеризированного Тезауруса Личностных Черт (Шмелев, Похилько, 1988; Шмелев, Козловская-Тельнова, 1991) и американским социальным психологом
Дином Пибоди (Peabody, 1970), а позднее в нашей совместной работе (Пибоди, Шмелев и др., 1993), показал, что на самом деле надо говорить не про
три черты, а про четыре — две пары антонимов (биполярных конструктов). Эти пары антонимов могут быть отображены в двумерном (четырехполюсном) пространстве, образованном из горизонтальной оси, связанной с описательно-онтологическим семантическим признаком слова, и
из вертикальной, связанной с оценочно-коннотативным семантическим
признаком (см. пример на рисунке 6.9). При переводе этой лингвосемантической терминологии на язык тестологии мы получаем по горизонтали
«диагностический фактор», или тестируемое свойство (в данном примере
это «склонность к риску»), а по вертикали — фактор «социальной желательности» (SD).
Рис.6.9. Пример четырехполюсной модели черты личности, связанной с диагностическим фактором «Склонность к риску» (по горизонтали) и фактором «Социальная желательность» (по вертикали).
488
Практическая тестология
Более традиционная модель черты личности оперирует, конечно, одномерным пространством, то есть проецирует все четыре прилагательных на одну ось, в результате возникает скорее не «четырехполюсная», а
«четырехпозиционная модель черты личности» (см. рисунок 6.10).
Рис.6.10. Четырехпозиционная модель черты личности — проекция четырехполюсной модели на одномерную ось диагностического фактора — тестируемого свойства «склонность к риску».
В логике четырехпозиционной модели два желательных полюса (две
добродетели) «смелость и осторожность» изображаются в центральном
диагностическом интервале — в области умеренных значений черты, а
«Крайности» отображаются за пределами центрального интервала: бесшабашность — это крайняя выраженность склонности к риску, когда рисковать совсем неразумно (например, прыгать с третьего этажа), «трусость» —
это крайняя выраженность противоположной черты (избегание риска),
когда вероятность нежелательного исхода пренебрежимо мала (например,
человек избегает летать самолетами, так как «случаются страшные авиакатастрофы»).
Но почему все-таки именно четырехполюсная модель имеет большее
значение для обеспечения достоверности тест-опросников? Потому, что
она явно нам показывает, где должны размещаться эмпирические индикаторы — вопросы (или утверждения) тест-опросника: они должны располагаться равномерно по четырем квадрантам двумерного пространства,
так что в тест-опроснике должны поровну встречаться не только «прямые»
и «обратные» пункты по диагностической шкале (утверждения, которые
выражают высокую и низкую склонность к риску), но и поровну встречаться «прямые и «обратные» пункты по служебной шкале «социальной
Глава 6. Валидность, рентабельность и достоверность
489
желательности» (утверждения, которые выражают положительное или
отрицательное сцепление склонности к риску с социальной желательностью). Например, утверждение-поговорка «Смелость города берет!» размещается в правом верхнем углу четырехполюсного пространства в поле
прилагательного «смелый» (положительное сцепление «склонности риска»
и «социальной желательности»), а утверждение-поговорка «Тише едешь —
дальше будешь» — в левом верхнем углу, в поле прилагательного «осторожный». Кстати, именно эту пару суждений и надо объединить в одно
задание в случае ипсативного формата. А вот как звучит суждение на высокую «склонность к риску», сцепленное с низким полюсом социальной
желательности: «Иногда я обгоняю по встречной полосе, не имея полного
обзора на достаточную дальность» (правый нижний квадрант на рис.6.9).
Для предъявления ему в пару годится и такое суждение из левого нижнего
квадранта: «Надежнее всего никому не доверять».
Стратегия составления тест-опросника путем равномерного распределения эмпирических индикаторов (вопросов-суждений) по всем квадрантам диагностического фактора, увы, не всегда реализуема. Например, она
явно слабо применима для диагностики факторов, которые по смыслу, изначально имеют высокое сцепление с социальной желательностью (например, «альтруизма» или «честности»)140. Но в отношении более нейтральных
факторов эта стратегия освобождает методический инструмент от тех недостатков, которыми страдает ипсативный формат, а именно могут быть
получены индивидуальные профили, одновременно поднятые (или одновременно опущенные) по большинству диагностических факторов.
6.7. ТЕХНОЛОГИИ ОБЕСПЕЧЕНИЯ ДОСТОВЕРНОСТИ
То, что мы писали в отношении тест-опросников в предыдущем параграфе, имеет весьма косвенное отношение к тестам знаний и способностей, в которых существует понятие «правильный ответ». Крайне трудно
защитить эти тесты на уровне методики без организации строгого контроля с участием исполнителей на месте проведения (в тестовом зале).
В последнее время в связи с компьютеризацией этих тестовых технологий
появились новые надежды, но не следует слишком уповать и на компьютеризацию. Как всякое техническое нововведение, сама по себе компьютеризация без дополнительных усилий порождает новые риски. В этом
140 В кросскультурном исследовании, проведенном автором книги совместно с американским психологом Дином Пибоди (Пибоди, Шмелев и др., 1993), было показано, что на русском, так же как и на других языках, можно построить четырехполюсные модели для всех
факторов «Большой пятерки». Например, крайностью (обратной стороной медали) в отношении «коллективизма-альтруизма» оказывается такой недостаток, как «конформность», а
обратной стороной «моралистичности-честности» является «догматизм» (или «социальная
ригидность»). — Прим. автора.
490
Практическая тестология
параграфе мы рассмотрим эти новые риски, постараемся их зафиксировать и классифицировать, а также указать на необходимые социальнопсихологические решения, помогающие сократить их до приемлемого
уровня или даже вовсе нейтрализовать.
Технический местный контроль достоверности
При выполнении теста с правильными ответами испытуемые тоже могут иногда парадоксальным образом стремиться не только к повышению,
но и к понижению тестового балла. Как правило, в случае стратегии понижения балла испытуемые крайне редко проявляют усердие. Если протокол
теста на все (или почти на все) задания содержит одинаковые ответы, то этот
факт легко автоматически обнаруживает программа обработки и маркирует данный протокол как «подозрительный», предоставляя администратору
теста решить, все-таки учитывать его или удалить как фальсифицированный. Случайные ответы также довольно легко обнаружить — по скорости
выполнения теста. В этом случае скорость, как правило, в несколько раз
выше, чем при вдумчивой работе с заданиями. Это опять-таки формальный критерий для автоматизированного обнаружения «подозрительных
протоколов». Удаляя все подобные «небрежные протоколы» из базы данных,
мы добиваемся повышения эмпирических статистических норм — после
этого удаления показатели среднего по шкалам теста с правильными ответами повышаются, а показатели дисперсии — понижаются.
Другое дело — это искусственно созданные (поддельные) протоколы с
завышенными тестовыми баллами. Их не так просто обнаружить среди
обширного массива нормальных протоколов с помощью каких-то формализованных методов. Тут срабатывают, как правило, два критерия, которые нередко используются на практике для обнаружения завышающих
фальсификаций:
1) Неправдоподобное ускорение времени решения какой-то части заданий (если у испытуемых есть шпаргалки к части теста, они почти всегда пытаются оставить больше времени на обдумывание тех заданий, к
которым у них нет готовых ответов)
2) Появление отдельных «аномально частотных ошибок» сразу у группы
испытуемых. Этот критерий возможен в тех случаях, когда в одной аудитории у нескольких испытуемых оказывается один и тот же вариант
теста, а также одна и та же шпаргалка к нему, но в нескольких заданиях (достаточно пары таких заданий) автор шпаргалки допустил ошибки, и именно эти ошибки повторяет вся группа.
Указанные критерии относятся к тем случаям, когда мы пытаемся
установить достоверность результатов тестировании по самим результатам, не имея возможности наблюдать за процессом.
Глава 6. Валидность, рентабельность и достоверность
491
В настоящее время в практике тестирования часто организуют наблюдение, которое, конечно, более надежно выявляет нарушения, чем любой
анализ уже отчужденных протоколов. Модный прием — видеонаблюдение с помощью веб-камер, встроенных в тот самый монитор, на котором
предъявляются тестовые задания (не путать с веб-камерами, установленными на стенах в тестовом зале). Это лучше, чем ничего. Но… не следует
обольщаться, что эти веб-камеры позволяют нам обнаружить всех списывающих и пользующихся подсказками. Испытуемые часто не менее, а
более хитроумны и изобретательны, чем разработчик тестовой системы.
Они активно рефлексируют риски и действуют так, чтобы их «не засекли». Если человек со шпаргалкой (или обычный штатив со шпаргалкой на
нем — это дешевле) просто стоит за монитором и держит ее немного выше
монитора, то очень непросто заподозрить неладное путем обычного визуального наблюдения за картинкой, передаваемой веб-камерой. Тут уже
требуется очень дорогое оборудование, которое используется обычно для
фиксации движения глаз по экрану (eye tracking) и локализации точек фокусирования взора.
Но даже если мы добились полной уверенности в том, что испытуемый смотрит именно на экран, а не выше и не ниже экрана (на шпаргалку), даже если мы знаем о том, что испытуемый не переключает в момент
тестирования окна (с окна, в котором предъявляются тестовые задания,
на окно, в котором можно читать электронную шпаргалку), даже в этом
случае НЕТ гарантий, что все чисто. Сегодня не требуется особых сверхъестественных хакерских способностей, чтобы, используя возможности сетевых программ, установить на локальной сети компьютеров, на которых
проводится тестирование, особые инструменты «удаленного управления
рабочим столом» (пример подобных программ — TeamViewer, Anyplace,
RemoteAnywhere и др.). Эти программы позволяют перехватывать управление курсором мыши, так что ответы реально вводит какой-то «доброжелатель», который вообще не находится в тестовом зале, а комфортно устроился в соседнем помещении и вооружился шпаргалкой. При этом сам испытуемый лишь имитирует работу с мышкой. Эту ситуацию неопытные
или слабомотивированные очные наблюдатели могут вообще «проворонить», не разобравшись в том, что вообще происходит в тестовом зале. Гарантии против такой «подтасовки» дают только особые технические меры:
— либо в виде отключения локальных компьютеров в момент прохождения теста от всех сетевых коммуникаций (включая беспроводные), что
технически не так просто сделать;
— либо с помощью развертывания в тестовых залах нового мобильного
класса — из ноутбуков, которые привозит с собой сам тестолог, настроив их еще «дома» так, чтобы исключить возможность подключения к
ним программ «удаленного управления рабочим столом». Использование сегодня готовой (стационарной) технической базы каких-то
классов, которые ежедневно функционируют в режиме «свободного
492
Практическая тестология
доступа и самостоятельного обучения», оборачивается очень большими рисками. Учитывают ли это руководители, внедряющие компьютерные системы тестирования? Хватает ли им самим для этого технической компетентности?
Таким образом, самый надежный способ до сих пор — это очное визуальное наблюдение со стороны наблюдателей (супервизоров) и использование «мобильных компьютерных классов». Причем принципиально то,
что сами наблюдатели должны обладать достаточно технической подготовкой, чтобы не быть «одураченными» даже в момент присутствия в самом тестовом зале, то есть выполняя очное наблюдение. Тут приходится,
впрочем, думать не только о компетентности, но и о гарантиях кооперативной мотивации самих наблюдателей — гарантиях их заинтересованности именно в сотрудничестве с организаторами тестирования, а не с
испытуемыми.
Таким образом, сама по себе компьютеризация процедуры тестирования — это вовсе не «панацея от всех бед». Она, в свою очередь, создает
определенные риски, о которых надо знать и которые надо сознательно
пытаться минимизировать.
Жесткие временные лимиты и стресс дефицита времени
Один из эффективных приемов повышения достоверности с помощью
компьютеризации состоит не только в «случайном выборе из банка заданий» (о нем мы писали в предыдущей главе 5), но и в жестком компьютеризированном контроле расходования времени на решение заданий
теста. В развитых профессиональных оболочках тестирования временные
лимиты могут быть установлены и на тест в целом, и на отдельные его тематические блоки, и на отдельные тестовые задания. Последнее ограничение — одно из самых жестких и стрессогенных. Действительно, введение
жестких ограничений, например, в 30 секунд на решение очень простых
заданий, во многих случаях защищает даже от использования таких подсказок, как «банки заданий на смартфонах (карманных компьютерах»):
пока человек ищет задание в банке, вводит ключевые слова, считывает ответ, сличает его снова с тем, что предъявляется на экране тестового компьютера, уходят десятки секунд, и общий результат резко снижается.
Но… следует учесть, что такой способ контроля привносит с собой
понижение результатов не только у тех испытуемых, которые хотят обмануть систему тестирования, но и у тех вполне достойных испытуемых, кто обладает сниженной стрессоустойчивостью. Конечно, определенный тренинг (за счет многократного выполнения компьютеризированных демоверсий) помогает наиболее тревожным испытуемым
частично справиться со стрессом, но все-таки полностью выравнивания
Глава 6. Валидность, рентабельность и достоверность
493
психологических условий не происходит. Мы еще поговорим о проблеме тревожности-стрессоустойчивости испытуемых в последующих главах. Но здесь мы хотим предупредить читателей, что не стоит чрезмерно
уповать на то, что введение временных лимитов как способ контроля достоверности не имеет изъянов. Увы, и этот прием имеет свои недостатки.
Можно ли и их компенсировать и каким образом? Очевидно, что компенсируются они лишь в рамках более комплексного обследования (ассессмента), включающего оценочные процедуры, не создающие стресса
подобного типа. То есть неправильно строить систему из этапов тестирования так, чтобы это была «гонка с выбыванием»: не сдал элементарный
тест с элементарными заданиями, но требующими стрессоустойчивости
к дефициту времени, и выбыл — не допущен к следующим оценочным
процедурам. Очевидно, нужно всех участников допускать ко всем этапам,
а потом применять определенную формулу агрегирования (в частности,
суммирования) баллов, полученных за разные оценочные процедуры.
Утечка, списывание, подсказка,
подставные испытуемые, подтасовка
Снижение баллов из-за низкой стрессоустойчивости — это пример
искажений, которые никак не связаны с сознательной тактикой испытуемых. Но хватает и таких искажений, которые являются целиком результатом сознательного нарушения правил тестирования. Чтобы эффективно противостоять процессам сознательной фальсификации, необходимо знать в деталях эти процессы, а именно — как они происходят, какие
участники системы тестирования (не обязательно это только испытуемые) оказываются заинтересованными в фальсифицировании, к каким
именно приемам они сознательно прибегают. Чтобы знать эти процессы
«в лицо», лучше каждый из них назвать отдельным словом, тогда наши
усилия против фальсификации станут более прицельными, а, следовательно, более результативными. В таблице 6.11 представлено пять различных приемов фальсификации, а также указано, насколько с ними помогает бороться компьютеризация системы тестирования.
По нашему мнению, целесообразно различать, как минимум, два
уровня в компьютеризации тестирования:
А) Самодеятельный и неспециализированный — в этом случае фактически применяются любительские программы, и организация процесса
не отличается от традиционного бланкового тестирования в целях текущего контроля или в режиме «самотестирования» при компьютеризированном обучении;
Б) Профессиональный и специализированный — применяются программы, специализированные именно для компьютерного тестирования (а
494
Практическая тестология
Бланковое
тестирование
Самодеятельное
компьют.
тестированиие
Профессиональное
компьютеризир.
тестирование
1. Утечка ключей
(рассекречивание)
Средний
риск
Высокий
риск
Низкий
риск
Публикация на разных
сайтах в Интернете ложных ключей (под видом
истинных)
2. Утечка заданий и
списывание (по самодельным ключам)
Высокий
риск
Высокий
риск
Низкий
риск
Очная супервизия, записывающее наблюдение
с помощью веб-камер в
аудиториях, блокирование
Интернета.
3. Подсказка (из-за
спины испытуемого,
или со стороны соседей)
Высокий
Высокий
риск
Средний
риск
Очная супервизия, вебкамеры в аудиториях,
анализ статистики ошибок
Виды нарушений
Сопутствующие автоматизированные и социально-психологические
контр-технологии
4. Выполнение теста
подставным лицом
Высокий
Высокий
риск
Средний
риск
Фейс-контроль на входе
(или биометрический
контроль участников),
фейс-контроль на уровне
сертификата с результатами
5. Подтасовка (исправление готового
протокола)
Высокий
Средний
риск
Низкий
риск
Шифрованный формат
передачи данных в протоколах, использование
контрольных сумм и т.п.
Таблица 6.11. Перечень основных приемов фальсификации тестов с правильными ответами и оценка способов их полной или частичной нейтрализации.
не для выдачи обратной связи по ходу компьютеризированного обучения), а уровень организации процесса подразумевает особую подготовку супервизоров — наблюдателей в аудиториях.
Из таблицы 6.8 видно, что риски при самодеятельной компьютеризации не только не меньше, чем при бланковом тестировании, но для некоторых видов нарушений даже выше. Например, если хранение банка
тестовых заданий не организовано должным образом, то легко возникает
утечка всего банка заданий «одним махом» (легким движением курсора
мышки файл с банком заданий копируется с секретарского компьютера,
который находится в незащищенном доступе на какой-нибудь кафедре
вуза, а затем этот банк заданий распространятся для всех заинтересованных лиц с помощью такого простого Интернет-сервиса как анонимный
почтовый ящик, доступ к которому по паролю открывается для всех студентов).
Глава 6. Валидность, рентабельность и достоверность
495
Но самое большое зло не в риске легкого копирования (этот риск чаще
всего осознается). При самодеятельной компьютеризации, как правило,
плохо осознаются особые требования к наблюдателям в аудитории (как
мы уже писали выше), и они оказываются плохо подготовленными, либо
вообще возникает ошибочная иллюзия, что очного наблюдателя можно
и не назначать. Но следует признать, что для таких нарушений, как подсказки и использование подставных лиц, и при профессиональной компьютеризации риск все еще остается слишком высоким. Необходимо использовать:
— дополнительное оборудование (усиленный фейс-контроль на входе
плюс применение веб-камер, которые фотографируют каждого испытуемого и включают фотографию в отчет с результатами тестирования — в автоматически сформированный сертификат),
— рамку металлоискателя на входе в тестовый зал для контроля за проносом мощных карманных устройств (эти устройства, в частности смартфоны, могут быть использованы для дистанционных подсказок в виде
переправленных «скриншотов с заданиями», для тихих устных переговоров испытуемого с подсказчиками (с помощью малозаметных под
пышными прическами гарнитур-наушников), либо для копирования
каких-нибудь файлов или контента браузеров прямо с локального компьютера (приходится помнить, что после физического заклеивания
USB-портов еще остаются такие средства копирования, как Bluetooth,
WiFi — подключение к локальной сети и т.п.).
— не исключено, что в наиболее ответственных ситуациях массового и
отчужденного тестирования (типа приемки ЕГЭ) потребуется со временем и биометрический контроль, так как поиск подставных лиц в наше
время становится все более изощренным (есть компьютеризированные программы сличения, которые резко повышают сходство фотографий реально-подставного и мнимо-официального испытуемых).
Прочитав все изложенное выше, читатель, который еще только размышляет и колеблется, стоит ли ему выбрать тестологию как вид профессиональной деятельности, может впасть в уныние. Столько видов нарушений, такой риск получить фальсифицированные результаты! Просто руки
опускаются. Кажется, что всеми этими рисками никак нельзя управлять,
и вообще нельзя добиться качественных результатов тестирования. Конечно, часто складываются очень сложные ситуации. И это надо уметь вовремя понять и признать (а не «зарывать голову в песок», как это делают
страусы). В некоторых случаях грамотнее вообще отказаться от тестирования как оценочной процедуры, так как это превращается в профанацию
метода и наносит ущерб репутации всех, кто этот метод применяет.
Но все-таки не следует впадать в крайности. Главное — это умело
оперировать не полярными бинарными оценками типа «достоверно-недостоверно», а понимать, что НИКАКАЯ оценочная процедура не может
496
Практическая тестология
обеспечить стопроцентной достоверности. Важно уметь сравнивать и понимать, в каких случаях тестирование дает все-таки более чистые, объективные и менее искаженные результаты, чем другие оценочные процедуры. Иногда мы просто недооцениваем психологический эффект, который
производит сама по себе установка организаторов на борьбу с фальсификацией, одно такое заявление приносит порой более ощутимые результаты, чем многие реальные технические приемы. Это похоже на установку
в аудитории отключенной веб-камеры: пусть шнур от нее до времени вообще никуда не ведет (хотя сейчас организовать запись на огромные по
объему запоминающие устройства вполне доступно технически), но испытуемые должны видеть этот «глаз» и понимать, что ситуация под контролем. Ниже мы сформулируем в краткой форме важный тезис, который
выражает суть так называемой «концепции сдерживания»:
Концепция сдерживания фальсификации заключается в том, что ни
один технологический контр-прием не является стопроцентной панацеей, исключающей все риски, но в совокупности продуманная и
заявленная в явном виде система контроля значительно сокращает
долю недостоверных протоколов до приемлемого уровня (например,
с тридцати процентов до трех!).
К этому тезису хорошо бы еще добавить требование о том, что любая
система контроля должна быть развивающейся и обновляемой, но тогда
тезис станет еще более громоздким. Однако вдумчивый читатель, я надеюсь, сможет легко осмыслить и подхватить требования «обновляемости»:
в отношении к старым контр-технологиям испытуемые быстро находят
со своей стороны новые приемы фальсификации, а вот к новым контртехнологиям, объявленным лишь за 2—3 дня до тестирования, испытуемые, как правило, совсем не готовы. Эффективная система тестирования
не может быть застывшей на несколько лет. Это живая и развивающаяся
система, так как она работает с живыми и развивающимися людьми.
Существует ли рациональная этика честного тестирования?
Критически мыслящий читатель, внимательно прочитавший все предыдущие параграфы про достоверность, может задаться таким вопросом:
«Неужели люди всегда обязательно стремятся обмануть, выполняя тест?».
Нет, конечно. Есть немало людей (иногда их просто большинство в выборке), которые видят определенную личную выгоду в том, чтобы тест выполнить честно даже в ситуации экспертизы. Осознание их мотивов, кстати,
поможет нам понять, как сформулировать этические принципы «честной
игры» (fair play) при выполнении тестов — некую этику честного поведения испытуемого.
Глава 6. Валидность, рентабельность и достоверность
497
Итак, решение выполнять тест честно имеет рациональные основания. Это вовсе не всегда лишь проявление малодушия (трусости) перед
угрозой санкций за нарушение. Как ни странно, но иногда актуализировать дремлющие мотивы рационально-честного поведения можно даже в
ходе короткой консультации перед тестированием. Достаточно обсудить
вопрос: «А зачем Вам стремиться к высокому баллу — выше того, что есть?»
Когда этот вопрос задаешь испытуемым, то отнюдь не всегда услышишь
циничный ответ типа «Без бумажки ты букашка, а с бумажкой — человек» (вместо слова «бумажка» в эту поговорку можно подставить «задокументированный высокий тестовый балл»). Удивительно, но некоторые обнаруживают, что у них нет явного объяснения, зачем им нужен высокий
балл. Тогда, обнаружив у собеседника хотя бы тень сомнения, тестолог в
ходе этой ключевой беседы (или разъяснительной работы, которая может
продолжаться в цикле встреч, собраний, индивидуального общения и т.п.)
тут же должен задать следующий вопрос: «А не будет ли завышенный балл
служить вредную службу? Можно ли представить такую ситуацию?». Тут
уместнее всего наглядная аналогия: спортсмены-тяжелоатлеты отбираются на соревнования и взвешиваются перед выходом на помост. Целесообразно ли попытаться участнику изобразить на весах больший вес, чем он
имеет реально? К чему это приведет на самом деле? К тому, что тебя зачислят в более тяжелую весовую категорию и заставят поднимать такие
тяжелые штанги, к которым ты совсем не готов. Или, если ты — боксер,
то против тебя тогда выпустят на ринг более тяжелого соперника, который наверняка сильнее, и бой будет не равным. Почему все эти «наглядные спортивные аналогии» нужны? Потому что люди не мыслят себе
умственные свои способности так же ясно и не осознают требований интеллектуально-сложных профессиональных (и социальных) задач так же
ответственно, как это происходит с физическими видами спорта. Мысль о
столкновении с непосильной интеллектуальной и социальной задачей НЕ
пугает! Вот в чем одна из причин повальной тяги к фальсификациям в ситуациях оценивания вообще и тестирования, в частности.
Чем чаще и больше в жизни нашего общества будут становиться известными ситуации, когда пострадал сам носитель завышенного тестового балла (поставленный на участок, превышающий его уровень
компетентности), тем больше рациональная этика честного тестирования будет востребована нашей реальной жизнью.
Но пока… Пока приходится признать, что об особых страданиях такого рода говорят крайне мало даже в самых критически ориентированных
дебатах на телевидении, в прессе и т.п. Эти страдания в настоящее время в России все еще маскируются коррупцией, нарастающим моральным
цинизмом и другими процессами, подавляющими оценку истинного качества труда (низкого). Ситуация еще не достигла перелома, то есть в этом
498
Практическая тестология
ключевом вопросе так и не свершилась та самая «перестройка», которую
пытались наполнить смыслом романтики и энтузиасты в 80-е годы (как,
впрочем, пытались начать и в 60-е, и в более ранние годы реформ в нашей
стране). Но чем яснее мы осознаем, какие именно социально-гуманитарные технологии (направленные на человека) помогут реально выйти из
порочного круга, тем больше у нас шансов быстрее исправить ситуацию,
то есть начать наращивать, а не снижать конкурентоспособность на уровне страны. И к числу этих технологий, несомненно, относится технология
объективного тестирования (оценивания) знаний и способностей людей.
499
Глава 7.
Внедрение тестов в систему вузовских
экзаменов
В этой главе будет изложен опыт, накопленный автором, прежде всего, на факультете психологии МГУ, а также в ряде других вузов, в которых
в той или иной степени внедрена для проведения контрольных (оценочных) процедур система HT-LINE. Появлению современной компьютерной
платформы HT-LINE предшествовали в другие времена более ранние программно-аппаратные решения (Соколов и др, 1985). На факультете психологии МГУ автор впервые внедрил компьютерное тестирование еще при
появлении самых первых дисплейных классов (так тогда назывались
многотерминальные компьютерные классы под управлением мини-ЭВМ
с очень скромными по нынешним меркам параметрами быстродействия
и памяти). Это было уже более тридцати лет назад — в 1981 году — в рамках поточного курса «Основы психодиагностики» на рубеже «от лекций к
практикуму». Ключевая цель применения тестового контроля — допуск к
практикуму студентов, освоивших базовые понятия после лекционного
курса, — сохранилась до сих пор. За прошедшие годы сменилось немало и
технических, и методических схем, произошла и продолжается микрокомпьютерная революция, сменилось немало составов преподавателей
практикума «Основы психодиагностики», сменился общественный строй
в России, но ключевые методические принципы на фоне этих изменений
только уточнились, прошли проверку временем, «кристаллизовались».
В качестве автора самих банков тестовых заданий я участвовал во внедрении компьютерных тестов в программу своих же собственных спецкурсов «Информатика и ЭВМ в психологии», «Конструирование тестов», «Психология конкуренции». В роли организатора-методиста и разработчика
софтверной платформы (но не в роли автора тестовых заданий) я выступал
в отношении курсов «Общая психология» (см. ниже о выпускных госэкзаменах), «Экспериментальная психология», «Психология труда», «Клиническая психология», «Экстремальная психология», «Общая социология» и др.
Но при всех обстоятельствах наибольший эффект принес именно опыт использования компьютерных тестов знаний в собственном курсе, в рамках
которого автор лично общался все эти годы со студентами (в частности, в
режиме приемки у них отчетов о выполненных заданиях практикума по
психометрической диагностике) и лично отвечал за итоговую оценку в зачетно-экзаменационной ведомости.
500
Практическая тестология
Реализация традиционных процедур контроля (устные экзамены,
проектные отчеты по практикуму, доклады, рефераты и т.п.) параллельно с компьютерными тестами показала высокую эффективность именно
метода тестов. И особенно в случае необходимости провести массовый
контроль в течение буквально одного дня на группе студентов численностью свыше 100 человек. Спустя годы я самокритично и уверенно могу утверждать, что уже после 10 студентов (это максимум качественной работы
в течение одного рабочего дня!), валидность моих собственных устных
оценок по материалам устного собеседования закономерно снижается и
начинает уступать валидности тестовых баллов (при расчете корреляций
того и другого показателя с комплексными показателями качества). Если
же с группой в 100 человек параллельно работает десяток экзаменаторов
(по 10 студентов на одного экзаменатора), то даже сами студенты всегда
жалуются на то, что разные преподаватели предъявляют слишком разные требования. Я постоянно проводил опросы, в которых сами студенты давали ценную обратную связь о том, как они воспринимают оценки
по результатам тестирования и по результатам устных экзаменов. Раньше
(сейчас это уже не так) тестирования больше боялись, но после тестирования всегда было значительно меньше нареканий на оценки. Я предлагаю
любому читателю, который работает вузовским преподавателем, самому
убедиться в этой закономерности: подготовить и провести тестирование и
устное собеседование, а также провести опрос студентов до и после такой
«микросессии». И Вы убедитесь в правоте моих слов. Правда, необходима
существенная оговорка: само тестирование должно быть организовано
разумным образом и по содержанию, и по форме проведения.
В последнем параграфе этой главы я предлагаю немного обсудить
школьные выпускные и абитуриентские экзамены, а до этого я подробно
остановлюсь на применении тестов главным образом для внутривузовских задач.
7.1. ТЕСТЫ И ТРАДИЦИОННЫЕ
ОЦЕНОЧНЫЕ ПРОЦЕДУРЫ
Устные экзамены глазами тестолога
В первой главе в разделе 1.4 мы попытались сформулировать лишь
самые общие представления о принципах взаимодействия тестов и экспертных оценок. В этой главе мы рассмотрим эти принципы в конкретных обстоятельствах. Дело в том, что устные (как и письменные) экзамены являются удобной моделью для анализа и применения общих принципов, ибо с ними сталкивался буквально каждый читатель — если не в
роли экзаменатора, то уж точно в роли экзаменуемого.
Глава 7. Внедрение тестов в систему вузовских экзаменов
501
Вспомним школьные или вузовские устные экзамены по билетам.
Чем эта экзаменационная технология доставляла нам тревоги как экзаменуемым?
1) Билет — это лотерея. Про охоту за «удачным билетиком» придуманы
тысячи рассказов, небылиц, анекдотов, сняты трагикомедийные фильмы и т.п. Хорошо известно, как в этом случае работает так называемый
«закон бутерброда» (закон невезения): стоит не выучить или просто не
успеть повторить какой-то билет (а чаще всего у нас в стране список экзаменационных билетов заранее известен всем экзаменуемым), как
на экзамене обязательно выпадет именно он. В самом деле, иной раз
поражает, почему именно с тобой происходит событие, вероятность
которого оценивается как 1 к 10, или даже 1 к 30? А все дело в том, что
наша память работает избирательно и более цепко запоминает именно
эти катастрофические, маловероятные неудачи! Впрочем, иногда наша
память запоминает и невероятные удачи. Неожиданные события мы
переживаем гораздо сильнее, чем ожидаемые, и именно поэтому они
врезаются нам в память надолго. Но факт заключается в том, что как
только мы сталкивается с «неудачным билетом», нам становятся очевидны достоинства любого сплошного опроса — по всем темам — по
сравнению с выборочным опросом по отдельным билетам.
2) Страшный безмолвный экзаменатор. Нам гораздо легче устно отвечать, когда мы сталкиваемся с доброжелательным экзаменатором — таким, который утвердительно кивает и поддакивает при любом маломальски осмысленном нашем высказывании по теме, обозначенной в
билете. Особенно приятно, когда этот доброжелательный экзаменатор
является нашим добрым знакомым — тем самым преподавателем, который вел этот предмет и который уже успел оценить по достоинству и
наши способности, и наше старание в ходе обучения. Но… совсем другая коммуникативная ситуация возникает, если напротив нас сидит
совсем незнакомый, бессловесный человек, лицо которого ничего не
выражает, несмотря на все наши усилия добиться какой-то эмпатии,
добиться какого-то эмоционального контакта. Его нейтральное выражение мы склонны почти всегда в таких случаях интерпретировать
в худшую сторону — как выражение недоброжелательности, подозрительности и надменности. Каждый вопрос такого экзаменатора воспринимается с тревогой, если не с паникой (и особенно, если этим
вопросом он перебивает Вас, и особенно, если этот вопрос, по Вашему
мнению, совсем плохо или никак не связан с темой билета). Сколько
было таких случаев, когда скованность и страх мешали учащемуся
вспомнить вещи, о которых, как ему казалось, он мог бы легко и без запинки рассказать, будучи разбуженным среди ночи.
3) Разнородная комиссия. Особые трудности возникают у экзаменуемого, когда в комиссию входят люди с заведомо разными воззрениями по предмету экзамена. Я вспоминаю собственный вступительный
502
Практическая тестология
экзамен в аспирантуру в 1976 году, когда я точно знал, что, угодив одному члену комиссии на вопрос о «математических моделях обучаемости» (а именно Евгений Николаевич Соколов был любителем математической психологии), я вызову обязательное раздражение у других
членов комиссии, которые посвятили немало статей и даже книг критике математических моделей. Впрочем, о моей приверженности матметодам все члены комиссии и так уже всё знали (из-за моей активности в рамках научного студенческого общества), поэтому мимикрировать в ситуации экзамена не имело никакого смысла…
4) Предвзятый экзаменатор. Самым страшным кажется молчаливый
и чужой экзаменатор, но на самом деле больше всего надо бояться
предвзятого экзаменатора (или предвзятой комиссии). Он может быть
внешне улыбчивым и вполне любезным, но…уже все решил заранее.
Если не ведется никакого протокола по дополнительным вопросам и
ответам (и никакой видеозаписи, что долгие годы в России было недоступной технической роскошью), то такой экзаменатор вполне может
и не утруждать себя какими-то дополнительными трудными вопросами. Он просто решил снизить оценку, и все. Зачем? Чтобы расчистить
дорогу другим, которые ему по разным причинам дадут больше (чаще
всего не денег, а просто станут его поддержкой и опорой в организации, где так или иначе формируются группировки и конкурирующие
коалиции сотрудников).
И наши коллеги-психологи, и мы сами проводили немало исследований (о них, впрочем, подробнее в главе 8), в которых доказана интуитивно
понятная истина: особенно паникуют перед незнакомым экзаменатором
люди с так называемым «социально-тревожным» характером — робкие и
застенчивые «интроверты». Если им дать выбирать между тестом и незнакомым экзаменатором, то они выберут тест, даже несмотря на то, что тест
для них тоже большой стресс — требуется быстро переключаться с одной
темы на другую, укладываться в лимиты времени (особенно при выполнении теста на компьютере).
Резюме:
Именно устный экзамен по билетам по целому ряду признаков — это
антипод тестовой оценочной технологии, то есть достоинства тестовой технологии призваны компенсировать именно недостатки устного экзамена.
Где, в каких организациях торопятся с внедрением тестов? В тех организациях, где конкурирующие группировки экзаменаторов доходят в
своем оценивании экзаменуемых до неприличного уровня предвзятости,
Глава 7. Внедрение тестов в систему вузовских экзаменов
503
и ни одна группировка не может победить другую. Но… если при этом
ставится вопрос о замене устных экзаменов тестами, то вскоре придется
убедиться в том, что тестирование — далеко не безупречная технология,
которая наряду с достоинствами имеет и своим недостатки, порождает
новые риски и т.п.
Завершая в этом параграфе разговор об устных экзаменах как таковых, напряжемся и вспомним, что мы больше всего ценим в устных экзаменах? Пожалуй, как раз то, что мы никак не можем найти в тестах. Это
возможность столкнуться со справедливым и гуманным экзаменатором,
который делает ПОПРАВКУ на наше волнение, прощает нам случайные
незначительные оплошности, понимая, что суть вопроса мы понимаем
достаточно глубоко, и фактически помогает нам проявить свои лучшие
стороны — задает такой вопрос и в такой форме, который помогает раскрыться и реализовать себя.
Лирическое отступление. Много лет минуло с той поры, но я сохранил это как
светлое воспоминание на всю жизнь. В 1971 году у меня принимали устный вступительный экзамен по биологии какие-то очень молодые преподаватели с биофака —
девушка и молодой человек (сейчас я бы их назвал людьми аспирантского возраста),
фамилий и имен которых, увы, я на радостях не запомнил и больше их никогда не
встретил. Я полностью «запорол» ответ на второй зоологический вопрос «О приспособленности птиц к полету», совершенно ничего не промямлив про полые кости, но зато я блеснул по первому вопросу по биохимии, и ребята поставили мне
тогда не вполне заслуженную «пятерку», оценив мое владение огромными формулами органических соединений и увлеченность научным познанием вообще. А про
полые кости они мне с улыбкой напомнили сами, проставляя в протокол оценку
«отлично», уверенные в том, что я тут же при их малейшей подсказке вспомню,
что забыл такой пустяк… Эта оценка позволила мне в первый же год поступить
на факультет психологии, пройти по конкурсу 15 человек на место и… подтвердить для себя лучшие надежды на то, что в МГУ имени М.В. Ломоносова действительно работают умные, современные и порядочные люди.
В чем смысл приведенного выше «лирического отступления»? В том,
чтобы убедить читателя: автор книги совсем не стремится к «истреблению» устных экзаменов как явления. Понимая недостатки этой формы
контроля, автор признает за ней такие достоинства, которые необходимо
обязательно использовать. Как вывод данного параграфа сформулируем
следующий тезис :
Надо обязательно сохранить устные экзамены в системе комплексных экзаменов, но дополнить их тестовыми технологиями.
504
Практическая тестология
Являются ли письменные экзамены тестами?
Во многих образовательных учреждениях недостатки устных экзаменов пытаются устранить с помощью перехода исключительно на
письменные экзамены. Эта тенденция давно характерна, например,
для многих западных университетов. Но давайте рассмотрим более
детально, какие именно недостатки при этом удается нивелировать, а
какие при этом возникают новые проблемы, требующие все-таки использования не только письменных экзаменов, но и компьютеризированных тестов.
1) Субъективизм устного экзаменатора. Да, при проверке письменной
работы, которая происходит заочно, проверяющий не может непосредственно влиять на самочувствие и настроение самого экзаменуемого в
момент экзамена. И одно это уже повышает уровень объективности результатов. Предвзятость тоже можно исключить, если имя автора письменной работы зашифровать (что и делалось в течение многих лет на
вступительных экзаменах в МГУ уже очень давно). А чтобы исключить
подсказку в виде какой-нибудь «галочки» на полях или между строк
(или другого особого «письменного сигнала», сообщающего нужную
информацию своему репетитору — он же экзаменатор-коррупционер),
сейчас можно пропустить письменный (и даже рукописный) текст через «очистительную процедуру» компьютерного сканирования и распознавания и предъявить проверяющему текст, из которого в силу
самой примененной процедуры заведомо будут убраны «значки-подсказки». Впрочем, существуют помимо рукописных значков и другие
способы сигнализации «свой-чужой»… Однако, в данном контексте
нам важнее подчеркнуть другое. Субъективное более высокое сходство
тестирования именно с письменным экзаменом, а не с устным, выражается в том, что молодежь часто говорит так — «писать тесты», а не
«выполнять тесты».
2) Стандартизация в ходе оценивания ответов. В отношении развернутых ответов на письменные вопросы можно сформулировать для
проверяющих подробные инструкции по правилам проверки, снабдить эталонами ответов, уже оцененных опытными и объективными
экзаменаторами на определенный балл, и т.п.
3) Шкалирование. Эксперту-проверяющему можно дать различные аналитические параметры-шкалы, по которым он будет выносить дифференцированные оценки, из которых будет складываться интегральная
оценка. Например, такой перечень: 1) фактологическая полнота ответа,
2) логическая связность и структурированность ответа, 3) корректность
цитирования, 4) разнообразие аргументации, 5) оригинальность и самостоятельность и т.п. По каждому параметру эксперт должен оценивать письменный ответ отдельно. Можно привлечь двух и более независимых экспертов (третий, как правило, проверяет, если расходятся
Глава 7. Внедрение тестов в систему вузовских экзаменов
505
оценки первых двух, но в наиболее ответственных случаях независимых экспертов может быть больше трех). Все эти меры и приемы уподобляют проверку результатов письменных экзаменов некой «экспертно-квалиметрической процедуре».
4) Система выбора билетов. Ее тоже можно усовершенствовать в случае
с письменным экзаменом. Вспоминается тут ректор МГУ В.А. Садовничий, который с видимым удовольствием снимался на телевидении в
90-е годы вместе с неким «Лототроном» — этаким вращающимся прозрачным барабаном, из которого он своими руками доставал «шары» с
номерами вариантов для вступительных экзаменов на разных факультетах. Это процедура рандомизации (случайного перемешивания вариантов) между факультетами. А ведь внутри аудиторий на одном факультете можно и нужно рассадить учащихся так, чтобы рядом сидели
студенты, выполняющие письменные работы по разным вариантам.
И это тоже делается. Можно создать большой банк вариантов письменных заданий (заданий к письменным работам) и сохранять его в тайне
до последнего момента перед экзаменом, чтобы в момент экзамена сократить число студентов, у которых «шпаргалка в кармане» совпадет с
выпавшим билетом-вариантом.
Но… превращаются ли после всех этих разумных методических усовершенствований письменные экзамены в полноценную тестовую технологию? Чего при этом не хватает? Увы, не хватает чего-то очень существенного. Перечислим теперь недостатки письменных экзаменов по сравнению с тестовыми:
1) Узкая тематическая полоса (или, выражаясь тестологическим языком,
слабая тематическая репрезентативность множества заданий). Даже самый широкий вопрос в письменном билете не может охватить всех тематических разделов программы. Опять остается элемент лотереи — несправедливый эффект более или менее «счастливого билетика», снижающий валидность. Только в отличие от устного экзамена экзаменуемый,
нарвавшийся на неудачный для себя билет, в данном случае никого не
сможет «разжалобить». Ему остается одно (в меру его добропорядочности
или цинизма) — списывать или ждать помощи от соседей141.
141
Вспоминаю своего соседа на первом письменном вступительном экзамене по математике в 1971 году в МГУ. Из-за волнения я запутался в собственных вычислительных ошибках в одной из задач. А он быстро справился со всеми задачами своего другого варианта и
досиживал 2 оставшихся часа без дела. Увидев мои конвульсивные движения шариковой
ручкой, которой я что-то вычеркивал из черновика, сосед предложил помощь: «Я давно все
решил, я ведь с мехмата до этого отчислился, давай тебе помогу». Я отказался, я не понимал,
как это можно так рисковать, ведь меж рядов, как мне казалось тогда, ходят какие-то полицейские, а не экзаменаторы. «Ну и дурак», — невозмутимо заявил бывший «мехматянин» и
повернулся к соседу справа с таким же искренним стремлением оказать помощь своим соседям, или… просто чем-то заняться. — Прим. автора.
506
Практическая тестология
2) Высокий риск утечки небольшого банка заданий. Почти по любому предмету трудоемкость в подготовке серьезного задания для письменного экзамена (если всерьез прорабатывать эталоны правильных
ответов) не менее чем в 10 раз (на порядок, а то и на полтора) выше, чем
трудоемкость в подготовке тестовых заданий с выбором ответа. Один и
тот же коллектив авторов примерно из десяти человек вполне может за
месяц подготовить 500 заданий для тестового экзамена (по 50 заданий
на одного автора) и за этот же период — вряд ли более 50 заданий для
письменного экзамена сопоставимого качества (по 5 заданий на одного
автора)142. Как следствие, мы получаем гораздо менее многочисленные
банки заданий для письменного экзамена, чем для тестового экзамена.
А значит, мы получаем вполне серьезный риск, что в случае утечки вариантов (кстати, первое проведение в первый год дает такой же эффект
«разглашения», как и утечка) готовые решения для всех 50 письменных
заданий будут созданы и выложены в Интернет (причем, просто на почтовом ящике с паролем, а не в открытом доступе в социальной сети).
3) Легкость применения шпаргалок на экзамене. Если тестовый экзамен, как и письменный, проводится на бланках, то легкость применения шпаргалок в том и другом случае примерно одинакова. Но если тестовые задания предлагать на компьютере с ограничением времени на
ответ, то это значительно затрудняет использование шпаргалок. Особенно проигрывает письменный экзамен по параметру «достоверность
методики» (защищенность от фальсификации), если в компьютерном
тестировании используются технологии рандомизации вопросов и ответов из большого банка (см. раздел 5.4). Конечно, очень большая роль
во влиянии на качество письменных экзаменов принадлежит дежурным в аудиториях (впрочем, и в случае тестирования она велика, но
не настолько). Если эти дежурные вдруг оказываются «заодно» с экзаменуемыми и закрывают глаза на откровенное списывание (или даже
поощряют его), то ценность письменных экзаменов падает, и они дают
обратный эффект: низкие баллы получают добросовестные экзаменуемые, а высокие — нахалы-нарушители. В настоящее время для преодоления этого негативного фактора (контроля за списыванием) в аудиториях, где проводятся письменные экзамены, начинают устанавливать
веб-камеры.
4) Трудоемкость проверки и нестабильность критериев оценивания, порожденная трудоемкостью. Письменный экзамен требует
значительных затрат живого интеллектуального труда проверяющих.
Как всякий процесс индивидуального интеллектуального труда, помимо эффектов, связанных с предвзятостью (положим, мы их даже
142
Некоторое исключение (по уровню производительности авторов) составляют задания по
многим разделам математики, но это именно исключение — следствие высокой формализации в этой дисциплине. — Прим. автора.
Глава 7. Внедрение тестов в систему вузовских экзаменов
507
полностью исключили, переслав все письменные отсканированные
работы на проверку в другой регион и другой вуз), этот труд порождает
просто эффекты, связанные с «врабатыванием» (трудно включиться в
работу по проверке с самого начала, не выверены критерии, на первой
работе они, как правило, завышены и т.п.) и с «утомлением» (время, отведенное на проверку, уходит, накапливается усталость и мотивационное пресыщение, а осталась непроверенной еще «добрая половина»
работ, поэтому начинается вольный или невольный «тяп-ляп» и т.п.).
Все перечисленные выше недостатки письменных экзаменов приводят к выводу. Даже в случае высококвалифицированной и совершенно
добросовестной организации письменных заданий и самой процедуры
проведения и проверки письменных работ письменный экзамен обладает рядом серьезных ограничений, снижающих надежность и валидность
его результатов, так что компенсировать эти ограничения может лишь параллельное применение тестовых экзаменов в качестве дополняющей оценочной процедуры.
Сочетание тестовых и письменных экзаменов должно происходить не
механически, а с учетом многих факторов, и лучше всего — в разные сеансы (в разных аудиториях). Ниже в параграфе, посвященном анализу ЕГЭ,
мы рассмотрим подробнее, почему совмещение тестового и письменного
экзамена в рамках одного сеанса в одной аудитории приводит не к повышению, а к снижению качества результатов.
Опросы студентов и абитуриентов
За многие годы в ходе различных проектов, связанных с внедрением тестовых технологий, мне с моими сотрудниками удалось опросить тысячи
абитуриентов и студентов об их отношении к различным оценочным технологиям, включая тестирование, устный экзамен и письменный экзамен.
Эти опросы проводились как в момент подготовки (например, в момент регистрации и выполнения демоверсии на олимпиаде «Телетестинг»), так и по
горячим следам — сразу после завершения экзамена в тестовой или традиционной форме. Не приводя огромную статистику первичных данных (это бы
слишком резко увеличило объем данной главы), сформулирую лишь общие
итоги, устойчивые выявленные тенденции в результатах этих опросов:
1) Предпочтение той или иной оценочной технологии значимо связано с
прогнозируемой (субъективно-ожидаемой) и реальной сравнительной
успешностью: те, кто предпочитает тестовую форму контроля, как правило, являются относительно более успешными именно при выполнении тестов по сравнению с теми, кто боится тестов и предпочитает
традиционные экзамены.
508
Практическая тестология
2) В комплексе проявлений экзаменационной тревожности страх перед
незнакомым экзаменатором часто выражен сильнее, чем страх перед
незнакомым тестом. Таким образом, предпочтение тестов часто сочетается с предпочтением письменных экзаменов устным; и в случае
тестирования, и в случае письменного экзамена отсутствует прямое
живое общение с экзаменатором, которое многих подготовленных студентов (в частности, интровертированных) тревожит больше, чем необходимость выполнения теста.
3) Страх перед компьютерным тестированием связан не только с формой
предъявления тестовых заданий (на экране) и выбора ответов (мышкой
или с клавиатуры), сколько с наличием жестких временных лимитов:
если эти жесткие временные ограничения присутствуют в ходе бланкового тестирования, то никакого предпочтения выполнению тестов на бумаге (по сравнению с компьютерным тестированием) не наблюдается.
Впрочем, более подробно о факторах экзаменационной и компьютерной тревожности пойдет речь в следующей главе 8.
7.2. ТЕКУЩИЙ КОНТРОЛЬ С ПОМОЩЬЮ ОПЕРАТИВНЫХ ОНЛАЙН-ТЕСТОВ
Использование оперативных онлайн-тестов становится все более популярной оценочной процедурой с появлением многочисленных компьютерных классов в вузах и школах. Да, что там говорить про компьютерные
классы… Все аудитории, коридоры, лестницы и кафешки современного
вуза — это уже WiFI-зона (зона беспроводного подключения к Интернету),
и студенты со своих портативных ноутбуков и планшетов в аудитории
легко входят одновременно с очным и в виртуальный контакт с преподавателям на кафедре, который тоже легко переключает (с помощью своего
ноутбука) большой аудиторный экран с презентации на Интернет-серфинг по сайтам и т.п. Можно зайти и на индивидуальную веб-страницу к
одному из студентов, и ее увидят все остальные. Но этично ли это? В наше
время технические возможности явно операжают уровень методической
оснащенности, и корректное применение оперативных онлайн-тестов зависит от того, в какую схему оценивания она входит. Вначале хотя бы в
самом первом приближении разберемся с вопросом о схеме оценивания.
Система накопленных баллов
Большинство вузовских преподавателей применяют тестовые процедуры только в качестве инструмента текущего контроля. Причем, как
Глава 7. Внедрение тестов в систему вузовских экзаменов
509
и другие виды контроля, тесты играют роль лишь в качестве критерия
доступа к итоговому экзамену, но не влияют на его результат. Назовем
эту схему традиционной. От нее следует отличать такую модель оценивания, когда наряду с другими процедурами текущие тесты вносят
определенный вклад (в очковом или в процентном выражении) в итоговый балл. Эту схему оценивания часто называют модульно-рейтинговой
системой (курс разбивается на модули, и каждый модуль оценивается
отдельно от другого), но мы предпочитаем термин «Система Накопленных Баллов» (СНБ).
Почему автору кажется более уместным термин СНБ, чем термин «модульно-рейтинговый подход»? Дело в том, что целый ряд эффективных
оценочных процедур могут относиться не к материалам какого-то раздела курса, а отражают материалы курса в целом, то есть они могут быть
специфичными скорее по форме, чем по содержанию. Например, учащемуся ставится задача: «Выписать как можно быстрее (всего за 3 минуты)
основные термины, специфичные для содержания курса в целом». Это задание не относится ни к какому определенному разделу, напротив, является связующим для разных разделов. Но может ли результат выполнения
этого задания вносить определенный вклад в общий накопленный балл?
А почему нет. Пусть это всего лишь 2 или 3 очка из 100, но вклад возможен
и осмыслен. Другой пример задания: «Самостоятельно придумайте кейс
(жизненный случай, практическую проблемную ситуацию), который
ТРУДНО отнести сразу же к определенному разделу учебной программы».
Такое задание по определению сформулировано как «сквозное», не разделяющее, а связывающее разделы.
Как и модульно-рейтинговый подход, метод СНБ стимулирует учащихся к тому, чтобы не откладывать усвоение определенных разделов и
элементов учебной программы, так как результат промежуточного контроля напрямую отражается на итоговом балле. Да, можно наверстать
упущенное на первых лекциях, но лишь в определенных пределах. Если
оценка «отлично» ставится для интервала 81—100 итоговых очков, а вес
каждого промежуточного теста не превышает 5—10 очков, то можно даже
пропустить пару промежуточных тестов и все равно заслужить итоговую
оценку «отлично». Но эти пропуски создают дополнительный риск и трудности достижения высшего итогового балла.
В таблице 7.1 приводится пример того, как учитываются результаты
промежуточных тестов и других оценочных процедур, например, в моем
спецкурсе «Психология конкуренции» (2005—2012 годы):
На что хотелось бы обратить внимание читателей в таблице 7.1? На несколько значимых деталей и моментов, существенных для понимания
принципов СНБ:
1) С помощью одних только тестов (даже выбирая тест на итоговой процедуре контроля) студент НЕ должен иметь возможности набрать балл,
достаточный для зачета.
510
№этапа
Практическая тестология
Процедура
Вклад в %
1 — 4.
Промежуточные тесты с выбором ответа (по 20 вопросов
в каждом) после двух-трех лекций.
10 * 4 = 40
очков
5.
Письменный доклад по материалам курса (с анализом
собственного кейса по модели анализа, предложенной
преподавателем)
20 очков
6.
Устный доклад по материалам курса (с анализом собственного кейса)
20 очков
7.
Устное собеседование или итоговый компьютеризированный тест по методу контекстной вставки (по выбору
учащегося)
20 очков
ИТОГ
Граница зачета (для студентов, отчитывающихся по схеме
«зачет-незачет»)
Выше 60 очков
(61 и выше)
Таблица 7.1. Пример применения СНБ (Системы Накопленных Баллов) в оценочной схеме авторского спецкурса «Психология конкуренции».
2) Письменные оценочные процедуры должны сопровождаться в той
или иной форме их устной «защитой»: студент допускается к устному
выступлению только в том случае, если предоставляет качественный
письменный текст (обладающий, в частности, достаточным уровнем
самостоятельности-оригинальности)143.
3) 100 очков — это вовсе не жесткий лимит, которым нужно обязательно
ограничивать максимально возможную сумму очков. Например, для
того, чтобы студенты более активно слушали и обсуждали устные доклады своих однокурсников, я премировал их за активность на семинарах (достаточно всего 1 очка, чтобы это было уже чувствительным
для студентов, ибо как раз 1—2 очков студентам чаще всего не хватает
до «заветного зачета» — по известной закономерности, связанной с сознательной попыткой студентов не сделать «ничего сверх минимума»).
Кстати, для технической реализации подобной подсистемы премирования у преподавателя должна быть возможность в рамках компьютерной обучающей системы в любой момент ввести определенный дополнительный раздел на веб-странице студента, по которому очки добавляет он сам (преподаватель) — «вручную».
143
Защита своего письменного текста необходима, по моему мнению, даже при применении современных инструментов плагиат-контроля. Этими инструментами автор книги занимался много и целенаправленно, включая и попытку разработки собственной системы,
и обширный опыт использования известной системы antiplagiat.ru на русском языке. —
Прим. автора.
Глава 7. Внедрение тестов в систему вузовских экзаменов
511
Таким образом, дадим определение:
Система Накопленных Баллов (СНБ) — это такой способ оценки успехов учащегося в ходе освоения определенного учебного курса, при котором преподаватель заранее объявляет всем учащимся, какие будут
применены оценочные процедуры, на каком этапе, сколько каждая
из них дает очков в процентах к итоговому результату, а также каков
принцип перевода очков в оценочные категории («градации-отметки)».
Метод СНБ имеет важный педагогический развивающий эффект. Он
формирует у студентов навык самостоятельного планирования своей учебной деятельности — навык выбора и реализации определенной стратегии набора очков. Это может быть план-минимум, направленный лишь на получение зачета, либо план-максимум, направленный на завоевание авторитета в
глазах преподавателя и однокурсников. А в случае плана-минимума разные
студенты могут сфокусироваться («сделать ставку») на разных процедурах,
учитывая свои собственные конкурентные преимущества или недостатки.
Управление доступом к тестам, имеющим очковый вес в СНБ
Важно отметить, что в указанном выше спецкурсе по 10 очков за промежуточные тесты студент может получить ТОЛЬКО в аудитории на глазах у преподавателя, но не в заочном режиме. Тесты открываются для доступа на ограниченный промежуток времени (в моем случае — всего на 30
минут в начале или в конце сдвоенной учебной пары по полтора часа каждая144). При этом компьютерная платформа должна обязательно обеспечивать защиту от выполнения тестов в этот момент со стороны студентов,
находящихся вне аудитории: должна быть реализована не только защита
от доступа со всех прочих IP-адресов, кроме IP-адреса в текущем компьютерном классе, но и привязка тестовой программы к компьютерам (через «файлы-ключики» и другие сходные технологии), чтобы студенты на
«зашли на тест» через сервер WiFi-зоны.
Конечно, важным техническим условием применения СНБ является
наличие у каждого студента индивидуальной веб-страницы, защищенной его собственным индивидуальным паролем. На этой веб-странице
не только открывается доступ к определенным оценочным процедурам
(включая возможность «прикрепления» письменного отчета или файлапрезентации перед докладом), но и показываются все накопленные студентом очки в удобном для него формате.
144 Именно сдвоенные учебные пары в сумме продолжительностью в 180 минут создают для
преподавателя возможности сочетать лекционные занятия с активными формами обучения (докладами, дискуссиями и т.п.). — Прим. автора.
512
Практическая тестология
На рисунке-скриншоте 7.1 приводится пример подобной студенческой
веб-страницы.
Рисунок-скриншот 7.1. Отображение баллов за промежуточные (текущие)
тесты на индивидуальной веб-странице студента в системе HT-LINE.
Трудности применения СНБ в условиях конкуренции
между спецкурсами
Конечно, следует признать, что само применение СНБ, требующей от
студентов выполнения ответственных промежуточных оценочных процедур, ставит в невыгодные условия преподавателя такого спецкурса по
сравнению с другими преподавателями, которые вовсе не внедряют в свои
спецкурсы подобную систему, а ограничиваются лишь единственной итоговой оценочной процедурой (хотя в формальных программах спецкурсов
при этом может быть подробно расписано, что промежуточный контроль,
якобы, предусмотрен). Большинство студентов предпочитают двигаться
«по линии наименьшего сопротивления» и стремятся к таким спецкурсам,
на подготовку к сдаче которых достаточно потратить 1—2 дня непосредственно перед заключительным зачетом или экзаменом, но не в течение
семестра. Чистоту жанра в таких условиях весьма непросто соблюсти. Приходится идти на определенные компромиссы, чтобы студенты все-таки не
«проголосовали ногами» против вашей системы СНБ. Чтобы стимулировать
интерес к уже начатому спецкурсу со стороны студентов, которые еще не
Глава 7. Внедрение тестов в систему вузовских экзаменов
513
окончательно определились с выбором спецкурсов (для ряда кафедр данный мой спецкурс «Психология конкуренции» является в настоящее время
спецкурсом по выбору), я разрешил выполнять «пропущенные тесты» в заочном режиме (из дома, из аудиторий свободного доступа). Но получают за
эти тесты студенты оценку уже не из 10 очков, а только из 5.
На индивидуальной веб-странице «утешительные тесты» (или резервные) представлены внизу в виде отдельных разделов, за которые студент
получает меньше очков, чем за выполнение тестов текущего контроля в
требуемые сроки и в очном режиме (в аудитории).
А что делать, если у Вас нет в распоряжении компьютерной системы, позволяющей быстро (одной кнопкой) отсекать вход от WiFi-зоны
на момент проведения промежуточного тестирования, а затем опять
включать — для возобновления свободного доступа студентов к своим
веб-страницам? — Поделюсь на этот случай технико-организационным
решением, которое верой-правдой служит мне уже пару десятков лет. Я
провожу некоторые промежуточные тестовые контрольные прямо в лекционном зале, предьявляя всем тестовые задания на большом экране, а
студенты записывают ответы на отрывных листочках. Сразу после тестирования студенты сдают эти листочки для «проверки», подписав на них
свои ФИО, — на кафедру в лекционном зале. Но перед этим в свои тетради студенты копируют свои ответы. С этих «копий» они до следующего
занятия должны ввести свои ответы на тест в компьютерную систему —
каждый со своей индивидуальной веб-страницы (пройдя, разумеется,
авторизацию — ввод логина, имейла и пароля). Преподаватель (и его ассистент-лаборант) объявляют студентам, что будут производить выборочный контроль точности ввода копии протокола, располагая оригиналами
протоколов тестирования. Такая схема промежуточного тестирования
поддерживает посещаемость занятий (контрольную работу нельзя выполнить, сидя дома в Интернете), стимулирует доэкзаменационные усилия студентов по освоению материала, хотя, конечно, и не дает вполне
достоверных результатов, так как студенты, сидя в аудитории за единым
большим экраном, могут и подсказывают друг другу ответы. А что было
в прежние годы — до появления индвидуальных веб-страниц? — Да, увы,
лаборанту-оператору приходилось вводить в компьютерную оффлайн-систему (для автоматизированной обработки и учета) все ответы всех студентов с оригинальных листочков (бумажных протоколов). Теперь эта рутинная операция переложена на плечи самих студентов.
Адаптивное тестирование в тестах допуска «зачет-незачет»
Конечно, СНБ — это вовсе не абсолютно универсальная и единственная система. В некоторых случаях можно и нужно вносить в ее применение определенные коррективы. Например, очень часто преподавание
514
Практическая тестология
какого-то предмета в вузе разбивается на 2 разных этапа: теоретическое
введение (лекции) и практикум. Это фактически 2 разных модуля, внутри
каждого из которых разумно применять СНБ, но между ними нередко напрашивается оценочная процедура по принципу фильтра («зачет-допуск»):
к следующему модулю целесообразно допускать только тех студентов, которые сдали зачет за предыдущий модуль.
Именно в этих целях автором в течение многих лет проводилось компьютерное тестирование на рубеже «лекции — практикум» по курсу «Основы психодиагностики». Это так называемое рубежное тестирование.
Оно имеет свою логику. Попробуем эту логику явно сформулировать:
1) Рубежное тестирование (или рубежный контроль) отличается от итогового тем, что дифференцированная оценка не ставится, работает лишь
бинарный фильтр «зачет-незачет». Те, кто не сдал зачет, не получают
допуск к следующему модулю, в данном случае к практикуму.
2) В отсутствие необходимости ставить дифференцированную оценку
преподаватель естественно стремится сэкономить собственные усилия на проведение рубежного контроля. И именно в этом случае годятся тесты — они дают необходимую экономию времени преподавателя.
3) К рубежному контролю многие студенты не успевают освоить необходимый минимальный уровень подготовки, поэтому некоторым студентам приходится сдавать этот «рубежный зачет» по многу раз, и на
приемку подобных зачетов у преподавателя фактически не хватает
моральных сил (слишком часто приходится выслушивать одни и те же
ошибки совершенно неподготовленных студентов). От этого отупляющего повторения (вреднейшим образом воздействующего на профессиональную мотивацию преподавателя), от превращения в «автомат
по приемке зачетов» преподавателя и должно защитить использование
соответствующего компьютерного теста, основанного на банке заданий.
4) Нередко для массового многократного рубежного тестирования не хватает не только времени преподавателей, но и мощностей доступных
компьютерных классов. Так что приходится думать о том, как сократить время выполнения подобных тестов при сохранении достаточного уровня надежности-валидности. Так возникает запрос на адаптивное компьютерное тестирование.
Применение компьютерного адаптивного тестирования для «зачета-допуска» было внедрено автором в курс «Основы психодиагностики» в
МГУ еще в 90-е годы и описано подробно в статье, выпущенной в 2002 году
(Шмелев, 2002б). В отличие от лестничного восходящего алгоритма, который мы применили, в частности, в рамках проекта «Олимпиада «Телетестинг» (см. его краткое описание в разделе 5.4), в данном случае мы применили так называемый «алгоритм сближающихся порогов». Подведение
Глава 7. Внедрение тестов в систему вузовских экзаменов
515
итогов, согласно этому алгоритму, начинается уже после 20 заданий (задолго до максимума 50 или 60 заданий в сеансе):
1) Если испытуемый набирает в этих 20 заданиях более 15 правильных
ответов (достигает верхнего порога «зачет»), то процесс останавливается, и ему ставится оценка «зачет».
2) Если испытуемый совершает, наоборот, более 15 ошибок (достигает
нижнего порога «незачет»), то процесс тоже останавливается, но уже с
противоположным по смыслу сообщением на экране: «К сожалению,
сегодня Вы не готовы получить зачет».
Почему при 20 попытках порог выбран в виде 75 процентов? Посчитаем, какой уровень значимости по критерию Хи-квадрат достигается в отвержении нулевой гипотезы о случайном выборе ответа. В данном случае
применяется классическая формула для критерия Хи-квадрат, вычисляемая как нормированная сумма квадратов отклонений эмпирических частот от ожидаемых:
(7.1)
Chi =
(F — Е ) /E ,
i
i
2
i
где Fi — эмпирическое значение частоты какого-то события I,
Еi — математическое ожидание частоты события I.
Очевидно, что при четырех вариантах ответа матожидание числа правильных ответов при случайном угадывании из 20 равно 5, а матожидание числа ошибок равно 15 (три ошибки на четыре попытки). Так как величина Еi в данном случае (при численности вариантов ответа K=4) равна для
правильных ответов 25% от числа предъявленных заданий, то для данного
случая из формулы 7.1 получаем:
Таким образом, эмпирическое значение Хи-квадрат 26.67 означает, что
достигнута статистическая значимость на высочайшем из стандартных
уровней p<0,001 (при одной степени свободы). Впрочем, следует учитывать, что уровень значимости p<0,001 не гарантирует, что из 1000 студентов ни один не может достичь порога «зачет» случайно — как раз один-то
сможет. Хотя для большинства учебных групп и курсов (численностью в
пределах 200 человек) этого уровня значимости вполне достаточно. Но
чтобы сократить вероятность случайного достижения верхнего порога на больших выборках критерий можно сделать и еще более строгим.
516
Практическая тестология
Например, на 20 попытках это будет 90 процентов правильных ответов,
что даст нам следующее значение статистики Хи-квадрат:
Chi =
= 45,07 (значимость на уровне p<0,0002)
Данную формулу расчета статистики Хи-квадрат145 несложно запрограммировать и применять НА КАЖДОМ ШАГЕ. Адаптивная компьютерная программа тестирования сравнивает после очередного ответа достигнутый процент правильных ответов с верхним порогом, который по мере
продолжения теста снижается. При этом также на каждом шаге происходит сравнение процента ошибок с нижним порогом, и нижний порог повышается, поэтому пороги сближаются.
При применении «однотысячного» уровня статистической надежности p<0,001 данный алгоритм сокращает среднюю продолжительность теста с 50 заданий примерно вдвое — до 30—35 заданий (эта величина не является математической, но чисто эмпирической и меняется год от года в зависимости от подготовленности того или иного
курса и т.п.). Но в последние 10 лет (в 21-м веке) границу верхнего порога, увы, мне уже не удается удерживать в коротком тесте из 20—30
заданий на заведомо неслучайном уровне — на «однотысячном» уровне статистической надежности p<0,001. Пришлось удлинять тестовый
сеанс до 50—60 заданий, превращая испытание из краткого «зачетадопуска» в настоящий тестовый экзамен. Слишком большой процент
студентов оставался в области «незачета» — ниже нижнего порога
(или ниже границы 50% из 30 заданий) даже после трех попыток сдачи
компьютеризированного теста-зачета (!!). Слабому студенту, как оказалось, гораздо проще набрать 25 правильных ответов из 60 заданий и
получить свою «троечку с минусом», чем дать 16 правильных ответов
из 30. Это обстоятельство, очевидно, вызвано продолжающимся падением уровня школьной логико-математической подготовки в нашей
стране, а также общим кризисом в учебной мотивации студентов (все
более доминирует у определенной ощутимой части студентов внешняя мотивация на получение «корочек диплома», а не на получение
реальных знаний).
В этой ситуации в последние годы я вынужден фактически отказаться от применения теста в качестве «рубежного фильтра» и перейти к
учету результатов тестирования в логике СНБ — в логике очкового вклада в суммарный накопленный балл по курсу. В настоящее время схема
145 В электронном приложении к книге эта формула представлена в виде готовой Эксель-таблицы, так что читатель может без труда использовать эту формулу, чтобы подсчитать верхний порог (и симметричный нижний) для своей продолжительности теста N и своего числа
вариантов ответов K. — Прим. автора.
Глава 7. Внедрение тестов в систему вузовских экзаменов
517
оценивания по курсу «Основы психодиагностики» выглядит так: 2 практических задания — по 25 очков (причем качество устной защиты отчета
преподаватель оценивает из 10 очков), итоговый компьютеризированный
теоретический тест — 50 очков.
Баллы самоконтроля или все-таки «данные для экзаменаторов»?
В некоторых вузах тесты используются активно, но исключительно
для того, чтобы студенты перед экзаменами могли проверить самих себя.
От студентов требуется участие в точном соответствии с «олимпийским
принципом» — главное не победа, а участие. То есть каким бы ни был твой
тестовый балл, ты получишь допуск к экзамену, а вот не поучаствовав в
выполнении теста, не получишь.
Это допустимый подход (хотя он, как правило, сочетается с низким качеством тестов, создаваемых преподавателями для столь факультативной задачи). Но этот подход должен быть точно и скрупулезно выдержан в «чистом виде». Его никак нельзя смешивать с другим
подходом, — когда экзаменаторы все-таки получают доступ к тестовым баллам студентов. В противном случае возникает ситуация «обмана» со всеми негативными последствиями не только воспитательного, но иногда и юридического характера (студенты могут оспорить
действия вуза в суде по статье ГК РФ «Обман»). Баллы, которые объявлены как исключительно средство самоконтроля, не могут и не должны видеть экзаменаторы. В противном случае мы должны в явном
виде — в инструкции к тесту — предупреждать студентов, кто именно
и с какими целями будет иметь доступ к результатам. Если даже действия экзаменаторов по учету доступных им тестовых баллов никак
не формализованы, студенты должны знать, что тестовые баллы «попадутся на глаза» экзаменаторам еще ДО выставления экзаменационных оценок.
Далее мы будем во многом опираться на наш опыт внедрения тестовой формы контроля в систему госэкзаменов на факультете психологии
МГУ. Так вот, в ходе первых трех лет такого внедрения схема учета результатов тестового испытания была именно такой — совершенно неформализованной. У каждого члена комиссии по приемке устного экзамена была
возможность ознакомиться с тем, как этот студент сдал предварительный
тестовый экзамен (тестовый балл, процентильный рейтинг, то есть, какое
место занял, а также примерная оценка). Этот опыт помог многим очень
авторитетным и опытным преподавателям, которые слишком скептически относились к возможностям тестов, убедиться в том, что тестовые
баллы «работают» — их оценки действительно часто совпадают с экспертными впечатлениями от ответов студентов. Но эту ситуацию уже никак
нельзя было считать «баллами самоконтроля».
518
Практическая тестология
7.3. ОРГАНИЗАЦИЯ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ
НА ЭКЗАМЕНАХ
В отличие от текущего контроля применение тестов в рамках экзаменационной сессии требует более продуманного и ответственного решения целого комплекса задач — и методических, и организационных.
Конечно, это задачи разного калибра в плане их значимости и сложности.
Самая важная и сложная задача — это, пожалуй, задача обоснованного
проектирования удельного веса экзаменационного теста в общем балансе очков в рамках модели СНБ. Но начнем с более простого и очевидного
вопроса, однако, требующего определенной точности и рациональности,
чтобы не оказаться вдруг перед лицом организационных «завалов», — это
вопрос проектирования расписания экзаменационных сеансов. Частично
мы уже затрагивали некоторые вопросы такого плана в главе 2 (см. параграф «Массовое тестирование»), но здесь мы это сделаем подробней, так
как речь идет не о каком-то «тестировании вообще», а тестировании, которое вносит прямой вклад в экзаменационные оценки.
Расписание и самозапись на сеансы тестирования
Специфика возникает, уже начиная с планирования расписания экзаменов. Если в ходе учебных занятий сетка часов подчиняется логике
учебного расписания, то в ходе экзаменационной сессии формируется, как известно, расписание экзаменов. И тут же возникают «нюансы».
Если традиционный устный экзамен, как правило, проводится в разных
учебных группах (параллельно изучавших данную учебную дисциплину) в разные дни146, то в случае с тестовым экзаменом целесообразно
мобилизовать все компьютерные рабочие места во всех компьютерных
классах и провести тестовый экзамен в один день. Это необходимо, прежде всего, для того, чтобы сократить риск утечки информации о тестовых заданиях и не повышать шансы для групп, сдающих тестовый экзамен позднее.
Много лет до появления специализированной комплексной системы
HT-LINE мы применяли в МГУ самозапись студентов на тестирование —
в клеточках бумажной таблицы, вывешенной просто на стенде перед
компьютерным классом. В настоящее время студенты записываются на
тестирование с помощью особого субсервиса внутри HT-LINE — «запись
студентов на сеансы». Это начинается примерно за неделю до объявленного экзамена на индивидуальной веб-странице у каждого студента. Параллельно с доступом к онлайн-демоверсии экзамена на веб-странице
146
В силу того, что маленькому коллективу экзаменаторов просто не справиться с приемкой экзаменов у всего курса в один день. — Прим. автора.
Глава 7. Внедрение тестов в систему вузовских экзаменов
519
студента открывается особый выпадающий список сеансов тестирования — только тех, на которые еще остались свободные места (с указанием
количества свободных мест в каждом сеансе). На рисунке-скриншоте 7.2
читатель может ознакомиться с тем, как выглядит индивидуальная вебстраница студента в режиме самозаписи.
Рисунок-скриншот 7.2. Выбор сеансов экзаменационного тестирования на
индивидуальной веб-странице студента в системе HT-LINE.
Получив от учебной части информацию о днях, часах и аудиториях,
выделенных для экзамена, преподаватель-экзаменатор должен спланировать в системе HT-LINE тестовые сеансы (ибо в один сеанс большой поток студентов, как правило, просто не может уместиться в компьютерных
классах). Удобнее всего для этого организовать самозапись студентов на
определенные часы (сеансы), начиная со дня проведения предэкзаменационной консультации. Созданный в системе HT-LINE модуль редактирования сеансов помогает преподавателю автоматически проконтролировать (и избежать тем самым арифметических ошибок) определенное число
сеансов с учетом длительности каждого сеанса, численности студентов на
потоке, а также количества посадочных мест в аудиториях (см. рисунокскриншот 7.3).
520
Практическая тестология
Рисунок-скриншот 7.3. Основной экранный режим в особом субсервисе «управление экзаменационными сеансами» в системе HT-LINE.147
Особая проблема состоит в обеспечении несовпадающих вариантов
теста для соседних рабочих мест в одном сеансе.148 Для этой проблемы в
147
Конечно, рядовому преподавателю, не имеющему опыта управления сложными онлайнсистемами LMS, достаточно сложно самостоятельно освоить такие многофункциональные
субсервисы, как «проектирование сеансов». Обычно в таких случаях разработчики и операторы системы (в данном случае это сотрудники Лаборатории «Гуманитарные технологии»)
получают от владельца веб-кабинета просто входные данные «на словах» и сами настраивают параметры требуемого расписания. — Прим. автора.
148
Надо сказать, что эта задача возникает лишь в таких условиях, когда компьютерное тестирование предлагается учащимся по выбору — наряду с бланковым (как и было в годы
апробации К-ЕГЭ). В этом случае и в том, и в другом видах тестирования предъявляются
Глава 7. Внедрение тестов в систему вузовских экзаменов
521
нашей лаборатории тоже было предложено некоторое компьютерное решение — в рамках модели «Компьютерный ЕГЭ» (К-ЕГЭ). Но в случае компьютеризированных тестовых экзаменов можно оставить за скобками
эту проблему. Когда вариант теста оперативно формируется случайным
путем на основе банка заданий, любые два человека получат несовпадающие варианты — по составу и последовательности тестовых заданий. И
хотя всегда друзья (подружки) стремятся зарегистрироваться на сеансы
так, чтобы сидеть на соседних местах, они редко успевают помочь друг
другу — успеть бы справиться с собственным тестом.
Демоверсия, консультация, предварительная регистрация
Не надо забывать, что в подготовку к тестовому экзамену входит демонстрационное тестирование (в режиме онлайн) и консультация. Конечно, демоверсия должна состоять из заданий, которые затем НЕ будут
предъявлены в ходе самого экзамена. Весьма важно, чтобы демоверсия и
экзамен были сопоставимы по уровню трудности. Поэтому хорошие (показательные) демоверсии рождаются лишь после первого опыта массовой
обкатки банка заданий. В ходе демоверсии нужно привлечь внимание
студентов к контролю времени сеанса (на отдельный тематический блок,
на отдельное задание и т.п.), объяснить, что главное — это научиться работать в определенном рациональном темпе.
На консультации важно обсудить вопросы, которые возникают у студентов после знакомства с демоверсией, поэтому лучше открыть демоверсию еще до консультации. Если у кого-то возникли технические трудности (непонятно, на какой странице и с каким предварительным паролем
регистрироваться), то в конце консультации можно им еще раз разъяснить
все технические вопросы.
Тут же возникает и такой технический вопрос: а всегда ли нужна регистрация при проведении компьютерного тестового экзамена? Не проще
ли всем разослать групповую (не именную) гиперссылку, по которой каждый студент пройдет тестовый экзамен? Наш ответ однозначен: нет, это
только мнимая простота, которая во многих ситуациях оборачивается дополнительными сложностями:
1) На самом экзамене студенты волнуются и часто неточно, с ошибками
вводят в онлайн-паспортичку такие простые данные, как свои ФИО,
номер группы (некоторые даже не переключают регистры, по привычке вводят свои курьезные «ники-клички» вроде «pupsik» и т.п.). Если
эти ошибки содержатся в учетной карточке (а не в протоколе), то эти
одинаковые фиксированные варианты, а случайная селекция заданий из банка не работает. — Прим. автора.
522
Практическая тестология
ошибки сам студент может легко исправить (и работа не перекладывается на оператора). Наличие выверенной еще до экзамена регистрационной информации — залог быстрого получения корректной ведомости (распечатки на бумаги результатов экзамена) сразу после экзамена.
2) Предварительная регистрация означает создание индивидуальной
веб-страницы студента, на которой регистрируются результаты первого и последующих тестов (пересдач) — это удобно для работы экзаменационной комиссии.
3) Экзамен может (и должен, по нашему убеждению!) включать несколько
разных процедур. Наряду с тестом можно и нужно проводить устное собеседование (например, по материалам устного или письменного решения
какой-то практической задачи — кейса). Результат устного или других
этапов экзамена также просто и удобно фиксироваться на индивидуальной веб-странице, которая в данном случае выполняет роль «веб-досье».
Должен ли экзаменуемый что-то подписывать?
Лучше всего вывесить заранее подготовленную и утвержденную «памятку участника» на стенде перед экзаменационными аудиториями (компьютерными классами). По сравнению с названием «правила поведения
участника тестирования» название «памятка участнику» смягчает грозный смысл некоторых санкций, которые в памятке должны быть обязательно упомянуты (см. подробнее о правилах тестирования в разделе 7.6).
Нужно ли каждого студента перед всяким тестовым экзаменом заставлять
подписывать «памятку»? По нашему опыту в большинстве случаев в этом
нет никакой необходимости. Ведь не подписывает же правила футбольной
игры перед каждой игрой каждый футболист? Хотя, если есть подозрения в
том, что студенты могут устроить коллективный протест против какого-то
пункта правил (это обычно становится ясным на предварительной консультации), то можно пойти и на то, чтобы собрать подписи до экзамена.
Как правило, после экзамена студенты должны расписаться в протоколах (ведомостях) в графе рядом с полученными результатами. Это похоже
на то, как расписывается в «расчетно-платежной ведомости» каждый работник при получении зарплаты. Такие подписи резко снижают риск неуправляемых апелляций в дальнейшем.
В таблице 7.2 приводится пример ведомости по одному тестовому сеансу в одной тестовой аудитории с минимальным числом граф (колонок).
Тестовый балл в таблице-ведомости, как правило, фигурирует в показателях сырой шкалы (количество правильных ответов), а оценку вписывают
в принятой в данном вузе шкале оценок (в традиционной четырехбалльной,
которая по каким-то иррациональным причинам называется до сих пор
«пятибалльной», или в 10-, 12-балльной и т.п.). Баллы и оценки вписываются
на основе таблицы соответствия (или таблицы перевода баллов в оценки).
Глава 7. Внедрение тестов в систему вузовских экзаменов
523
ВЕДОМОСТЬ №___________________ от «___»____________________201___ г.
Название дисциплины: ____________________________________________
ФИО экзаменатора (ов) _____________________________________________
Аудитория ______________________________________________________________________________________
Дата и время сеанса (экзамена) ______________________________________________________
№
ФИО студента
1.
Иванов И.И.
2.
Петров П.П.
3.
Сидоров
С.С.
Тестовый
балл
Оценка
Подпись
экзаменуемого
Подпись (си) экзаменатора (ов) __________________________________________________
Таблица 7.2. Примерный вид самой простой итоговой таблицы-ведомости
тестового экзамена.
Соответствие между баллами и оценками
Таблицу соответствия между тестовыми баллами (числом или процентом правильных ответов) и оценками лучше всего объявить до экзамена. Это сразу снимает излишнюю напряженность. Но лучше сделать оговорку, что тестовая комиссия сохраняет за собой право коррекции границ
перевода баллов в оценки в зависимости от реальных результатов экзамена. Важно подчеркнуть, что при этой коррекции гарантируются права
студентов — коррекция будет производиться только в пользу студентов (в
пользу повышения, а не понижения числа высоких оценок). Разумеется,
чтобы выдержать такое обязательство, целесообразно до экзамена продекларировать несколько завышенные граничные значения (подстраховаться от чрезмерного количества высших оценок). В таблицах 7.3а и 7.3б приводится пример того, как могут выглядеть таблицы перевода баллов (числа правильных ответов на тестовые задания) в оценки (так называемые
«конверсионные таблицы»), опубликованные для студентов ДО и ПОСЛЕ
проведения экзаменов.
Баллы (правильных ответов)
Оценки
0 — 30
31 — 40
41 — 50
51 — 60
Неуд
Удов
Хор
Отл
Таблица 7.3а. Пример возможной таблицы перевода баллов в оценки ДО
экзамена.
524
Баллы (правильных ответов)
Оценки
Практическая тестология
0 — 28
29 — 39
40 — 48
49 — 60
Неуд
Удов
Хор
Отл
Таблица 7.3б. Пример возможной таблицы перевода баллов в оценки ПОСЛЕ
экзамена.
Обратная связь после экзамена
Одно из фундаментальных конкурентных преимуществ компьютерного тестового экзамена заключается в возможности немедленной выдачи
студенту его результата сразу после ответа на последний вопрос теста. Однако не всегда разработчики подобных систем знают, что именно надо сообщать в ходе такой обратной связи. Понятно, что нужно сообщить сразу
же сырой балл в виде количества (или процента) правильных ответов. Но…
сообщать ли при этом оценку? Это уже непонятно. А если оценка может
еще поменяться? А нужно ли при этом предъявлять задания, в которых допущены ошибки, и указывать, какой ответ на самом деле правильный?
Наши рекомендации по организации обратной связи студенту после
выполнения экзаменационного компьютерного теста таковы:
1) Надо сообщить количество правильных ответов.
2) Надо сообщить, сколько получилось правильных ответов по субшкалам (тематическим блокам, субтестам).
3) Надо сообщить ПРЕДВАРИТЕЛЬНУЮ оценку. Слово «предварительная»
здесь выделено намеренно, чтобы студент понимал, что оценка может
измениться. Если эти изменения разумно спланированы (см. выше), то
они должны быть только в пользу студента, так что предварительную
оценку можно смело сообщать.
4) Не надо предъявлять задания, в которых допущены ошибки. Экзамен —
это не обучающая, а аттестационная процедура. Не стоит путать эти жанры. Подготовка хороших тестовых заданий для экзаменационного банка
заданий — это дорогое удовольствие (как мы пытались показать во многих предыдущих главах этой книги). Поэтому не надо рассекречивать
«ключи» (правильные ответы) к этим заданиям. Тем самым Вы продлите
срок жизни вашего банка заданий. И так он не долог — в течение пяти лет
банк заданий в принципе должен быть обновлен полностью, но если Вы
устраиваете для студентов детальный «разбор полетов» после каждого экзамена (корректируете их ошибки по каждому заданию), то банк заданий
придется обновлять полностью уже на следующий год.
5) Сразу после выполнения теста можно собрать отклики студентов. Для
этого, например, в той же системе HT-LINE на странице с результатами студенту предъявляется сразу же особое интерактивное окно — для
ввода отклика.
Глава 7. Внедрение тестов в систему вузовских экзаменов
525
Апелляции по процедуре и содержанию экзамена
В правилах тестового экзамена должно быть регламентировано, когда
и в какой форме студент может подать апелляцию. Лучше иметь для ответственных случаев образцы апелляционных заявлений и тут же давать
их желающим — сразу после завершения сеанса экзаменационного тестирования.
Апелляции по процедуре, как правило, касаются возникающих технических сбоев (например, в случае «зависания компьютера» или «отключения от сети» из-за элементарного разрыва сетевого «коннекта» с
сервером или из-за сбоя питания). Апелляционное заявление должно быть
подписано дежурным экзаменатором, который фиксирует его обоснованность (что факт технического сбоя действительно имел место). Экзаменационная комиссия должна предоставить студенту право пересдать тестовый экзамен в резервный день.
Сложнее дело обстоит с такой ситуацией, когда студент обнаруживает
некорректное (по его мнению) тестовое задание, но времени для фиксации этого факта в процессе самого сеанса у него просто нет (нужно успеть
решить, например, 90 заданий всего лишь за 60 минут). Как должна быть
организована в этом случае разумная процедура? Оператор должен иметь
наготове листок бумаги и ручку (у студентов на компьютерном сеансе тестирования, как правило, и того, и другого просто нет под руками), который он немедленно передает студенту, поднявшему руку и заявившему
об ошибке в задании. Студент фиксирует на бумаге ключевые слова, которые после завершения сеанса тестирования позволяют ему и экзаменатору отыскать точную формулировку предъявленного в сеансе задания.
Свою аргументацию о некорректности задания студент приводит в виде
развернутого письменного текста уже после сеанса. Чтобы студент не задерживал начало следующего сеанса, ему надо предоставить для написания заявления отдельное место, но еще под наблюдением экзаменатора.
В дальнейшем, если апелляционная комиссия подтвердит справедливость критики со стороны студента (например, констатирует наличие более одного правильного ответа при задаче выбора одного) студенту должно
быть присуждено дополнительное очко в графе «тестовый балл» (и если
это приведет к повышению оценки, оценка должна быть пересмотрена).
А что, если «нет Интернета»?
Одно дело — локальный сетевой сбой в пределах одного или нескольких компьютеров и в рамках одного сеанса тестирования, но другое дело —
техническая катастрофа, которая выражается в том, что локальная или
глобальная сеть вдруг не функционирует много часов (фактически целый
день). Такое может произойти по каким-то совершенно неожиданным
526
Практическая тестология
причинам: например, начинаются строительные работы, и перебивается
интернет-кабель. Эта катастрофа особенно ощутима, когда мы имеем дело
с экзаменационными тестовыми материалами, которые должны при каждом запуске теста постоянно подкачиваться с удаленного сервера (он может
находиться в другом городе, где локализуется центр проведения Интернетэкзамена). Что же делать в этом случае? Неужели надо отменять экзамен, который с таким трудом был подготовлен и преподавателями, и студентами,
понесшими столько нервных затрат, записываясь на определенные сеансы?
На этот случай надо готовить обязательно какое-то резервное техническое решение, чтобы все-таки не переносить экзаменационный день
полностью. Каким может быть это решение? Конечно, это может быть и
проведение теста на бумажных носителях (хотя такой вариант готовить
приходится заранее и как аварийный запасной он вряд ли сработает при
достаточно большом числе студентов на потоке). Лучше в качестве резервной технической модели экзамена предусмотреть запуск тестов по локальной сети. Но как заранее подготовить эту резервную модель без рассекречивания банка заданий? Ведь весь смысл наличия удаленного сервера
заключается в том, что местные «спецы» не имеют к нему такого легкого
доступа, как к компьютерам локальной сети.
На этот случай удобные экзаменационные системы (платформы)
должны предполагать раздельное и независимое хранение программы
(оболочки для локального тестирования) и тестового контента (файлов с заданиями). Накануне экзамена файлы с заданиями должны храниться не
в локальной сети, а на съемных носителях у ответственного экзаменатора. А с утра после обнаружения катастрофической ситуации экзаменатор
должен иметь возможность «импортировать» экзаменационные задания
со своего флеш-диска — так, чтобы программа тестирования заработала в
локальном сетевом режиме.
Локальная версия экзаменационной программы должна удовлетворять современным техническим требованиям — гибко взаимодействовать с удаленным сервером, чтобы была обеспечена полная автоматизированная синхронизация протоколов с ответами испытуемых, которые
накоплены на локальных компьютерах (в отсутствие коннекта, то есть
подключения), с протоколами, которые накоплены на удаленном сервере
(при наличии коннекта).
Здесь рассмотрены, разумеется, далеко не все проблемы, связанные с
техническими и организационными вопросами проведения тестовых экзаменов. Все эти вопросы можно легко решить, если действовать методично и
привлекать к исполнению просто технически грамотных и ответственных
исполнителей. Здесь нет никаких серьезных внутриполитических проблем,
которые действительно вызывают иногда серьезные осложнения — ситуацию неявного конфликта (что наиболее сложно поддается разрешению). Самый большой риск наткнуться на неявный (а иногда и явный) конфликт связан с вопросом о вкладе тестовых оценок в общую итоговую оценку.
Глава 7. Внедрение тестов в систему вузовских экзаменов
527
Как договариваться о вкладе тестовых оценок в итоговую оценку?
Если экзамен принимают несколько членов экзаменационной комиссии, имеющих разное отношение к созданию банка тестовых заданий
(одни в этом участвовали, а другие — совсем не участвовали), то, разумеется, их позиции по ключевому вопросу о весе тестового балла будут различаться существенно: одни будут ратовать за высокий вес, а другие — за
низкий вплоть до нулевого.
Тут все зависит от остроты противостояния. Если она невелика, то получаем одну ситуацию — «готовность к компромиссу», а если люди готовы
добиваться своего путем различных угроз (например, угрозы увольнения
оппонента или самоувольнения), то это другая ситуация — «неготовность
к компромиссу». В первом случае вполне можно применить такой способ
принятия решения, как мягкое экспертное голосование. Каждый эксперт
указывает (опрос можно сделать и анонимным), с каким весом, по его
мнению, должен учитываться тестовый экзамен в финальной СНБ, а затем
все названные веса усредняются. Например, было опрошено 15 экспертов,
и средний весовой вклад (доля) получился равным 25% процентам. Ну, что
ж… так тому и быть. В рамках обычного экзамена этот вклад по смыслу
соответствует как бы привлечению «четвертого члена комиссии» к трем
имеющимся (четвертым оказывается результат тестирования).
Итак, получили вклад в 25%. По какой формуле рассчитывать вклад
для отдельных студентов? Тут лучше для начала не злоупотреблять сложной математикой (которая не всем будет понятна). Важнее добиться прозрачности — пусть ценой очень большого огрубления. Очевидно, что вклад
рассчитать проще всего по форме линейного нормирования:
(7.2)
Vi = Vm * Nci/N
где Vm — максимальный возможный вклад (в нашем примере это 25),
Nci — число правильных ответов, данных i-тым студентом,
N — общее число тестовых заданий.
Пусть тест содержит 60 заданий, и студент дал 40 правильных ответов
(ровно две трети), тогда V40= ОКРУГЛ(25*40/60) =17.
Кстати, давайте подумаем тут же, а что такое 25%, если все задания в
тесте имеют по 4 варианта ответа, и вклад 6 из 25 можно заработать, случайно нажимая клавиши на компьютере? Фактический диапазон (эффективный размах) возможных вкладов изменяется не в интервале от 0 до 25,
а в интервале от 6 до 25 и составляет (огрубленно) не 25, а только 20 очков.
То есть тест оказывается фактически при таком способе подсчета тестового балла и вклада не «четвертым», а только «пятым экзаменатором» (весит
пятую долю от стопроцентного балла СНБ). Для коррекции на случайное
угадывание надо, очевидно, применять формулу 4.1 (см. главу 4). Но все ли
члены Ученого совета готовы эту формулу понять и принять? Приходится
528
Практическая тестология
иногда просто «не вдаваться в подробности», чтобы ситуация оставалась
в рамках «разумного компромисса» (субъективно приемлемого решения
для всех лиц, принимающих решение), чем сваливалась в конфликт. Ниже
в параграфе 7.3 мы опишем ситуацию, которая сложилась к 2010—2013 годам на факультете психологии МГУ: результаты тестового испытания в
госэкзамене учитываются с весом в 20 процентов, но при этом 5 очков студент может получить по тесту, не зная ничего. Это означает, что эффективный размах фактически равен 15, а не 20 очкам149, то есть при высоком балле за традиционные испытания студент не получает никакого итогового
снижения оценки по четырехбалльной шкале (до оценки «хорошо»), даже
если он просто «прощелкивает» задания тестового экзамена и получает за
него балл 5. Достаточно за традиционные испытания набрать 76 очков, к
ним добавляются 5 гарантированных очков за тест, и в сумме получаем
81 — оценка «отлично» (при самом популярном делении стобалльной шкалы на пять равных интервалов). То есть низкий тестовый балл приводит
к снижению итоговой оценки не всегда, а только в пограничных случаях
(когда СНБ оказывается между «отлично» и «хорошо», например). Впрочем,
такая ситуация примерно соответствует нынешнему уровню доступного
компромисса между сторонниками и противниками тестовых испытаний на факультете психологии МГУ, хотя, как мы покажем ниже, она вовсе не отражает реальных данных о сравнительной валидности тестового
испытания и традиционных процедур, которые свидетельствуют в пользу теста.
А что же делать, если в организации нет «готовности к компромиссу»?
Самая главная наша рекомендация в этом случае состоит в идее ПОСТЕПЕННОГО ПЕРЕХОДА:
Вовсе не обязательно добиваться учета результатов тестирования в
итоговой оценке в самый первый год внедрения системы тестирования по предмету: можно наметить план постепенного перехода в
течение двух-трех лет.
Пусть в первые год-два противники тестирования просто будут ознакомлены с результатами тестирования — тех студентов, у которых они
принимают экзамены традиционным путем (устный опрос по билетам
или проверка письменных работ, иногда дополненная устным обсуждением-защитой письменных работ). За это время тестолог (руководитель
проекта «тестовый экзамен») должен спокойно и методично собирать
все статистические данные, чтобы затем — в ходе ежегодного анализа — докладывать эти результаты и корректировать ситуацию по мере ее
149
Впрочем, в последние два года накоплен опыт обоснованного перевода сырых баллов в
стены, что делает возможным понижение минимального вклада этой процедуры до 2 очков
из 20. — Прим. автора.
Глава 7. Внедрение тестов в систему вузовских экзаменов
529
прояснения. Так будет лучше и с точки зрения совершенствования самого
банка тестовых заданий. В первый год банк заданий редко бывает удачным. Надо добиться того, чтобы за 2—3 года в результате методичной работы качество банка заданий улучшилось. Тогда повысится валидность теста, тогда у сторонников появятся объективные аргументы в пользу придания тестовому испытанию определенного веса в итоговом результате.
Впрочем, как раз о том, как эмпирическая валидность может повлиять на
вес тестового испытания, мы говорим в следующем параграфе 7.3.
Суммировать оценки или баллы?
Последний вопрос, который следует обсудить в разделе 7.2, опять-таки является чисто техническим, но все-таки важным, так как в экзаменационных технологиях практически не бывает мелочей, все приходится
продумывать до деталей и заранее, ибо любая непродуманность оборачивается недоверием участников к объективности результатов. Например,
вес тестового испытания в финальной оценке должен быть четко зафиксирован в Положении об экзамене (его стоит тиражировать каждый год как
приложение к приказу об экзамене, особенно если речь идет о таких важных экзаменах, как вступительные или выпускные). Но… при этом остается еще не ясным, а что именно подвергается суммированию — оценки
или баллы?
Дело в том, что доминирующая до сих пор традиция в российских
вузах заключается в подсчете конкурсного балла (например, на вступительных экзаменах) путем суммирования оценок. Но если этот принцип применить к тестированию, то получаем «выплескивание с водой
ребенка»: резко снижается одно из достоинств метода тестов в их влиянии на итоговый результат — наличие более дифференцированной
шкалы. Простой пример: студент А решил 99 процентов заданий и получил по тесту сырой (первичный) балл в виде 99 процентов правильных ответов. Округляем этот балл до оценки путем простейшей формулы округления (точнее — поиска полного целого числа) и получаем
балл 5 — по функции ЦЕЛОЕ(X*5-0.001)+1150. Другой студент В получил
по тесту 81 процент правильных ответов. Применяем функцию ЦЕЛОЕ
(0,81*5)+1 и тоже получаем балл 5151. Но между баллами этих двух студен150
Формула ЦЕЛОЕ(X*5-0.001)+1 в Эксель соответствует наиболее популярной конверсионной таблице со следующими нижними границами перевода баллов в оценки: «отлично» —
81, «хорошо» — 61, «удов» — 41. — Прим. автора.
151 В этом контексте рассматривается ситуация с преобразованием по формуле, так как
для применения нелинейных конверсионных таблиц в первые годы внедрения тестовых
технологий социально-психологическая ситуация в вузе может оказаться слишком неподготовленной. Одно дело, когда педагогический персонал технического вуза воспринимает
530
Практическая тестология
тов разница составляет 18 очков, то есть почти 20 (!) — почти целый шаг
на традиционной шкале оценок. Если тест вносит вклад 20 процентов,
то, конечно, гораздо точнее учитывать при подсчете итогового балла
по принципу СНБ — по принципу вклада в очках, а не в огрубленных
оценках. Если сводить дело к оценкам, то оба студента, А и Б, получают по 20 очков за тест (ибо 5 — это максимальная оценка, а 20 — максимальный вклад). Но по формуле 7.2 вклад теста у студента А равен Vi=20,
а у студента B — только Vi=16.
Конечно, если цель экзаменационной комиссии состоит в том, чтобы с
помощью различных ухищрений (в том числе чисто арифметических) повысить итоговые баллы студентов, то все здесь сказанное не имеет смысла, но если цель — объективно дифференцировать различные уровни подготовки студентов, то смысл есть.
7.4. ОПЫТ ВАЛИДИЗАЦИИ ТЕСТОВЫХ И ТРАДИЦИОННЫХ ИСПЫТАНИЙ
Какой критерий целесообразно выбрать при сравнительной оценке валидности тестовых и традиционных испытаний? Конечно, хорошо бы для
этого использовать прогностический критерий — успешность будущей
профессиональной деятельности. 152Но, к сожалению, в большинстве вузов
для этого не хватает систематической работы с выпускниками. К тому же
эта трудоемкая схема исследования валидности может дать отдачу лишь
через много лет. А убеждаться нам в том, что конкретный тест знаний обладает хотя бы какой-то ненулевой валидностью, требуется уже в течение
одного учебного года (или в течение полугодия). Поэтому в качестве компромисса используются 2 критерия:
в силу своего технического интеллекта некоторую базовую метрологическую идеологию
(методологию измерения), а другое дело, когда персонал гуманитарного вуза совершенно
не воспринимает эту идеология — начиная с руководителей этого вуза. Но в данном случае
речь идет о необоснованности преждевременного огрубления вообще — будь оно линейным
или нелинейным, не так важно. — Прим. автора.
152
Отдельный вопрос, как сформулировать успешность профессиональной деятельности
выпускника вуза, по каким критериям ее оценивать? По уровню дохода? Но уровень дохода может быть высоким, а при этом работа фактически оказывается связанной со сменой
специальности (или с предпринимательством в самом широком смысле). Есть критерии
успешной вертикальной карьеры (по достигнутому рангу в иерархии управления), а есть
критерии успешной горизонтальной карьеры (по достигнутой квалификации в качестве
специалиста-исполнителя). Очевидно, что академическая успешность в современном российском вузе является слабопрогностичным критерием в отношении успеха в предпринимательстве или в вертикальной карьере. Данное примечание родилось в ходе диалога автора с редактором книги А.С. Науменко. — Прим. автора.
Глава 7. Внедрение тестов в систему вузовских экзаменов
531
1) Результаты экзаменов в традиционной форме, то есть проверяется взаимная (конвергентная) валидность теста и традиционного устного экзамена.
2) Результаты экзаменов по многим (или по всем) дисциплинам за все
годы обучения студентов (grade point average, GPA, или «средний балл
диплома», как мы стали его называть в наших исследованиях)153.
Первый подход требует, разумеется, одновременного проведения теста и традиционного экзамена на одной и той же выборке студентов. Без
этого первый подход просто не имеет данных для его применения. Второй
подход применим к тестам по каким-то итоговым дисциплинам и с очень
широкой областью валидности. Именно второй подход мы применили на
факультете психологии МГУ к оценке валидности теста по общей психологии, использованного в системе выпускного госэкзамена (Зинченко Ю.П.
и др., 2011).
Разработка этого теста была начата в 2003 году. Вначале использовался сравнительно небольшой банк тестовых заданий (240 заданий), и тест
проводился лишь как инструмент самоподготовки студентов к сдаче основного официального устного госэкзамена по общей психологии (традиционный экзамен по билетам). В диссертационном исследовании, проведенном под нашим руководством А.А. Чумаковым (Чумаков, 2006), была
доказана высокая корреляция между компьютеризированным тестом, с
одной стороны, а также баллом устного экзамена и средним баллом диплома — с другой (пирсоновский коэффициент после нормализации приближался к 0,5 на выборках свыше 100 студентов-добровольцев).
В 2006 году банк заданий был существенно расширен (за счет работ по
гранту, выделенному для оплаты авторов тестовых заданий) и достиг более 600 заданий, прошедших серьезный экспертный отбор с участием 20
авторов-экспертов (в основном это преподаватели кафедры общей психологии МГУ). В 2007—2009 году была существенно стабилизирована схема
проведения тестирования и мотивация студентов, что позволило объединить результаты этих трех лет в единый массив данных с участием выборки объемом в 621 испытуемый — студенты-выпускники факультета
психологии. В сеансе тестирования за компьютером в течение 48 минут
студенты получали в эти годы ровно 60 заданий с выбором из четырех вариантов ответа (по 10 заданий на 8 минут по каждому из шести ключевых
тематических разделов общей психологии), отобранных по алгоритму
«блочной рандомизации» (см. главу 5)154. В 2007 и 2009 годы все студенты
были осведомлены, что в момент приемки устного (основного) экзамена с
153 Этот же критерий в англоязычной тестологической литературе часто фигурирует под названием academic history score (Kaplan, Saccuso, 1991). — Прим. автора.
154 В настоящее время (в 2011—2013 годах) студенты получают всего 90 заданий на 75 минут,
из них 12 заданий на одном из трех иностранных языков (на выбор самого студента). —
Прим. автора.
532
Практическая тестология
их результатами будут знакомиться члены комиссии и учитывать их баллы неформально (кто-то в большей степени, кто-то — в меньшей — в зависимости от ситуационного совпадения или несовпадения с впечатлением
от устного ответа студента по вопросам, включенным в экзаменационный
билет).
Прежде, чем мы рассмотрим данные по проверке валидности, приведем данные по анализу распределений полученных тестовых баллов и
традиционных оценок на устном экзамене.
200
150
100
50
0
11-15 16-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60
Рис.7.4. Гистограмма распределения частот сырых тестовых баллов (числа
правильных ответов) по результатам тестирования 621 студента-выпускника (за три года 2007—2009). Выбран интервал равнозначности в пять сырых баллов.
Мы получили практически симметричную колоколообразную кривую,
близкую к нормальной гауссовой. На рис.7.5 можно увидеть, с какой частотой выставлялись традиционные оценки по тесту в разные годы (в течение
трех лет таблица перевода баллов в оценки не менялась: от 44 и более правильных ответов — оценка «отлично», от 34 до 43 — оценка «хорошо» и т.п.
На глаз заметен определенный спад результатов студентов в 2008 году
(по сравнению с 2007 годом), тогда как в 2009 году наметился подъем. Основным фактором падения результатов в 2008 году следует считать заблаговременное информирование студентов о том, что в этом году было
решено не показывать тестовые оценки членам комиссии на устном экзамене (это было предпринято с целью проверки возможного влияния тестовых оценок на мнение устной комиссии). В 2009 году было решено вновь
сообщать комиссии тестовые оценки — прямо в процессе приема экзамена (решения в обоих случаях принимали деканский и учебно-методический совет факультета).
Глава 7. Внедрение тестов в систему вузовских экзаменов
533
50
40
2007 г
2008 г
2009 г
30
20
10
0
"Неуд"
"Удов"
"Хорошо"
"Отлично"
Рис.7.5. Пропорции оценок за тестирование в разные годы (за 100 процентов в
каждом году принято общее количество протестированных).
Как говорилось выше, одним из ключевых направлений анализа результатов явилось сопоставление тестовых оценок и оценок на устном
(традиционном) экзамене. На рис.7.6 можно видеть диаграмму, аналогичную той, которая приведена на рис.7.5, но только применительно к оценкам традиционного экзамена.
60.00%
50.00%
40.00%
2007 г
2008 г
2009 г
30.00%
20.00%
10.00%
0.00%
"Неуд"
"Удов"
"Хорошо"
"Отлично"
Рис.7.6. Пропорции оценок на устном экзамене в разные годы (за 100 процентов в каждом году принято общее количество проэкзаменованных).
Бросается в глаза резкая асимметрия распределения в пользу высоких
оценок на устном экзамене — особенно на фоне достаточно симметричного распределения тестовых оценок.
Анализ согласованности тестовых и устных оценок далее производился двумя способами — с помощью расчета традиционных коэффициентов линейной корреляции по нормализованным устным и
534
Практическая тестология
тестовым оценкам, а также с помощью матриц сопряженности (см. таблицу 7.4).
На фоне высокой асимметрии устных оценок не мудрено, что линейная корреляция нормализованных тестовых баллов и устных оценок оказывается относительно невысокой (хотя и вполне значимой). В 2007 году
она достигала величины 0,51, в 2008 — 0,45, в 2009 — 0,47. Это не так плохо,
особенно если учесть серьезные различия в этих процедурах (и прежде
всего, их принципиально разный вклад в итоговую оценку, что расхолаживало некоторых студентов при выполнении теста).
Но более интересные результаты дал анализ матрицы сопряженности.
Тест 2
Тест 3
Тест 4
Тест 5
Уст 2
4
4
1
0
Уст 3
27
56
14
1
Уст 4
32
108
80
10
Уст 5
13
56
141
74
Таблица 7.4. Матрица сопряженности тестовых и устных оценок. В каждой
клетке указано количество студентов (частота совместного события), показавших определенное сочетание оценок по тесту и на устном экзамене (за
2007—2009 годы).
Простой визуальный анализ матрицы сопряженности обращает внимание на 2 факта:
1) За три года только в двух случаях из 621 экзаменаторы выставляли на
устном экзамене оценку на 2 градации ниже по традиционной шкале, чем оценка по тесту. То есть тест, который оказался более строгим
испытанием, достаточно определенно (с точностью до 1 балла на традиционной шкале) информирует о том, что студент вполне подготовлен. Собственно это статистическое наблюдение, выявленное еще в
прежние годы (в 2005—2006), и стало основой правила, которое действует в настоящее время, — учета тестового балла с весом 20 очков
в 100-балльной сумме СНБ. Только в 28 случаях из 621 экзаменаторы
на устном экзамене ставили оценку на 1 балл ниже тестовой. То есть
на устном экзамене балл снижался только менее чем для 5 процентов
студентов (достигнут стандартный статистический уровень ошибки
измерения!). Важно подчеркнуть, что эта закономерность вполне сохранилась и в 2008 году, когда экзаменаторы просто НЕ видели тестовых оценок. Таким образом, таблица 7.4 дает основания для следующего вывода:
Глава 7. Внедрение тестов в систему вузовских экзаменов
535
Высокий балл по тесту предопределяет высокий балл на устном экзамене с высокой статистической надежностью (более 95 процентов!!).
То есть связь между тестом и традиционным экзаменом носит асимметричный характер: высокий тестовый балл больше предопределяет
балл устного экзамена, чем наоборот (высокая устная оценка не предопределяет высокого тестового балла). Эту эмпирически выявленную закономерность мы предлагаем интерпретировать таким образом: действительно хорошо подготовленные студенты проявляют свою высокую
подготовку и в тестовых испытаниях, и на устном экзамене, а средне- и
слабоподготовленные студенты НЕ могут проявить себя на тестовом испытании, в то время как на устном экзамене им удается добиться высокой
оценки.
А вот низкий балл по тесту не предопределяют низкую оценку на
устном экзамене. В 13 случаях из 621 (то есть около 2 процентов от всех
оценок) оценка повышалась на 3 балла (с двойки на пятерку). На два балла
(с двойки на четверку и с тройки на пятерку) оценка повышалась в 78 случаях (это почти 13 процентов от всех оценок). На один балл оценка повышалась в 277 случаях из 621 (это 44 процента). Получается, что повышение
на 1 балл встречается даже чаще, чем точное соответствие (35 процентов).
На рис.3 видно, что распределение отклонений устных оценок от тестовых оказывается резко смещенным вправо.
Отклонение
50
40
30
20
10
0
-3
-3
-1
0
+1
+2
+3
Рис.7.7. Гистограмма частот, указывающая на отклонение устных оценок
от тестовых (за три года). По оси абсцисс на данном графике отложены величины отклонений устных оценок от тестовых (в единицах традиционной пятибалльной шкалы).
Хотя в целом эта тенденция (можно ее смело интерпретировать как
«тенденцию завышения оценок на устном экзамене») сохранилась, постепенно к 2009 году она стала менее явной. Очевидно, это происходило не
536
Практическая тестология
без влияния со стороны тестового испытания. Так, число завышений на
3 балла (получение оценок «отлично» теми, кто получил «двойки» за тест)
резко возросло (до 10 человек) именно в 2008 году, когда преподавателямэкзаменаторам вообще не показывали тестовые оценки.
Как же правильнее проинтерпретировать асимметричную связь тестовых баллов и устных оценок? Может быть, за этим стоит вовсе не либерализм преподавателей на устном итоговом экзамене (не «завышение»
как таковое), а, например, неумение какой-то части хорошо подготовленных студентов успешно выполнять тестовый экзамен за компьютером?
Возможно, но… ведь при этом почти ВСЕ студенты, которые успешно выполняют тестовый экзамен, успешно сдают и устный. Так что все-таки
основная наша гипотеза заключалась в том, что за асимметрией стоит
элементарное стремление преподавателей завышать оценки на устном экзамене (тем более что, за пять лет большинству преподавателей студенты
становятся хорошо известными, многие из них регулярно получали на
разных устных экзаменах высокие оценки и тем самым уже как бы «ангажировали» своих экзаменаторов на выставление высоких баллов на госэкзаменах).
Асимметричная связь между тестовыми и устными экзаменационными оценками привела в данном проекте на пару лет к смене принципа
учета тестовой оценки: переходу от «мягкого информирования» к «страхованию от провала» (см. расшифровки этих терминов в образце документа
«О порядке учета результатов тестирования» в разделе 7.6).
Чтобы выяснить, какая же из двух оценочных процедур вносит больше
искажений (слишком ли жестким и неудобным оказывается тест или слишком мягким и удобным оказывается устный экзамен), надо взять какой-то
третий независимый критерий и проверить статистическую связь этого
третьего критерия с каждой из двух исследуемых переменных. Этим критерием, как уже говорилось выше, стал «средний балл диплома» — средний
балл на всех экзаменах, сданных студентом за все пять лет обучения (этих
экзаменов по программе факультета психологии МГУ оказалось 37). В западной литературе этот критерий известен под названием grade point average
(«балл за всю историю обучения»). Он часто используется в тестологических
исследованиях валидности тестов для абитуриентов и студентов как более
объективный инструмент, чем оценка за один-единственный экзамен.В
таблице 7.5 мы видим, что коэффициент корреляции теста с третьим критерием неуклонно рос все эти годы (начиная с 2005 года, который мы тоже
привлекли в данном случае для анализа, чтобы показать тенденцию), в то
время как тот же коэффициент корреляции между устными оценками и
суммарным баллом диплома фактически оказался на одном уровне — немногим более высоком, чем корреляции между тестом и устным экзаменом. Особенно высокий рост корреляций заметен для «краев» тестовой шкалы, то есть для явных «отличников» (верхние 16 процентов выборки) и для
«двоечников» (нижние 16 процентов по тестовому баллу).
Глава 7. Внедрение тестов в систему вузовских экзаменов
537
Для всей выборки
2005
2007
2008
2009
Тест
0.6
0.7
0.68
0.74
Устный
0.55
0.53
0.52
0.54
Для 16 процентов на краях тестшкалы
2005
2007
2008
2009
Тест
0.7
0.78
0.84
0.86
Устный
0.55
0.58
0.57
0.59
Таблица 7.5. Показатели линейной корреляции тестовых и устных оценок с
критерием «средний балл диплома».
То есть работа по совершенствованию тестовых заданий и самой процедуры тестирования дала свои очевидные плоды: валидность именно
теста по отношению к внешнему критерию за годы наблюдений возросла, в то время как более низкая валидность устного экзамена осталась на прежнем уровне.
Эти ключевые результаты нашего исследования мы решили в более
наглядной форме проиллюстрировать не только в виде таблицы 7.5, но и
на рисунке 7.8.
1
0.8
0.6
Тест
Устный
0.4
0.2
0
2005
2007
2008
2009
Рис.7.8. Рост корреляции результатов тестирования с критерием «средний
балл диплома» превосходит рост аналогичной корреляции результатов
устного экзамена с тем же критерием.
Есть, конечно, «горячие головы», которые предложили таким образом
проинтерпретировать высокую корреляцию между тестом и суммарным баллом за все годы обучения (значение, близкое к 0,9): а не является
ли это свидетельством того, что тест вообще не нужен, ведь фактически
дублирует ту информацию, которая собрана за все годы? Но ведь именно
538
Практическая тестология
тестовое испытание способно на самом последнем этапе выявить те важные 10—15 процентов исключений, когда очень слабые ответы студента
на самые очевидные вопросы позволяют усомниться в том, насколько
корректным было большинство оценок, полученных этим студентом в
течение пяти лет. Итоговая аттестация для того и предназначена, чтобы
не только мотивировать учащихся на сохранение знаний (а не учиться
по принципу «сдал — забыл»), но и осуществлять контроль выполнения
своих профессиональных обязанностей всем педагогическим коллективом образовательного учреждения. Кстати, высокая корреляция между
результатами теста и суммой баллов за все годы позволяет «страховать»
и тестовые технологии от каких-то «чудовищных ошибок» (вызванных,
например, неожиданным провалом сильного студента в результате волнения, плохого самочувствия и т.п.) Все случаи резкого расхождения
суммарного балла диплома и результатов тестирования должны рассматриваться государственной комиссией индивидуально и быть предметом особого внимания (а вдруг случился артефакт в какой-то из оценочных процедур).
Таким образом, наш опыт параллельного применения двух процедур — традиционного устного экзамена и компьютеризированного
тестового испытания — по многим параметрам выявил однозначное
превосходство тестового испытания. Но на основании этого результата никто не собирался настаивать на какой-либо замене устной процедуры. Наоборот, продолжилось параллельное использование тестового испытания и традиционных экзаменов: именно оно дает возможность теперь использовать тестовые данные как основание для
совершенствования устных экзаменов — с целью преодоления тех недостатков, которые им давно свойственны и в целом хорошо известны
(включая весьма либеральное отношение экзаменационных комиссий к тому, что некоторые студенты отвечает на вопросы билетов, не
отрывая глаз от своих записей, которые при проверке оказываются
удивительно «однотипными»…).
В 2010 — 2012 годах тестовое испытание стало вносить на госэкзаменах
на факультете психологии МГУ вклад в 100-балльный итоговый результат
в размере 20 очков, в то время как остальные 80 очков вносят традиционный письменный экзамен по билетам (40 очков), и устное выступление
перед комиссией с решением кейс-задачи (40 очков).
7.5. ОРГАНИЗАЦИОННОЕ ОБЕСПЕЧЕНИЕ ТЕСТОВЫХ
ЭКЗАМЕНОВ
В предыдущих главах автор в основном писал о методическом обеспечении, а здесь мы поговорим именно об организации и управлении проектом внедрения тестовых экзаменов в вузе.
Глава 7. Внедрение тестов в систему вузовских экзаменов
539
Организация работы авторов и экспертов
В главе 2 мы уже рассмотрели основные методические принципы авторского и экспертного циклов подготовки банка тестовых заданий. Все
эти принципы вполне пригодны для подготовки тестовых экзаменов в
вузе, но здесь имеется также особый социальный контекст, связанный в
России с хронически низкими зарплатами преподавателей, физическим
старением персонала и т.п. Мы рассмотрим не все, но некоторые самые
важные организационные аспекты работы с авторами, которые необходимо учесть с особой тщательностью, особенно на первых этапах внедрения
тестовых технологий в вузе. Лучше всего было бы привлекать авторов «со
стороны» — вообще не из своего собственного вуза. В этом случае авторы
чувствуют себя гораздо более раскрепощенно. Но часто это невозможно по
многим причинам. К чему же надо стремиться, чтобы выстроить продуктивное сотрудничество с собственными преподавателями? Ниже мы перечислим принципы, которым сам автор книги пытался следовать (хотя
не всегда это удавалось на 100 процентов) в работе с авторами тестовых заданий. В противном случае крайне трудно рассчитывать получить тестовый материал такого качества, который бы давал указанные выше высокие показатели валидности.
1. Позитивная мотивация авторов и экспертов. Руководители вузов
(на уровне ректоратов и деканатов) имеют тенденцию переоценки значимости административных рычагов давления на преподавателей
в привлечении их к работе над банком заданий в качестве авторов и
экспертов. Им кажется, что достаточно включить участие в этой работе в качестве самостоятельного пункта отчетности при аттестации
преподавателей, чтобы все проблемы были решены. На самом деле это
воспринимается не как позитивный мотивационный стимул, а как
административное принуждение, как угроза отрицательных санкций, и возникающая мотивация избегания, как правило, препятствует творческому отношению к работе и появлению доброкачественного
продукта. Продукт получается низкокачественным, что-то вроде «отписки». По нашему мнению, на первых этапах очень полезно учредить
творческий конкурс и создать особый «целевой премиальный фонд»,
чтобы отметить лучших авторов и экспертов (не всех, но победителей
конкурса — примерно треть, а лучше половину привлеченных к конкурсу участников). См. примерный вариант положения о таком конкурсе ниже. Но… конкурс — это то, что может привлечь скорее молодых
сотрудников. Если Вы располагаете возрастным контингентом (в основном старше 45 лет), то конкурс вообще не подходит, а лучше организовать гонорарные работы по сдельным расценкам.
2. Право на анонимную неудачу. Тестовые задания как формализованный продукт деятельности создают дополнительные риски обнаружения профессиональной некомпетентности. Тут и риск оказаться
540
Практическая тестология
автором тестового задания, признанного другими коллегами «глупым
и бездарным», и риск оказаться экспертом, давшим оценки, рассогласованные с оценками других экспертов. Преподаватели, как и другие
люди, стремятся так организовать свой труд, чтобы никто, кроме них
самих, не оценивал его эффективность: каждый стремится выступить
с такой специальной учебной программой по настолько «специальному» спецкурсу, чтобы никто, кроме него, не считался в вузе специалистом по этой проблематике. Другое дело — это работа по созданию
общего фонда оценочных инструментов: она требует приложения экспертных оценок разных коллег к одному и тому же материалу. Очень
часто противники тестов под видом критики «угадайки», с которой
они порой так «смело и самоотверженно» выступают на публичных
собраниях, хорошо маскируют страх обнаружить низкую компетентность. Если персональные неудачи войдут в официальный «именной
послужной список» и будут представлены на комиссии по аттестации
данного преподавателя, то это только усилит и без того серьезное сопротивление внедрению тестовых технологий. Моя рекомендация,
оправданная моим жизненном опытом, в этом случае такова: введите
в типовое соглашение с автором (экспертом) пункт о конфиденциальности, который носит взаимный и двухсторонний характер — и авторэксперт дает обязательство хранить в секрете ставшие ему доступными тестовые материалы, и организатор-тестолог дает обязательство на
охрану анонимности оценок чужих тестовых заданий, вынесенных
автором. Дистанционная и асинхронная процедура Интернет-экспертизы заданий технологически обеспечивает реализацию этого обязательства со стороны тестолога (см. этап 6 в разработке теста в главе 2).
Это трудоемко, но необходимо организовать индивидуальный постоянный канал коммуникации с каждым автором.
3. Авторский гонорар. Сдельный авторский гонорар весьма способствует творческому подходу к созданию тестовых заданий. Как уже говорилось, для великовозрастных преподавателей это гораздо более адекватная мера мотивации, чем учреждение конкурса и премий для его
победителей. Очень непросто отыскать бухгалтерскую «статью», по
которой можно сдельным образом оплачивать авторскую работу, но
при желании это можно сделать (включить призовой фонд в какой-то
грант, в какой-то премиальный фонд, в конце концов посчитать через
«почасовую методическую работу»). Главное — это все-таки платить
не только за количество, но и за качество, то есть лучше привязывать
авторский гонорар к числу тех заданий, которые успешно пройдут независимую экспертизу (к «выходу годных»). Не следует бояться гнева
авторитетных преподавателей за такую организацию системы оплаты. На самом деле все сколько-нибудь опытные авторы знают, что при
подаче рукописи в редакцию научного журнала гонорары за статью
(если гонорарный фонд вообще имеется) начисляются только после
Глава 7. Внедрение тестов в систему вузовских экзаменов
541
положительных рецензий и положительного решения редколлегии о
публикации.
4. Твердые и прозрачные расценки. Каковы должны быть размеры
оплаты за одно задание? Очевидно, следует отличать задания простого типа (с выбором ответа) и более сложные задания (например, кейсзадания), требующие разработки сложных инструкций и эталонных
решений для проверки ответов открытого типа. Не хотелось бы приводить суммы в рублях (так как в любой момент инфляция может сделать
бессмысленными конкретные арифметические значения, что уже не
раз бывало в новейшей истории России). Но ориентировочные размеры
чувствительной оплаты (мотивирующие размеры) по нашему опыту
таковы: минимальный гонорар за 50 простых заданий (с выбором ответа) должен быть примерно равен месячному окладу данного преподавателя, а размер выплаты за одно сложное задание кейсового типа
должен быть раз в пять выше по размеру, чем за одно простое задание.
Таким образом, себестоимость (только по авторскому фонду) банка из
500 простых заданий равна 10 месячным окладам преподавателей. Конечно, это очень приближенный ориентир, который может различаться в зависимости от отрасли знаний и других факторов (включая сложность дисциплины).
5. Сдельные расценки за экспертную работу. Экспертную работу тоже
лучше оплачивать по сдельным расценкам. Но тут, как правило, требуется хотя бы в первые три года применить упрощенную схему — платить просто по числу проэкспертированных заданий (то есть за количество, а не за качество — не по числу согласованных экспертных оценок, не по числу обнаруженных ошибок и т.п.). Следует понимать, что
экспертиза отдельного задания — это вовсе не легкая задача. Себестоимость такой работы должна быть оценена в размере не менее 20 процентов от авторской ставки за задание такого типа.
6. Засекречивание имен экспертов. Так же, как и в случае рецензирования научных статей, автор не должен знать имен тех экспертов, которые оценили его тестовые задания.
Кто-то может после прочтения всех этих пунктов решить для себя:
«Нет, разработка банков тестовых заданий — это слишком трудоемко и дорого». Я же могу в ответ на это сказать одно: «Уж лучше Вы вообще откажетесь от разработки банка заданий, чем создадите заведомо плохой банк
заданий». Простейшая аналогия: кому нужен дом, построенный не из добротного кирпича и бетона, а из… песка, ведь он развалится при первом
ничтожном сейсмическом толчке?!
Именно потому, что создание качественного методического продукта в этом жанре — дело вовсе не дешевое, иногда проще заказать
эту работу у профессиональной организации (той, у которой налажена технология изготовления тестов), чем стараться создать что-то
542
Практическая тестология
самодельное. Пока же у нас, увы, во многих вузах доминируют «амбиции самоделкиных». Хотелось бы подчеркнуть, что себестоимость
одного тестового задания, прошедшего всестороннюю экспертную и
психометрическую (статистическую) проверку, насчитывает в организациях-мировых экспортерах тестов, СОТНИ ДОЛЛАРОВ (или евро).
Если мы хотим потратить на этот продукт меньше двадцати долларов
(меньше 6 бигмаков по известному «курсу бигмака»), то мы создаем
продукт заведомо низкого качества. И это так и будет, даже с поправкой
на привычно низкий уровень зарплат научно-педагогических кадров
в России, вообще не избалованных заказными работами с гонорарносдельной системой оплаты. Впрочем, для малотиражного применения
в рамках одного вуза с таким посредственным качеством можно еще
как-то мириться, но для сравнения достижений выпускников разных
вузов такие инструменты не годятся.
В развитых странах для создания тестов вузы «скидываются» — учреждают межвузовские специализированные центры (на правах отдельных юридических лиц). При этом каждый отдельный вуз существенно
минимизирует собственные затраты, а тестовый контроль приобретает
важное свойство независимости (руководство вуза при создании самодельных тестов невольно испытывает искушение заказать тесты полегче, чтобы результаты были повыше). Эти центры, как правило, не имеют
в штате своего авторского корпуса и черпают его по-прежнему из числа
преподавателей вузов-учредителей. Авторам и экспертам гораздо проще
контактировать с администрацией этих центров в силу того, что у них
больше уверенности, что их деятельность по сотрудничеству с этими
центрами не обернется против них самих и не окажется под прямым
контролем со стороны собственного руководства. Нередко функции таких производителей тестов берут на себя издательства научно-учебной
литературы.
Сезонная организация работ по обновлению тестов
В главе 2 мы уже говорили о том, что результаты любого массового
тестирования дают очень полезные данные для создания новых улучшенных версий банка тестовых заданий. Каждому автору необходимо вернуть его задания, снабженные статистическими показателями
качества — как минимум, двумя коэффициентами: трудности и дискриминативности (см. главу 3, раздел 3.6). Необходимо научить авторов
понимать смысл этих показателей и оценивать качество тестовых заданий на основе этих показателей. Все задания, получившие низкие показатели дискриминативности и крайние значения трудности (слишком трудные или слишком легкие), должны быть откорректированы
или заменены.
Глава 7. Внедрение тестов в систему вузовских экзаменов
543
Тем самым каждый год в особые периоды (в конце прежнего учебного
года и самом начале нового) должна производиться интенсивная методическая работа по обновлению банков тестовых заданий. Она необходима
не только для повышения качества заданий (допустим, некачественных
заданий оказалось не более 5 процентов, что является свидетельством
весьма удачно сформированного банка заданий), но и для обеспечения
достоверности: новые задания свободны от риска рассекречивания, который всегда существует в отношении старых заданий, уже предъявленных
студентам в ходе тестирования. В рамках ежегодного обновления банка
следует вводить не менее 20 процентов новых заданий (от общей численности старого банка заданий). Впрочем, если банк заданий не обеспечивает десятикратное превосходство155 над длиной варианта (числом заданий в
варианте), то надо обновлять больше заданий.
А как организовать психометрическую апробацию новых заданий?
Как правило, у вузов нет возможности организовать отдельную выборку
апробации — слишком высок риск «разглашения» (disclosure) в ходе такой
апробации. Поэтому в образовательных тестах часто применяется целая
технология «апробация в ходе аттестации». Новые задания применяются
сразу же в аттестационных вариантах (при массовом тестировании), но в
сочетании с 80—90 процентами старых заданий. При этом баллы рассчитываются лишь по старым заданиям, свойства которых известны, а по новым баллы не считаются вовсе (хотя студентам и не объявляют этого).156
Зато обширная статистика ответов, собранная по новым заданиям, сразу
же позволяет с высокой статистической надежностью оценить их качество
и в следующем сезоне уже использовать эти новые задания в качестве «основных». Такая регулярная сезонная активность по «культивированию
тестов» уподобляет работу менеджера-тестолога деятельности агронома,
улучшающего качества семенного фонда за счет ежегодной селекции.
Именно методичность в подобной работе гарантирует повышение качества инструментов с течением времени. Понимание этой культуры производства тестовых инструментов — это важный элемент компетентности в области тестологии, в которой почти ничего не удается добиться «на
короткой дистанции». К этому пониманию нужно терпеливо подводить
руководителей образовательных учреждений и органов управления образованием.
155
Для отдельных предметов допустимо соотношение 5 к 1, но для выпускных аттестационных процедур явно требуется 10 к 1 (численности банка к численности варианта). — Прим.
автора.
156
С такой же схемой я сталкивалась, выполняя тест на получение водительских прав в
Англии. Экзаменуемого просят ответить на несколько дополнительных вопросов в тесте,
при этом сообщается, что это новые задания, которые проходят апробацию, и также просят оценить их качество по нескольким параметрам («доступность», «адекватность», «сложность»). — Прим. науч. редактора.
544
Практическая тестология
Организация работы технического персонала
Если авторами и экспертами менеджер-тестолог, как правило, не может управлять непосредственно, и сотрудничество с ними строится на
договорных началах, то в отношении технического персонала менеджертестолог должен обладать распорядительными полномочиями линейного
или, по крайней мере, функционального руководителя. Вряд ли небольшой вуз может позволить себя создать отдельное структурное подразделение для выполнения работ по созданию и проведению тестов. Скорее
всего, выполнять эти работы будет функционально-проектная группа, в
которой все участники будут собраны из разных подразделений и заняты
по совместительству. Но самому менеджеру-тестологу весьма важно понимать, что он не получит необходимых рычагов управления, пока приказом по вузу не будет учреждена функциональная группа исполнителей
под его руководством.
Кто относится к техническому персоналу проектной группы — к числу исполнителей, подчиняющихся руководителю проекта — менеджерутестологу? По нашему мнению и опыту, это три категории исполнителей:
1) Инженер-программист (он же администратор компьютерных классов,
служащих тестовыми залами) — это специалист, отвечающий за своевременные пуско-наладочные работы по оборудованию и программному обеспечению.
2) Лаборанты-операторы — они должны быть подготовлены для работы в
компьютерных классах в качестве ассистентов-супервизоров (помощников экзаменаторов — преподавателей по предмету тестирования).
3) Инспектор учебной части (обеспечивающий тесное взаимодействие с
диспетчерами, отвечающими за расписание, с кураторами курсов) —
это работник, отвечающий за расписание сеансов, выделение аудиторий, подготовку протоколов, ведомостей и т.п.
Если первые две позиции уже упоминались нами в списке «организационных ролей» в разделе 5.1, то позиция «инспектор учебной части» отражает специфику вузов. В обычной (неучебной организации) эту роль,
очевидно, приходится выполнять самому менеджеру-тестологу.
Важно подчеркнуть, что в отношении этих сотрудников распорядительными полномочиями могут обладать руководители структурных
подразделений, где эти исполнители числятся. Но… только не по вопросам, касающимся тестирования. Любые производственные задания, касающиеся тестирования, эти исполнители должны получать только от своего функционального руководителя по данному проекту.
Конечно, далеко не все вузы подготовлены в настоящее время для
реализации такой «матричной схемы управления», в которой каждый
сотрудник может оказаться на пересечении какого-то структурного
Глава 7. Внедрение тестов в систему вузовских экзаменов
545
подразделения (по строкам матрицы) и какой-то функционально-проектной группы (по столбцам матрицы). Но по-другому грамотно организовать управление проектом тестирования весьма проблематично, и
особенно на этапе освоения и внедрения этого вида контрольно-оценочной деятельности.
7.6. ОБРАЗЦЫ НОРМАТИВНЫХ ДОКУМЕНТОВ
Здесь мы сознательно не приводим полнотекстовые образцы типовых
и нормативных документов, так как они в значительной степени могут
отличаться друг от друга для разных моделей системы тестирования,
принятых в разных вузах. Но все же мы сочли полезным упомянуть некоторые значимые пункты в каждом из образцов.
Соглашение с автором-экспертом
Возможно, что в какой-то организации сочтут необходимым довести
это рабочее соглашение до статуса полноценного авторского договора (тогда подписывать его, очевидно, придется первому лицу вуза или факультета с правами юридического лица), но в рабочем порядке это соглашение
фиксирует лишь определенное техническое задание, разработанное менеджером-тестологом — руководителем проекта тестирования.
РАБОЧЕЕ АВТОРСКОЕ СОГЛАШЕНИЕ
от «___»__________________20__г.
Мы, нижеподписавшиеся, руководитель проекта «Тестовые методы оценки
качества подготовки студентов» ___________________(ФИО), в дальнейшем Руководитель (или Координатор), и преподаватель ___________________(ФИО), в дальнейшем Автор, заключили настоящее рабочее соглашение о следующем:
1. Автор разрабатывает и предоставляет Руководителю на магнитных носителях в срок до «__»__________ 20__ г. комплект из _____ (число прописью) тестовых
заданий по дисциплине ______________________________________________________.
2. Задания должны быть оригинальными и ранее не опубликованными где-либо,
включая интернет-сайты, представлять равномерно различные тематические разделы указанной дисциплины и соответствовать по формату и количеству следующим требованиям:
а) с выбором одного из четырех (трех, пяти) вариантов ответа — _____ (число),
б) с выбором двух из четырех (пяти, шести) вариантов ответа — _____ (число),
в) с кратким свободным ответом — ____________(число)
и т.п.
546
Практическая тестология
3. Приемка разработанных заданий будет осуществляться по акту, в котором
указывается: а) число заданий, переданных на экспертизу (рецензирование), б)
число заданий, успешно прошедших экспертизу.
4. Оплата выполненных авторских работ осуществляется в течение календарного квартала, следующего за датой подписания акта приемки-передачи, по
числу заданий разного типа, прошедших экспертизу, в соответствии с таблицей сдельных расценок в Приложении №1 (таблица утверждается главным
бухгалтером).
5. Обязательным условием оплаты выполненных авторских работ является участие автора в экспертных работах — рецензировании тестовых заданий, предоставленных другими авторами по следующим дисциплинам ______________
________________________________________________________.
6. Оплата выполненных экспертных работ осуществляется одновременно с
оплатой авторских работ также на основании акта приемки-передачи и по
сдельным расценкам на экспертные работы в соответствии с таблицей в Приложении №1.
7. Настоящим соглашением Автор принимает на себя обязательство соблюдать
режим профессиональной тайны в отношении собственных тестовых заданий,
а также тестовых заданий, предложенных другими авторами и открытых
для экспертизы.
8. Настоящим соглашением Руководитель принимает на себя обязательство
обеспечить анонимность участия автора в экспертных работах (не сообщать
другим авторам, кто из экспертов и как оценил их продукцию), а также анонимность автора в отношении заданий, предоставленных на экспертизу и отвергнутых экспертами.
9. Настоящим соглашением Руководитель гарантирует соблюдение неимущественных авторских прав автора (авторское имя) в отношении тестовых заданий, разработанных по этому соглашению.
Настоящее соглашение составлено в двух экземплярах и подписано
«___»__________________20__г.
Руководитель:
__________________
Автор:
__________________
Положение о конкурсе авторов тестовых заданий
«Утверждаю»
Руководитель вуза
или подразделения
«___»__________________20__г.
1. Ученый совет вуза __________________ (наименование учебного заведения) объявляет конкурс авторов тестовых заданий по следующим дисциплинам ________
Глава 7. Внедрение тестов в систему вузовских экзаменов
2.
3.
4.
5.
6.
7.
8.
547
_________________________________________________________________________
(названия всех дисциплин).
К участию в конкурсе приглашаются преподаватели, научные сотрудники,
аспиранты, студенты старших курсов (лишнее убрать) следующих факультетов (кафедр)____________________________________.
Председателем жюри конкурса назначается ________________________________
(председатель Ученого совета), руководителем оргкомитета конкурса — _____
_________________________________________________ (ФИО сотрудника, подготовленного в качестве практического тестолога).
Участники конкурса в срок до «___»__________________20__г. должны предоставить в соответствии с «техническим заданием» (Приложение №1) комплекты
тестовых заданий по дисциплинам, указанным в п.1 настоящего положения.
Все участники в срок до «___»__________________20__г. должны принять участие в перекрестной экспертизе (рецензировании) других комплектов тестовых заданий, предоставленных на конкурс другими авторами. Место и время
выполнения экспертных работ определяется оргкомитетом конкурса.
При подведении итогов конкурса каждый участник получает формализованный рейтинг-балл, в котором учитывается: а) количество собственных авторских заданий, предоставленных на конкурс и одобренных экспертами (не менее
двух третей голосов), б) с трехкратным (пятикратным) весом количество тестовых заданий, выделенных экспертами как особенно оригинальные и удачные
и одобренных в таком качестве членами жюри конкурса.
Призовой фонд конкурса составляет _________________ (рублей прописью).
Призовой фонд будет распределен между призерами в следующих пропорциях:
За первое место (один участник) — 30 процентов призового фонда,
За второе место (два участника) — по 20 процентов (на каждого участника),
За третье место (три участника) — по 10 процентов (на каждого).
9. Жюри и оргкомитет конкурса гарантирует участникам соблюдение неимущественных авторских прав (авторское имя) в отношении заданий, предоставленных на конкурс.
Председатель жюри конкурса
Руководитель оргкомитета
_________________ (ФИО)
_________________(ФИО)
Памятка участнику компьютеризированного тестирования
1. Регистрация. При подготовке к экзамену в тестовой форме (тестовому
испытанию) студенты обязаны не позднее одного дня перед экзаменом
зарегистрироваться на определенный день и час в графике-расписании
тестовых сеансов. (О том, как практически выполнить регистрацию,
сообщается на консультации перед экзаменом, а также в инструкциях,
548
2.
3.
4.
5.
6.
7.
Практическая тестология
рассылаемых по индивидуальным адресам электронной почты студентов).
Предварительная консультация. Для студентов запланирована отдельная консультация по содержанию и процедуре тестовых испытаний, на которой преподаватели обязаны продемонстрировать образцы
тестовых заданий. Участие в данной консультации является правом,
но не обязанностью студентов.
Неявка и опоздание. Пропуск сеанса, на который записался студент,
может привести (по усмотрению преподавателя-экзаменатора): либо к
переносу сеанса на другое свободное время, либо к назначению сеанса
на день пересдачи (при отсутствии свободных мест в предусмотренных сеансах).
Пересдача. В случае пропуска тестового экзамена по уважительной,
документированной причине студент допускается до пересдачи тестового экзамена — в официальные дни пересдачи экзаменов. К однократной пересдаче тестового экзамена также допускаются студенты,
выполнившие тест, но получившие оценку «неудовлетворительно».
Допуск в аудиторию. При входе в аудиторию для сдачи тестового экзамена студент обязан предъявить зачетную книжку с фотографией и
занять свободное рабочее место (компьютерный стол) по указанию экзаменатора.
Запрещенные предметы и устройства. В компьютеризированную
аудиторию для сдачи тестового экзамена студентам запрещается вносить и использовать:
А) конспекты, справочную, профессиональную и учебную литературу
(за исключением особых изданий, в которых содержится вспомогательная информация, в явном виде разрешенная преподавателем
на предварительной консультации);
Б) электронные средства связи, банки памяти и фотокамеры (мобильные телефоны, карманные компьютеры-коммуникаторы, цифровые фотоаппараты и их возможные комбинации);
В) отсутствие возможности надежного сохранения мобильных средств
связи на отдельном столе у экзаменатора студенты обязаны отключить мобильные средства связи на время экзамена, выложив их на
свой рабочий стол.
Нарушения. Во время выполнения теста запрещается:
1) запускать на тестовых компьютерах другие программы, открывать
параллельные окна;
2) разговаривать с соседями в момент выполнения сеанса тестирования;
3) входить в помещение тестирования до своего сеанса и задерживаться в нем после своего сеанса;
4) фотографировать задания теста с экрана компьютера;
5) копировать задания теста на съемный носитель или передавать их
по e-mail;
Глава 7. Внедрение тестов в систему вузовских экзаменов
549
6) преднамеренно перезагружать компьютер (для выбора «более удобного» варианта).
8. Предупреждения и удаления. В ходе выполнения теста экзаменатор
(а также дежурный администратор в компьютерном классе) может заметить, что какие-то участники нарушают правила поведения при выполнении теста.
8.1. К легким нарушениям, которые влекут за собой предупреждение,
следует относить:
А) Переговоры с соседями,
Б) Поиск ответа на задание в Интернете, конспектах или учебных
пособиях.
За повторные легкие нарушения нарушитель удаляется с экзамена до его завершения с оценкой «неудовлетворительно».
8.2. К «тяжелым» нарушениям, за которые нарушитель удаляется немедленно, относятся следующие нарушения:
А) Применение бумажных и электронных шпаргалок в формате «номер вопроса — номер ответа» (или в более развернутом формате
«текст вопроса — текст ответа»).
Б) Фотографирование заданий с экрана с помощью цифровой фотокамеры.
В) Копирование тестовых заданий на внешний диск (съемную флешкарту памяти).
Г) Звонок или отправка-прием SMS-сообщения с помощью незаконно внесенного и невыключенного устройства мобильной связи.
Д) Преднамеренная перезагрузка компьютера.
9. Технические сбои
Во время проведения тестирования (особенно на компьютерах) могут возникать различные технические сбои:
1) Отключение питания. В аудитории (компьютерном классе) может
пропасть подача электроэнергии прямо в момент прохождения тестирования. Программы компьютерного тестирования предусматривают этот случай: после каждого ответа на каждое задание на
жесткий диск записывается временный файл-протокол, который
позволяет после перезагрузки компьютера запустить программу
тестирования с того места, на котором испытуемый остановился.
Если отключение питания произошло на длительный срок, экзаменатор должен перенести текущий сеанс на другой (резервный) день,
но предупредить всех участников, что они смогут продолжить выполнение теста с «текущего задания».
2) Непреднамеренная перезагрузка компьютера. Как известно,
некоторые технические сбои (так называемые «зависания» и т.п.)
легко преодолеваются путем повторного запуска той же самой программы после перезагрузки компьютера. Экзаменатор фиксирует
каждый факт перезагрузки в «протоколе тестового экзамена», ибо
550
Практическая тестология
за этим «случайным сбоем» (при его неоднократном повторении на
определенном рабочем месте) могут скрываться чьи-то злонамеренные действия, которые можно будет установить лишь позднее — в
ходе служебного расследования.
10. Ошибки в заданиях. Испытуемые могут обнаружить в заданиях
ошибки, которые не успели заметить (пропустили) авторы и эксперты.
Экзаменатор должен документировать эти заявления испытуемых — просить их написать официальную апелляцию по содержанию тестовых заданий (сразу после экзамена). После рассмотрения апелляции и признания ее обоснованной испытуемому будет присужден заведомо положительный балл за данное некорректное задание. Обнаружение ошибок не
может быть основанием для пересдачи экзамена.
11. Завершение тестирования
Возможны 3 различные варианта завершения компьютерного тестирования:
1) исчерпание вопросов в варианте,
2) исчерпание лимита времени на тест в целом (в тестах на скорость),
3) достижение заданного уровня точности измерения (при адаптивном тестировании).
Более точная информация о правилах завершения сеанса должна
присутствовать в инструкции к тесту на экране компьютера.
12. Предварительная оценка. После того, как участник завершил работу
с программой тестирования (ответил на последний вопрос теста), он
должен позвать экзаменатора (дежурного администратора), получить в
его присутствии немедленную информацию о количестве правильных
ответов (как правило, это число выводится на отдельном экране после
сообщения о завершении теста или одновременно с этим сообщением), проконтролировать лично занесение дежурным верного тестового
балла в бумажный протокол (ведомость) тестирования. Тестовый балл
может сопровождаться информацией о прогнозируемой минимальной
оценке. Окончательная оценка может быть изменена в сторону повышения.
О порядке учета результатов тестового испытания
1. В данной главе Положения о системе тестирования регламентируется порядок учета результатов тестирования при выставлении итоговой оценки по дисциплинам, изучаемым в вузе_________
_____________________ на факультете ____________по специализации______________________________________________________по
дисциплине_________________________________________________________
2. Термины и определения различных схем учета результатов тестирования.
Глава 7. Внедрение тестов в систему вузовских экзаменов
551
2.1. «Обязательное самотестирование» — это такая организация тестирования,
при которой студент проходит в обязательном порядке тестовое испытание,
но при любых результатах тестирования допускается к основному экзамену,
на котором никакие его тестовые баллы не сообщаются экзаменатору.
2.2. «Мягкое информирование» — это такая организация тестирования, при которой студент обязан пройти предварительное тестовое испытание (испытания),
его тестовые баллы сообщаются экзаменаторам на основном экзамене, а за экзаменаторами остается свободное право учитывать любым способом или игнорировать эти тестовые баллы.
2.3. «Зачет-допуск» — это такой принцип учета обязательного тестового испытания, при котором студенты, получившие баллы ниже заранее объявленного
порогового значения, не допускаются до основного экзамена.
2.4. «Страхование от провала» — это такой принцип учета результатов обязательного тестового испытания, при котором по его результатам студенту
выставляется оценка (на основании заранее объявленной таблицы пересчета
баллов в оценки), и экзаменаторы имеют право ставить на основном экзамене любую оценку, но если оценка за экзамен окажется ниже тестовой более
чем на один балл, студенту предоставляется право немедленной однократной
пересдачи — вытягивания другого экзаменационного билета и сдачи экзамена
другой комиссии (другому экзаменатору).
2.5. «Согласование независимых оценок» — это такой принцип учета результатов обязательного тестового испытания, при котором экзаменаторы не получают никакой информации о результатах студента по тесту, но оценки по тесту и традиционному экзамену должны быть согласованными (совпадающими или расходиться
не более, чем на ___ балл(ов) по шкале оценок от ___ до____); в случае расхождения
оценок производится переэкзаменовка с участием независимой комиссии.
2.6. «Вклад в процентах» — это такой принцип учета результатов обязательного тестового испытания, при котором тестовый балл отображается на шкалу от 0 до K очков (процентов), и эти очки суммируются с очками, полученными на другом (других) экзаменационном испытании по данной учебной дисциплине. При наличии двух испытаний шкала очков по другому (нетестовому)
испытанию имеет максимальное значение (100-K), а максимально возможная
сумма очков по всем испытаниям равна 100.
2.7. «Равный вклад», или «сумма оценок» — балл за тест (количество правильных
ответов) переводится по таблице в шкалу оценок (например, от 2 до 5 или от
1 до 10 — нужное оставить), а затем эта оценка суммируется с оценкой за
другое (другие) экзаменационное испытание. В ведомость (и зачетную книжку)
заносится округленная средняя оценка за все испытания по данной дисциплине.
2.8. «Замена», или «стропроцентный вклад» — учитывается только оценка по
тестовому испытанию, все другие испытания либо отменяются, либо проводятся, но не учитываются157.
157 Разумеется, в действующем положении целесообразно оставить определения только таких терминов, которые реально используются в данном положении, удалив
552
Практическая тестология
3. По дисциплине _______________________ (наименование) настоящим положением утверждается схема учета результатов тестирования 2. N
«____________________» (возможно сочетание схем учета, например, 2.2. и 2.3)
4. По дисциплине _______________________ (наименование) настоящим положением утверждается схема учета результатов тестирования 2. N
«_____________________»
(…аналогично задается схема учета для других дисциплин)
5. Итоговая оценка по учебной дисциплине___________________ начисляется студентам в соответствии с Суммарным Накопленным Баллом по следующей
таблице перевода баллов в оценки:
Балл
0 — 40
41 — 60
61 — 80
81—100
Оценка
Неуд
Удов
Хор
Отл
О порядке выставления оценок на основе схемы СНБ (новый проект)
1. В данной главе Положения о системе оценки и управления качеством образования регламентируется порядок выставления оценок на основе суммы
накопленных баллов по дисциплинам, изучаемым в вузе _________________
______________________________________________ на факультете ____________
_________________________________________________________ по специализации
____________________________________________________________по дисциплине
________________________________________________________
2. Каждый студент, выполняя добровольно утвержденный и заранее объявленный преподавателем (экзаменационной комиссией) набор оценочных процедур,
получает определенный Суммарный Накопленный Балл (СНБ) по данной дисциплине в интервале от 0 до 100 очков.
3. Утвержденный состав оценочных процедур и присуждаемых за них очков по
данной дисциплине (ненужное удалить):
— компьютеризированный тест с выбором ответа (____ очков),
— компьютеризированное испытание по методу контекстной вставки (_____
очков),
— подготовка письменного реферативного доклада (____ очков),
— устная защита письменного реферативного доклада (____очков),
— выполнение (участие) исследовательского проекта (____ очков),
— участие в групповой дискуссии (____ очков),
— устное собеседование, или устный экзамен по билетам (____ очков),
— решение кейса, устная защита решения (____ очков),
— составление собственного кейса (____ очков).
остальные. — Прим. автора.
Глава 7. Внедрение тестов в систему вузовских экзаменов
553
4. Студент имеет право отказаться (в том числе без уважительных причин) от
участия в любой из оценочных процедур — это не приводит к обнулению его
балла СНБ, набранного по другим оценочным процедурам.
5. Суммарному баллу СНБ соответствуют следующие оценки, которые заносятся в ведомость и зачетную книжку:
— от 91 до 100 — оценка «превосходно»,
— от 81 до 90 — оценка «отлично»,
— от 66 до 80 — оценка «хорошо»,
— от 51 до 65 — оценка «удовлетворительно»,
— от 31 до 50 — оценка «неудовлетворительно» (с правом досдачи и пересдачи оценочных процедур по курсу, но не более одной пересдачи каждой процедуры),
— от 0 до 30 — «бесперспективно», или «недопуск» (без права пересдачи) 158
Образец ВЕДОМОСТИ с результатами тестирования
ПРОТОКОЛ №________________ от «__»_________201__ г.
Название дисциплины: _______________________________
ФИО экзаменатора(-ов) ______________________________
Аудитория __________________________________________
Дата и время сеанса (экзамена) ____________________________________
№
ФИО студента
Тестовый балл
Оценка
Подпись экзаменуемого
1.
2.
3
4.
5.
6.
Подпись(-и) экзаменатора(-ов) ______________________________________
158 Конечно, преподаватель, как и администрация вуза в целом, может вовсе не использовать предложенные здесь автором книги новые качественные категории «превосходно» и
«бесперспективно», это будет просто означать сохранение статус-кво — прежней, традиционной модели управления учебным процессом, слабо дифференцирующей достижения и
провалы (то есть учащихся на полюсах шкалы), а главное — создающей несправедливую
повышенную нагрузку на принципиальных преподавателей, вынужденных ныне наказывать самих себя за свою же принципиальность — принимать многократно «пересдачи» у
нерадивых студентов, которых гораздо разумнее просто не аттестовывать более по данной
дисциплине. — Прим. автора.
554
Практическая тестология
7.7. КРИТИЧЕСКИЙ АНАЛИЗ СИСТЕМЫ ЕГЭ В РОССИИ
В период с 1995 по 2005 годы автор лично интенсивно занимался внедрением тестовой формы контроля на этапе поступления в вуз, включая
тестирование абитуриентов на собственном факультете в 1995—1996 году,
организацию в 1997—2001 годы Всероссийской компьютерной олимпиады
«Телетестинг» для старшеклассников и абитуриентов, а также разработку портала ЕГЭ и компьютерной модели «К-ЕГЭ» в 2001 — 2005 годы (в роли
члена комиссии и рабочей группы по ЕГЭ при Минобрнауки РФ). Но этот
опыт столь обширен, что заслуживает, наверное, отдельного разговора в
отдельном издании. Так что здесь — в этой главе и в этой книге — мы, прежде всего, обсуждали применение тестов для внутривузовских задач.
Таким образом, еще до первых экспериментов по введению ЕГЭ в России в 2001 году я имел опыт участия в Комиссии по централизованному
тестированию при Минобразования (председатель — В.Д. Шадриков), а
также организации в течение ряда лет компьютеризированной олимпиады «Телетестинг». Этот опыт позволил мне в 2000 году в популярной статье
в газете «Первое сентября» (эта газета выступила спонсором олимпиады
«Телетестинг») сформулировать принцип учета результатов тестирования
выпускников школы (Шмелев, 2000). Этот принцип соответствовал логике
«согласования независимых оценок» (принцип №5 из перечня возможных
принципов, предложенных в предыдущем параграфе). В этом случае в качестве нетестовой оценки выступала годовая оценка учащегося под данному предмету, выставленная школьным педагогом по сумме контрольных процедур в течение года (средняя по журналу). Если оценка в ходе независимого централизованного тестирования (читайте ЕГЭ) подтверждала
годовую журнальную оценку (с точностью до традиционной школьной
шкалы оценок от 2 до 5), то результат немедленно шел бы в аттестат. В случае расхождения между ними назначалась бы независимая комиссия (без
участия учителей данной выпускающей школы), которая проводила бы
традиционный экзамен с целью уточнения оценки — либо в пользу тестовой, либо в пользу школьной159. Тем самым в таком проекте достигался бы определенный комплексный подход к оцениванию выпускника, в
котором участвовали бы и школьные учителя, и тестовая технология, и
независимая комиссия. Одним из чисто экономических резонов такого
подхода явилось мое знакомство с реальной статистикой массового тестирования выпускников школ — у большинства выпускников на самом деле
корректно организованное тестирование ПОДТВЕРЖДАЛО точно ту самую
оценку, которую им уже выставила родная школа. Тем самым, по моему
убеждению, достаточно было проводить относительно дешевое формализованное тестовое испытание (в перспективе полностью компьютеризи159
В случае массовых расхождений в какой-то школе, в комиссию целесообразно вводить
представителей из федерального центра или других регионов. — Прим. автора.
Глава 7. Внедрение тестов в систему вузовских экзаменов
555
рованное), чтобы спокойно подтвердить школьную оценку у большинства
выпускников школ.
Что же произошло в рамках проекта ЕГЭ? Председатель рабочей группы по ЕГЭ В.А. Болотов (в то время заместитель министра образования РФ
В.М. Филиппова) сформулировал в самом начале эксперимента по внедрению ЕГЭ принцип, который внешне многим показался похожим на тот,
который предлагал я, так что В.А. Болотов даже ссылался в первое время
на меня как на автора этого принципа: при расхождении оценки за ЕГЭ
(пятибалльной оценки) с годовой оценкой в аттестат записывался балл «в
пользу учащегося», то есть более высокий из двух. Но… два существенных
отличия нивелировали весь смысл моего предложения:
1) Привлечение независимой комиссии в случае расхождения оценок не
предусматривалось. Вместо этого в ЕГЭ по проекту, предоставленному
Г.С. Ковалевой, была добавлена так называемая часть «С» — задания с
развернутым открытым ответом, которые проверялись (и, как я понимаю, все еще проверяются) на местном региональном уровне (кстати,
само введение этой дорогостоящей процедуры, к тому же малозащищенной от фальсификации, привело одновременно и к значительному
удорожанию проекта ЕГЭ, и к значительному снижению достоверности результатов).
2) В свидетельство ЕГЭ записывался балл только самого ЕГЭ, который никак не отражал годовую оценку (а ведь именно со свидетельством, а не
со школьным аттестатом было предложено иметь дело вузовским приемным комиссиям).
Таким образом, предложенный мной конструктивный компромисс в
пользу участия школьных учителей в аттестации выпускников распространился фактически только на тех выпускников, которые вовсе не собирались поступать в вузы (а это уже в 2001 году была заведомо меньшая
часть выпускников школ). А самое главное — балл ЕГЭ абитуриента формировался только по результатам самого ЕГЭ, то есть вместо «согласования
оценок» был реализован (и реализуется по сей день) самый жесткий, самый бескомпромиссный принцип №8 «Замена» (!).
Еще задолго до массового внедрения ЕГЭ в большинстве регионов можно было легко спрогнозировать ту массовую волну протеста против ЕГЭ,
которая поднялась и все еще продолжает расти по всей стране. Вместо последовательного и постепенного роста веса ЕГЭ среди других оценочных
процедур, как всегда это делалось и, увы, делается в традициях российского управленческого волюнтаризма, осуществилось административное
принуждение, не только «опережающее» незрелое общественное мнение
в этом вопросе, но попросту вступающее с этим общественным мнением
в прямую конфронтацию. Более подробно об этом и других недостатках
действующей модели ЕГЭ я написал в статье «Можно ли реорганизовать
ЕГЭ?», вышедшей при содействии директора Федерального института развития образования А.Г. Асмолова в журнале «Образовательная политика»
556
Практическая тестология
(Шмелев, 2010а). Теперь, пожалуй, чтобы вернуть общественное мнение
(социальные установки масс) хотя бы к тому состоянию, каким оно было
до введения ЕГЭ, придется вернуться к принципу добровольного участия — тому принципу, на котором успешно развивалось в 90-е годы централизованное тестирование, постепенно охватившее на совершенно добровольной основе большинство выпускников школ РФ.
Самый большой урок, который принес и приносит нам проект ЕГЭ, —
это урок неконструктивной и непрофессиональной публичной полемики
вокруг этого проекта. Эта полемика, увы, давно зашла в тупик, так как не
оперирует профессиональными понятиями, необходимыми для обсуждения качества педагогических измерительных (оценочных) процедур —
операциональными понятиями надежности, валидности, репрезентативности и достоверности. Ведь оголтелые противники ЕГЭ до сих пор не
могут признать очевидной истины, что при всех недостатках ЕГЭ прежние экзамены давали еще более низкую прогностическую валидность.
А оголтелые сторонники ЕГЭ не могут сами понять (и тем более признать),
что протестная мотивация учащихся, родителей и учителей, сплотившихся против ЕГЭ, многократно умножает риск падения достоверности
этой технологии до недопустимого критического уровня. Возможности
компьютерного тестирования для резкого повышения печально низкой
достоверности всерьез не обсуждаются (хотя еще 15 лет назад прошел всероссийский эксперимент по их успешной апробации — «Телетестинг»).
А скандальная «утечка правильных ответов» в Интернете опять-таки обсуждается не в логике определенных технологий информационной безопасности и сдерживания фальсификационных стратегий, но чаще всего
в обывательском ключе — в логике обличения каких-то отдельных людей,
которые не проявили сознательности, проворовались и т.п.
Впрочем, детальный анализ действующей модели ЕГЭ (а только он
может быть признан профессиональным анализом), как мы уже предупредили выше, выходит за пределы настоящей главы, как и настоящей
книги в целом. Здесь нам стоило упомянуть ЕГЭ лишь как определенный
образец, который у многих работников образования находится перед глазами и служит волей-неволей образцом для подражания. Так вот, крайне хотелось бы предупредить читателей от такого слепого копирования.
По ряду признаков ЕГЭ, увы, является негативным образцом. В частности,
в этом испытании не лучшим образом реализован комплексный подход:
сочетание в одном сеансе тестовых (с выбором и кратким ответом) и экспертных оценочных процедур (с экспертной оценкой развернутых ответов) приводит на самом деле к тому, что комплексная оценка во многом
страдает. Балл за тестовую часть оказывается сниженным по уровню достоверности (а, следовательно, и валидности) по сравнению с той ситуацией, когда тестовая часть ЕГЭ проводилась бы отдельно, по-другому, в
других помещениях, при другом техническом и кадровом оснащении (в
режиме компьютеризированного диалога с учащимся), с использованием
Глава 7. Внедрение тестов в систему вузовских экзаменов
557
других, более современных алгоритмов тестирования. Низкая достоверность, незащищенность от фальсификаций части «С» потянула за собой
«на дно» весь единый экзамен в его нынешнем виде. К сожалению, в рабочей группе при Рособрнадзоре по ЕГЭ с 2001 до 2006 года так и не нашлось
трезвомыслящих и самокритичных коллег, которые бы согласились с этой
оценкой автора книги, хотя она опирается на массовую реальную статистику самого ЕГЭ. Поэтому в 2006 году я (автор книги) принял решение выйти из состава этой координационной группы, как и позднее — из состава
Ученых советов Федерального института педагогических измерений и
Федерального института развития образования.
558
Глава 8.
Социально-психологические проблемы
внедрения тестовых систем
В этой заключительной главе мы обратимся к тем вопросам, которые
определенным рефреном звучали и раньше, и являются, по нашему мнению, едва ли не ключевыми для успешного внедрения тестов и тестовых
систем. Тестологу не добиться успеха, если он не разберется в том, что лежит за определенным отношением к тестам у сотрудников той или иной
организации (у преподавателей и студентов вуза). Но прежде всего, сам
тестолог должен очень хорошо отрефлексировать (осознать) собственные
профессиональные установки и предпочтения, чтобы не оказаться в ложной позиции человека, воюющего с мельницами.
8.1. «ТЕСТ КАК ОРУЖИЕ» — ЭВРИСТИЧЕСКАЯ МЕТАФОРА
На рубеже 20—21-го веков полемика вокруг метода тестов в нашей стране
заметно оживилась, можно даже выразиться так: обострилась. Это вызвано рядом обстоятельств, среди которых на поверхности лежит не раз упомянутое в
этой книге внедрение единого государственного экзамена (ЕГЭ) для выпускников общеобразовательной школы и абитуриентов (Болотов, 2002)160. В результате
появления такого общегосударственного проекта, как ЕГЭ, дискуссия по тестам
выплеснулась в СМИ и стала объектом всевозможных рассуждений и домыслов со стороны непрофессионалов — лиц, не имеющих специальных знаний в
области психологии и педагогики (прежде всего, со стороны журналистов).
Обсуждение тестов в СМИ
В глубинной основе дискуссии вокруг тестов, по моему убеждению,
кроются другие, более глобальные причины:
160
Автору этих строк довелось разрабатывать по заказу Минобразования России в 2002—
2003 гг. вначале сайт ЕГЭ, а затем так называемый «Портал информационной поддержки
ЕГЭ» (адреса в Интернете: www.ege.ruи www.ege.edu.ru). На этом портале ежегодно перепечатывалось свыше 300 статей по тематике ЕГЭ, среди которых добрая половина содержала
всегда остро дискуссионные доводы «за» или «против» самого метода тестирования в российском образовании. — Прим. автора.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 559
а) научный кризис и, прежде всего, отставание отечественной науки в
плане методологии эмпирических исследований и разработки прикладных инструментальных методик;
б) незрелость профессионального сообщества;
в) кризис кадровой политики в стране.
Все три указанные причины тесно взаимодействуют и взаимно обуславливают друг с друга.
На рубеже столетий в нашей стране обострился дефицит эффективных
методов психологической и психолого-педагогической диагностики, а также
оценочных кадровых процедур. Обнаружилось, что многие методики, фактически «сворованные» нашими психологами за рубежом еще в советское время (без оформления корректных лицензионных договоров на русификацию
и адаптацию), в 21-м веке просто перестали работать. Этот дефицит возник не
вчера и даже не позавчера. Стало банальностью ссылаться на постановление
ЦК ВКП(б) 1936 г. «О педологических извращениях в системе Наркомпроса»,
которое затормозило развитие отечественных работ в области психологических и педагогических измерений на полстолетия, но факт остается фактом:
к концу ХХ века Россия оказалась на задворках общемирового процесса развития тестологии, тестовых технологий, а главное — развития тестологической культуры среди пользователей тестов. Об этом говорит фактическое
отсутствие востребованных практикой оригинальных отечественных тестовых методик, удовлетворяющих всем психометрическим требованиям — репрезентативности, надежности, валидности, достоверности. Только в 1982 г.
появилось первое серьезное переводное издание на русском языке — книга А.
Анастази «Психологическое тестирование» (Анастази, 1982). Однако как только запрет на тесты был снят, события стали повторяться в печальном соответствии с тем, что уже было в 20-е годы и констатировалось в постановлении
1936 года. Это выразилось в том, что невзыскательные, неосведомленные, а,
проще говоря, невежественные практические работники уже в 80-е гг. немедленно кинулись тиражировать и использовать западные методики, не
прошедшие экспериментальной проверки в российских условиях. Возникла
массовая практика применения тестов в нижних слоях государственной и
социальной пирамиды (в профотборе на массовые специальности, при проведении медико-психологических обследований населения и т.п.).
Наряду с этим в те же 80-е гг. наблюдалась встречная тенденция — к отказу от применения метода тестов при отборе и аттестации влиятельных
служащих госаппарата, в частности, руководящих работников силовых
структур. В «Российской газете» была опубликована статья М.В. Виноградова (Виноградов, 2003), в которой, конечно, присутствует изрядный элемент
драматизации и сверхполитизации, но одновременно с этим и констатация
определенных малоизвестных фактов, объясняющих причины закрытия в
80-е гг. возглавляемой М.В. Виноградовым лаборатории психофизиологических исследований в системе МВД. Не имея возможности ни подтвердить,
560
Практическая тестология
ни опровергнуть сведения и оценки, данные Виноградовым, я считаю, тем
не менее, что объективная закономерность существует: тест как инструмент объективной оценки уровня развития профессиональных качеств и
особенно как инструмент выявления противопоказаний к работе воспринимается коррумпированными высокопоставленными лицами как угроза
личной безопасности и устойчивости их положения во властной иерархии.
По-видимому, так было и так будет во все времена. Недаром подноготная постановления 1936 г. также окутана слухами и догадками о том, что практика
тестирования воспринималась как угроза личным интересам лиц, принадлежавших в то время к правящей верхушке.
В 90-е гг. прошлого века положение усугубилось жесточайшим общесистемным и финансовым кризисом, в частности, кризисом финансирования
отечественной науки. Производство отечественных психометрических тестов погибло, фактически не поднявшись из младенческой колыбели. Оказалось гораздо выгоднее пользоваться крадеными западными методиками,
чем оригинальными отечественными, за которые отечественные специалисты закономерно хотели получить компенсацию вложенного квалифицированного труда. Возникшую ситуацию можно в какой-то мере сравнить с вытеснением отечественных фильмов из кинопроката, хотя уровень развития
отечественной киноиндустрии был к началу 90-х годов, разумеется, гораздо
выше, чем уровень российской тестологии. Неоправданные массовые тиражи тестовых сборников (начиная с «Лучших психологических тестов», 1992)
не в последнюю очередь провоцировались потребностью научных работников в элементарном выживании «любой ценой» — ценой копеечных гонораров за разглашение профессиональных секретов и публикацию сырых исследовательских версий переводных методик, еще не подготовленных для
практического использования. Редкие попытки выстраивания цивилизованных отношений с западными производителями тестов сталкивались на
внешнем рынке с несоразмерными ценами на лицензии, тогда как на внутреннем рынке такие попытки просто не могли выдержать конкуренции с
пиратской практикой торговли краденой интеллектуальной собственностью
(см. об этом мои заметки в «Психологической газете» — Шмелев, 1996; 1999).
В этих условиях не только разработка оригинальных тестов, но и работа по
серьезной психометрической адаптации наиболее популярных западных тестов оказалась экономически невозможной.
Но означает ли перечисленное выше, что само понятие «тест» опять следует предать анафеме и снова пойти по тому же замкнутому кругу, по которому мы уже ходили (как страна в целом, или, в более узком смысле,— как
гильдия профессионалов в области психологии и педагогики)? Увы, попытки
такой огульной критики метода тестов и сейчас наблюдаются. К подобной
критике прибегают отнюдь не только непрофессионалы, движимые так называемым «гуманизмом», но и обладающие всеми академическими регалиями ученые-психологи: примером может служить, например, дискуссия в
«Независимой газете» (Холодная, 1999, Шмелев, 1999).
Глава 8. Социально-психологические проблемы внедрения тестовых систем 561
По моему убеждению, чтобы разорвать этот исторически порочный
круг, надо, прежде всего, самим специалистам глубже разобраться в понятии «тест», осознать статус этого инструмента познания в широком социальном контексте, границы и правила его использования — не во вред,
а во благо людей.
В чем сходство теста и оружия?
Выражение «тест — оружие» — не более чем метафора, так как вовсе не
претендует на полноту и строгость совпадения по всем признакам. Тем не
менее, по моему мнению, эта метафора имеет определенный эвристический потенциал, по крайней мере, помогает разъяснить ряд принципиальных моментов.
В чем сходство теста и оружия?
Оружие дает преимущество тому, кто им обладает. Любая процедура
получения знания о человеке дает определенные преимущества обладателю этого знания. Психологический тест не исключение. Сюда же можно
отнести медицинский тест, профессиональный, образовательный тест
и другие. Однако психологический тест воспринимается людьми даже
с большей опаской, чем прочие. По-видимому, сказывается имплицитное (не вполне осознанное) распространенное представление о психологических свойствах, выявляемых психологическими тестами, как более
сокровенных и более неизменных на протяжении жизни, чем такие относительно временные явления, как болезнь (предмет медицинской диагностики) или отсутствие определенных знаний и навыков (предмет педагогической диагностики).
Как мы уже говорили в главе 1, тест — стандартизированное испытание, краткое в проведении и формализованное в обработке результатов.
Это инструмент, подобный простому измерительному прибору: пустил
в ход и получил результат. Пользователю кажется, что психологический
тест не требует особой подготовки — в отличие от более сложных для проведения нестандартизованных психодиагностических методик. Особенно простым и привлекательным в этом смысле кажется компьютерный
тест — нажал кнопку на клавиатуре компьютера, посадил испытуемого и
получил на экране результат. Это напоминает выстрел из пистолета — достаточно дослать патрон и нажать спусковой крючок.
Конечно, полной аналогии между тестом и оружием нет и быть не может. Тест не приводит к физическому ущербу, не уничтожает испытуемого. Однако нанести весомый моральный ущерб с помощью теста можно,
а если на основе теста принимаются серьезные кадровые решения (отсев
кандидатов при профотборе, увольнение по результатам аттестации с использованием тестов), то ущерб оказывается не только моральным, но и
вполне материальным.
562
Практическая тестология
Причины бесконтрольности
Основной смысл сравнения теста и оружия для меня заключается в том,
чтобы на этой основе высветить проблему контроля за распространением тестов. Зададимся вопросом: почему круг лиц, имеющих разрешение на ношение оружия, ограничивается в нашей стране законодательно, тогда как тест
может использовать любой гражданин? Причин тому несколько.
1) Забава. Одна из причин выглядит весьма банальной и простой: благодаря популярным журналам многие граждане в нашей стране воспринимают тест скорее как забаву, как инструмент развлечения, и где
проходит грань между игрушкой и оружием, в данном случае многие
просто не ведают.
2) Незрелость профессионального сообщества психологов. Эта вторая причина, на мой взгляд, более существенна. Государственные силовые ведомства, призванные контролировать распространение огнестрельного оружия, в нашей стране имеют гораздо более древнюю историю, весьма авторитетны, лучше институализированы, поэтому обеспечивают для своих
работников особый статус — в отличие от профессионального психологического сообщества, которое фактически ни разу в истории России (или
СССР) не издало перечня профессиональных тестов, право пользования
которыми было бы ограничено кругом профессионалов (членов сообщества). Ближе к 2010 году в деятельности РПО появились некоторые попытки регулировать распространение тестов (благодаря экстраординарным
усилиям комиссии по психодиагностике, возглавляемой Н.А. Батуриным), в частности, появилось постановление Президиума РПО 2008 года
об ограничениях в открытой публикации тестовых материалов в научных журналах, издаваемых фактически членами РПО. Но юридическое,
законодательное оформление правил обращения с тестами пока не выглядит актуальной задачей для большинства российских законодательных
институтов, включая Госдуму. Пожалуй, наиболее продвинутым здесь
является Минздрав, издавший несколько внутриведомственных актов по
вопросам медико-психологического тестирования. А вот в системе Минобразования (или Минобрнауки) до сих пор, насколько известно автору, не
сформулировано ясного различения между педагогическими тестами,
которыми может пользоваться любой педагог, и психологическими тестами, которыми может пользоваться только школьный психолог. Некий
полуофициальный перечень тестов, рекомендованных к применению
школьным психологам, не выдерживает никакой критики (там слишком
много низкокачественной и нелицензированной продукции).
3) «Великий уравнитель». Третья причина заключается в позиции самих членов психологического сообщества. Вспомним про «великий
уравнитель», которым американцы назвали кольт в XIX в. Большинство влиятельных психологов, по моим наблюдениям, вовсе не хотят,
чтобы в их профессиональной среде появлялись подобные «великие
уравнители»: мол, лучше уповать на собственный интеллектуальный
Глава 8. Социально-психологические проблемы внедрения тестовых систем 563
потенциал, чем производить и распространять интеллектуальные инструменты, которые могут рано или поздно уравнять тебя с другими
пользователями подобного инструмента. Поэтому нечетко оформленная профессиональная гильдия психологов в нашей стране напоминает сообщество любителей боевых искусств, где все члены ранжируются по силе мышц и телесной ловкости, в разной мере развитой у разных
людей, но не по уровню владения стандартным «табельным оружием».
4) Доводы гуманистов. Тест рассматривается как инструмент, якобы угрожающий суверенитету личности, ущемляющий права человека. При этом,
по моему мнению, возникает грандиозное смешение понятий вплоть до
переворота ценностной иерархии с ног на голову (об этом автор уже писал
в популярной прессе несколько лет назад в ходе дискуссии с В. Аванесовым, С. Хайтуном и М. Холодной в «Независимой газете» — см. Шмелев,
1999). Сегодня, мне кажется, вопрос следует сформулировать максимально
ясно и остро: разве тестирование должно всегда проводиться в интересах
самого испытуемого? Это, конечно, именно так в ситуации индивидуального консультирования, но в организационном контексте, когда тестирование проводится в так называемой ситуации экспертизы, это вовсе не
так! Тест в организационном контексте — это корпоративный инструмент
защиты интересов третьих лиц от ущерба, который им может нанести испытуемый. Возьмем тест на водительские права. Если он показывает, что
испытуемый не знает правила дорожного движения, то разве при этом
интересы испытуемого не должны пострадать? Должны!161 Иначе пострадают интересы пешеходов и других водителей. Ситуацию так просто понять в случае дорожного движения, но почему-то вовсе не просто в случае
тестирования на пригодность к выполнению ответственной работы по
экономическому или политическому управлению (крупной корпорацией, политической партией, страной). А разве тесты в этом случае должны проводиться в интересах тестируемого? Нет, они призваны защитить
общество от проникновения на вершины общественной иерархии лиц с
интеллектуальными и морально-личностными дефектами. В этом контексте по своему смыслу тесты превращаются в оружие общества против
произвола отдельной личности162.
161 При этом не ближайшие, но отдаленные интересы испытуемого, конечно же, не страдают, но оказываются защищены: ведь за преступления на дороге, совершенные из-за незнания правил, самому водителю также приходится строго отвечать, так что недопуск к управлению автомобилем является на самом деле и защитой его интересов тоже. — Прим. автора.
162
Может быть, и не надо было бы царедворцам Бориса Годунова брать страшный грех на
душу и подстраивать в Угличе самоубийство царевича Дмитрия, если бы в то время в России существовал институт медико-психиатрической экспертизы наследников престола,
который просто, возможно, установил бы диагноз «патологический педагогически-неизлечимый генетически-детерминированный садизм», после которого царевич смог бы жить
спокойной частной жизнью и периодически истязать только мелких домашних животных,
но никак не подданных огромной страны. — Прим. автора.
564
Практическая тестология
Четвертая причина — «ущерб интересам личности» — гораздо чаще
указывается критиками тестов, чем другие. А третью причину вообще
вряд ли кто-то из самих психологов назовет вслух. Будет приводиться
масса других аргументов, включая трогательную заботу об интересах
испытуемых, но, по моему мнению, самая важная причина сводится к
интересам самих психологов, осмысленным ими таким образом. Психологам кажется предпочтительнее социальная роль «кустарей-одиночек»
(чтобы избежать уничижительного тона, давайте назовем это ролью «неподражаемых маэстро»), чем роль членов хорошо структурированного
профессионального сообщества, наработавшего собственный инструментарий и ограничившего круг его распространения собственными границами. Более поздний опыт автора, полученный при попытках создания
Интернет-сообщества экспертов-психологов на сайте www.ht.ru, лишь
подтвердил это мнение, сложившиеся к моменту написания статьи «Тест
как оружие» в 2004 году.
Границы распространения — этот вопрос в случае с психологическими тестами стоит с особой остротой. Ведь дело в том, что в отсутствие таких «охраняемых границ» большинство психологических тестов просто
не работают, перестают быть полезным инструментом. Если вся популяция потенциальных испытуемых знает о тесте то, что положено знать
лишь профессиональным пользователям, то тест лишается необходимого
элемента секретности, перестает работать. Теперь главный источник бесконтрольного распространения — это Интернет и разработчики различных сайтов, чаще всего любительских (в отношении профессиональной
тестологии). А долгое время, еще до Интернета, особой профессиональной
группой, враждебной психологам по своим интересам, фактически являлись журналисты. В 90-е гг., например, в журнале «Космополитен» были
опубликованы материалы, раскрывающие сотням тысячам читательниц
этого журнала секретные ключи к таким методикам, как «Рисунок несуществующего животного». Узкий круг разработчиков этого теста мог десятилетиями нарабатывать тонкий слой проверенных экспериментально
диагностических признаков («размеры зубов», «размеры глаз» и т.п.), но
достаточно всего одной публикации, чтобы ключи к тесту были разглашены, и он тут же из инструмента профессионала превратился в игрушку-забаву для любителей салонных развлечений. Интересно, что когда я
позвонил в редакцию этого журнала с попыткой узнать, кто именно из
наших коллег представил этот материал в редакцию, то натолкнулся на
стойкое сопротивление журналистов, не выдавших имя осведомителя-перебежчика. Увы, мне трудно вспомнить пример подобной профессиональной стойкости у самих психологов ради сохранения в неприкосновенности собственных корпоративных профессиональных секретов. Именно
к психологам как нельзя более приложим один из постулатов общей теории конкуренции: переживание суженного пространства для выживания
(ощущение сжимающейся экологической ниши), дефицит адаптивности в
Глава 8. Социально-психологические проблемы внедрения тестовых систем 565
межвидовой конкуренции приводит к обострению внутривидовой конкуренции (Шмелев, 1997).
Свойства теста
Какие другие важные следствия мы можем вывести из метафоры
«тест — оружие»? Эта метафора позволяет нам точнее и глубже осознать
ряд инструментальных требований к тестам, которым тесты должны соответствовать, а также нормативы применения тестов. В этой книге эти
свойства уже подробно обсуждались в предыдущих главах, но здесь стоит
их перечислить еще раз в контексте обсуждения нашей метафоры «тест —
оружие».
1) Надежность теста. Может ли быть надежным оружие, изготовленное в
кустарной полуподвальной мастерской, как говорится, «на коленках»?
Это оружие будет стрелять куда попало — иногда в цель, но чаще вбок, а
иной раз может и просто разорваться в руках стреляющего. Тут уместно напомнить следующее: надежные тесты не создаются в крошечных
лабораториях (и тем более за письменным столом автором-одиночкой).
Надежность теста не только проверяется на репрезентативной (массовой) выборке, но просто не вырабатывается без обширной статистики.
Репрезентативная выборка для стандартизации теста — это своеобразный полигон для обстрела нового оружия. Только после таких полевых
испытаний конструктор теста может внести целенаправленные («зрячие») коррективы в первоначальную конструкцию своего оружия. Тем
самым уже на примере этого одного свойства теста — надежности —
мы видим, что именно нам дает в этом контексте метафора «тест —
оружие». Плохое оружие не усиливает, а, наоборот, ослабляет пользователя, подвергает его риску. Он выхватил оружие и прицелился в человека, тот начал ответные действия, а оружие… просто не сработало
(осечка). Но… разве можно судить о качестве оружия вообще по образцам кустарного оружия? Плохими являются не тесты вообще, а ненадежные тесты.
2) Валидность теста. Напомним, что это мера пригодности теста целям
тестирования (оценивания), мера соответствия измеряемому свойству. Куда будет стрелять оружие? Это зависит не только от надежности
самого теста, но и от пользователя. Ненадежный тест не может быть
валидным. Эту аксиому теории измерения в данном контексте легко
понять: если вы не попадаете с пяти шагов в силуэт, то о какой валидности, о каком попадании в цель, о каком соответствии теста измеряемому свойству может идти речь, ведь вы же можете попасть с помощью
такого «теста» не во врага, а в «своего» — того, кто рядом стоит, то есть
«цепляете» с помощью теста не целевое, а иное психическое свойство.
А если сам стрелок слепой, если он — дальтоник, который не различает
566
Практическая тестология
цвета мундиров, в которые одеты свои и чужие, если он к тому же паникер, то будет в панике палить даже из надежного стрелкового оружия и по своим, и по чужим. Таким образом, мы легко формулируем
важное следствие: тест не может быть валидным в руках непрофессионала. Вот вам и еще одна аксиома тестологии, которую, увы, так трудно
бывает объяснить не только массовой аудитории, но и самим психологам, ибо при словах «надежность» и «валидность» в их сознании вплывают страшные и непонятные психометрические формулы. Поэтому
эти понятия кажутся им скорее математическими, чем психологическими, то есть чуждыми их «гуманитарному интеллекту».
Опять же вернемся в этом контексте к критике тестов. Можно
ли судить о тесте и тем более тестах вообще, если даже вполне качественное фабричное оружие передано в руки новобранцев-паникеров,
которые то стреляют из пушки по воробьям (например, применяют
тяжелую батарею IQ вроде теста Векслера для диагностики дефицита
внимания), то бросаются с пистолетиком тщетно обстреливать бронированный танк (пытаются понять природу и содержательный смысл
внутреннего конфликта по цветовым предпочтениям в восьмицветном тесте М. Люшера, пригодном, по моему убеждению, лишь для самой приближенной, грубой оценки фона настроения). Любому маломальски сведущему в военном деле человеку как дважды два понятно:
нет универсального оружия, и в разных условиях боя надо применять
разное. Но психика человека — более тонкая, невидимая стороннему
взгляду реальность, чем поле боя. И вот мы путаем все на свете: вялую позиционную перестрелку, активную артподготовку и яростную
штыковую атаку в полный рост, когда пора доставать из-за пояса гранаты. Когда вы проводите какую-нибудь очень краткую пробу из нескольких заданий (несколько скрытых фигур из теста Готтшальдта,
несколько чернильных пятен Роршаха), то следует все-таки отдавать
себе отчет в том, что вы с такой же вероятностью наткнетесь на диагностически ценную информацию, с какой можно поразить стальной
ДОТ с помощью легкой пехотной гранаты. Результата, скорее всего, не
будет никакого! Только следует ли после этого делать вывод о том, что
все тесты неэффективны? Я бы сказал, что многие одиночные психологические тестики — это очень слабое оружие против хорошо замаскированных укреплений, против глубокоэшелонированной обороны многоэтажной человеческой психики, которая нарабатывает ко
времени социальной зрелости многие слои из весьма изощренных
механизмов психологической защиты. Тут мы еще раз подходим к
проблеме достоверности — проблеме соотношения сознательных и
неосознаваемых механизмов психологической защиты от тестирования. Р. Кэттелл назвал это в свое время проблемой мотивационных
искажений. Звучит красиво, хотя речь идет о некрасивых вещах — о
более или менее осознаваемой лжи.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 567
3) Достоверность. Это одна из центральных проблем данной книги —
проблема фальсификаций. Сформулируем в этом контексте такой
несколько парадоксальный профессионально-этический норматив:
«Испытуемый имеет право на ложь». В самом деле, если тест — это
оружие проникновения в человеческую психику, то испытуемый
имеет право на самозащиту — на то, чтобы сопротивляться этому
проникновению. В конце концов, можно оправдать испытуемого,
сумевшего скрыть свои проблемы, мобилизовавшись на социальножелательное выполнение теста: таким способом он проявляет в момент тестирования силу своих компенсаторных механизмов, умение
решать задачки на моральное и интеллектуальное развитие163 и т.п.,
хотя, возможно, в повседневной жизни он ведет себя вовсе и не так.
Прочность бронированного корпуса его судна, обеспечивающая ему
непотопляемость, оказалась сильнее того удара, который психолог
нанес из своего оружия. Честь и хвала такому испытуемому. Но этот
тезис имеет и такое важное следствие: положительные результаты тестирования имеют меньшую ценность и предсказательную силу, чем
негативные результаты.
Таким образом, если мы, наконец, разберемся в базисных представлениях о сущности теста, мы научимся адекватным образом его применять в социальной практике. До тех пор, пока мы неверно трактуем
сущность теста, не видим адекватным образом ограничений в практике
его использования, мы совершаем серьезные ошибки. Нужно ли запрещать распространение оружия в обществе, где никто толком не умеет
грамотно им пользоваться? По-видимому, все-таки разумнее не запрещать вовсе, а разумно ограничить более узким кругом подготовленных
аттестованных пользователей! И предоставлять им следует только сертифицированные инструменты, а не какие попало. Если горе-строители
возводят многоэтажные здания на болотах или зыбучих песках без закладки прочного фундамента, т. е. нарушают все правила безопасного
строительства, то таким образом здание не следует строить вообще; это
не значит, что следует запретить и архитектурные институты, и все заводы по производству стройматериалов, и сами строительные организации. Если кто-то использует определенные медицинские препараты не
по назначению, превращая их в наркотики, то это не значит, что следует
запретить фармацевтическую промышленность, хотя контроль распространения опасных медицинских препаратов, конечно, придется сделать более строгим.
163
При этом, конечно же, не имеется в виду право испытуемого на совершение подлога —
путем использования, например, тех же шпаргалок при выполнении интеллектуальных и
образовательных тестов. — Прим. автора.
568
Практическая тестология
Тесты и экспертные оценки в логике принятия кадровых решений
По моему убеждению, которое постоянно формулируется в этой книге, стандартизированные тесты не дают основания для окончательного
положительного вывода-диагноза (т. е. диагноза о пригодности к определенной деятельности). Для этого они должны быть дополнены экспертными оценками (или другими менее стандартизированными диагностическими процедурами, включающими экспертные оценки в той или
иной мере, как это, например, происходит в проективных методиках
или в ходе стандартизированного наблюдения).
Таким образом, позитивный исход тестового испытания выступает
логически необходимым, но недостаточным условием для окончательного позитивного заключения. Для большей наглядности схематизируем
сказанное в виде следующей таблички:
Вывод о пригодности
Вывод о непригодности
Позитивный исход теста
Нельзя сделать
Нельзя сделать
Негативный исход теста
Нельзя сделать
Можно сделать
Поясним это на содержательном примере. Вначале возьмем самый тривиальный случай, далекий от психологии, — уже упомянутый экзамен на знание правил дорожного движения. Если кандидат
сдал тест по правилам, то ему еще нельзя выдавать права — он должен
пройти после этого менее формализованный экзамен на практическое вождение. Если же кандидат провалил тест, то он не допускается до следующего испытания. В этом контексте самое время также
сделать и такую оговорку: отрицательный результат тестирования не
приговор. Всем понятно, что правила можно выучить, прийти снова и
пересдать экзамен.
Возьмем теперь менее очевидную (не оформленную пока нормативно) процедуру тестирования кандидата при приеме на работу на предмет
уровня так называемой «корпоративной лояльности». Предположим, что
испытуемому при этом предъявляется совершенно примитивный тестопросник, содержащий лобовые вопросы типа «Доводилось ли Вам обманывать учителей при сдаче экзаменов в школе?». Как мы говорили выше, испытуемый в этом случае использует свое право на фальсификацию и отвечает
«Нет, не доводилось». И какой вывод в данном случае мы сделаем? Никакой!
Но если испытуемый вдруг сам в порыве откровенности отвечает «Да, доводилось», то, по крайней мере, насторожиться следует.
В еще большей степени этот принцип относится к базовым тестам
на элементарные профессиональные знания. Если кандидат в бухгалтеры не может ответить на вопрос конкурсного тест-опросника о
том, что такое «план счетов», то следует ли дальше заниматься с этим
Глава 8. Социально-психологические проблемы внедрения тестовых систем 569
кандидатом? Следует ли тратить дорогое время квалифицированных
экспертов на детальное интервьюирование подобного кандидата? Конечно, нет164.
Таким образом, я предлагаю буквально везде, во всех отраслях практики использовать тест как первичный дешевый и формализованный
фильтр, предшествующий применению более сложных и дорогих экспертных процедур. В какой-то мере подобной логикой руководствуются в
настоящее время специалисты по оценке персонала, которые применяют
технологию «Ассессмент-центр».
То есть приведенную выше табличку следует изменить таким образом:
Позитивный исход
экспертной оценки
Негативный исход
экспертной оценки
Позитивный исход теста
Вывод о пригодности
Вывод о непригодности
Негативный исход теста
Вывод о непригодности
Вывод о непригодности
Как видим, для позитивного общего заключения требуется одновременное присутствие двух независимых событий — позитивного тестового
исхода и позитивного исхода экспертной оценки. Отсутствие хотя бы одного из позитивных исходов не дает возможности делать общий позитивный вывод.
Качество такой двухфильтровой системы отбора в любом случае
выше, чем любой однофильтровой — основанной только на экспертных
оценках или только на тестах. А разговоры о том, что в нашей стране результаты тестирования очень легко купить (увы, такие разговоры часто
затевались, например, на дискуссионном форуме портала ЕГЭ ege.edu.
ru), носят либо сознательно-демагогический характер, либо опять-таки
выявляют дефект логического мышления. Там, где можно купить результаты тестирования, как правило, можно купить и результаты экспертной оценки, и нужно еще специально изучать, какой из фильтров
по факту является менее продажным. Если даже при широком распространении теста происходит утечка ключей, негативный исход тестирования продолжает сохранять свою ценность, но особенно важно, чтобы
после позитивного исхода в дело вступали неподкупные эксперты. Если
мы связываем результаты двух процедур логическим «И», то числовые
результаты теста и экспертной оценки правильнее не суммировать, но
умножать, то есть агрегировать не аддитивно, а мультипликативно165:
164
Только не следует примитивно трактовать подобные примеры. Автор, конечно, не предлагает делать выводы на материале одного вопроса. Выводы следует делать путем подсчета ответов на несколько десятков вопросов, обеспечивая статистическую достоверность. —
Прим. автора.
165
В данном случае мультипликативную операцию «умножение» следует трактовать не
буквально, а условно — как некий аналог логической операции «и». — Прим. автора.
570
Практическая тестология
O = T * E,
где T — результат теста, Е — результат экспертной оценки, О — общая
оценка. Если любой из сомножителей принимает нулевое значение (оказывается ниже минимального порога), то общий результат оказывается
нулевым независимо от значения второго сомножителя. При ненулевых
значениях и того, и другого компонентов формулы максимальный результат достигается в том случае, если значения Т и Е близки друг к другу. Откуда это следует? И причем тут сумма? Такой подход несколько нивелирует эффект завышения одного показатели вследствие его «покупки».
Хороший тест лучше среднего интервьюера
К сожалению, в наших дебатах вокруг тестов редко апеллируют к результатам исследований сравнительной прогностической эффективности
тестов и нетестовых диагностических процедур. Нет ничего удивительного в том, что наши специалисты просто не располагают такими данными,
ведь подобные исследования очень дорогостоящи. За рубежом подобные
исследования неоднократно проводились на весьма репрезентативных
выборках испытуемых. Таблицы сравнительной эффективности (для
прогнозирования профессиональной деятельности) различных тестов и
такой процедуры, как интервью, публикуются практически в любом западном учебном пособии по организационному поведению (пример —
Fincham, Rhodes, 1998). Обобщив различные источники, мы опубликовали
аналогичную таблицу 6.2 сравнительной прогностической валидности в
этой книге в разделе 6.1.
Почему же столь низкой оказывается валидность обыкновенного интервью? Все дело в том, что извлечение диагностически значимой информации из интервью требует не только значительного опыта интервьюирования (личного проведения сотен и тысяч интервью), но и определенного искусства, куда входит умение владеть собственными эмоциями, не
порождая у интервьюируемого ситуативных эмоциональных состояний
(настороженность и замкнутость, лицемерную любезность, развязность,
восторженно-прекраснодушное воодушевление и т.п.). Живое общение
людей (каким бы объективным профессионалом ни старался быть интервьюер) — это всегда вольный или невольный обмен эмоциями, который
создает различный фон в зависимости от ситуационного коммуникативного контекста, возникшего здесь и теперь в той или иной диаде (группе)
общающихся друг с другом людей. Автор книги убежден: все разговоры о
том, что «точнее всего понимаешь человека, когда посмотришь ему в глаза», как правило, лишь прикрывают стремление отстоять режим личной
власти над судьбами.
Соотношение эффективности формализованных и неформализованных процедур в области психодиагностики можно сравнить с ситуацией противостояния шахматиста и шахматной программы. Во введении
к этой книге мы уже прибегли к этой аналогии. Хотя гроссмейстеры
Глава 8. Социально-психологические проблемы внедрения тестовых систем 571
успешно конкурируют с шахматными суперкомпьютерами, средней
руки разрядники (не говоря про новичков и любителей) проигрывают хорошей компьютерной программе весьма устойчиво. Имеется в виду программа, которая опирается, например, на компьютерный банк отработанных дебютов. Ведь подобный дебютный репертуар выработал коллективный разум сотен и тысяч профессиональных шахматистов в течение всей
писаной истории шахмат.
Так получается и с тестами. Плохой тест может уступать среднему
интервьюеру, но хороший тест, прошедший психометрическую апробацию на сотнях испытуемых и показавший прогностическую валидность,
превосходит среднего одиночного интервьюера (подчеркнем здесь слово
«одиночного», так как коллектив интервьюеров всегда работает эффективнее). Особенно это касается многофакторных тестов. Сколько параметров
(характеристик) индивидуальности способен оперативно отслеживать
интервьюер? Опросы показывают, что в пределах 5—7 (что-то похожее на
магическое число 7+/-2?), (МАГИЯ? НЕПОНЯТНО) и в этом случае уже тестовая батарея из 12—16 факторных шкал дает значительное преимущество.
Более высокое положение в указанной таблице 6.2 занимает методика
«Ассессмент-центр» (МЦО), что вполне объяснимо как раз в логике совмещения тестов и экспертных оценок, о которой мы говорили в предыдущем параграфе: в нашем понимании в МЦО166 сочетаются методы тестирования и интервьюирования, плюс деловые игры с множественной экспертной оценкой (привлекаются независимые судьи, способные сообща
отследить больше параметров).
Почему же так вяло распространяется информация о низкой валидности интервью среди десятков тысяч интервьюеров? Причина проста и
банальна. Это те самые носители языка, которые, как и известный мольеровский персонаж, просто не догадываются, что «говорят прозой». Просто
не проводится массовых количественных исследований эффективности
прогноза на основе интервью, и большинство интервьюеров никогда не
участвовали и не понимают логику этих исследований (особенно в нашей
стране). Если в случае тестов в силу их количественной природы некоторым специалистам иногда приходит в голову мысль: «А не измерить ли
нам прогностическую валидность тестов?», то в случае интервью такая
идея самим интервьюерам практически никогда не приходит в голову.
Они не только оценивают эффективность своего метода «на глазок», они
просто ВЕРЯТ в свой метод и… не знают, как поступать иначе. Об архаическом, почти первобытном происхождении этой «веры» пойдет речь в
следующем параграфе, связанном с еще одной метафорой — с легендой о
«Вещем Олеге».
166 В нашей стране нередко МЦО сводится только к экспертным оценкам и не включает
никаких методик тестирования из-за отсутствия у ассессоров опыта использования таковых. — Прим. автора.
572
Практическая тестология
Выводы
Подводя итоги этого параграфа, еще раз подчеркну главный тезис:
нынешние дискуссии по поводу метода тестов, по моему убеждению,
часто оказываются непродуктивными из-за того, что участники дискуссии (причем неважно, сторонники это тестов или противники) не
вполне адекватно воспринимают статус теста как инструмента. Тест
является инструментом не только научного исследования, не только индивидуального консультирования и помощи, но и социальной
практики в малых и больших организациях. Большая часть недоразумений связана даже не с качеством (увы, подчас низким) разработанных тестов, но с их неправильным, неквалифицированным использованием. Значительная часть пользователей тестов в России до сих
пор руководствуется не технологическими, а можно сказать, мифологическими представлениями о возможностях тестов. Значимость тестовых результатов либо резко переоценивается, либо недооценивается, причем некоторые пользователи приписывают ответственность за
ошибки при тестировании разработчикам, не понимая, что, прежде
всего, они сами (!) несут ответственность за выбор и адекватное применение инструмента.
Тест — это оружие, и пользоваться им надо умело. Надо правильно заряжать это оружие и нацеливать в нужную сторону. Как нет универсального оружия, пригодного во всех ситуациях, так нет и универсальных тестов. Тест больше полезен, когда включен в контекст более широких процедур, использующих, кроме тестирования, экспертные оценки.
8.2. «ПЕСНЬ О ВЕЩЕМ ОЛЕГЕ»,
ИЛИ КОРНИ ОТВЕРЖЕНИЯ ТЕСТОВ
В чем причина такого обстоятельства, что некоторые вполне образованные специалисты устойчиво избегают метода тестов, предпочитая в
своей работе применять наблюдение, интервью, качественные, но никак
не измерительные методы?
Контекст, методика
и результаты исследования установок студентов
В этом разделе освещаются результаты многолетних исследований взаимосвязи между профессиональными установками студентов, обучавшихся у автора курсу тестологии, с одной стороны, и их
личностно-психологическими свойствами и мировоззренческими
Глава 8. Социально-психологические проблемы внедрения тестовых систем 573
представлениями — с другой. Это исследование явилось в некотором
смысле «побочным продуктом» педагогической деятельности автора — проведено в течение многих лет в ходе первой лекции по курсу
«Основы психодиагностики» в МГУ. Своей первой задачей мы считали обсуждение со студентами факторов, определяющих склонность
одних специалистов к использованию количественных тестовых
методик (психометрики), а других — к их устойчивому избеганию в
пользу так называемых «клинических методов» (оценочно-экспертных). Различение «тестовых» и «клинических методов» принято во
многих западных учебниках психодиагностики и в последнее время
нашло отражение также и в отечественных учебных пособиях (Анастази, 1982; Анастази, Урбина, 2001; Шмелев, 1996; Бурлачук, Морозов,
2000). Но мало кто из авторов задавался вопросом о том, в какой мере
подобные предпочтения связаны с личностными особенностями самих будущих психологов и тестологов, не уходят ли они корнями в
личностные ценностные установки и мировоззренческие представления, которые формируются под влиянием определенного уклада
семейного воспитания и социокультурной среды в целом. В данном
исследовании у автора возникла возможность совместить обсуждение
данного вопроса на лекционных занятиях с тестированием установок
и представлений у самих студентов.
В нашем случае речь идет о связи профессиональных предпочтений
именно с личностными качествами самих студентов. Более естественной в этом контексте может показаться гипотеза о связи отношения к
измерительной психодиагностике (психометрике) с уровнем развития
математических способностей (или так называемого «нумерического
интеллекта»). Эту связь можно было бы гипотетически объяснить так:
испытывая трудности в освоении математических понятий и методов,
часть психологов пытаются сформулировать мотивы (мотивировки) своих профессиональных предпочтений в логике своеобразной «психологической защиты»: «Я не использую количественные методики не потому,
что мне трудно их освоить, но потому, что они имеют существенные недостатки сами по себе». Но в данном исследовании не ставилось задачи
измерения у студентов уровня развития факторов интеллекта. Была поставлена задача выявления и обсуждения возможной связи между профессиональными предпочтениями и рядом отдельных, весьма компактных и отрывочных индикаторов личностных установок и представлений, которые можно было зафиксировать в ходе краткого устного опроса
студентов в лекционном зале. Ставилась задача «одним выстрелом убить
двух зайцев», достичь две цели:
А) показать личностную подоплеку профессиональных предпочтений,
Б) продемонстрировать студентам содержательный смысл статистического анализа ключей к тест-опроснику, то есть надежности-согласованности отдельных пунктов.
574
Практическая тестология
Методика
Опросы производились в 1992—2004 годах в ходе занятий по курсу «Основы психодиагностики» в МГУ со студентами 3-го курса дневного отделения и 4-го курса вечернего отделения. Автор предъявлял уже на первой
лекции прямо в аудитории тест-опросник, включавший 14 вопросов (см.
таблицу 8.1).
Предварительная инструкция испытуемым формулировалась таким
образом: «Вам предстоит ответить на 14 вопросов краткого шуточного
опросника. Каждый вопрос представляет собой суждение, с которым Вы
можете либо соглашаться, либо не соглашаться. Ваш балл по этому опроснику будет отражать ваши предпочтения в области психодиагностики.
Обратите внимание — ответ «верно» следует давать только в том случае,
если Вы согласны с утверждением полностью. Если Вам кажется, что суждение состоит из двух различных частей, но только с одной из них Вы согласны, то в этом случае следует указать ответ «неверно»».
Испытуемые проставляли в бумажных протоколах значок «+», если соглашались с суждением, и значок «–», если не соглашались. Текст вопросов предъявлялся в большой аудитории на экране с помощью системы
компьютерной презентации MS PowerPoint. Лектор также дублировал
зрительное предъявление голосом — зачитывал для студентов текст суждений.
Каждый год первую лекцию посещали не менее 70 студентов, а в последние годы — более 100. Таким образом, общее число испытуемых за 20
лет приблизилось к 1500 человек (!). По своему половозрастному составу
выборка испытуемых соответствует параметрам, характерным для студентов психологического факультета МГУ, — от 70 до 80 процентов женщин, возраст — от 19 до 30 лет (с медианой около 21 года).
Заслуживает специального упоминания обстановка во время проведения опроса. Сразу после предъявления 10-го вопроса в аудитории раздавался смех, так как данный вопрос воспринимался студентами как
своеобразное юмористическое отступление от темы, как нарочитое отклонение от серьезного тестирования самих профессиональных предпочтений. На этом фоне было тем более важно немедленно показать студентам
(с помощью статистического анализа прямо на лекции), что вопросы 10—14
введены в опросник неслучайно и обладают статистической корреляцией
с вопросами 1—9.
Результаты
Статистические результаты, накопленные за 1992 — 2004 годы, мы изложили в нашей статье, опубликованной в журнале «Вестник Московского
университета. Психология» в 2004 году (Шмелев, 2004). В таблице 8.1 мы
Глава 8. Социально-психологические проблемы внедрения тестовых систем 575
добавили к этим результатам сведения по тому же самому набору вопросов за 2008 — 2012 годы. Особенность сбора данных в эти последние годы
заключалась в том, что в опросе приняли участие не только студенты,
посещавшие первую лекцию (это главным образом организованные студенты, мотивированные на учебную деятельность), но и студенты, которые не были на первой лекции, но проходили опросник уже в заочном
онлайн-режиме — со своей индивидуальной веб-страницы в системе HTLINE. Особенности этой второй выборки выразились в том, что она оказалась просто больше и разнообразней по составу. Это привело к тому, что по
многим вопросам тест-опросника в эти последние годы проявилась еще
более высокая корреляция ответов с суммарным баллом (см. графу «фикоэффициент» в таблице 8.1).
ФиКорреляция
2008 — 2012
(n=482)
% «верно»
ФиКорреляция
% «верно»
2002 — 2004
(n = 80)
№
Текст утверждения
Ключ
1
Мне кажется, что результаты исследовательской работы, выраженные числом,
дают более достоверные знания о
человеке.
+
32
+0,18
41
0,39
2
Точные науки и психология — методы
познания человека, которые противоречат друг другу.
-
20
-0,45
18
-0,38
3
В психологической диагностике решающий элемент — интуиция психолога.
-
30
-0,35
30
-0,42
4
Нагромождение цифр в научных отчетах призвано, прежде всего, придать
видимость научности и, как правило,
подменяет собой проникновение в психологическую сущность проблемы.
-
31
-0,51
28
-0,50
5
Проективные методы, предусматривающие анализ спонтанного свободного
поведения испытуемого, его фантазии,
более эффективны, чем клишированные тестовые методики, подгоняющие
всех под одну гребенку.
-
50
-0,36
53
-0,51
6
Чтобы предсказать поведение человека,
нужно понять его переживания, его
внутренний мир, а не сравнивать его
с некоторой типовой отвлеченной социальной нормой.
-
68
-0,22
59
-0,56
Практическая тестология
2008 — 2012
(n=482)
ФиКорреляция
ФиКорреляция
% «верно»
2002 — 2004
(n = 80)
% «верно»
576
№
Текст утверждения
Ключ
7
Только объективное сравнениерезультатовданного испытуемого с результатами
других испытуемых позволяет надежно
предсказывать поведение человека.
+
25
+0,16
44
0,42
8
Часто мне кажется, что математические
методы совсем не пригодятся мне в
моей будущей работе.
-
23
-0,38
25
-0,53
9
Я люблю работать на компьютерах
и думаю, что они полезны в работе
психолога.
+
75
+0,37
76
0,50
10
К обеду надо брать столько хлеба,
сколько ты рассчитываешь съесть, и я
испытываю легкое чувство вины, если
бросаю недоеденные куски.
+
63
+0,34
73
+0,30
11
Родители не должны бояться избаловать детей, если они хотят, чтобы у них
выросла творческая личность.
-
17
-0,40
20
-0,29
12
Я не согласен с тем, что Вещий Олег
действительно принял смерть «от коня
+
своего» и предсказание волхва сбылось.
47
+0,25
50
+0,34
13
Астрологический прогноз сбывается
только благодаря внушаемости испытуемого.
+
68
+0,36
78
+0,22
14
Хиромантия, физиогномика, толкование
сновидений могут давать очень часто
более точную и глубокую информацию
о человеке, так как основаны не на предрассудках, а на многовековом опыте.
-
12
-0,42
18
-0,28
Таблица 8.1. Перечень суждений тест-опросника «Вещий Олег» с указанием
ключей и корреляций каждого пункта с суммарным баллом (см. детальные
пояснения в тексте).
На каждой лекции обработка результатов начиналась немедленно после завершения опроса. Студенты сами подсчитывали свои суммарные
баллы по ключу, который сообщался им прямо на лекции (см. таблицу 8.1).
Затем путем подсчета поднятых рук лектор получал распределение сырых тестовых баллов. С помощью MS Excel распределение строилось в табличной и графической форме (гистограмма) на глазах у студентов. После
этого выделялись так называемые крайние группы: «высокая» (примерно
Глава 8. Социально-психологические проблемы внедрения тестовых систем 577
30 процентов испытуемых с более высокими сырыми баллами) и «низкая
(примерно 30 процентов испытуемых с более низкими сырыми баллами).
Это давало возможность немедленно начать строить четырехклеточные
таблицы для «неожиданных» тестовых пунктов под номерами 10—14. Вот
как выглядели четырехклеточные таблицы для крайних групп, в частности, в 2004 году:
№10
Верхняя
Нижняя
Верно
11
5
Неверно
5
13
Ф =0,41*
№11
Верхняя
Нижняя
Верно
1
5
Неверно
15
13
Ф =-0,28
№12
Верхняя
Нижняя
Верно
11
3
Неверно
5
15
Ф =0,53**
Хи-квадрат=5,71
>
3,84
Хи-квадрат=2,70
<
3,84
Хи-квадрат=9,49
>
6,63
Таблица 8.2 (а, б, в). Примеры четырехклеточных таблиц для личностных и
мировоззренческих вопросов с оперативным подсчетом коэффициентов корреляции (прямо во время лекционных занятий).
Напомним, что фи-коэффициент Гилфорда определяется для четырехклеточных таблиц по следующей формуле (она же приводится в главе 4
как формула 4.15):
,
578
Практическая тестология
где a, b, c, d — клетки таблицы сопряженности, перечисленные слева
направо и сверху вниз:
Верхняя
Нижняя
Верно
А
В
Неверно
С
D
Значимость фи-коэффициента определяется с помощью критерия Хиквадрат по формуле:
Хи-квадрат = Phi2 * (a+b+c+d).
Граничное значение критерия Хи-квадрат с одной степенью свободы
для уровня ошибки p<0,01 равно 3,84, а для уровня ошибки p<0,01 — 6,63.
Как видим, выявлены значимая связь ответа на вопрос 10 с попаданием в крайние группы на уровне вероятности ошибки p<0,05. Содержательно это означает, что испытуемые из высокой группы (с позитивной
установкой на психометрику) значимо чаще отвечают, что они «бережно
относятся к хлебу». Вопрос №11 в 2004 году оказался неинформативным —
слишком мало студентов дали утвердительный ответ, поэтому значимой
связи с попаданием в крайние группы здесь обнаружено в этот раз не было
(хотя на огромной совокупной выборке за все годы эта связь, конечно, оказалась статистически значимой). А для вопроса 12 эта связь даже на занятиях в 2004 году достигла уровня высокой надежности p<0,01.
Следует сделать специальную оговорку, что указанные выше фикоэффициенты, подсчитанные прямо на занятиях, оказываются несколько завышенными (в среднем на 0,12), так как в условиях расчетов в аудитории в суммарном балле каждого испытуемого присутствует в неявном
виде вклад того самого пункта, с которым рассчитывается корреляция.
Но данное огрубление не снижает кардинальным образом статистической значимости выявляемой связи. Это легко видеть по результатам,
представленным в таблице 8.1. В этой таблице представлены результаты
сводной обработки данных трех лет — 2002, 2003 и 2004. В этом случае
производилась компьютерная обработка с устранением артефактного
вклада в суммарный балл самого пункта. При 80 наблюдениях в таблице фи-коэффициент достигает значимости при значении выше 0,22 по
модулю. В последующие 2008 — 2012 годы мы получили значимые фикоэффициенты, разумеется, для всех пунктов опросника.
Как видим, не достигли уровней значимости только 2 пункта из 14,
причем относящиеся к первой части опросника, то есть как раз относительно более «прямые» по контенту — непосредственно направленные на
измерение профессиональных установок. В то же время все «косвенные»
вопросы 10—14 достигли уровня значимости так же, как и в прежние годы.
Снижение согласованности-надежности ряда пунктов опросника в 21-м веке следует объяснить изменениями в установках студентов,
Глава 8. Социально-психологические проблемы внедрения тестовых систем 579
которые можно проследить на рис.8.1. На этом рисунке мы видим гистограммы распределения сырых (первичных) тестовых баллов для четырех различных лет с интервалом в четыре года (условный «олимпийский
цикл»). По этому рисунку видно, что в течение 12 лет произошел определенный сдвиг в сторону более высоких значений, а также сокращение
дисперсии по тесту (распределение сжалось, «хвосты» подтянулись к центру распределения — к медиане). Один из признаков сокращения разброса в суждениях также приводится в таблице 8.3: по ряду вопросов среди
студентов в новом 21-м веке возникло определенное единодушие, которого
не было в 90-е годы. Например, почти 90 процентов студентов ныне выражают сомнение в информативности хиромантии и физиогномики (см.
относительную частоту ответов «верно» на вопрос 14).
Год
1992
1996
2000
2004
2008
2012
Средний балл
6,4
7,24
7,41
7,9
9,02
9,32
Стандартное отклонение
2,6
2,15
1,9
1,77
2,31
2,45
Таблица 8.3. Соотношение средних и стандартных отклонений первичных
(сырых) баллов по годам.
Рис.8.1. Соотношение средних баллов по годам.
Из содержания таблицы 8.3 видно, что до 2004 наблюдались 2 устойчивые тенденции: а) сдвиг среднего значения в сторону более высоких баллов, б) сокращение дисперсии. Последнее означает, что сокращается число
580
Практическая тестология
студентов с резковыраженными, полярными установками. В 2008—2012
гг. изменились, как мы уже отмечали выше, принципы формирования
выборки, поэтому дисперсия опять возросла, что и привело к росту корреляций для отдельных пунктов — крайние группы стали психологически
более контрастными. А вот тенденция роста среднего балла сохранялась
все годы, что наиболее наглядно видно из столбцовой диаграммы на рисунке 8.1.
Интерпретация: гипотеза «пралогического мышления»
Полученные данные свидетельствуют о том, что опросник, сконструированный нами сугубо для иллюстративно-дидактических целей, год
от года демонстрирует ряд достаточно нетривиальных закономерностей.
Сам по себе факт наличия согласованности первых 9 вопросов, подтверждающий существование профессиональных установок, трудно назвать
нетривиальным. Это вполне ожидаемый результат, который никаких усилий по интерпретации не требует.
Более интересный и неожиданный факт заключается в том, что в шкалу профессиональных установок вполне органично «встраиваются» со
значимыми корреляциями вопросы, которые никак не отнесешь к профессиональным установкам. Возьмем вопрос №10 и постараемся понять,
что скрывается за этой связью между приверженностью к измерительным
методикам, с одной стороны (направленность основного пула вопросов), и
«бережным отношением к хлебу», с другой стороны. Автор исследования
склонен видеть в этом проявление такого общего личностного фактора, который в рамках известной системы вторичных факторов Р. Кэттелла называется «Кортикальный контроль», а в рамках системы факторов «Большая пятерка» –»Сознательность» (см. Первин, Джон, 2000; Шмелев, 2002).
Студенты-психологи, обнаруживающие приверженность к психометрической диагностике, по-видимому, отличаются более высокой социализированностью, в частности, склонностью к планированию, организованностью, пунктуальностью, уважением к правилам и регламенту. Именно эта
общая тенденция и проявляется в такой, казалось бы, малозначимой житейской мелочи, как бережное отношение к хлебу. В то же время студенты
с выраженным неприятием психометрики, со склонностью к импровизационно-интуитивистским методикам проявляют меньшее уважение к
социальным нормам и общепринятым ценностям, к правилам поведения
и регламенту, то есть они характеризуются определенной «недосоциализированностью», а, иными словами, «инфантилизмом» и такими сопутствующими инфантилизму чертами, как «импульсивность», принятие
решения на основе эмоций, а не на основе рассудка (по «принципу удовольствия»).
Это предположение подкрепляется вопросом №11. Хотя в последние годы ответ «верно» на этот вопрос дает незначительное число студентов, тем не менее, так чаще отвечают студенты с приверженностью к
Глава 8. Социально-психологические проблемы внедрения тестовых систем 581
нестандартизированным методам. Именно эти студенты склонны защищать такую модель семейного воспитания, которая допускает потакание
прихотям ребенка. В то же время студенты, приверженные психометрике, не считают, что формированию творческой личности вовсе не угрожает строгое семейное воспитание, основанное на высокой требовательности к ребенку со стороны родителей. В терминах З. Фрейда мы можем
говорить о более высоком развитии у психометристов того, что в психоанализе принято обозначать как «Супер-Эго».
Тут же, правда, хотелось бы подчеркнуть, что автор не оценивает приверженность психометрике однозначно положительно, а ее отвержение —
однозначно негативно. Нет, при чрезмерной выраженности установки на
психометрику, по-видимому, гармоничность профессиональных предпочтений также снижается. Автор искренне полагает, что тестологам лучшую службу может сослужить гармоничная установка, или «здоровая
эклектика», допускающая одновременное использование и стандартизированных тестов (психометрических методик), и экспертных методов. Отрицание полезного значения проективных методик или таких нестандартизированных методик, которые базируются, так или иначе, на живом
общении психолога с испытуемым, — это тоже крайность. Эта крайность
ведет к профессиональной узости и неадекватному, непрофессиональному поведению в определенных профессиональных ситуациях. Именно
такую позицию автор пытается привить студентам на лекциях.
Но… особого внимания на этом фоне заслуживает вопрос №12. Именно при обсуждении этого вопроса и его связей с интегральной шкалой
каждый год разгорается весьма оживленная дискуссия лектора со студентами. Этот вопрос приобрел такую особую смысловую значимость
при обсуждении результатов, что описанный здесь опросничек даже получил метафорическое название «Вещий Олег». Дело в том, что каждый
год примерно половина студентов не признает, что Олег «принял смерть
от коня», а вторая половина считает, что все-таки принял именно от
коня, и тем самым предсказание-таки сбылось. Таким образом, несмотря на то, что практически все студенты хорошо помнят это программное школьное произведение А.С. Пушкина, они совершенно по-разному
интерпретируют смысл основного события и тем самым смысл всего
произведения.
Каковы же доводы сторон? Назовем эти стороны в дальнейшем для
простоты «сторонники волхва» и «противники волхва». Надо отметить,
что некоторые «сторонники волхва» демонстрируют свою позицию весьма бурно еще до всякого статистического анализа — при заслушивании
самого утверждения. Само утверждение №12 для рьяных сторонников
звучит весьма кощунственно. В аудитории иногда раздавались протестные возгласы: «Вы разрушаете поэтический образ!», «Это же метафора, а не
физический факт!» и тому подобное. «Противники волхва» формулируют
свою позицию так: «В строгом смысле коня как живого существа в момент
582
Практическая тестология
смерти Олега уже не существовало, а змею, которая выползла из-под черепа и укусила Олега, нельзя считать конем».
Это очень интересная дискуссия сама по себе, которая, очевидно,
затрагивает важнейшие архаические (парадигмальные) мировоззренческие представления. Можно выстроить цепочки самых изощренных систем интерпретации как «про», так и «контра», но лучше выведем эти увлекательные построения в примечание 167. Здесь же давайте
сконцентрируемся на подтверждаемой нами КАЖДЫЙ ГОД устойчивой связи: те, кто верит в предсказание волхва 168, имеют профессиональную (а скорее допрофессиональную!) установку на предпочтение
интуитивистских методов, а приверженцы более строгой психометрики в предсказание, как правило, не верят (хотя и в этом случае,
как всегда, встречаются исключения из общего правила). Что же позволяет нам объяснить именно эту статистическую закономерность?
Может быть, психометристы просто являются носителями более аналитического, рационального мышления и материалистического мировоззрения, а интуитивисты-клиницисты — носителями более синтетического, иррационального мышления и идеалистического мировоззрения?
167
Во-первых, против «сторонников волхва» выдвигается аргумент о том, что их мышление
является не вполне аналитически-концептуальным, а подвержено образованию и влиянию
образно-эмоциональных синкретов и комплексов. Именно в силу этого под впечатлением
от смерти Олега (результата его встречи со скелетом умершего коня) «сторонники волхва»
не разделяют «коня» и «змею». Оба эти понятия сливаются в их сознании по принципу пространственно-временной смежности, и в целом при этом, с их точки зрения, предсказание
волхва «зловеще сбывается». В таком контексте мышлению сторонников приписывается
«пралогичность» (в терминах известного трактата Леви-Брюля, посвященного особенностям мышления примитивных народов, находящихся на этапе «детства человечества»). Но
эта интерпретация, примитивизирующая мышление «сторонников», сталкивается с другой интерпретацией, которая, наоборот, возвышает мышление «сторонников» на вершины
психологизма. Ведь можно предположить, что волхвы имели в виду не физического коня, а
психологический образ коня в сознании Олега, которые продолжал жить после смерти физического коня, ибо Олег продолжал вести полемику и с волхвами, и с образом коня. В этом
смысле получается, что волхвы оказались правы в том, что именно образ коня, заряженный
зловещей эмоциональной притягательностью, привлек Олега к месту его гибели. Сторонники такой интерпретации событий, описанных Пушкиным, пылко утверждают, что именно
в таком психологизме заключен поучительный смысл, вложенный гениальным творцом в
это хрестоматийное произведение.
168 Ярчайший пример манипуляции сознанием и поведением человека со стороны мудреца, забавляющегося шокирующими сценариями, дан в романе Дж. Фаулза «Волхв». Может
быть, в силу популярности этого термина мы называем в контексте данной статьи пушкинского персонажа-кудесника именно «волхвом». Впрочем, если обратиться к тексту пушкинской баллады, то он и сам так себя называет: «Волхвы не подвластны…». В этих словах
пушкинский кудесник подчеркивает свою претензию не только на поведенческую независимость от власти князя, но и на определенное интеллектуальное превосходство.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 583
Возможно, но… по убеждению автора, такое объяснение было бы
слишком простым. Важнее докопаться до более глубинных оснований
этих разногласий. А они лежат, видимо, в сфере различных представлений о сути того, что мы называем «предсказанием». «Если бы не было
предсказания, Олег бы не искал уже умершего коня!» — категорически заявляют «сторонники волхва», но тут я задаю на лекции вопрос
о том, а что такое «предсказание» вообще? Существует ли какая-то разница между «предсказанием» и «пророчеством»? Тут же выясняется,
что к третьему году обучения в университете у очень многих студентов просто не сформировано представление о том, что такое «научный
прогноз» или «объективный прогноз». Ведь в отличие от пророчества
«научный прогноз» (или научное предсказание) вообще не должно оказывать прямого информационного воздействия на прогнозируемое поведение человека. Если бы кудесник сформулировал научный прогноз,
то он не должен был бы вообще сообщать Олегу его содержание, но должен был бы запечатлеть свой прогноз в виде какого-то текста на бумаге,
спрятанной в определенную капсулу, запертую, в свою очередь, в крепком сундуке (помещенную в банковскую ячейку, как сказали бы в наше
время). Теперь зададимся вопросом: «Стал бы Олег вести себя так, как
он повел себя, если бы сам не был бы знаком с пророчеством волхва?».
Следовательно, пророчество волхва просто нельзя считать предсказанием, это было фактически так называемое «самосбывающееся пророчество».
По нашему убеждению, психологу-диагносту (или тестологу) как ответственному профессионалу категорически необходимо знать и понимать механизм действия «самосбывающегося пророчества», так как
сплошь и рядом психолог, сообщая психодиагностические результаты испытуемому, рискует запустить в его мозгу определенную программу поведения, которая может причинить вред самому испытуемому. Деятельность ответственного психолога-профессионала ни в коем случае не должна превращаться в «волхвование»: в утверждение собственной значимости
и особой «прозорливости» благодаря механизму «самосбывающегося пророчества». Что произошло с Олегом? Он был «запрограммирован». Нередко
волхвы ловко прикрывают злокачественный характер своего пророчества
обманчивой маской «заботы о пациенте»2. В тщетной попытке противопоставить пророчеству волхва определенный «антисценарий» Олег на самом
деле бессознательно содействовал формированию обстоятельств собственной гибели.
В логике теории личностных конструктов Дж. Келли (Келли, 2000)
«верный конь» превратился в сознании Вещего Олега в определенный
сверхзначимый образ-интроект, обладающий притягательной магнетической силой даже после смерти реального коня. Да, пророчество,
сообщенное людям, обладает огромным суггестивным, программирующим потенциалом, но из этого вовсе логически не следует, что мы
584
Практическая тестология
имеем дело с корректным, объективным научным предсказанием.
Гений Пушкина подсказал ему кульминацию сюжета, которая коренным образом отличается от нынешних дешевых мистических фильмов
ужасов 169. В нынешнем низкопробном голливудском «шедевре», скорее
всего, события развивались бы таким образом: именно скелет коня демоническим образом ожил бы, раздулся бы до размеров Годзиллы или
Кинг-конга и подмял бы под себя, просто раздавил бы крошечного и
беспомощного Олега. Но А.С. Пушкин элегантно, с удивительной для
поэта аналитичностью описал вполне правдоподобное событие: укусил
Олега все-таки не скелет коня, но змея. И как бы нас при этом ни поражало зловещее совпадение, в материалистическом смысле слова Олег
принял смерть все-таки не от коня, хотя образ-интроект именно этого
коня явился, по-видимому, главной причиной неосторожного поведения Олега.170
Итак, проведенный анализ результатов выявил следующие факты:
1) Высокая статистическая согласованность ответов испытуемых на разные вопросы опросника доказывает, что существует единый фактор,
который может быть проинтерпретирован как «Предрасположенность
к использованию психометрических (тестовых) или клинических (экспертных) оценочных и психодиагностических методов».
2) Обнаруженная статистическая согласованность вопросов, затрагивающих личностные установки и мировоззренческие представления,
позволяет сделать вывод о том, что корни профессиональной предрасположенности заключены в личностной сфере, отражают особенности
индивидуальности самого носителя этих установок.
3) Обнаружена определенная зависимость средних значений и дисперсии выявленного фактора от культурно-исторических условий формирования мировоззрения личности.
Можно предположить, что социокультурный контекст России 90-х годов — явный кризис научных ценностей и рационально-научного истолкования действительности, доминирование в массовой культуре иррациональных настроений (о чем говорит засилье астрологов и колдунов даже
на центральных каналах телевидения) — создавал тот фон, на котором
169
Филологи и историки, по-видимому, знают точнее, в какой степени данная концовка
изобретена самим Пушкиным, а в какой — заимствована им из так называемой «львовской
летописи», которую литератор использовал как источник, но в нашем контексте это не так
важно.
170 Элегантный вариант сбывающегося пророчества присущ еще всем древнегреческим мифам, в которых герой бежит от предсказания и тем самым приближается к нему (будь то
Зевс, спрятанный своей матерью Реей, вскормленный молоком божественной козы и впоследствии свергнувший своего отца Кроноса, как и было предсказано, или пресловутый
Эдип, изгнанный и воспитанный приемными родителями, а потом-таки по незнанию женившийся на своей матери). — Прим. науч. редактора.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 585
возникала особенно благоприятная почва для развития у студентов-психологов установок на отвержение научных методов.
Проведенное исследование не только снимает ряд вопросов, но, повидимому, ставит новые вопросы — более значимые, чем проясненные.
А что будет, если подобный опрос провести не среди студентов, а среди
действующих дипломированных специалистов? Сколько из этих специалистов (психологов) найдется «сторонников волхва», которые фактически скатываются в своей профессиональной практике к «волхованию», к
использованию механизма «программирующего диагноза» и нарушению
всех профессионально-этических заповедей исключительно собственной
корысти ради (или собственной потехи ради)? И каким способом организовать обучение студентов-психологов в университете так, чтобы они
научились все-таки устойчиво отличать «ученых» и «волхвов», чтобы они
были сами свободны от впечатлительной притягательности иррациональных представлений — мифологических и пралогических по своему механизму?
Форма и способ представления тестовой информации
Близкие по своей направленности исследования были проведены под
нашим руководством в экспериментах А.С. Науменко, направленных на
выявление связи между предпочтением формы представления тестовой
информации и некоторыми особенностями пользователей тестов. Выяснялись эффекты двух параметров: а) качественная (текстовая) или количественная (графико-цифровая) форма представления информации, б) способ описания — в терминах личностных черт или в терминах компетенций (Науменко, 2007). В экспериментах участвовали профессиональные
рекрутеры (специалисты по подбору персонала), а также интернет-испытуемые — любители самотестирования и просто автолюбители. Выяснилось, что качественную форму предпочитают пользователи женского пола
и более старшего возраста, тогда как мужчины и рекрутеры младшего возраста предпочитают количественную форму. Возможно, что эффект возраста на самом деле является эффектом возрастной когорты (то есть нынешние молодые сохранят это предпочтение и в более старшем возрасте),
но это лишь предположение. Способ описания (черты или компетенции)
больше сказывается не в случае обратной связи самому испытуемому, а
именно при принятии профессионального решения рекрутером — для
принятия решения более эффективным способом описания оказываются компетенции, чем черты. Таким образом, распространение тестовой
культуры зависит во многом от соответствия формы и способов представления тестовой информации особенностям когнитивного стиля аудитории. Одно дело — студенты и преподаватели технических вузов, другое —
гуманитарии.
586
Практическая тестология
8.3. ЛИЧНОСТНАЯ ТРЕВОЖНОСТЬ, ЭКЗАМЕНАЦИОННАЯ
ТРЕВОЖНОСТЬ И ТЕСТИРОВАНИЕ
Проблемный контекст
Несмотря на то, что на уровне обыденных и умозрительно-теоретических рассуждений вокруг компьютерной формы экзамена немало разговоров
(в том числе основанных на страхах и предубеждении), практически крайне
мало экспериментально-психологических данных о том, какие психические
свойства и личностные качества студентов востребованы при данной форме
контроля, какие помогают, а какие мешают показать высокие результаты.
При такой инновационной форме экзамена студенты находятся в принципиально других условиях по сравнению с традиционными формами контроля,
и логично предположить, что для успешного прохождения экзамена в разных формах требуются различные психологические качества и способности.
Кроме этого, как выясняется, в современной литературе также крайне мало
эмпирических исследований факторов успешности прохождения экзамена
(даже в традиционной форме, не говоря про более редкую тестовую форму),
хотя многие авторы признают, что получение высокой оценки зависит не
только от знаний и уровня подготовки, но и от других факторов.
Как мы писали в главе 7, на факультете психологии МГУ уже не первый год (первые эксперименты начались еще в 2003 г.) государственный
экзамен проводится как в традиционной, так и параллельно в компьютеризированной форме. Внедрение компьютеризированной формы контроля, как и внедрение любой инновации, сталкивается с сопротивлением —
высказываются опасения, что непривычная форма экзамена является
гораздо более стрессогенной, что особенно негативно сказывается на эмоционально неустойчивых студентах и требует психологического сопровождения. В работе, выполненной под нашим руководством М.А. Болсиновой, была поставлена цель прояснить взаимосвязь между индивидуально-личностными особенностями студентов и успешностью прохождения
экзамена в разных формах (Болсинова, Шмелев, 2010).
Ключевым понятием работы было выбрано понятие «сравнительная
успешность», определяемое как разность оценок (переведенных в единую
традиционную шкалу) при разных формах экзамена для одного и того же студента. В исследовании проверялась соответствующая обыденным представлениям гипотеза, о том, что студенты, характеризующиеся более высокой
тревожностью и эмоциональной неустойчивостью, демонстрируют меньшую сравнительную успешность в компьютеризированном тестировании,
чем при традиционном экзамене (логика, стоящая за этой гипотезой, вполне понятна,— «больше пугает новое, чем старое»). В качестве альтернативной
рассматривается гипотеза о том, что компьютеризированная тестовая форма
скорее вызывает опасения на субъективном уровне — по механизму страха
Глава 8. Социально-психологические проблемы внедрения тестовых систем 587
перед любой инновацией, а фактические результаты, то есть фактическая
сравнительная успешность, не зависит от уровня тревожности студентов.
Вообще любой экзамен как процесс оценивания является для учащихся
ситуацией значимой и часто стрессовой, требующей больших физических
и психических затрат. Среди немногих исследований, посвященных выявлению факторов успешности прохождения экзамена, встречаются такие,
в которых, например, утверждается, что традиционный устный экзамен
имеет определенные преимущества для лиц, склонных к демонстративным формам поведения. Уровень эмоционального напряжения на традиционном экзамене у них несколько ниже, чем на тестовом, а экзаменационные оценки выше. По-видимому, лицам, склонным к демонстративному
поведению, необходим контакт с другими людьми в стрессовой ситуации,
и в процессе общения они обретают уверенность и могут «подать себя» в достаточно выгодном свете, чтобы повлиять на окончательную оценку своих
знаний (Ротенберг, Бондаренко, 1989). Кроме того, устный экзамен можно
рассматривать как социально-ролевое и межличностное взаимодействие
(Кобцева, 2001). Экзаменационная успешность в этом случае зависит от
уровня усвоения соответствующих социальных ролей, моделей социального и межличностного взаимодействия, а также от сформированности коммуникативной компетентности — уровня владения вербальными и невербальными средствами коммуникации, степенью понимания партнера по
общению, умением прогнозировать его реакции и исход взаимодействия.
Многие исследователи отмечали, что достоинством традиционной формы
«экзамена по билетам» является возможность подготовки к ответу в течение значительного времени. Некоторым студентам требуется определенное
время для «врабатывания» (вникания в тематический контекст, связанный
с билетом), и они не могут сразу же отвечать. За отведенное время учащийся может тщательно обдумать ответы на поставленные вопросы, построить
план выступления, продумать вероятные сложности и возможности их
обойти. Есть возможность психологически настроиться на общение с экзаменатором. Нельзя не учитывать и то, что в период подготовки есть достаточно времени (при недостаточном контроле за поведением сдающих экзамен), чтобы воспользоваться шпаргалкой или попросить помощи у других
студентов (что, конечно, зависит от позиции самих экзаменаторов, их активности и ответственности). В этом проявляется недостаточная защищенность самой процедуры устного экзамена от фальсификаций, то есть в терминах практической тестологии мы говорим в этой книге о потенциально
низкой достоверности данной диагностической (оценочной) процедуры.
При тестовой форме контроля нет необходимости развернуто эксплицировать свои знания. Эта особенность экзамена является благоприятной для студентов с высокой личностной тревожностью: личностная
тревожность учащихся оказывает большее влияние на результаты таких
экзаменов, где надо дать развернутый ответ на вопрос, чем на результаты
тестов с выбором варианта ответа (Анастази, Урбина, 2006). Очевидно, что
588
Практическая тестология
подобные сведения из литературных источников свидетельствуют скорее
в пользу альтернативной, чем в пользу основной гипотезы.
А вот жесткие ограничения во времени (в том числе времени для врабатывания) можно рассматривать как главное основание в пользу проверяемой
гипотезы: фактором снижения успешности для высокотревожных испытуемых в компьютерном тестировании может служить известная стрессогенность любых «тестов на скорость». Компьютеризированное тестирование может быть сложным и для студентов с инертной нервной системой, поскольку
для них представляет трудность быстрое активное включение в работу, необходимость работы с разнообразным материалом, ограничение во времени и высокий темп работы (Смирнов, 1995). В условиях дефицита времени и
необходимости быстрого переключения также сложно работать студентам
со слабой нервной системой. Но небольшая относительно других форм контроля длительность экзамена и отсутствие необходимости ожидать своей
очереди будут для этих же студентов позитивными факторами. Есть данные
о том, что тестовый экзамен в отличие от традиционного сопровождается менее выраженными вегетативными сдвигами, и они носят качественно иной
характер, свидетельствуя о реакции мобилизации (то есть о продуктивном
эмоциональном напряжении). Лица с высокой личностной тревожностью испытывают на тестовом экзамене меньшее эмоциональное напряжение и, соответственно, получают более высокие оценки (Ротенберг, Бондаренко, 1989).
Во время тестового экзамена (особенно с жестким компьютерным контролем времени на каждое задание) возникает необходимость быстро переключаться с одного контекста на другой, поскольку вопросы теста охватывают все разделы пройденного материала. Это предъявляет определенные требования к гибкости мышления и переключаемости «смыслового»
внимания (апперцептивной активности по актуализации материалов из
семантической памяти).
Таким образом, теоретический анализ оставляет дискуссионным
вопрос о том, какая из форм экзамена является более сложной для более
тревожных, менее стрессоустойчивых студентов. Компьютеризированная форма контроля, с одной стороны, не требует взаимодействия с экзаменатором, то есть лицом, принимающим решение о благоприятном или
неблагоприятном исходе экзамена, развернутого изложения материала и
определяется четкими правилами и регламентом. С другой стороны, высказываются опасения, что тестовая форма контроля в силу непривычности и ограничений во времени является неподходящей и даже травмирующей для эмоционально неустойчивых, тревожных студентов (Кринчик,
2009). Однако надежных экспериментально-психологических данных,
подтверждающих эти опасения, нет.
В контексте проведенного исследования мы посчитали необходимым различать тревожность как устойчивую индивидуально-личностную
черту и экзаменационную тревожность как особую ситуационно-специфическую характеристику. В метааналитическом исследовании Р. Хембри
Глава 8. Социально-психологические проблемы внедрения тестовых систем 589
рассматривалось 562 исследования, проведенные в Америке и посвященные
изучению причин, эффектов, коррелятов экзаменационной (тестовой) тревожности (Hembree, 1988). Сделан вывод о том, что экзаменационная тревожность отрицательно коррелирует (умеренно) с результатами широкого спектра оценочных процедур академических достижений и способностей как в
школе, так и в вузе. При этом корреляция более выражена для компонента
тревожности, связанного с волнением и беспокойством, а не с вегетативными реакциями. Разные формы контроля имеют особенности, которые могут
как способствовать, так и мешать более успешному прохождению экзамена.
Это влияние определяется индивидуально-психологическими особенностями экзаменующихся. Мы провели собственные эмпирические исследования
для прояснения характера связей между индивидуально-психологическими
особенностями, формой контроля и успешностью сдачи экзаменов.
Организация и методы исследования
Наше исследование было реализовано на материале государственного
экзамена, проводимого на факультете психологии МГУ в 2008—2010 гг. Несмотря на некоторые различия в схеме проведения экзамена, общим в процедуре было совмещение традиционной (устный экзамен в 2008 и 2009 гг.;
письменный экзамен и устное собеседование в 2010 г.) и компьютеризированной формы контроля. Сама возможность для нашего исследования возникла вследствие выполнения студентами факультета психологии особого
задания в рамках общего практикума по курсу «Основы психодиагностики», в ходе которого каждый студент потока должен был пройти ряд тестов в
позиции испытуемого и построить по результатам этого тестирования собственный «Психодиагностический автопортрет». Эти результаты, полученные на выборке студентов 3-го курса (то есть за 2 года до выпускного экзамена), и послужили эмпирической базой данного исследования.
По результатам госэкзамена 2008—2009 гг. были проанализированы
связи между так называемой сравнительной успешностью сдачи госэкзамена традиционного устного и компьютеризированного тестового и определенными психологическими качествами студентов. Были выявлены
важные связи сравнительной успешности с определенными факторами
диагностической системы MMPI, а также с результатами известного экспресс-теста креативности «Круги Торранса». Как оказалось:
1) студенты, которым свойственна социальная интроверсия (высокий
балл по шкале Si), лучше справляются с компьютеризированным тестированием, а экстраверты — с устным экзаменом;
2) более высокие оценки на компьютеризированном экзамене получают
студенты с низкими показателями по факторам активности и оптимизма (шкала Ma), а также импульсивности (шкала Pd);
590
Практическая тестология
3) по результатам теста «Круги Торранса» выявлена положительная связь
между беглостью и оригинальностью мышления и успешностью прохождения экзамена в компьютеризированной форме.
В исследовании 2010 г. была проверена устойчивость этих результатов
на новых студентах-выпускниках, а также расширен круг методик диагностики индивидуальных особенностей студентов.
В 2010 г. государственный экзамен на факультете психологии МГУ состоял из 3 частей:
1) компьютеризированное тестирование по общей психологии (60 вопросов с четырьмя вариантами ответов по 6 темам в течение 48 минут, с
раздельным контролем по 8 минут на каждый из тематических блоков, включающих 10 вопросов) — точно такой же формат и банк заданий, как в 2009 г.;
2) письменный экзамен из двух вопросов: по общей психологии и специализации (оценивается четырьмя проверяющими);
3) устный экзамен по специализации: ответ на задание-кейс комиссии,
состоящей из преподавателей кафедры.
Для измерения индивидуально-психологических особенностей использовались следующие методики.
1. 16 русскоязычных Факторов (16РФ) — компьютеризированная методика, русскоязычный аналог известного теста-опросника 16PF Раймона
Кэттелла (Шмелев, 2002). Для упрощения и обеспечения сопоставимости с международными исследованиями интерпретация результатов
дается по 16 факторам Кэттелла.
2. Московский Многофункциональный Психологический Опросник
(ММПО) — компьютеризированный тест-опросник, позволяющий
строить профиль традиционной диагностической методики MMPI на
несколько модифицированном банке тестовых заданий (вопросов),
взятых из методики СМИЛ (Собчик, 2003).
3. Опросник экзаменационной тревожности — разработанная авторами
исследования компьютеризированная методика — тест-опросник для
оценки уровня экзаменационной тревожности, а также предпочтения
тестовой или традиционной формы контроля.
Важно отметить, что первые две методики выполнялись студентами
за полтора года до госэкзаменов (в ходе практикума по курсу «Основы психодиагностики»), то есть никакая нервозность в ожидании выпускных экзаменов не могла повлиять на результаты этих методик.
Во время подготовки к государственным экзаменам у студентов
была возможность пройти демонстрационную онлайн-версию теста по
общей психологии. К демотесту была добавлена методика «Опросник экзаменационной тревожности», которую необходимо было пройти перед
Глава 8. Социально-психологические проблемы внедрения тестовых систем 591
демотестом. Сбор данных осуществлялся в системе HT-LINE» на сайте лаборатории «Гуманитарные Технологии» www.ht-line.ru.
Все участники — это студенты факультета психологии 2010 г. выпуска (по методике ММПО — также 2008 и 2009 гг.). Возраст — от 20 до 30
лет, средний возраст — 22 года. Обследованы: по методике 16РФ — 180 человек (30 мужчин, 150 женщин), по ММПО (объединены результаты за три
года) — 357 человек (79 мужчин, 178 женщин); по Опроснику экзаменационной тревожности — 171 человек (23 мужчины, 148 женщин).
Для проверки гипотезы исследования использовался корреляционный анализ: рассчитывалась связь индивидуально-личностных особенностей с показателями экзаменационной успешности: оценками за
каждый из экзаменов и сравнительной успешностью. Показатель сравнительной успешности прохождения экзамена в традиционной и компьютеризированной форме подсчитывался как разность оценок за письменный экзамен (средний балл за ответ на вопрос по общей психологии) и
компьютеризированное тестирование (по стандартной 5-балльной шкале).
При подсчете корреляции для переменных, распределенных нормально,
использовался коэффициент корреляции Пирсона (нормальность распределений проверялась с помощью критерия Колмогорова–Смирнова), для
остальных — коэффициент ранговой корреляции Спирмена.
Результаты исследования
По результатам исследования, сравнительная успешность прохождения
экзамена в традиционной (письменный экзамен) и компьютеризированной
форме значимо коррелирует со следующими показателями (см. табл. 8.4):
Коэффициент
корреляции
Уровень значимости p
А: открытость
0,26
0,01
C: эмоциональная устойчивость
0,16
0,05
E: доминантность
0,18
0,05
Н: социальная смелость
0,17
0,05
2: пессимистичность
–0,24
0,01
0: социальная интроверсия
–0,21
0,05
Фактор / шкала
Таблица 8.4. Связь индивидуально-личностных особенностей со сравнительной успешностью прохождения письменного и тестового экзаменов (корреляционный анализ). Положительный знак корреляции указывает на то,
что испытуемый с данным свойством был более успешным в традиционном экзамене.
592
Практическая тестология
Экзаменационная тревожность отрицательно коррелирует с успешностью прохождения компьютеризированного тестирования (коэффициент
корреляции равен –0,22 при уровне значимости p < 0,01). Значимой связи с
успешностью прохождения экзамена в письменной и устной форме, а также со сравнительной успешностью нет.
В то же время экзаменационная тревожность значимо коррелирует с
определенными устойчивыми индивидуально-личностными особенностями (см. табл. 8.5).
Фактор / шкала
Коэффициент
корреляции
Уровень значимости p
С: эмоциональная устойчивость
–0,22
0,01
F: беспечность
–0,19
0,05
0: ранимость
0,38
0,01
Q1: гибкость
–0,20
0,05
Q3: самоконтроль
0,22
0,01
Q4: напряженность
0,26
0,01
2: пессимистичность
0,19
0,05
7: тревожность
0,31
0,01
Таблица 8.5. Связь экзаменационной тревожности с факторами и шкалами
методик 16РФ и ММПО.
Для облегчения интерпретации мы решили визуализировать основные значимые корреляции на рисунке 8.2.
Рис.8.2. Корреляционный граф значимых корреляций с указанием выявленных значимых корреляционных связей в виде ребер.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 593
Пояснение к обозначениям на рисунке 8.2. Тест — тестовый балл при
компьютеризированном тестировании; ЭТ — экзаменационная тревожность; С — эмоциональная устойчивость (фактор C 16РФ); 2 — пессимистичность (2-я шкала ММПО). Зеленая линия — положительная корреляция;
красная линия — отрицательная корреляция; значимость: одинарная линия — p ≤ 0,05; двойная линия — p ≤ 0,01.
Интерпретация результатов
Полученные корреляции следует интерпретировать как парадоксальные — с точки зрения сформулированных ожиданий. Подтвердилась, как
видим, даже не альтернативная гипотеза (об отсутствии связей), а гипотеза, противоположная основной.
Как было показано выше, лучше справляются с компьютеризированным тестированием по сравнению с традиционным экзаменом студенты,
особенностями которых являются социальная интроверсия (0-я шкала
ММПО), замкнутость (фактор А16РФ) и социальная робость (фактор H 16РФ).
Таким людям трудно развернуто демонстрировать свои знания в устной
или письменной речи, трудно налаживать контакт с окружающими или
они и не стремятся к этому. Индивидуальная работа является для них
более предпочтительной. Тестовая форма контроля дает им возможность
продемонстрировать максимум своих знаний, не предъявляя требований
к навыкам общения. С другой стороны, экстравертированные, уверенные
в себе студенты не имеют шанса при тестировании компенсировать возможные недостатки в знаниях их уверенным и эффектным преподнесением. Кроме того, поскольку социальные контакты очень важны для них,
ситуация, когда нельзя ждать эмоциональной поддержки от однокурсников или экзаменаторов (общение редуцировано до диалога с компьютером), может негативно сказываться на результате. Поэтому ситуация
традиционного экзамена является для них более комфортной, и они более
успешны именно в этом случае.
Также компьютеризированная форма экзамена представляет преимущества для эмоционально неустойчивых, слабых (низкий полюс фактора С 16РФ), склонных к пессимизму (2-я шкала ММПО) студентов. Они не
уверены в себе, напряжены, импульсивны и не способны контролировать
свои эмоции. Возможно, позитивным моментом компьютеризированного тестирования для них является его строгая регламентация. Заранее
известно, как будет проходить экзамен, сколько времени он займет. Не
нужно долго ожидать своей очереди, отвечать и слушать не совсем удачные ответы однокурсников и не всегда доброжелательные вопросы и комментарии экзаменаторов. С другой стороны, активные, уверенные в себе,
ощущающие собственную силу студенты могут недооценивать сложность
вопросов теста, отвечать быстро и не особенно задумываясь и вследствие
этого получать менее высокие баллы. В то же время письменный экзамен
был для выпускников 2010 года новой и неожиданной формой проведения
594
Практическая тестология
государственного экзамена, поэтому в более выгодном положении оказались те из них, которые не теряются при столкновении с неожиданными
обстоятельствами (эмоционально устойчивые, смелые, не склонные к пессимизму).
Результаты свидетельствуют о том, что более высокие баллы на компьютеризированном тестировании получают студенты, которым свойственна подчиненность (фактор Е 16РФ). Следование инструкциям, соблюдение формализованных правил, воспроизведение базовых, общепризнанных фактов не составляют для них трудностей и не вызывают
неприятия. Напротив, стремящиеся к самостоятельности и доминированию студенты отстаивают право на индивидуальную точку зрения там,
где этого не требуется. При традиционном экзамене, для которого остается нерешенным вопрос контроля самостоятельности (аутентичности) выполнения работ, доминантные, смелые, уверенные в себе студенты могли
преуспеть, поскольку более склонны к риску, действуют в соответствии с
собственными законами и соображениями, и вероятнее прибегали к списыванию.
Таким образом, по результатам нашего исследования получены данные, которые опровергают кажущиеся столь естественными опасения,
что непривычная тестовая форма контроля является слишком стрессогенной для эмоционально неустойчивых студентов. Оказывается, наоборот,
именно тревожные студенты получают более высокие оценки, то есть полученные результаты противоречат выдвинутой гипотезе, основанной на
умозрительных представлениях. Традиционная письменная форма экзамена дает преимущества более экстравертированным и уверенным в себе
студентам, которые, возможно, более склонны к нарушению правил поведения на экзамене (не только на устном, но, прежде всего, на письменном).
Если обратиться к связям экзаменационной успешности с экзаменационной тревожностью, то, казалось бы, мы получили данные, которые
подтверждают основную гипотезу и противоречат результатам, полученным с помощью личностных тест-опросников. Но… по-видимому, следует учесть, что экзаменационная тревожность не вполне совпадает с общей
личностной тревожностью и является скорее ситуативно-реактивным
образованием, чем хронической чертой темперамента и характера человека. Следует также подчеркнуть, что методику «Экзаменационная тревожность» студенты выполняли непосредственно в период подготовки к
госэкзаменам. Уровень экзаменационной тревожности определяется не
столько диспозициональными факторами, сколько ситуационными реальными знаниями студента и оценкой вероятности получения хорошей
оценки при своем уровне подготовки в условиях конкретного экзамена.
Именно компьютеризированное тестирование с его высокой объективностью («неотвратимостью низкого балла при низких знаниях») вызывает более сильную панику у тех, кто в целом не характеризуется особой
Глава 8. Социально-психологические проблемы внедрения тестовых систем 595
личностной тревожностью, но адекватно осознает свой слабый уровень
подготовки и вполне адекватно предсказывает свои низкие результаты.
Мы полагаем, что в нашей работе мы выявили некое «красивое» расхождение между субъективным уровнем в оценке сложности разных видов экзаменов и фактическими результатами экзамена. Компьютеризированный экзамен на субъективном уровне представляется более сложным
для тревожных студентов, чем он фактически оказывается для них же по
реальным результатам. На рисунке 2 мы попытались отразить нашу гипотетическую интерпретацию данного результата путем введения гипотетического фактора «самооценка уровня знаний».
Рис.8.3. Корреляционный граф с указанием выявленных значимых корреляционных связей в виде ребер. В отличие от рисунка 8.2 в корреляционный
граф добавлен гипотетический фактор «Самооценка своих знаний», который в нашем эксперименте, к сожалению, напрямую не измерялся.
Парадоксальность наших результатов — их несоответствие гипотезе,
то есть обыденным и умозрительным представлениям (о том, что компьютеризированный экзамен труднее для более тревожных студентов),
по-видимому, объясняется тем, что сами традиционные ожидания базируются на ситуативном феномене экзаменационной тревожности, а не на
объективных данных психодиагностики реального уровня тревожности
человека как личностной (индивидуально-устойчивой) черты. Именно
свою ситуационную тревожность студенты, испытывающие страх перед
компьютерным тестированием, осознают в период подготовки, и именно
это объясняет и для них, и для преподавателей ту связь, которая оказалась
в большей степени субъективной, чем объективной.
Ряд особенностей данного исследования ограничивают возможности обобщения его результатов. Так, тестирование в нашем случае
было объективно более сложным экзаменом (доля «пятерок» — 18% на
596
Практическая тестология
компьютеризированном тесте, 36% — на письменном экзамене, 72% — на
устном экзамене) и, соответственно, вызывало большее беспокойство у
студентов, что и сказывалось на результате. Для того чтобы с уверенностью говорить о том, что наличие связи между экзаменационной тревожностью и результатами экзамена определяется именно формой контроля,
а не фактором сложности, необходимо провести исследование на материале экзаменов в разных формах, но уравненных по сложности и объективности (например, чтобы более строго контролировалось списывание, а экзаменаторы на устном экзамене были незнакомы со студентами). Также
специфична сама выборка испытуемых — студенты психологического
профиля с сильным преобладанием женщин, и полученные данные надо
было бы перепроверить на студентах вуза какого-либо другого профиля
(технического, экономического и т.п.).
Описанные выше результаты красноречиво свидетельствуют о том,
что нельзя ограничиваться только одной формой контроля, поскольку это
ставит определенную часть студентов в невыгодное положение.
●
●
●
●
●
Практические рекомендации:
При внедрении тестовых систем целесообразно измерить с помощью
определенных психодиагностических стандартизированных тестов
общий уровень личностной и ситуативной (экзаменационной) тревожности хотя бы части потенциальных испытуемых.
Необходимо сочетать различные «оценочные технологии» на госэкзаменах.
Высокий общий уровень ситуативной тревожности требует внедрения на первых этапах очень мягких схем учета результатов тестирования и очень осторожных оргвыводов по этим результатам.
В особых индивидуальных случаях (при высокой личностной и экзаменационной тревожности) целесообразно уделить персональное внимание (оказать психологическую поддержку) испытуемым до проведения тестирования.
На консультации перед тестированием целесообразно привести аргументы, обосновывающие для испытуемых отсутствие однозначной
связи между низкими баллами по компьютеризированному тестированию и личностной тревожностью.
8.4. Компьютерная тревожность и тестирование
В проведенном под нашим руководством в 2011 году дипломном исследовании Д.Б. Резаповой (Шмелев, Резапова, 2013) была проверена гипотеза
о том, что низкая сравнительная успешность при выполнении компьютерного тестирования связана с другим особым видом тревожности — так
называемой «компьютерной тревожностью». Как известно еще со времен
Глава 8. Социально-психологические проблемы внедрения тестовых систем 597
Йеркса-Додсона, высокая тревожность, чрезмерная мотивационно-эмоциональная активация оказывает деструктивное влияние на эффективность
деятельности — исполнительскую точность во всех звеньях ее психической регуляции (от перцептивного до моторного). Если человек испытывает повышенную тревожность при взаимодействии с компьютером, то
легко предположить, что именно в этой ситуации его эффективность окажется ниже, чем в других аналогичных ситуациях, не требующих взаимодействия с компьютером. Данная гипотеза родилась в ответ на жалобы
отдельных студентов при выполнении компьютерных тестов в ситуации
экзамена: «Предъявление вопросов на экране компьютера, да еще в ситуации ограниченного времени на ответ вызывает у меня панический страх,
приводящий к своеобразному «ступору» — трудно собраться с мыслями,
трудно осмыслить текст вопроса и предлагаемых ответов...». Выдвижению данной гипотезы также активно способствовали многочисленные очные и виртуальные дискуссии между преподавателями, склонными поразному относиться к компьютерному тестированию и в разной степени
сочувствовать студентам, жалующимся на проблемы, которые вызывает
сама ситуация компьютерного тестирования (см. дискуссии в блогосфере www.ht.ru — в особенности на блогах А.Г. Шмелева, Е.П. Кринчик и
А.Ш. Тхостова). О том, что разные участники тестирования по-разному реагируют на саму ситуацию компьютерного тестирования, свидетельствовали многочисленные опросы участников компьютерного тестирования,
проведенные автором этой книги еще во времена всероссийской олимпиады «Телетестинг» (в этих олимпиадах в 1997—2001 гг. принимали участие
десятки тысяч выпускников школ и абитуриентов вузов), а также последующие опросы сотен выпускников факультета психологии МГУ, выполнявших в компьютерной форме один из этапов государственного экзамена по
психологии (Чумаков, 2006; Зинченко и др., 2011). На основании этих опросов — формализованных и неформализованных — легко предположить,
что взаимодействие с компьютером в ситуации испытания (экзамена)
воспринимается разными людьми совершенно по-разному: для одних это
привычная и вполне естественная ситуация, для других — источник паники.
Методическая схема эмпирического исследования
Как это было и в предыдущем исследовании, выполненном М.А. Болсиновой, студенты заполняли особый психологический опросник (в данном
случае тест-опросник компьютерной тревожности) не в день компьютерного экзаменационного тестирования (это явилось бы необоснованной дополнительной нагрузкой), а за несколько дней до этого — в ходе выполнения
в режиме онлайн имитационной демоверсии компьютерного теста по общей психологии. Затем студенты выполняли официальный компьютерный
тест (в 2011 году это был тест по общей психологии, в котором предъявлялось
90 тестовых заданий, из которых 12 факультативных — на иностранном
598
Практическая тестология
языке, выбранном самим студентом). Затем через неделю студенты выполняли письменный государственный экзамен по психологии (традиционный
экзамен по билетам), а через еще 3 дня — устный экзамен, предполагающий
обоснование решения проблемной ситуации (кейса) перед комиссией. Результаты компьютерного тестирования в 2011 году учитывались в итоговой
оценке с определенным весом, заранее объявленным студентам,— 20 процентов, а результаты письменного и устного этапов госэкзамена вносили по 40
процентов в итоговую оценку. Результаты на каждом этапе выставлялись по
10-балльной шкале. Таким образом, получение слишком низких баллов по тесту во многом лишало студента шансов на получение высокой итоговой оценки. В этой ситуации практически у всех студентов наблюдалось в той или
иной степени выраженное волнение (экзаменационная тревожность) при
выполнении первого этапа госэкзамена — компьютеризированного тестового
испытания. Хотя в данном исследовании мы в меньшей степени изучали экзаменационную тревожность, но все же студенты также выполняли на предварительном этапе (как и в 2010 году) тест-опросник экзаменационной тревожности, разработанный М.С. Болсиновой (с целью проверки устойчивости
результатов, полученных Болсиновой).
Разработка тест-опросника компьютерной тревожности
На подготовительном, теоретическом этапе были проанализированы современные работы в области феномена компьютерной тревожности. Компьютерная тревожность — чувство страха, опасение индивида,
возникающее при непосредственном использовании или при мысли о
возможном использовании компьютера. Многие исследователи рассматривают компьютерную тревожность в качестве одного из психологических факторов, которые снижают эффективность работы индивида на
компьютере. Феномен компьютерной тревожности (или «компьютерной
фобии»,«технофобии», «техностресса») является довольно распространенным явлением в 21-м веке, несмотря на прогнозы некоторых авторов, которые утверждали, что по мере распространения компьютерных технологий в широкие массы это явление будет становиться все более редким или
вовсе исчезнет (Beckers, 2007). Исследования компьютерной тревожности
западными специалистами продемонстрировали, что это не простой
однофакторный феномен. Дж. Бекерс и Х. Шмидт создали методику для
диагностики 6 факторов компьютерной тревожности — The Beckers and
Schmidt Computer Anxiety Scale (BSCAS):
1) компьютерная грамотность (приобретенные компьютерные навыки);
2) самоэффективность (уверенность в своих способностях к освоению
компьютера);
3) физические реакции, возникающие при использовании компьютера
(вспотевшие ладони, затрудненное дыхание);
4) аффективные переживания, связанные с компьютером (нравится /
не нравится);
Глава 8. Социально-психологические проблемы внедрения тестовых систем 599
5) позитивные убеждения о пользекомпьютерных технологий для общества;
6) негативные убеждения об «обесчеловечивающем» (негуманном) влиянии компьютеров на общество.
Согласно исследованию Дж. Бекерса (цит. по Beckersetal., 2007), проведенному на студентах-психологах, компьютерная тревожность больше
связана с тревожностью как чертой личности. Связь компьютерной и ситуационной тревожности была выявлена в ситуации прохождения компьютерного тестирования для проверки знаний, однако и в этом случае
связь с тревожностью как чертой личности была более значимой.
Для проведения исследования в рамках нашей работы был разработан
оригинальный опросник компьютерной тревожности-увлеченности. Высокий полюс шкалы был сформулирован нами именно как «увлеченность» — с
тем, чтобы избавить и сам конструкт «тревожность», и его эмпирические индикаторы от налета известной «социальной антижелательности». В наше время для многих пользователей компьютер является не только привычным, но
желательным и даже психологически-необходимым (в случае определенных
степеней зависимости) инструментом интеллектуальной и коммуникативной
деятельности. Надежность-согласованность рабочей (второй) версии опросника измерялась с помощью Альфа коэффициента Кронбаха и составила 0,814.
На выборке из 181 студента-выпускника факультета психологии МГУ
2011 года (17 мужчин и 164 женщины, от 20 до 40 лет, средний возраст — 23
года) нам удалось показать:
●
отсутствие значимой корреляции между компьютерной тревожностью и успешностью в выполнении компьютеризированного тестового
экзамена;
●
наличие значимой отрицательной корреляции (как и в предыдущие
годы) между успешностью в компьютерном экзамене и экзаменационной тревожностью.
Компьютерная
тревожность
Относительная
успешность (ОУ)
Экзаменационная
тревожность
Коэфф-т корреляции
-0,08
-0,22
Уровень значимости
Не значимо
p0,05
Таблица 8.6. Результаты корреляционного анализа относительной успешности в крайних группах (высокая группа — 51 человек, низкая группа — 55 человек)
с показателями компьютерной и экзаменационной (тестовой) тревожности.
Отчасти полученный результат, на наш взгляд, можно объяснить двумя причинами: а) в нашей выборке из студентов МГУ было просто мало по-настоящему
компьютерно-тревожных людей, б) предлагаемая в нашем тестовом экзамене
600
Практическая тестология
компьютерная деятельность носила абсолютно тривиальный характер (выбор из
четырех вариантов ответа с помощью мышки или клавиатуры) и не актуализировала у испытуемых специфической компьютерной тревожности.
Тем не менее, мы считаем, что оба исследования развеивают определенный умозрительный миф, который лишь «на вскидку» кажется таким
правдоподобным, но при детальном анализе не подтверждается. Как не обнаружено связи относительной успешности с общей личностной тревожностью, так и не выявлено связей с компьютерной тревожностью. Выявлена и подтверждена неоднократно (хотя и не на слишком высоком уровне
плотности) ожидаемая отрицательная связь относительной успешности в
компьютерном тестировании с экзаменационной тревожностью. Но эту
связь можно объяснить более низкими ожидаемыми оценками в компьютерном тестировании, чем на обычных экзаменах. В следующем разделе
мы приводим данные опроса студентов, которые во многом подтверждают именно такое объяснение связи между экзаменационной тревожностью и относительной успешностью в компьютерном тестировании.
8.5. СУБЪЕКТИВНАЯ ГОТОВНОСТЬ ИСПЫТУЕМЫХ
К ОЦЕНОЧНЫМ ПРОЦЕДУРАМ
Конечно, некоторые читатели возразят автору книги: «Это у Вас в МГУ
есть возможность проводить разные психологические тесты до и после экзаменов, а нам бы едва успеть провести сами экзамены». Вынужден пояснить,
что я вовсе не призываю всех выполнять трудоемкую исследовательскую
работу, которая в случае двух описанных выше исследований была направлена только на проверку отдельных общих гипотез, но не на актуальный
контроль настроений потенциальных испытуемых (студентов).
Но все же отслеживать настроения испытуемых можно и нужно! Это
можно сделать очень быстро с помощью обыкновенных опросов, которые
в настоящее время тестологу можно подготовить и провести, потратив на
это буквально менее часа собственного времени — с помощью онлайн-технологий. Как я уже упоминал в главе 5, сейчас очень много сервисов по
проведению подобных опросов. Если кажется, что у испытуемых сложилось особое предубеждение против какой-то формы оценивания (оценочной процедуры), то можно просто провести соответствующий опрос. Что
он дает? Он позволяет преодолеть определенные заблуждения, возникающие из-за эффекта «особой активности добровольцев». Если Вы не проводите фронтального опроса, а просто выслушиваете «жалобы», то вряд ли
Вы сможете сделать сами поправку на то, что жалуются именно те, кто недоволен, а сколько людей вполне довольны — об этом приходится только
догадываться. Вот к Вам подошли три человека после предэкзаменационной консультации и решительно заявили, что «сдавать экзамены на компьютере — это истязание». Но делаете ли Вы поправку, что Вы при этом не
Глава 8. Социально-психологические проблемы внедрения тестовых систем 601
знаете, насколько эти три человека отражают настроения десятков или
даже сотен других потенциальных испытуемых?
Приведем статистику ответов на один из опросов, выполненных студентами-добровольцами ДО проведения госэкзаменов на факультете психологии МГУ (2011 год выпуска):
Вопрос 1: Из трех экзаменационных испытаний, запланированных в рамках программы госэкзаменов в 2011 году, для меня НАИБОЛЕЕ удобным испытанием является:
Ответ 1: тестовый экзамен
(19/89) 21%
Ответ 2: письменный экзамен
(20/89) 22%
Ответ 3: устный экзамен
(50/89) 56%
Ответ 4: комментарий
(35/89) 39%
Вопрос 2: Из трех экзаменационных испытаний, запланированных в рамках программы госэкзаменов в 2011 году, для меня НАИМЕНЕЕ удобным испытанием является:
Ответ 1: тестовый экзамен
(32/89) 36%
Ответ 2: письменный экзамен
(37/89) 42%
Ответ 3: устный экзамен
(20/89) 22%
Ответ 4: комментарий
(33/89) 37%
Вопрос 3: Я бы предпочел(-ла) сдавать тестовое испытание:
Ответ 1: на бумаге без поминутного контроля времени по каждому тематическому блоку
(38/89) 43%
Ответ 2: на компьютере без поминутного контроля времени по каждому тематическому блоку
(40/89) 45%
Ответ 3: на бумаге с контролем времени по каждому тематическому блоку
(3/89) 3%
Ответ 4: на компьютере с контролем времени по каждому тематическому блоку
(7/89) 8%
Ответ 5: комментарий
(31/89) 35%
602
Практическая тестология
Вопрос 4: Я бы предпочел(-ла) сдавать письменное испытание:
Ответ 1: на бумаге с последующим вводом рукописного текста в компьютер
(для проверки на плагиат)
(45/89) 51%
Ответ 2: на клавиатуре с одновременным вводом текста в компьютер
(для проверки на плагиат)
(44/89) 49%
Ответ 3: комментарий
(33/89) 37%
Вопрос 5: Я бы предпочел(-ла) сдавать устное испытание
(по предоставлению проекта решения профессиональной задачи):
Ответ 1: с часовой подготовкой перед комиссией, состоящей из сотрудников моей кафедры
(76/89) 85%
Ответ 2: без подготовки перед комиссией, состоящей из сотрудников моей кафедры
(4/89) 4%
Ответ 3: с подготовкой перед комиссией, состоящей из сотрудников моей и других
кафедр
(8/89) 9%
Ответ 4: без подготовки перед комиссией, состоящей из сотрудников моей и других
кафедр
(0/89) 0%
Ответ 5: комментарий
(19/89) 21%
Вопрос 6: Я бы предпочел, чтобы мои навыки профессиональной коммуникации на
изучавшемся мной иностранном языке (английском, французском и т.п.) проверялись
в ходе:
Ответ 1: тестового испытания
(51/89) 57%
Ответ 2: письменного испытания
(9/89) 10%
Ответ 3: устного испытания
(26/89) 29%
Ответ 4: комментарий
(31/89) 35%
Глава 8. Социально-психологические проблемы внедрения тестовых систем 603
О чем говорят полученные результаты опроса? О нескольких вещах:
1) Группа экзаменуемых не имеет явно выраженного страха перед какойто одной формой экзамена: письменный экзамен (очень непривычный
для студентов-психологов) вызывает не меньше тревоги, чем тестовый
экзамен.
2) Некоторая предпочтительность устного экзамена связана не столько
с тем, что это более привычная форма (чем письменный и тестовый
экзамен), а прежде всего, с тем, что сдавать устный экзамен студенты
будут перед «родными преподавателями» собственной кафедры (именно эти преподаватели разбираются в тех «экзаменационных практических кейсах», которые разработали для этого устного экзамена).
3) В компьютерном экзамене самый дискомфортный момент состоит не в
том, что вопрос надо считывать с экрана, а ответ надо вводить с клавиатуры (половина студентов уже в 2010 году готовы писать развернутый
четырехчасовой письменный экзамен прямо на компьютере), а в том,
что осуществляется поминутный контроль времени, то есть возникает
стресс дефицита времени на решение.
4) А для ситуации проверки знаний на иностранном языке тестовая форма контроля вообще оказывается предпочтительной (опять-таки по
вполне понятным причинам — выбирать из готовых вариантов ответа
легче, чем порождать текст в письменной или устной форме),
Надо специально подчеркнуть, что я не настаиваю вовсе на том, что
полученные результаты опроса имеют всеобщий характер. Нет, они, конечно, отражают специфический «расклад», специфические настроения
данной конкретной группы студентов, имеющих конкретную историю
и опыт участия в определенных оценочных процедурах. Я хотел бы
этими результатами подчеркнуть другое: подобный опрос раскрыл для
меня самого более точно настроения того большинства людей, которые
сами никогда не поведают о своих настроениях, пока их не попросят ответить — причем попросят, облегчив ответ путем заранее сформулированных вариантов ответа. Я знаю точно, что если бы я сформулировал
не шесть закрытых вопросов, а шесть открытых вопросов (с открытыми
полями для ввода свободного ответа), то получил бы не 89 участников, а
только 10—20, и… среди этих участников обязательно бы доминировали
активно-недовольные, то есть возник бы перекос вследствие нерепрезентативности выборки добровольцев. Увы, довольные (спокойные испытуемые) не имеют активной мотивации для участия, не хотят тратить свое
время на подобные опросы, не хотят напрягаться для формулирования
свободных ответов.
А ниже приводятся результаты так называемого «пост-опроса» тех
же студентов после госэкзаменов (выборка добровольных участников
этого опроса сопоставима по численности с данными предваряющего
опроса):
604
Практическая тестология
Вопрос 2: Ваша общая оценка компьютерного тестирования:
Ответ 1: отрицательная
15%
Ответ 2: скорее отрицательная
19%
Ответ 3: противоречивая
22%
Ответ 4: скорее положительная
23%
Ответ 5: положительная
20%
Ответ 6: особое мнение или комментарий
31%
Вопрос 5: Как Вы оцениваете трудность заданий компьютеризированного теста?
Ответ 1: легкие
(1/94) 1%
Ответ 2: скорее легкие
(2/94) 2%
Ответ 3: средние
(24/94) 26%
Ответ 4: скорее трудные
(36/94) 38%
Ответ 5: трудные
(20/94) 21%
Ответ 6: особое мнение или комментарий
(34/94) 36%
Вопрос 6: Как Вы оцениваете трудность заданий письменного экзамена?
Ответ 1: легкие
(4/94) 4%
Ответ 2: скорее легкие
(2/94) 2%
Ответ 3: средние
(49/94) 52%
Ответ 4: скорее трудные
(22/94) 23%
Ответ 5: трудные
(14/94) 15%
Ответ 7: особое мнение или комментарий
(17/94) 18%
Глава 8. Социально-психологические проблемы внедрения тестовых систем 605
Вопрос 11: Как Вы оцениваете достоверность ПРОЦЕДУРЫ компьютеризированного
тестирования (защищенность от искажений, вызванных действиями недобросовестных студентов и необъективных экзаменаторов)?
Ответ 1: низкая оценка
(7/94) 7%
Ответ 2: скорее низкая
(9/94) 10%
Ответ 3: средняя оценка
(10/94) 11%
Ответ 4: скорее высокая
(22/94) 23%
Ответ 5: высокая
(43/94) 46%
Ответ 6: особое мнение или комментарий
(16/94) 17%
Вопрос 12: Как Вы оцениваете достоверность ПРОЦЕДУРЫ письменного экзамена
(защищенность от искажений, вызванных действиями недобросовестных студентов и
необъективных экзаменаторов)?
Ответ 1: низкая оценка
(18/94) 19%
Ответ 2: скорее низкая
(27/94) 29%
Ответ 3: средняя оценка
(20/94) 21%
Ответ 4: скорее высокая
(18/94) 19%
Ответ 5: высокая
(7/94) 7%
Ответ 6: особое мнение или комментарий
(15/94) 16%
Вопрос 14: Какой вклад (в процентах) должно вносить в итоговую оценку компьютеризированное тестирование?:
Ответ 1: менее 10%
(16/94) 17%
Ответ 2: примерно 10%
(14/94) 15%
Ответ 3: примерно 15%
(20/94) 21%
Ответ 4: примерно 20%
(16/94) 17%
606
Практическая тестология
Вопрос 14. Продолжение
Ответ 5: примерно 25%
(11/94) 12%
Ответ 6: примерно 30%
(8/94) 9%
Ответ 7: примерно 35%
(1/94) 1%
Ответ 8: примерно 40%
(2/94) 2%
Ответ 9: примерно 45%
(0/94) 0%
Ответ 10: примерно 50%
(3/94) 3%
Ответ 11: более 50%
(1/94) 1%
Ответ 12: особое мнение или комментарий
(13/94) 14%
Вопрос 15: Какой вклад (в процентах) должен вносить в итоговую оценку письменный
экзамен?
Ответ 1: менее 10%
(6/94) 6%
Ответ 2: примерно 10%
(1/94) 1%
Ответ 3: примерно 15%
(0/94) 0%
Ответ 4: примерно 20%
(3/94) 3%
Ответ 5: примерно 25%
(8/94) 9%
Ответ 6: примерно 30%
(7/94) 7%
Ответ 7: примерно 35%
(8/94) 9%
Ответ 8: примерно 40%
(12/94) 13%
Ответ 9: примерно 45%
(12/94) 13%
Ответ 10: примерно 50%
(29/94) 31%
Ответ 11: более 50%
(4/94) 4%
Ответ 12: особое мнение или комментарий
(5/94) 5%
Глава 8. Социально-психологические проблемы внедрения тестовых систем 607
171
Вопрос
17: Довольны ли Вы своими личными результатами в компьютеризированном тесте?
Ответ 1: нет
(20/94) 21%
Ответ 2: скорее нет
(12/94) 13%
Ответ 3: ни нет, ни да
(9/94) 10%
Ответ 4: скорее да
(23/94) 24%
Ответ 5: да
(28/94) 30%
Ответ 6: особое мнение или комментарий
(8/94) 9%
Вопрос 18: Довольны ли Вы своими личными результатами в письменном экзамене?
Ответ 1: нет
(5/94) 5%
Ответ 2: скорее нет
(6/94) 6%
Ответ 3: ни нет, ни да
(6/94) 6%
Ответ 4: скорее да
(31/94) 33%
Ответ 5: да
(44/94) 47%
Ответ 6: особое мнение или комментарий
(6/94) 6%
Вопрос 19: Довольны ли Вы своими личными результатами в устном экзамене?171
Ответ 1: нет
(5/94) 5%
Ответ 2: скорее нет
(4/94) 4%
Ответ 3: ни нет, ни да
(6/94) 6%
Ответ 4: скорее да
(9/94) 10%
Ответ 5: да
(68/94) 72%
Ответ 6: особое мнение или комментарий
(4/94) 4%
171
Мы не стали приводить из-за соображений слишком большого объема ответы на все вопросы, касающиеся устного экзамена. Достаточно указать на то, что этот госэкзамен, по
которому было выставлено в 2010 году на факультете психологии МГУ более 70 процентов
«пятерок», разумеется, оставил максимальное удовлетворение у большей части студентов,
поэтому оценки этого экзамена трудно считать показательными. Внимания заслуживают
сравнительные оценки тестирования и письменного экзамена. — Прим. автора.
608
Практическая тестология
А на дальнейших гистограммах мы даем возможность наглядно увидеть, как различаются субъективные оценки участников качества оценочных процедур в зависимости от удовлетворенности собственным
личным результатом по этой оценочной процедуре. Белые столбики — это
частоты ответов более довольных (выбравших высший балл удовлетворенности — пятый), а черные — это частоты ответа остальных, то есть менее
довольных.
Вопрос 2: Ваша общая оценка компьютеризированного тестирования:
Ответ 1: отрицательная
(2/28) 7%
(12/66) 18%
Ответ 2: скорее отрицательная
(0/28) 0%
(18/66) 27%
Ответ 3: противоречивая
(7/28) 25%
(14/66) 21%
Ответ 4: скорее положительная
(8/28) 29%
(14/66) 21%
Ответ 5: положительная
(11/28) 39%
(8/66) 12%
Удовлетворенность оценкой по п-экзамену =>
Отношение к п-экзамену
Высокая
удовлетворенность
Низкая
удовлетворенность
Положительное
11
6
Отрицательное
7
15
Получаем фи-коэффициент поменьше, но тоже значимый — 0,33 (статистически значимый на уровне ошибки p<0,05).
Таким образом, по результатам последнего опроса можно сделать следующие выводы:
В отношении к состоявшимся экзаменам мнения участников существенно различаются, причем отношение к самой процедуре во многом
зависит от удовлетворенности оценкой, полученной этим студентом
именно на этом экзамене.
Несмотря на стрессовый характер тестового экзамена, более высокую оценку его трудности и несмотря на большую удовлетворенность
собственной оценкой на письменном экзамене, недовольных качеством
Глава 8. Социально-психологические проблемы внедрения тестовых систем 609
традиционного письменного экзамена оказалось даже несколько больше,
чем тестовым, и в значительной степени это недовольство вызвано тем,
что на этом экзамене не были обеспечены одинаковые требования ко всем
участникам (оценка достоверности этого испытания значительно ниже,
чем тестового).
В заключение этого параграфа важно подчеркнуть принципиальную
необходимость анонимного характера подобных опросов, что позволяет
получать более достоверную информацию. Респонденты не стесняются
анонимно признаться в своем эмоциональном отношении, несмотря на
то, что студенты-выпускники факультета-психологии (фактически уже
психологи), конечно, рефлексируют связь своего отношения со своей собственной оценкой на экзамене.
Данные опросы корректнее считать социологическими, чем социально-психологическими (они дают общую, а не персональную картину по
каждому участнику). В целом урок подобных социологических опросов заключается в том, что они также помогают преодолеть субъективистские и
эгоцентрические взгляды на различные оценочные процедуры, которым
заражены и их организаторы, и их оппоненты. Никакой всеобщей идиосинкразии (непереносимости) компьютерные тестовые процедуры сами
по себе не вызывают. Есть люди, которые к ним больше приспособлены и
спокойнее к ним относятся, а есть люди, которые хуже к ним относятся,
но то же самое можно сказать и в отношении других оценочных процедур — особенно таких, которые проводятся жестко и объективно, а не в логике этакой «гуманитарной помощи» участникам, не под лозунгом «Каждому студенту высокую оценку!».
8.6. ТЕСТИРОВАНИЕ И ТЕСТОВЫЕ ШКАЛЫ КАК ИНСТРУМЕНТ КОНКУРЕНЦИИ
Итак, не только тестированием, но любыми экзаменами многие участники всегда остаются недовольны. Людям вообще свойственна защитная
экстрапунитивная реакция — обвинение в причинах собственных неудач
не себя самих, а каких-то других людей, каких-то организаций, внешних
обстоятельств, невезения и т.п. Даже если испытание организовано вполне добросовестно и честно, то неизбежный разброс оценок порождает разброс субъективных реакций. Если испытание оказывается трудным для
большинства, то большинство недовольных — это те, кто хуже подготовлен и оказались «ниже планки». Если же испытание оказывается легким
для большинства, то, напротив, появляются основания для недовольства
у хорошо подготовленных — их поставили на одну ступень со слабыми.
Если испытание оказывается оптимальным по трудности — поровну делит выборку на слабых и сильных, то все равно одним оно кажется слишком трудным, а другим — слишком легким.
610
Практическая тестология
Поэтому научная тестология в оценке качества испытаний никогда не
может брать в качестве основного источника информации мнения и оценки самих участников тестирования. Это мнение ВСЕГДА будет несколько
искаженным, разноречивым, слишком субъективным. Но все-таки мы в
этой главе призываем не отмахиваться от этих суждений и оценок участников, а стараться их учитывать, работать с ними, чтобы добиться взаимопонимания и сотрудничества, хотя бы с сильными, подготовленными
участниками тестирования. Именно они, их заинтересованность и их
мотивация — это цель и смысл всего процесса. Следует помнить, что двадцать процентов самых сильных и подготовленных работников (в системе
образования это учащиеся, будущие работники) производят примерно
восемьдесят процентов благ и ресурсов. Учитывая эту известную закономерность, нужно добиваться позитивного отношения к оценочным процедурам, к системе тестирования именно со стороны лучших. Если эту процедуру хвалят слабые, а ругают сильные — значит, это плохая процедура!
По нашему убеждению, сама идеология и этика тестирования теснейшим образом связаны с этикой честной, продуктивной конкуренции —
такой, которая предоставляет больше благ и ресурсов высокоэффективным участникам рынка и обеспечивает экономический рост. Одной из
глубинных причин развала социалистического общественного строя в
СССР, по нашему убеждению, явилась неудовлетворенность уравниловкой,
прежде всего, со стороны высокоэффективных участников общественного
производства (Шмелев, 1997). Если своей организацией довольны 80 процентов низкоэффективных работников, но недовольны и немотивированы 20 процентов высокоэффективных работников, то эта организация, несколько огрубляя расчеты, будет работать лишь на 40 процентов своей потенциальной мощности — высокоэффективные из-за низкой мотивации
будут выдавать производительность труда на уровне низкоэффективных
(20+20=40).
Тестовые шкалы — это, безусловно, мощный инструмент социального сравнения. Если тестовая система воспринимается как справедливая,
то тестовые шкалы побуждают конкурентную мотивацию достижения —
стремление участников улучшить свои показатели по тестовой шкале.
Ясно, что в советский период на само понятие «конкуренция» во многих гуманитарных отраслях (включая психологию) было наложено» «идеологическое табу». Лишь на рубеже 20-го и 21-го веков в России появились
первые работы, в которых признается и изучается роль социально-психологических процессов конкуренции в образовательных организациях и
профессиональных сообществах (Поддьяков, 2006, Шмелев, 2010).
Для исследования связей между избеганием-предпочтением тестов
и отношением к конкуренции автор сконструировал специальную дополнительную шкалу в тест-опроснике 16РФ «Шестнадцать русскоязычных факторов». В форму Б этого опросника в дополнение к 260 мы добавили еще 20 специальных суждений (пунктов), в которых в явной форме
Глава 8. Социально-психологические проблемы внедрения тестовых систем 611
исследовалось отношение не только к понятию «конкуренция», но и к различным ситуациям и аспектам конкуренции. Перечень из 280 суждений
был опубликован нами в приложении к монографии «Психодиагностика
личностных черт», выпущенной в 2002 году (Шмелев, 2002а). В течение
многих лет на рубеже 1990—2000 годов нами были собраны тысячи протоколов по этому тест-опроснику, включая и ситуацию клиента (добровольного выполнения теста с целью самопознания), и ситуацию экспертизы (вынужденного выполнения в интересах определенной организации
в ходе профотбора или профаттестации). Неоднократно мы производили
как факторный анализ (на выборках общей численностью до 1000 человек), так и корреляционный анализ отдельных пунктов опросника, относящихся к конкуренции. Подробное описание методики сбора данных и
обработки выходит за рамки данной книги. Главное здесь — это обсуждение в общем виде полученных нами результатов.
Оказалось, что большая часть вопросов, относящихся к теме «конкуренция» (16 из 20), попадает устойчиво в первый самый значимый и весомый
фактор, всегда выявляемый с помощью всех возможных разновидностей
факторного анализа.
Это первый фактор «Большой пятерки» — «Экстраверсия-Интроверсия». А среди различных субшкал (более частных факторов),
входящих во вторичный фактор Экстраверсии, к теме конкуренции ближе
всего субшкала «Социальная смелость» (шкала «H»). Ниже в таблице 8.7 представлены формулировки наиболее значимых утверждений (тестовых заданий) сформировавшейся шкалы «Готовность к честной конкуренции».
(0.41) Мне нравится соревноваться с людьми и побеждать в равной и справедливой борьбе.
(0.37) Я верю, что при наличии начального капитала смогу создать собственное предприятие и добиться успеха.
(0.29) Когда мне говорят, что у меня есть конкуренты, это только подзадоривает меня.
(0.24) В современной конкурентной борьбе, как правило, побеждают:
[1] сильные;
[2] не знаю, что выбрать;
[3] хитрые и коварные люди, которые умеют скрытно нарушать правила.
(-0.22) Всякий риск — это лотерея, которую выигрывает тот, кто ее организует, поэтому я не люблю рисковать.
Таблица 8.7. Примеры вопросов из шкалы «Готовность к честной конкуренции» в перечне 16РФ-В, получивших высокие корреляции с баллами по Первому фактору «Большой пятерки». Перед формулировкой вопроса в скобках
указано значение точечно-бисериального коэффициента корреляции (n=522).
Построенная шкала «Готовность к конкуренции» оказалось связанной не только с вторичным фактором «Экстраверсия-Интроверсия», но и с
другими факторами Большой пятерки — «Эмоциональная стабильность»,
612
Практическая тестология
«Открытость новому». А вот связи с фактором «Согласие» оказались противоречивыми: положительная связь существует с полюсом «Индивидуализм», но отрицательная — с полюсом «Подозрительность» (люди, готовые
к честной конкуренции, являются скорее доверчивыми социальными оптимистами).
На студентах факультета психологии МГУ мы получили возможность
исследовать связь между «Готовностью к конкуренции» и отношением к
компьютерному тестированию. На выборке в 65 человек (это лишь часть
из 94 участников процитированного выше «послеопроса») была получена
невысокая, но все-таки ожидаемая значимо положительная связь — 0,28.
Причем вполне понятно, по каким причинам эта связь оказалось невысокой: из выборки выпали те студенты, которые воспользовались возможностью и отвечали на опрос об отношении к тестам и экзаменам анонимно,
а ведь именно они формировали полюс «отрицательное отношение к тестовым экзаменам» (по анонимным участникам было невозможно восстановить их личностные профили по психологическим тестам).
Казалось бы, ну и что тут удивительного и неожиданного? Этот факт
следует осмыслить не просто в академическо-научных терминах, а в логике анализа социального смысла компьютеризированного тестирования: такая соревновательно-инновационная процедура, как компьютерное тестирование, более позитивно воспринимается именно теми участниками, которых мы можем назвать сильными и приспособленными,
готовыми к риску не только побед, но и возможных поражений в честной
конкуренции.
А еще одно следствие из этой выявленной (подтвержденной) связи
тоже следует считать поучительным. Оно касается нижнего полюса шкалы «Готовность к конкуренции» — за сопротивлением внедрению тестов
часто скрывается именно низкая субъективная готовность к конкуренции, избегание ситуаций конкуренции, неприятие риска возможной неудачи (которая оценивается как весьма вероятная).
Итак, сформулируем главный вывод этого параграфа в виде тезиса:
Внедряя в организацию систему тестирования знаний и способностей, мы структурируем конкурентную среду, вводим в нее значимые шкалы социального сравнения, конкурентные шкалы индивидуальных достижений.
Формируя атмосферу принятия тестовых технологий, мы создаем
атмосферу честной конкуренции — внедряем этику соревновательных,
партнерских отношений. А что за ценностные ориентации и установки
находятся на обратном полюсе? Это избегание конкуренции. По нашему
мнению, именно избегание конкуренции — ключевой глубинный фактор
сопротивления тестам и тестовым системам.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 613
8.7. ПРИРОДА, ПРИЧИНЫ
И ФАКТОРЫ СОПРОТИВЛЕНИЯ ТЕСТАМ
Перечень факторов сопротивления тестам не сводится, разумеется, к
одному только фактору низкой готовности к конкуренции, хотя многие
факторы связаны по своей природе с этим глубинным. С нашей точки
зрения, практически полезная классификация факторов сопротивления
рождается на основе достаточно банального и поверхностного различения
«групп интересов». Действительно, тестовая технология может быть поразному истолкована и воспринята разными группами лиц в Вашей организации. Любая стратегия внедрения должна быть выстроена как поиск
определенного компромисса (явного или неявного договора) с определенной «группой интересов».
1) «Оценщики» — эта та самая группа лиц, которая быстрее всех других
отрефлексирует определенные угрозы со стороны проекта создания
системы тестирования. Мы-то думаем, что больше всех будут сопротивляться тестированию потенциальные испытуемые, и при этом
чаще всего ошибаемся. Самое острое, изощренное и последовательное
сопротивление следует ожидать не со стороны тех, для кого это хоть и
стрессовый, но временный эпизод, а со стороны тех, для кого деятельность оценивания — это основной «хлеб», источник профессионального заработка, то есть средств к существованию. Кто это такие оценщики? Это те работники в организации, которые выносят свои оценки,
влияющие на судьбы кандидатов и работников. Это эйчары (кадровики), занимающиеся набором новых сотрудников. Это члены аттестационных комиссий, а главное, «генеральные секретари» этих комиссий
(не путать их социальную позицию с ролью председателей, которые
чаще всего возглавляют эти комиссии формально — по должности, извлекая свои доходы вовсе не из работы в этих комиссиях). Скорее всего,
начальство (занятое тучей других забот) даст на рецензию Ваш проект именно оценщикам, и если Вы еще до этого не добьетесь с ними
определенного компромиссного соглашения, то они, скорее всего, отвергнут ваш проект. И не потому, что в проекте много недостатков (их
при желании можно найти в любом проекте), а потому что «оценщики» боятся, что тесты — это то, что сократит их влияние, прочность
их позиций в организации. В отношении к тестовым технологиям
оценщики испытывают конкурентные (ревностные) эмоции в логике
«угрозы замещающей технологии» (использую терминологию Майкла
Портера, одного из самых популярных современных авторов, разрабатывающих тематику конкуренции, — Портер, 2000). Вам придется внедрять тесты в контексте комплексной системы не только потому, что
комплексная оценка действительно повышает валидность кадровых
решений, но и потому, что экспертные технологии УЖЕ применяются
до всяких тестов, и нужно продолжать их применять после внедрения
тестов. А в этих экспертных технологиях именно «оценщики» играют
614
Практическая тестология
ключевую роль, тем самым обеспечивается если не статус-кво, то, по
крайней мере, компромисс. Итак, на протяжении всей книги моя рекомендация звучит так:
Добиться определенной кооперации (или хотя бы компромисса) с
«оценщиками» можно, но только не путем их отстранения, а, наоборот,
сохраняя за ними ключевую роль в конечной (итоговой) оценке, предоставляя им тестовые результаты лишь как «информацию к размышлению» при принятии ими их собственных решений.
О том, что оценщики будут не совсем объективны в отношении
Вашего проекта, Вы должны с самого начала проинформировать (убедить) руководство. Именно от позиции руководства (а не Вашей) в конце концов зависит, удастся ли нейтрализовать «оценщиков», имеющих
скрытую мотивацию «задушить идею» еще в зародыше. Конечно, в
образовательных и производственных учреждениях сам этот фактор
имеет существенно различный вес, как и мероприятия по его нейтрализации. Ну, хотя бы потому, что в школах и вузах во много раз больше
«оценщиков» — это фактически все учителя и преподаватели. Понимая
природу и смысл той позиции, которую занимают «оценщики» в отношении инструментальных технологий, не следует допускать ту самую
ошибку, которую допускают до сих пор организаторы того же ЕГЭ, «поручающие козлу капусту сторожить». Тех, кто учил, не надо допускать
не только к экзаменованию (тестированию) своих собственных учеников, но и учеников из «соседней школы» тоже. Впрочем, в отношении
выпускников школ вузовские преподаватели тоже могут проявлять необъективность, но уже другой природы — многие из них хотели бы занизить уровень подготовки абитуриентов (качество входного материала), чтобы подчеркнуть многотрудность задачи, стоящей перед ними
(выдать на выходе из вуза качественный продукт). Но это, строго говоря, уже другая «группа интересов» — см. группу 3.
2) «Испытуемые» — эта группа не нуждается в особых разъяснениях.
Впрочем, в последнее время считается политкорректным не использовать термин «испытуемые», а говорить об «участниках» тестирования. Ну, что же, слово «участь», конечно, вызывает более положительные эмоции, чем слово «пытка». Мы, без сомнения, рекомендуем Вам
использовать именно слово «участники» во всех документах, которые
адресованы либо самим участникам, либо могут оказаться им доступными. Но все-таки слово «испытуемые» мы чаще используем в этой
книге, чтобы подчеркнуть связь этого термина с самим процессом, который мы называем «испытание». Тест — это все-таки иноязычный эквивалент русского слова «испытание», и об этом не стоит забывать. Хотя
в ситуации обследования клиента тест скорее оказывается инструментом обследования, чем испытания (о различении ситуации клиента и
ситуации экспертизы пойдет еще разговор в последнем параграфе этой
главы). В слове «участник» замаскирована асимметричность ролей
Глава 8. Социально-психологические проблемы внедрения тестовых систем 615
между «испытуемым» и «испытателем», которая имеется во всяком
настоящем испытании, то есть термин «участник» для ситуации экспертизы на самом деле не вполне подходит потому, что… запутывает
начинающего тестолога. Но уже само желание называться «участником», а не «испытуемым» проясняет многое в причинах появления настоящего страха у тех, кто боится испытаний. Испытание — это всегда
определенный риск неудачи; настоящее испытание потому и называется так, что с ним можно не справиться. А если всем гарантирован положительный результат под олимпийским девизом «Главное — не победа, а участие», разве это испытание?172 Это профанация. Что же делать
с этим страхом, с этой причиной сопротивления тестам? Наша рекомендация:
Чтобы уменьшить страх испытуемых перед испытанием, надо
не только и не столько снижать трудность самого испытания, сколько
снижать неопределенность и неизвестность: чем лучше испытуемые
осведомлены о том, что за испытание им предстоит, тем лучше они к
нему оказываются готовыми.
Но, конечно, строго говоря, в отношении такой группы «интересов», как испытуемые, уместно различать такие причины сопротивления, как низкая информированность и собственно слабая подготовка.
Очевидно, что для снижения сопротивления по причине слабой подготовки следует подбирать такие тесты, которые адекватны по уровню
трудности. Главное, предсказать хотя бы с точностью до четверти выборки (но лучше до децилей — десятков процентов) примерное соотношение тех, кто получит средние и высокие баллы, и тех, кто получит
низкие результаты по тесту. Если последних Вы прогнозируете больше
половины, то тест надо менять на более легкий.
3. «Потребители» — в данном случае имеют в виду вовсе не потребителей конечной продукции, а тех, кто в технологической цепочке скорее
играет роль потребителей кадров определенной квалификации, чем
роль их поставщиков-производителей. В отношении абитуриентов
школьные учителя являются производителями-поставщиками, а вузовские преподаватели — потребителями (того уровня подготовки, который обеспечивают школьные учителя). Что такое репетиторство как
институт дополнительной довузовской подготовки? Это деятельность,
которая возникает в результате стремления потребителя поднять требования к «исходному материалу» (к подготовке абитуриентов) так,
чтобы самим поучаствовать в его «доводке». То есть потребитель оказывается нередко опять-таки лицом, заинтересованным в создании и
172 Вспоминается один из киногероев актера и барда Юрия Визбора, который в фильме о
горнолыжниках высказывает такое понимание спортивной этики (этики честной конкуренции): «Главное — не победа, а путь к победе, и твоя задача — пройти этот путь достойно»
(цитату автор книги формулирует вовсе не дословно, по памяти).
616
Практическая тестология
оберегании собственного бизнеса на рубеже «сдача школьников — приемка студентов». Завышая требования, потребитель, как и на всяком
рынке, мотивирован стремлением «сбить цены» — понизить оценку
качества поставляемой ему продукции. А кто такой потребитель на
производстве? Это часто линейный руководитель по отношению к новичку — вчерашнему соискателю, прошедшему отбор и поступающему
к нему на «испытательный срок». Понимая направленность интересов
«потребителей», мы поймем лучше, каким образом нужно добиваться
определенного соглашения с этой группой (или компромисса) — нужно добиваться противоположного впечатления, чем в случае с испытуемым (продавцом своей рабочей силы), — нужно создавать впечатление, что внедряются не легкие, а, напротив, достаточно трудные тесты.
Сформулируем рекомендацию в виде тезиса:
Группе потребителей надо разъяснять и показывать, что применяемые тесты достаточно трудны и будут отсеивать тех, кто не готов к работе и может подвести, и будут допускать до работы только тех, кто не
подведет.
4. «Технические исполнители» — это, как правило, те люди в организации, на которых внедрение тестов ляжет дополнительной нагрузкой в организационно-техническом плане. «Айтишникам» (специалистам по IT-технологиям) придется выполнять значительную дополнительную работу по установке и эксплуатации каких-то новых
программ и баз данных. Администраторы (например, младшие сотрудники учебной части в вузах, какие-то рядовые сотрудники отдела персонала в производственной организации) опасаются, что
возникнет дополнительная нагрузка, связанная с нестандартным
документооборотом, необходимостью планирования нестандартного расписания сеансов тестирования и т.п. Самая главная рекомендация здесь состоит в том, чтобы добиться заинтересованности этого
персонала в сотрудничестве с Вами, заручившись у руководства обещанием выплаты премий за дополнительную работу (так называемую «переработку», которая вначале, на первых этапах внедрения
тестовой системы, именно так будет восприниматься). Только убедившись в том, что Вы приносите этим людям возможность дополнительных заработков, можно надеяться всерьез на их лояльность и
их содействие. Надо помнить, что инновации без инвестиций — это в
наше время, увы, как правило, усилия, обреченные на неудачу, — горстка энтузиастов, способных двигаться против течения, не может изменить мотивации консервативного большинства, движимого инерцией.
5. Некомпетентное руководство — это далеко не последний фактор по
своей значимости. Напротив, именно этот фактор играет часто самую роковую роль. Ратуя на словах за внедрение тестов, некомпетентный руководитель (часто не признающийся сам себе в том, что он уже
Глава 8. Социально-психологические проблемы внедрения тестовых систем 617
потерял уверенность в своем профессионализме) в какой-то момент
вдруг может почувствовать угрозу для себя и… начнет «сворачивать
голову собственному ребенку» — еще крошечной и не вставшей на
ноги системе тестирования. В каких случаях этот риск усиливается?
Если тесты начинают выявлять в организации талантливых людей,
которых руководитель может воспринять для себя как личную угрозу
замены на своем посту. Можно ли обхитрить некомпетентное руководство? Я бы очень рекомендовал тщательно взвесить силы на этом
пути. По моему жизненному опыту, чем менее компетентен руководитель в профессиональном плане, тем более изощренный и хитрый
он политик. Так что весьма вероятный исход такого противостояния — это в лучшем случае отмена тестирования, а в худшем — Ваше
увольнение. Заприметив у руководителя стремление «свернуть программу тестирования», гораздо практичнее принять самому участие
именно в мероприятиях по сворачиванию, чем противостоять этой
тенденции, или уходить из этой организации в другую как можно
скорее.
6. Житейские представления о справедливости. Конечно, было бы
в высшей степени неправильно все факторы сопротивления свести
только к несовпадающим интересам разных социальных групп. Есть
и некоторые «сквозные» факторы, которые свойственны фактически
всем людям. Ключевой из них, пожалуй, — это представление о справедливости, о котором мы уже писали не раз и во введении, и в других главах книги. Не надо его сбрасывать со счетов. Напротив, наша
рекомендация состоит в том, чтобы тщательно проанализировать,
в какой степени планируемая практика применения теста соответствует житейским представлениям о справедливости, свойственным
большинству сотрудников данной организации независимо от их ролевой (должностной) позиции. Согласно житейским представлениям,
справедливая оценочная процедура должна дифференцировать оцениваемых соответственно их усилиям в БОЛЬШЕЙ СТЕПЕНИ, чем в
соответствии со способностями и природными задатками. Переходя
на бытовой язык, можно сказать, что люди в большей степени готовы
к осуждению лодырей, нежели бездарей, к поощрению скромных трудяг, чем амбициозных ярких импровизаторов. С этими представлениями обязательно надо считаться. Если тест создает слишком трудные
условия именно для трудолюбивых (хотя и ограниченных в чем-то
людей), то его, скорее всего, сочтут несправедливым. Если в данной
организации трудолюбивые «пчелки», как правило, являются медлительными, то придется несколько смягчить требования к скорости решения заданий. Это как минимум! Но что это означает практически?
Это означает необходимость «перенормирования» тестовой шкалы —
расчета новых тестовых норм применительно к данным условиям в
данной организации.
618
Практическая тестология
***
Конечно, приведенный перечень факторов (причин) сопротивления
является весьма огрубленным и не учитывает множество «тонких и особых случаев». Например, в какой-то организации сами первые лица (или
первое лицо) являются не столько некомпетентными руководителями
(хотя и этот фактор может присутствовать), сколько лицами, претендующими на роль «оценщиков» — им нравится самим оценивать своих сотрудников, и они уверены, что лучше их самих никто это сделать не может. Такая комбинация факторов, несомненно, затрудняет борьбу с таким
сложным случаем сопротивления.
Итак, мы выявили в этом параграфе, что у тестов имеется очень много
«природных противников» — тех лиц, которые по самой своей социальной
роли не заинтересованы в их внедрении. Что является следствием такой
грустной картины? Наша рекомендация следующего характера:
Надо постоянно разъяснять руководству, что внедрение любой системы тестирования (даже такой, по которой не принимается никаких радикальных решений, но результаты все-таки будут иметь определенное
«моральное значение») будет обязательно порождать сопротивление, и
снижения этого сопротивления можно добиться путем определенной «организационной автономизации» группы исполнителей этого проекта —
сокращения ее зависимости от других групп и подразделений в организации.
8.8. Когда тесты в самом деле вредны
Сейчас, приближаясь к завершению книги, в этих последних параграфах мы возвращаемся к тому, что уже прозвучало во Введении (в вводной
главе) — к вопросу о том, что в ряде ситуаций тесты на самом деле оказываются вредны, то есть от их внедрения лучше отказаться. Теперь мы повторим перечень этих ситуаций с бОльшей, чем ранее, уверенностью, что
этот перечень будет воспринят читателем с пониманием.
Низкая психометрическая эффективность. Тесты вредны, если
допускаются грубые методические ошибки, то есть если используются
низкокачественные тесты или высококачественные тесты, но с методическими ошибками, нарушающими явные предписания по применению,
указанные в руководстве. Если Вы взяли какие-то тесты, в отношении которых никто никогда не проверял их психометрические свойства, будьте
настороже — скорее всего, они подведут Вас. Эта причина более или менее
очевидна и хорошо изучена в тестологической литературе, ей же посвящено и большинство глав этой книги, связанных с измерением надежности,
валидности и репрезентативности тестов. Более интересно и важно в контексте настоящей главы остановиться на других причинах.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 619
Низкая доверительная валидность в глазах испытуемых. Тесты
вредны, если они плохо моделируют деятельность, ради прогноза эффективности которой они созданы. Тут речь идет не только об объективных,
но и субъективных свойствах теста — о том, что испытуемые сами НЕ верят в то, что тест полезен для прогноза эффективности их деятельности.
Даже если сотрудники смирились под административным давлением и
внешне послушно выполняют тесты, их скрытое сопротивление может
приводить к тому, что результаты будут серьезно искажены и будут тем
самым не просто бесполезны, а именно вредны. Любой скрытый саботаж
программы тестирования рискует обернуться чудовищными результатами — давать обратный эффект за счет конкурентных преимуществ, которые получают менее лояльные сотрудники по сравнению с более лояльными. Следующий критерий в каком-то смысле можно рассматривать как
более обобщенное продолжение этого правила.
Определенное несовпадение интересов трансформировалось
в конфликт. Не всякое несовпадение интересов приводит к конфликтному взаимодействию. За счет акцента на часть интересов, которые совпадают, можно и нужно избежать возникновения конфликта. Но неграмотное в социально-психологическом смысле внедрение чаще всего
приводит именно к этому — к актуализации потенциального конфликта.
Тесты вредны, когда большинство испытуемых не настроены честно сотрудничать с организаторами тестирования, а главное — не настроена
в пользу тестирования ключевая группа наиболее эффективных и влиятельных (авторитетных) работников в организации (успешных студентов в студенческой группе и т.п.). Если по каким-то причинам (иногда в
результате неадекватных иллюзий или заблуждений) среди работников
распространилось убеждение, что тест — это инструмент незаслуженной
дискриминации, если не удалось настроить сотрудников еще до массового тестирования по-другому, то результаты тестирования будут скорее
вредны, чем полезны, ибо люди будут выполнять тесты с искаженной
мотивацией, применяя сознательно или чаще даже полубессознательно
определенные тактики фальсификации (уклонения от достоверного выполнения теста). Тысячи специалистов — изобретателей тестов — потратили, наверное, миллионы человеко-часов, чтобы изобрести такие тесты,
которые бы давали объективные результаты против воли людей, сопротивляющихся тестам. Самым красноречивым свидетельством того, как
плохо работают определенные формальные критерии и инструменты отбора, являются антиэлитные механизмы, приводящие к выдвижению на
руководящие должности (в масштабах крупных корпораций и даже государства в целом) людей с паразитарными установками коррупционеров.
Особый случай — конкурсное тестирование. Люди должны участвовать в
нем, разделяя базовые принципы конкурса: награду получают не все, а
только победители. Только создав в организации атмосферу понимания
и принятия правил конкурсного тестирования можно проводить тесты
620
Практическая тестология
с резкой дифференциацией благ, выделяемых участникам по их результатам. «Точка отсечения», разделяющая группы, получающие разное вознаграждение (или наказание) по итогам теста, должна лежать примерно в
той области, где ее ожидает увидеть большинство участников. Если большинство хотят, чтобы тест «отсекал» 20 процентов худших (то есть работал
бы как «тест отсева»), а он отсекает 80 процентов худших (то есть работает
как «тест отбора»), то это неминуемо приведет к актуализации конфликта.
Способы обмана лежат на поверхности. Тесты вредны, когда большинство сотрудников в организации (или в группе тестируемых) знают
(или догадываются), как именно можно обмануть тест, и есть люди, которые обязательно воспользуются этой возможностью. В появлении ложных, завышенных результатов часто виноват не столько сам тест (набор
заданий в узком смысле), но социально-информационная технология его
проведения, не адекватная данным организационным условиям. Кто должен был хранить в тайне «ключи к тесту»? Заинтересован ли этот персонал (имеющий доступ к ключам) в том, чтобы добросовестно выполнять
свои обкоязанности? Этими вопросами должен задаваться всякий, кто
стремится внедрить тесты не формально, а с целью добиться реального полезного результата.
Тесты заменяют контроль более важных компетенций. Тесты
могут быть реально вредоносной технологией из-за того, что они, будучи
внедрены как единственная оценочная технология, измеряют что-то менее важное, но не измеряют фактически и не могут измерить что-то более важное в человеке. Как уже говорилось выше, тесты рассматриваются
как вредные с позиции тех весьма влиятельных людей в организации,
которые применяли оценочные процедуры до внедрения тестов. Нередко
эти люди сопротивляются внедрению тестов в логике «луддитов, ломающих станки», ибо видят в этих инструментах конкурирующую силу, заменяющую их труд в организации. Но… не надо рассматривать критику
тестов с позиции этих людей только как проявление защитных эгоистических реакций. В критике со стороны этих людей нередко есть рациональное зерно и большая ценность. Рассмотрим такой упрощенный пример.
В организации решили внедрить тесты, в которых подавляющее число
тестовых заданий (вопросов) проверяет то, как сотрудник помнит какието мелочи из инструктивных и регламентирующих документов. И при
этом решили… отменить обычный человеческий контроль того, насколько
работник в ходе живого контакта с наблюдателем (аналог устного экзамена) может просто показать (даже не рассказать), в каком порядке он производит те или иные производственные операции, решая определенную
производственную задачу. То есть контроль более существенного качества
(компетенции) подменили контролем гораздо менее существенного, но
легко формализуемого качества (память на письменные документы). Обоснованным ли в данном случае будет протест специалистов по традиционным методам оценки? Да, совершенно обоснованным. Чтобы избежать
Глава 8. Социально-психологические проблемы внедрения тестовых систем 621
этого риска (этой разновидности вреда от тестов), мы рекомендуем на протяжении всей этой книги не применять тесты изолированно, но лишь в
разумном сочетании с другими, традиционными оценочными технологиями.
Рост точности оценки по сравнению с затратами на внедрение
ничтожен. Тесты оказываются вредными, если они приводят к неоправданному росту затрат при незначительном повышении точности оценки
(а иногда даже понижении точности!). Если при внедрении тестов кто-то
корыстно рассчитал, что тем самым «освоит определенный объем финансирования», то скорее всего эффект от тестов будет антиэкономическим.
Необходимо сравнивать затраты и полезный эффект. Не исключено, что
традиционные оценочные технологии будут все-таки рентабельнее — с
учетом того, что они не требуют особых дополнительных вложений. Для
отслеживания этого эффекта надо применять особые формулы расчета
рентабельности тестов (см. главу 6).
8.9. Профессионально-этические принципы тестолога
Во многих руководствах по тестированию приведены этические
принципы. Но в этом руководстве мы считаем необходимым акцентировать то, чему обычно уделено недостаточно внимания, а именно — различия между двумя типами социальных ситуаций в применении тестов:
ситуации обследования добровольного клиента и ситуации обязательного
испытания. По нашему убеждению, необходимо разделить 2 перечня этических предписаний для этих двух классов ситуаций, которые являются
принципиально различными по своей логике. В противном случае путаница и внутренние противоречия сводят на нет смысл этих предписаний. Для этих ситуаций целесообразно разработать и применять разные
типовые документы по типу «Информированного согласия на обследование» (ниже автор приводит лишь один образец такого документа).
В ситуации клиента объектом оказания помощи (адресатом услуги)
является сам клиент, а в ситуации экспертизы — третьи лица, а не сам
клиент. И это очень существенная разница! Те же самые психологи склонны очень часто все возможные ситуации сводить к ситуации клиента и
рассматривать самого обследуемого (тестируемого) как объект оказания
помощи. Но это принципиально неверно. В разных ситуациях люди находятся в существенно разных социальных ролях, и к ним применяются разные этические предписания. Приведем ряд примеров. Соискатель,
который готовится стать спасателем (например, пожарным), должен быть
морально и психологически готовым к тому, чтобы рисковать своим здоровьем и жизнью ради других людей — тех, кого он спасает. Пожарный —
это тот, кто бежит на пожаре ровно в противоположную сторону по сравнению с направлением, предписанным гражданским лицам. Все бегут вниз
622
Практическая тестология
по горящей лестнице вон из горящего здания, а пожарный поднимается
по этой лестнице вверх, чтобы тушить и спасать. В этом принятии риска
для собственной жизни и здоровья и будет заключаться профессионализм
спасателя, а в отказе от этого риска будет скрываться его неготовность к
работе. Поэтому, когда мы тестируем пожарных-соискателей, неявно (но
лучше это сделать явным) мы имеем в виду приоритет интересов третьих
лиц как объектов помощи над интересами испытуемого. Это именно ситуация испытания. Теперь мы, наконец, подготовлены, чтобы сформулировать самые главные (для этой книги) различающие определения для
термина «ТЕСТ», позволяющее выразить тот смысл, который вложен в слова «испытание» и «профессиональное тестирование»:
А) Профессиональное тестирование — это деперсонифицированная
оценочная процедура, результаты которой не зависят от воли оценивающих лиц, в ходе которой испытанию подвергается человек, претендующий на выполнение определенной профессиональной работы, то есть готовый поставить свои интересы на службу определенных третьих лиц —
объектов профессиональной помощи. Именно в этом главном и основном
смысле родились тестовые испытания еще в глубокой древности. Например, это были спортивные соревнования, позволяющие оценить качества
воина без риска военного поражения и т.п. Спортивные состязания и
спортивные игры древности — это, прежде всего, символические тестовые испытания воина, которые постепенно, с ходом истории приобретали
мотивационно-смысловую автономию от своего изначального прикладного смысла.
Б) Помогающее тестирование — это оценочная процедура, цель которой оказать помощь самому тестируемому путем выявления у него определенных проблем, объясняющих трудности социальной и профессиональной адаптации, определенных неактуализированных (невостребованных) способностей, резервов роста и т.п.173
В контексте медицинского обследования мы имеем дело, прежде всего, с «помогающим тестированием» (хотя медицинское обследование в
военкоматах — это уже нечто, больше похожее на профессиональное тестирование). В контексте педагогического тестирования мы решаем и
первую, и вторую задачу как бы одновременно, хотя всякий раз было бы
полезнее их различать. Впрочем, чаще всего первый вид тестирования
здесь называют образовательно-педагогическим (можно было бы называть
дидактическим, когда речь идет о сумме полученных знаний, умений
173
Профессиональное тестирование — это скорее разновидность так называемых «мужских» видов деятельности, ибо женщины исторически далеки от участия в военных и спасательных отрядах (согласно первобытному разделению труда между полами). Помогающее
тестирование — это скорее разновидность «женских видов» деятельности. То есть один вид
деятельности, образно выражаясь, пришел с планеты Марс, другой — с планеты Венера, и
логику, и этику этих разных видов деятельности очень непросто совместить. — Прим. автора.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 623
и навыков), а второй — психолого-педагогическим. Но прежде, чем запутывать ситуацию путем введения смешанных случаев, давайте в чистом
виде рассмотрим ситуацию экспертизы и ситуацию клиента.
Яркий пример профессионального тестирования — это тестирование
будущих водителей автомобилей на знание правил дорожного движения
(ПДД). Мы производим это тестирование не с целью оказания помощи водителям в получении ими прав (в соответствии с их желаниями), а в интересах третьих лиц — в интересах других участников движения. Хотя в
данном случае противоположность интересов водителя и третьих лиц не
так ярко проявляется, как в отборе на профессиональную роль «спасателя». Знание водителем ПДД — это условие для его собственной безопасности тоже.
Даже более яркий пример профессионального тестирования — это
ситуация экспертизы граждан, претендующих на усыновление ребенка.
Они хотят доказать, что могут воспитывать, но тестирование их готовности и умения именно воспитывать (а не «играться» с ребенком) имеет
целью вовсе не оказание помощи самим этим людям, а оказание помощи
третьим лицам — детям. Таким образом, это ситуация испытания — возникает волей-неволей определенное несовпадение интересов между испытуемым и испытателем. Испытуемый заинтересован (порой подсознательно) скрыть от испытателя свои недостатки (например, недостаток
эмоциональной устойчивости, взрывчатость, психопатичность характера), а испытатель заинтересован их раскрыть в интересах третьих лиц —
в интересах детей. Также в интересах людей производится тестирование
профпригодности педагогов. А вдруг окажется, что соискатель — это скрытый педофил, а вдруг это садист? Скрытый садист может метить в педагоги потому, что мучить детей, с его точки зрения (возможно, не вполне им
же осознаваемой), ему будет легче, чем сильных взрослых людей, больше
способных защитить себя.
Конечно, можно понять ситуацию профессионального тестирования
и таким образом, что ПО БОЛЬШОМУ СЧЕТУ оно проводится в долгосрочных интересах самого тестируемого. Ведь объективные результаты испытания дают информацию самому тестируемому о том, справится или
не справится он с профессиональными задачами, и в этом смысле они
помогают ему. Но это понимание ситуации экспертизы не должно нас
запутывать и затушевывать того факта, что все-таки ситуация экспертизы актуализирует определенное если не осознанное, но подсознательное
стремление испытуемого избежать преждевременного вскрытия каких-то
недостатков (не будем называть это «разоблачением», но в ряде крайних
случаев и этот термин вполне уместен).
Таким образом, мы приходим к разным перечням этических предписаний для двух разных ситуаций тестирования. Познакомьтесь с этими
двумя перечнями, и Вы еще раз убедитесь в том, что эти ситуации гораздо
полезнее различать, чем объединять.
624
Практическая тестология
Примеры путаницы и «этические конфликты»
В течение ряда последних лет на лекциях по курсу «Основы психодиагностики» мы добавили к опроснику из 14 вопросов «Про Вещего Олега»
еще несколько вопросов, касающихся выявления этических установок и
представлений студентов. Эти вопросы имели целью спровоцировать более заинтересованное обсуждение этических проблем, ибо сами вопросы были сформулированы мной так, чтобы заведомо не возникло особого
единодушия в ответах. Но, тем не менее, несмотря на главную цель (педагогическая провокация), сами по себе вопросы и полученные результаты
полезны в нашем контексте, ибо они иллюстрируют неразвитость обыденных представлений (а студенты приходят на этот курс, на его первую
лекцию именно с обыденными, житейскими, а не профессиональными
представлениями), наличие противоречий в путаной нынешней профессиональной этике, не различающей социальные ситуации в применении
тестов.
Высказывание\ Баланс «да-нет»
2004
2006
2008
2010
2012
Психолог (тестолог) имеет право
обманывать испытуемого, скрывать
от него истинное назначение теста
и характер использования тестовых
результатов.
51—49
43—57
53—47
53—47
56—44
Психолог имеет право соврать
испытуемому, если тот получил
низкие результаты, чтобы не травмировать его.
63—37
44—56
50—50
50—50
35—65
Психолог должен дать испытуемому
точную количественную информацию по результатам теста, например, указать, сколько процентов
испытуемых выполнили данный
тест слабее или сильнее его.
5 — 95
13—87
36—64
41—59
27—73
Таблица 8.8. Проценты ответов «да — нет» на вопросы-утверждения, сформулированные для студентов в разные годы на вводной лекции в МГУ по курсу «Основы психодиагностики».
На самом деле, по убеждению автора, сформулированные вопросы не
имеют однозначного ответа без различения ситуаций профессионального и
помогающего тестирования (ситуаций клиента и экспертизы). Именно это
различение позволяет преодолеть разброс ответов, которые дают на эти вопросы не только студенты, но и профессиональные подготовленные психологи.
При этом обращает на себя внимание следующая тенденция: с годами наблюдается определенный сдвиг в сторону ситуации профессионального тестирования, точнее, снижается преобладание имплицитного (подразумеваемого)
Глава 8. Социально-психологические проблемы внедрения тестовых систем 625
предположения ситуации клиента как единственной ситуации применения
тестов. Именно в ситуации клиента надо оберегать тестируемого от травмирующей его правдивой информации о возможных низких результатах. И это
в 2004 году было выражено гораздо сильнее, чем в 2010 и 2012 годах. С чем связаны эти перемены в настроениях студентов? На наш взгляд, возможное объяснение этому заключается в постепенном распространении в нашей стране норм профессионального тестирования, хотя бы в результате внедрения
ЕГЭ, который является несомненно примером именно профессионального, а
не помогающего тестирования. Важно отметить, что этот сдвиг в последние
годы сопровождается сдвигом установок студентов (а фактически установок
населения) в пользу измерительного, а не «глазного» подхода к оцениванию,
то есть в пользу тестовых методов оценивания. Об этом свидетельствуют, в
частности, соотношения средних (медианных) баллов студента на первые
вопросы вводного тест-опросника, приведенные нами ранее в этой главе на
рисунке 8.1. Медианный балл в 2004 году был около 7, а в 2010 — около 9, то есть
произошел очевидный сдвиг в пользу количественных, формализованных
методов оценивания. Так что настала пора разобраться в этических принципах тестовой деятельности с особой тщательностью.
Принципы и требования в ситуации обследования клиента
Принцип профессиональной подготовки. Тестолог должен пройти
специальную подготовку (сертификацию) для применения определенной
методики, так как корректное проведение разных методик требует разной
подготовки. Есть тесты, требующие лишь общей подготовки, а есть тесты,
включающие элементы экспертного оценивания, требующие специального обучения работе с данным конкретным инструментом.
Приоритет суверенитета и прав личности. Имеется в виду в данном случае личность именно обследуемого (тестируемого клиента). Этот
принцип включает возможное обязательство конфиденциальности. Клиент должен быть однозначно проинформирован тестологом о том, с какой
целью предпринимается тестирование, кто и с какими целями будет использовать результаты тестирования, какие решения будут приняты на
основе результатов тестирования. В ситуации помогающего тестирования
должно быть удовлетворено желание клиента ограничить круг лиц по его
собственному усмотрению, например, включить туда только тестирующего (выступающего в роли консультанта). Тестирующий принимает на
себя обязательство конфиденциальности (неразглашения), если тестирование проводится в контексте консультативной помощи клиенту.
Принцип профессиональной тайны. Тестолог не должен разглашать
для испытуемых (а также для потенциальных испытуемых) те элементы теста, которые составляют предмет ноу-хау (профессиональной тайны) — тестовые задания, ключи и нормы. Например, публикация этих элементов в
626
Практическая тестология
открытых, бесконтрольно распространяемых газетах, журналах, сборниках,
на публичных сайтах, не требующих модерируемой регистрации, является
нарушением профессиональной тайны. Внимание: если принцип профессиональной тайны в случае определенной методики вступает в ситуации клиента в определенное противоречие с принципом «приоритета прав клиента», то
следует отказаться от использования данной методики, посчитав ее приемлемой только для ситуации профессионального тестирования.
Признание права клиента на отказ. В ситуации клиента тестолог
должен исходить из права обследуемого на явный или скрытый отказ
от честного выполнения методики. Право на скрытый отказ возникает
вследствие права клиента скрывать мотивы открытого отказа. Тестолог не
имеет права в ситуации клиента обвинять клиента в отказе от тестирования, в применении определенной стратегии выполнения теста, искажающей результаты в его пользу и т.п.
Смягченный принцип объективности. Речь идет о смягчении в сочетании с принципом «психотерапевтической интерпретации результатов». В ходе тестирования тестолог не должен вмешиваться в процедуру
и должен трактовать результаты тестирования максимально объективно,
раскрывая перед испытуемым результаты, которые могут указывать на
трудности в решении определенных проблем испытуемого по причине
его собственных недостатков (определенных дефектов). Но после тестирования в ситуации клиента тестолог, будучи фактически в роли психологаконсультанта, должен всячески смягчать полученные результаты с целью
«не повредить» — не нарушить психологических механизмов адаптации,
не привести к подрыву защитных свойств самооценки.
Вот этих пяти основных принципов я считаю вполне достаточным
набором. Если мы попытаемся его расширить и детализировать, то придем к ситуационным частностям, которые неминуемо дискредитируют
ясность этих основных принципов, так как будут противоречить другим
ситуациям тестирования.
Принципы и требования в ситуации
профессионального тестирования
Обратите внимание, что в данном случае меняется не только содержание, но и последовательность этих принципов, ибо меняется их ранг по
значимости (номер отражает ранг).
Принцип профессиональной подготовки. Данный принцип не
имеет существенной специфики по сравнению с ситуацией клиента.
Единственная оговорка касается следующего: ряд методик требует от тестолога особой подготовки, связанной с учетом стратегий преодоления
определенных видов противодействия со стороны испытуемого.
Глава 8. Социально-психологические проблемы внедрения тестовых систем 627
Принцип объективности. В данном случае никакого особого смягчения для соискателя не предусматривается. Основной вывод, приводящий
к отказу в ходе профотбора, должен быть аргументированным. Эта аргументация может быть несколько смягчена, но все-таки должна указывать
на определенные проблемы, недостатки и ограничения самого испытуемого. Для адекватного восприятия испытуемым этой информации тестолог должен проделать определенную подготовительную работу (на предтестовой консультации предупредить о возможных результатах). Скрыть
сам факт отказа тестолог не только не должен, он просто не может это сделать. Такова логика профессионального тестирования. Как и в ситуации
клиента, в ходе самого тестирования тестолог не должен вмешиваться в
процедуру и должен трактовать результаты тестирования максимально
объективно.
Приоритет прав третьих лиц. Здесь имеются в виду права не самого соискателя, а третьих лиц — тех, в интересах которых соискатель
собирается осуществлять профессиональную деятельность. Тестолог
имеет право не информировать испытуемого, какие свойства будут измеряться. В ситуации профессионального тестирования НЕ должно быть
удовлетворено желание клиента ограничить круг лиц по его собственному усмотрению, напротив, тестируемый дает информированное согласие на то, что результаты теста будут известны лицам, отвечающим за
кадровую политику в той организации, где он изъявляет желание трудиться.
Принцип профессиональной тайны. Как и в прежнем перечне для
ситуации клиента, тестолог не должен разглашать для испытуемых (а
также для потенциальных испытуемых) те элементы теста, которые составляют предмет ноу-хау (профессиональной тайны) — тестовые задания, ключи и нормы. В ситуации профессионального тестирования испытуемый должен быть предупрежден, что в тесте могут возникнуть тестовые задания, к которым он НЕ должен быть заранее подготовленным.
Для профессионального испытания желательна, но вовсе не обязательно
должна быть создана исчерпывающая демоверсия, которые позволила
бы заранее натренироваться в выполнении определенных тестовых заданий. Роль демоверсии (если таковая имеется) лишь в том, чтобы снизить до разумного уровень тревоги, вызванной неопределенностью, у
большинства испытуемых. Определенный уровень тревоги в ситуации
профессионального тестирования НЕ должен быть существенно ниже
того уровня тревоги (переживания ответственности), который обязан
испытывать профессионал при осуществлении своей профессиональной
деятельности.
Непризнание права клиента на отказ. В ситуации экспертизы тестолог должен исходить из того, что права на отказ у испытуемого нет. Это не добровольное, а обязательное обследование — экспертиза. Она возникает в ответ на заявление испытуемого о желании стать
628
Практическая тестология
профессионалом в определенной области, а значит, взять на себя определенные риски, связанные с данной профессиональной деятельностью.
Соискатель должен подписать «информированное согласие» — документ,
означающий его согласие на обязательное (недобровольное) испытание
его профессионально-важных качеств, знаний, умений, навыков (компетенций).
Принцип сотрудничества. Вот это новый и обязательный в данном случае принцип. Если к призыву сотрудничать в ситуации клиента нет особой нужды, то в данном случае — в ситуации возможного
противодействия — очень важно призвать самого тестолога стремиться к сотрудничеству с испытуемым. Именно понимая риск противодействия, тестолог должен стремиться к тому, чтобы сам тестируемый
осознал в ситуации экспертизы, что принцип сотрудничества отвечает
не только интересам третьих лиц, но и его (тестируемого) долговременным интересам — своевременное раскрытие возможных повышенных
рисков профессионального провала (с нанесением ущерба третьим лицам), связанных с недостатками тестируемого, ограждает тестируемого, возможно, даже не только от профессионально-этической, но и от
уголовной ответственности. Разъяснить это тестируемому — профессиональная обязанность честного тестолога. Результатом и ключевым
следствием принципа сотрудничества должно стать ЧЕСТНОЕ выполнение испытуемым тестового испытания. Именно честное выполнение обязанностей с обеих сторон (и со стороны тестирующего, и со стороны тестируемого) и должно стать целью и ценностью профессионального тестирования.
Завершая этот параграф, следует отметить, что в целом ряде случаев
возникает некая смешанная и промежуточная схема между чистой «ситуацией клиента» и чистой «ситуацией экспертизы». Это положение запутывает очень многих. Возьмем применение тестов в рамках так называемой «добровольной сертификации». Результаты этой сертификации,
разумеется, принято обнародовать. Но… только после проведения сертификационных испытаний, то есть изначально признается право сертифицируемого на анонимное участие. Например, пункт 4.7 стандарта ISO
17024 требует не передавать третьим лицам тестовую информацию, полученную по результатам сертификации, без письменного разрешения
участников (сертифицируемых). Это письменное разрешение можно
получить до испытаний в виде «информированного согласия», и тогда
мы получим чистую «ситуацию экспертизы». Но сам факт получения
письменного разрешения после испытаний строго разграничивает два
разных этапа: само испытание подчиняется в этом случае логике «конфиденциального обслуживания клиента», тогда как после получения
разрешения дальнейшее распространение этих результатов постфактум
подчиняется логике взаимодействия по принципам «ситуации экспертизы».
Глава 8. Социально-психологические проблемы внедрения тестовых систем 629
Образец документа «информированное согласие»
Ниже мы приводим образец документа, который соответствует ситуации профессионального (корпоративного) тестирования.
ИНФОРМИРОВАННОЕ СОГЛАСИЕ СОИСКАТЕЛЯНА
ОЦЕНОЧНУЮ ПРОЦЕДУРУ (ТЕСТИРОВАНИЕ)
Я, _________________________________________, (фамилия, имя, отчество)
будучи соискателем (сотрудником) в _____________________________________,
(наименование организации) на должность(и) _________________________
соглашаюсь выполнить оценочную процедуру (тестирование) ____________
___________________________________________________
Мне разъяснены и понятны цели и суть этого профессионального испытания, связанного с прогнозом успешности моей профессиональной
адаптации и профессиональной деятельности.
Я понимаю необходимость проведения указанной оценочной процедуры, которая позволит не только организации, но и мне самому(-ой) избежать неблагоприятных ситуаций, связанных с неудачным выполнением профессиональных обязанностей.
Мне известно, что результаты данного оценочного испытания будут
рассмотрены комиссией (полномочными представителями организации), принимающей решение об уровне готовности исполнителей и возможности допуска к работе на искомой должности.
Мне разъяснено, что результаты данного испытания не будут нигде
опубликованы, не будут переданы в какую-либо другую организация и
будут использоваться только для принятия кадровых решений в рамках
данной организации.
Мне разъяснено, что я могу получить при желании (после дополнительного письменного запроса с моей стороны) результаты на руки и использовать их по собственному усмотрению без ссылок на организацию, в
которой проводилась данная оценочная процедура.
Я удостоверяю, что текст моего информированного согласия на оценочную процедуру мною прочитан, мне понятно назначение данного документа, полученные разъяснения понятны и меня удовлетворяют.
Соискатель:______________________________________________
(подпись и ФИО соискателя)
Специалист:______________________________________________
(подписи и ФИО специалиста,
выполняющего оценочную процедуру)
630
ЗАКЛЮЧЕНИЕ
«Тест как лекарство»
Итак, в разных главах нашего руководства мы постарались осветить
разные критерии, от которых зависит эффективность создания и внедрения тестовой системы. В нашей трактовке перечень этих критериев гораздо шире, чем это обычно дается в тестологической и психологической литературе, где почти все сводится к психометрическим свойствам тестов.
Повторим ниже перечень принципов, который мы уже указывали во введении, и постараемся прокомментировать их для читателей снова — с точки зрения уже прочитанных читателем глав.
1) Критерий психометрической обоснованности (надежности, валидности, репрезентативности)
2) Критерий моделирования (очевидной валидности)
3) Критерий кооперативной готовности
4) Критерий субъективной справедливости
5) Критерий достоверности (информационной безопасности)
6) Критерий системной дополнительности (в отношении других
оценочных процедур)
7) Критерий рентабельности (конкурирующей эффективности)
Критерий 1 (точнее, группу критериев) «психометрической обоснованности» мы подробно осветили во многих главах — прежде всего, это
главы 1, 4 и 6, посвященные классификации тестов, вопросам их надежности, валидности и репрезентативности. Эти главы ориентированы на
профессионального тестолога и составляют ядро его профессиональной
компетенции. Но этой компетенции для успешного внедрения не хватает.
Тестологу необходим ряд менеджерских качеств, важно быть практическим социальным психологом.
Второй критерий «Очевидной валидности» мы в большей степени
рассматривали в главах 2, 3 и 8, посвященных процедурам разработки и
внедрения тестов. Пожалуй, главный адресат тут все-таки не менеджертестолог, а авторы тестовых заданий, хотя сбор данных о доверительной
валидности лежит именно на менеджере проекта. Этот критерий требует
апробации теста на реальном контингенте, моделирующем все свойства
выборки применения теста, а главное — воспроизводящем ситуацию тестирования. Сами испытуемые должны доверять, прежде всего, содержанию тестовых заданий, понимать и признавать, что они вполне удачно
ЗАКЛЮЧЕНИЕ. «Тест как лекарство»
631
моделируют профессиональную деятельность, или ситуацию проявления
важных качеств — тех, которые важны для их успешности. Если тест воспринимается испытуемыми как «НЕ имеющий отношения к делу», это
будет вызывать гораздо более серьезный открытый или скрытый протест,
ибо разделение людей по этому тесту будет восприниматься как несправедливое.
О критериях кооперативной готовности и субъективной справедливости мы в большей степени говорили в главах 7 и 8, где шла речь скорее о
деятельности тестирования, социально-психологическом контексте, чем
о тестах как отдельном информационном объекте и инструменте деятельности. Даже прекрасный инструмент может дать негативный результат,
если он вмонтирован в плохо организованную деятельность тестирования, если решения, принимаемые на основе теста, воспринимаются
людьми как несправедливые, если не решены грамотно системные организационные вопросы. Главы 7 и 8 должны быть полезны не только для узкоспециализированных тестологов, но и для управленцев широко профиля — всех, кто работает с кадрами, занимается их обучением и оценкой.
О критериях достоверности и рентабельности шла речь, прежде
всего, в главе 6. Здесь этому напрямую посвящены многие параграфы,
да и сами эти понятия просто вынесены в название главы 6. Сам тест —
это определенная коммуникативная технология, так как через содержание тестовых заданий (вопросов теста) разработчик ведет опосредованный диалог с тестируемым. Определенную достоверность можно
обеспечить, если этот диалог организовать грамотно. Но… не все зависит от разработчика! Вот именно это надо обязательно понять практическим тестологам, среди которых профессиональных пользователей
тестов гораздо больше, чем разработчиков. Именно от пользователя в
большей степени зависит достоверность результатов тестирования —
их защищенность от преднамеренных или неосознанных искажений
(фальсифицирующих стратегий). Именно пользователь должен на месте измерить, насколько результаты достоверны. Так же дело обстоит
и с рентабельностью. Если в одной организации условия проведения
складываются таким образом, что рентабельность от внедрения данной тестовой методики будет заведомо высокой, то в другой могут возникнуть совершенно другие условия (там присутствует другая, уже
хорошо организованная нетестовая оценочная деятельность, возникает другая база сравнения и т.п.). Именно пользователь должен уметь
применить на месте определенные подходы к расчету рентабельности
и воздержаться от внедрения нерентабельных тестовых технологий.
Эту задачу никак не может решить разработчик теста, так как разработчик просто не знает тех конкретных условий, в которых тест будет
использоваться в организации. Вопросы достоверности и рентабельности — это те самые критерии эффективности тестовых систем, которые
расширяют аудиторию данной книги (и дисциплины «практическая
632
Практическая тестология
тестология») до круга пользователей тестов — значительно более широкой аудитории, чем узкий круг разработчиков тестов.
И еще в большей степени сказанное относится к критерию 6 «Системная дополнительность оценочных процедур». Вовсе не от разработчика
теста будет зависеть, в каком сочетании данный тест будет применен в организации, грамотно или нет он будет скомбинирован с другими оценочными процедурами. О том, как это сделать грамотно, мы подробнее всего
говорили в главах 1 и 7.
Грамотная информационно-технологическая организация системы
тестирования, освещенная в главе 6, призвана обеспечить, прежде всего,
критерии «достоверность» и «системная дополнительность», но от нее во
многом зависит и рентабельность, ибо эффективная компьютеризация —
это реальный путь снижения расходов, причем, прежде всего, расходов
рабочего времени на рутинные организационно-административные
функции и процессы. Надеемся, что главу 6 тестологу будет полезно, по
крайней мере, обсудить, а лучше прочесть вместе с ИТ-инженером, то есть
соотнести его и свои впечатления от прочитанного.
В заключение мне бы очень хотелось, чтобы читатель смог ответить
самому себе на вопрос, почему все-таки справедливым является следующая профессионально-этическая и юридическая норма:
Ответственность за результаты тестирования лежит не на разработчике теста, а прежде всего, на пользователе — том специалисте, который организует его применение.
В последней восьмой главе мы начали с метафоры «Тест как оружие»,
но всю книгу хотелось закончить другой метафорой «Тест как лекарство».
Действительно, рассмотрим, по каким признакам применение теста
сближается с применением лекарства:
Ситуация применения лекарства
Ситуация профессионального
тестирования
Лекарства, соответствующие диагнозу,
выбирает не производитель лекарства
(фармацевтическая компания), а лечащий
врач. Неправильно назначенное лекарство
будет не только неэффективно, но даже
вредно, даже если само лекарство прошло объективные испытания с положительными результатами.
Выбор адекватного тестового инструмента в зависимости от кадровой задачи,
стоящей перед организацией, осуществляет не разработчик теста, а пользователь. Неправильно подобранный тест
будет неэффективен и даже вреден, даже
если по этому тесту есть положительная
информация — об успешных случаях его
применения.
Вопросы дозировки и противопоказаний
в случае конкретного больного решает не
производитель лекарства, а лечащий врач.
Вопросы справедливости в конкретных
условиях и достоверности (скрытой фальсификации) решает не разработчик теста,
а тот, кто его применяет в организации.
ЗАКЛЮЧЕНИЕ. «Тест как лекарство»
633
Ситуация применения лекарства
Ситуация профессионального
тестирования
Эффект от применения лекарства отслеживает не производитель лекарства, а
лечащий врач.
Прагматическую валидность (точность
принятия решений на основе теста) в
местных условиях может измерить только
местный специалист, подсчитав соотношение удачных или неудачных случаев.
За подбор лекарства, адекватного покупательной способности больного,
отвечает лечащий врач, а не разработчик
лекарства. Если больной вдруг впадает в
физиологическую зависимость от очень
дорогого для него лекарства, это наносит
вред его здоровью.
Подбор рентабельного тестового инструмента, соответствующего финансовым
возможностям организации, не может
обеспечить разработчик теста, а только
специалист-тестолог на месте.
Это, очевидно, не полный перечень аналогий, но уже его достаточно
для иллюстрации главной идеи данного заключительного раздела книги.
Итак, повторим еще раз тезис, которым мы завершали введение:
Практическая тестология — это прикладная междисциплинарная наука,
которая базируется на системном анализе и учете всех существенных факторов и ресурсов, обеспечивающих внедрение системы тестирования как организационного инструмента, призванного обеспечить продуктивную конкуренцию между людьми.
К этому тезису было бы уместно в самом конце добавить, что речь идет
о продуктивной конкуренции как особой соревновательной совместной
деятельности, особой форме сотрудничества, позволяющей наиболее продуктивным работникам сделать больше и лучше, то есть полнее реализовать свои возможности, а значит, создать для всех больше благ и ресурсов
для их совершенствования, развития и просто для жизни. Правильное
тестирование — это прием такого «организационного лекарства», которое
тонизирует, прежде всего, самых продуктивных, мотивирует их «выкладываться» — отдавать свои силы и способности в ходе созидательного труда на благо общества. Но правильное тестирование вполне гуманно и в отношении менее продуктивных работников, ибо оно призвано обезопасить
их от таких нежелательных ситуаций, когда они будут, не справляясь, не
просто «переводить добро» (тратить попусту сырьевые, энергетические,
человеческие ресурсы), но будут фактически вредить конкретным людям — снабжать их негодными продуктами, негодными промтоварами,
плохо учить, плохо лечить и т.п. Каждый должен заниматься таким делом,
с которым он может справиться хорошо. Ну а уж если при этом он сам получает удовольствие, то это просто счастье.
634
БИБЛИОГРАФИЯ И ВЕБЛИОГРАФИЯ
Аванесов В.С. Тесты в социологическом исследовании. — М.: Наука,
1982. — 199 с.
Аванесов В.С. Основы теории педагогических заданий. // Педагогические измерения. — 2006, №2, с.26—62.
Аванесов В.С. Понятийный аппарат педагогической тестологии. // Педагогическая диагностика. — 2003, №2, с.33—38.
Аванесов В.С. Теория и методика педагогических измерений: лекции,
2012 http://testolog.narod.ru/Theory.html
Аванесов В.С. Проблема демаркации педагогических измерений. —
21.09.2009. см. гиперссылку: http://testolog.narod.ru/Education56. html
Азгальдов Г.Г., Костин А.В. Квалиметрия и метрология: вопросы идентификации. // Мир измерений, 2010, №1.
Анастази А. Психологическое тестирование. 3-е международное издание. — М.: Педагогика, 1982.
Анастази А., Урбина С. Психологическое тестирование. 7-е международное издание. — Спб: Питер, 2001. — 688 с.
Артемьева Е.Ю., Мартынов Е.М. Вероятностные методы в психологии. — М.: Изд-во Моск. ун-та, 1975. — 206 с.
Бабанин Л.Н. Компьютеризация психологических методик: проблема
эквивалентности. // Тезисы Пятого съезда Российского психологического
общества. — Москва: МГУ, 2012.
Базаров Т.Ю. Технология центра оценки персонала: процессы и результаты (практическое руководство). — М.: Кнорус, 2011.
Батурин Н.А., Мельникова Н.Н. Технология разработки психодиагностических методик. — Челябинск: Издательский центр ЮУрГУ, 2012. — 135 с.
Березин Ф.Б., Мирошников М.П., Рожанец Р.Ф. Методика многостороннего исследования личности. — М: Медицина, 1976.
Бертрам Д. Стандарты тестов, квалификация и сертификация пользователей тестов. // Вестник ЮУрГУ. Психология, №5, 2011.
Бодалев А.А., Столин В.В. Общая психодиагностика. — М.: Изд-во Моск.
ун-та, 1987. — 304 с.
Болотов В.А. (ред). Единый государственный экзамен. Научные основы, методология и практика организации эксперимента. М: Логос, 2002.
Болотов В.А., Шмелев А.Г. Развитие инструментальных технологий
контроля качества образования: стандарты профессионализма и парадоксы роста. // Высшее образование сегодня. 2005, №4, с. 16—21.
Болсинова М.А., Шмелев А.Г. Взаимосвязь индивидуально-личностных особенностей студентов и успешности прохождения экзамена в
Библиография и веблиография
635
компьютеризированной и традиционной форме. [Электронный ресурс]//
Психологические исследования: электрон. науч. журн. 2010. N 4(12). URL:
http://psystudy.ru (дата обращения: 27.01.2013). 0421000116/0035.
Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психологической
диагностике. — Спб: Питер, 2000. — 518 с.
Виноградов М.В. Кто не станет оборотнем // Российская газета. 2003. 11 дек.
Вудраф Ч. Центры развития и оценки. — М: HIPPO, 2005. — 378 с.
Гайда В.К., Захаров В.П. Психологическое тестирование. — Л.: Изд-во
Ленингр. ун-та, 1982. — 101 с.
Гильбух Ю.З. Актуальные проблемы валидации психологических тестов. // Вопросы психологии, 1978, 5, с.108—118.
Гольдберг И. Серия книг «Секреты почерка». — М: АСТ, 2008—2009.
Готтсданкер Р. Основы психологического эксперимента. М., МГППИЯ, 1982.
Гребенюк Г.А., Шмелев А.Г. Диагностика менеджерского стиля с помощью компьютерной игры и тест-опросника. // Вестник Моск. ун-та. Серия
14. Психология, 1994, 2. с. 59—66.
Грей К.Ф., Ларсон Э.У. Управление проектами: практическое руководство. — М.: Дело и сервис, 2003. 528 с.
Гуревич К.М., Борисова Е.М. Психологическая диагностика. Учебное пособие / Под ред. К.М. Гуревича и Е.М. Борисовой. — М.: Изд-во УРАО, 2000.
Гуревич К.М. Концепция социально-психологических нормативов и
диагностика умственного развития. // В кн. Гуревич К.М. Дифференциальная психология и психодиагностика. Избранные труды. — Спб: Питер,
2008. — С. 269—321.
Джексон П. Введение в экспертные системы. 3-е изд. — М.: Вильямс,
2001.
Джерелиевская М.А., Шмелев А.Г. Опыт взаимодействия методов в
компьютерной диагностике коммуникативных диспозиций. // Вестник
Моск. ун-та. Психология. Серия 14. 1993, 3, с. 66—69.
Дистанционное обучение — словарная статья:
http://ru.wikipedia.org/wikiДистанционное_обучение
Дружинин В.Н. Психодиагностика общих способностей. — М: ИПРАН,
1996. — 336 с.
Дюк В.А. Компьютерная психодиагностика. — Спб: Братство, 1994. — 364 с.
Ежегодник профессиональных рецензий и обзоров. Методики психологической диагностики и измерения /под ред. Н.А. Батурина, Е.В. Эйдмана. — Челябинск, ЮУрГУ, 2010.
Ефремова Н.Ф. Тестовый контроль в образовании. — М: Логос, 2007.
Забродин Ю.М., Похилько В.И., Шмелев А.Г. Статистические и семантические проблемы конструирования и адаптации многофакторных личностных опросников. // Психологический журнал, 1987, №6, с.79—89.
Звонников В.И., Челышкова М.Б. Оценка качества результатов обучения при аттестации (компетентностный подход): учеб. пособие. Изд. 2-е,
перераб. и доп. — М.: Логос, 2012. — 280 с.
636
Практическая тестология
Зинченко Ю.П., Березанская Н.Б., И.А. Володарская, О.А. Тихомандрицкая, А.Г. Шмелев. Опыт внедрения компьютеризированных тестовых испытаний в систему итоговой государственной аттестации
студентов-психологов. // Вестник Мос. ун-та. Психология, 2011, №2, с.
135—153.
Кабаченко Т.С. Психология управления. (Издание 2-е, дополненное) —
М.: Педагогическое общество России, 2000. — 384 с.
Келли Дж. Психология личности: теория личностных конструктов. —
Спб: Речь, 2000. — 249 с.
Клайн П. Справочное руководство по конструированию тестов. —
Киев: Ника-Центр Лтд, 1994. — 284 с.
Кобцева Ж.В. Изучение интерактивного компонента экзаменационной ситуации: Дисс. канд. психол. наук. — Калужский госпедуниверситет, 2001. — 181 с.
Козелецкий Ю. Психологическая теория решений. — М.: Прогресс,
1979. — 504с.
Кринчик Е.П. Экзамен и психика: 80 лет спустя // Психология в вузе.
2009. №2. С. 29—39.
Крокер Л., Алгина Дж. Введение в классическую и современную теорию тестов. — М: Логос, 2010.
Кроник А.А. Межличностное оценивание в малых группах. — Киев:
Наукова думка, 1982. — 159 с.
Крымов А.А. Мастерство страхового агента. — М: Бератор–пре, 2003. —
128с.
Кулагин Б.В. Основы профессиональной психодиагностики. — М: Медицина, 1984. — 205 с.
Куприянов Е.А. Стоит ли игра свеч: Валидность Центров оценки. — Организационная психология (электронный журнал). 2011. №1. с. 50—58.
Кэмпбелл Д.. Модели экспериментов в социальной психологии и прикладных исследованиях. — М., Прогресс, 1980. — 391 с.
Лопатин В.Н. Ноу-хау вместо коммерческой тайны // Информационное
право. 2007. №1(8), с.14.
Майоров А.Н. Теория и практика создания тестов для системы образования. — М.: Народное образование, 2000.
Мельников В. М, Ямпольский Л.Т. Введение в экспериментальную
психологию личности. — М.: Просвещение,1985. — 319 с.
Методические рекомендации по формированию фонда оценочных
средств в Российском государственного университета туризма и сервиса.
2012. — Адрес в Интернете: http://www.pandia.ru/text/77/156/23003. php
Наследов А.Д. SPSS: компьютерный анализ данных в психологии и социальных науках. СПб.: Питер, 2005. 416 с.
Науменко А.С. Влияние формы тестовых интерпретаций на принятие
решений специалистами по подбору персонала. // Психология. Журнал
Высшей школы экономики. 2007, 4 (3), с.127—140.
Библиография и веблиография
637
О сертификации качества педагогических тестовых материалов. —
Приказ Министерства образования РФ от 17 апреля 2000 г. №1122 (сайт
www.edu.ru, точная гиперссылка — http://www.edu.ru/db/mo/Data/d_00/
1122. html).
Первин Л., Джон О. Психология личности: теория и исследования. —
М: Аспект Пресс, 2000. — 606 с.
Пибоди Д., Шмелев А.Г., Андреева М.К., Граменицкий А.Е. Психосемантический анализ стереотипов русского характера. // Вопросы психологии, 1993, 3, с. 101—111.
Пова Н., Баллантайн И. Ассессмент-центр. Полное руководство. — М:
Гиппо, 2008.
Поддьяков Н.Н. Психология конкуренции в обучении. — М: Издат. дом
ГУ ВШЭ, 2006. — 231 с.
Портер М. Конкуренция. Перевод с англ. — М: «Вильямс», 2000. — 495 с.
Ролз Дж. Теория справедливости. Пер. с англ. — Новосибирск: Изд-во
НГУ, 1995. — 535 с.
Ромек В.Г., Сатин Д.К. Сохранение надежности многофакторных тестов при их использовании в сети Интернет. // Психологический журнал,
2000, 21, 2, с. 70—75.
Ротенберг В.С., Бондаренко С.М. Мозг. Обучение. Здоровье: Книга для
учителя. — М.: Просвещение, 1989. 238 с.
Рунион Р. Справочник по непараметрической статистике. — М.: Финансы и статистика, 1982. — 198 с.
Сергеев В.В. Адаптивное тестирование в системах дистанционного обучения. // Электронное издание «Наука и образование. Серия «Инженерное образование»», 2007, №4.
Сергиенко Е.А., Ветрова И.И. Эмоциональный интеллект: русскоязычная адаптация теста Мэйера–Сэловея–Карузо (MSCEIT V2.0). // Психологические исследования, 2008, номер 6(8), сайт www.psystudy.ru.
Серебряков А.Г., Кононова В.Н., Алтухов В.В., Иванова О.Н., Шмелев А.Г.
Прогностическая валидность психодиагностической методики «Профориентатор» (по материалам отсроченного анкетирования). // Вопросы психологии 2010, №1, с. 115—127.
Симоненко С.И. Вклад интеллектуальных способностей в успешность
менеджера: взаимосвязь результатов тестов способностей и центров оценки. // Тезисы Пятого съезда Российского психологического общества. —
Москва: МГУ, 2012.
Смирнов С.Д. Педагогика и психология высшего образования: от деятельности к личности: учеб. пособие. — М.: Аспект Пресс, 1995. 271 с.
Собчик Л.Н. Психология индивидуальности. Теория и практика психодиагностики. — М.: Институт прикладной психологии, 1998.
Собчик Л.Н. СМИЛ. Стандартизированный многофакторный метод исследования. Серия «Практикум по психодиагностике». — Спб: Речь, 2003.
638
Практическая тестология
Соколов Е.Н., Измайлов Ч.А., Лившиц Г.Я., Третьяков Н.Н., Шмелев А.Г.
Компьютеризованная система для проведения научных исследований,
психодиагностики и обучения (КСИДО). — Психологический журнал.
1985, №6. 142—146.
Стандарт требований к психодиагностическим методикам (предварительная версия). — Материалы сайта cc.psytest.ru 07. 2012 (точная ссылка — http://cc.psytest.ru/ru/Sertifikacija_metodik/Standart_trebovani_k_
psihodiagnosticheskim_metodikam)
Столин В.В., Шмелев А.Г. Практикум по психодиагностике. Дифференциальная психометрика. — М.: Изд-во Моск. ун-та, 1984.
Суходольский Г.В. Основы математической статистики для психологов: Учебник. — СПб.: Издательство С.-Петербургского университета, 1972,
1998. — 464 с.
Тесты 2009 — http://tests2009. ucoz.ua/adapt.html
Уидетт С., Холлифорд С. Руководство по компетенциям. — М.: Hippo,
2003. — 228 с. 125.
Уорд П. Метод 360 градусов. — М: HIPPO, 2006 — 336 c.
Фер М., Бакарак В. Психометрика. Введение. Пер с англ. — Челябинск:
Издательство: Издательский центр ЮУрГУ, 2010.
фон Нейман Дж., Моргенштерн О. Теория игр и экономическое поведение. — М: Наука, 1970. — 707 с.
Ханин Ю.Л. Русский вариант шкалы соревновательной личностной
тревожности. // В сборнике «Стресс и тревога в спорте»/ред. Ю.Л. Ханин —
М: Физкультура и спорт, 1983. — 288 с.
Холодная В.А. Тестирование и права личности. // Независимая газета.
Приложение «Наука», 1999, сентябрь.
Цзен Н.В., Шмелев А.Г. Исследование поведения в случайных средах
и вероятностная динамическая модель памяти человека. // Тезисы докладов Пятой научной психологической студенческой конференции «Вопросы теоретической и прикладной психологии» Л.: Изд-во Лен. ун-та, 1974,
с.22—23.
Челышкова М.Б. Теория и практика конструирования педагогических
тестов. — М: Логос, 2002. — 432 с.
Челышкова М.Б., Никифоров С.В., Татур А.О. Шкалирование результатов единого экзамена: оптимизация подходов. // В сборнике «Единый государственный экзамен. Научные основы, методология и практика организации эксперимента». Под ред. В.А. Болотова. — М: Логос, 2002.
Челышкова М.Б., Шмелев А.Г. Шкалирование результатов Единого
экзамена: проблемы и перспективы. Вопросы образования», 2004, №4, с.
168—186.
Червинская К.Р. Психология извлечения экспертных знаний субъектов труда. Автореферат докторской диссертации. — Спб: СпбГУ, 2010.
Червинская К.Р., Щелкова О.Ю. Медицинская психодиагностика и инженерия знаний. — М.: Издательский центр «Академия», 2002. — 624 с.
Библиография и веблиография
639
Чумаков А.А. Опыт компьютеризированного тестового контроля знаний у студентов-психологов. // Вестник Московского университета. Серия
14. Психология, 2006, №4.
Шкала Лайкерта. — Википедия, 2002.
http://ru.wikipedia.org/wiki/%D8%EA%E0%EB%E0_%CB%E8%EA%E5%F0%F2%E0
Шмелев А.Г. Гипотетическая модель механизмов вероятностного отражения. // В кн.: Психологические исследования. Вып.7. — М: Изд-во
Моск. ун-та, 1977, с.20—32.
Шмелев А.Г. На пути к компьютерной психодиагностике. — Вестник
Московского университета. Психология, 1984, №2, с.13 — 17.
Шмелев А.Г., Нистратов А.А. Об особенностях диалога «человек-ЭВМ»
в процессе сбора, анализа и предъявления психодиагностической и профессиографической информации в дисплейном классе СМ ЭВМ. — В кн.:
Психологические проблемы создания и использования ЭВМ. — М: Изд.
Моск. ун-та, 1985, с. 220—223.
Шмелев А.Г. Психометрические основы психодиагностики. — Глава в
книге «Общая психодиагностика» под редакцией А.А. Бодалева и В.В. Столина. — М: МГУ, 1987, с. 53—112.
Шмелев А.Г. и другие. Мир поправимых ошибок. — Выпуск: Компьютерные игры. Серия: Вычислительная техника и ее применение. — М.:
Знание, 1988. — 84 с.
Шмелев А.Г. Психодиагностика и новые информационные технологии. // В сборнике «Компьютеры и познание»/ред. Б.М. Величковский и
А.И. Зеличенко. — М: Наука, 1990, с. 87—104.
Шмелев А.Г. Дилетаны и шарлатанты. // Психологическая газета, 1996. №4.
Шмелев А.Г. Продуктивная конкуренция — М: Магистр, 1997. — 56 с.
Шмелев А.Г. (1997б) Телетестинг — миражи или перспективы методического роста. — Ростов-на-Дону: Материалы Всероссийской конференции
«Методы в психологии», 1997, с. 284—286.
Шмелев А.Г. «Каша из топора», или история адаптации 16PF в России».
// Психологическая газета, 1999, №5.
Шмелев А.Г. Тесты: не угроза, а защита прав личности // Независимая
газета, 1999. 17 ноября.
Шмелев А.Г. Тестирование и реформа системы качества образования:
почему одно без другого невозможно. — «Первое сентября», 2000, 27 июня.
Шмелев А.Г. Рецензия на книгу Е.Е. Туник, Ю.И. Жихарева «Тест интеллекта Слоссона». — В газете «Школьный психолог. Приложение к «Первое сентября». — 2000, июньский выпуск.
Шмелев А.Г. (2002а) Психодиагностика личностных черт. — Спб: Речь,
2002. — 480 с.
Шмелев А.Г. (2002б) Опыт применения компьютерного тестирования
знаний при обучении студентов-психологов. — Вестник Моск. ун-та. Психология, 2002, №4.
640
Практическая тестология
Шмелев А.Г. (2004а) Тест как оружие. — Психология. Журнал Высшей
школы экономики. 2004, №2, с. 40—52.
Шмелев А.Г. (2004б) «Песнь о Вещем Олеге» и профессиональные предпочтения в области психодиагностики. — Вестник Моск. ун-та. Психология. 2004, №3, стр.13—23.
Шмелев А.Г. (2010а). Можно ли нам реорганизовать ЕГЭ? — «Образовательная политика», 2010, №1—2, с.26—49.
Шмелев А.Г. (2010б) Коммуникация, кооперация и конкуренция в самоорганизующихся профессиональных Интернет-сообществах. — «Образовательная политика», 2010, №9(47), с.27—46.
Шмелев А.Г. (2012а) Глава 6. Метод тестов. — Коллективная монография
«Основные методы сбора данных в психологии». Под ред. С.А. Капустина. — М: Аспект Пресс 2012, с. 121—141.
Шмелев А.Г. (2012б) Конкуренция как метакатегория в современной
психологии. — Методология и история психологии. 2012. Т.7, вып.3.
Шмелев А.Г., Ларионов А.Г. Адаптивное тестирование знаний в системе «Телетестинг». // Материалы XI конференции-выставки «Информационные технологии в образовании. Часть II. — М.: МИФИ, 1999, с.405.
Шмелев А.Г., Ларионов А.Г., Серебряков А.Г. Перспективы компьютерного тестирования: валидность и надежность «Телетестинга». // Тезисы докладов Всероссийской конференции «Развитие системы тестирования в
России» — Москва, МПГУ, 25—26 ноября 1999.
Шмелев А.Г., Ларионов А.Г., Серебряков А.Г., Чумаков А.А. Методические рекомендации по разработке и внедрению системы оценки качества
обучения по инновационным образовательным программам. — Москва:
МГУ, 2007. — 63 с.
Шмелев А.Г., Науменко А.С. Интернет-сообщество психодиагностов
как инструмент профессиональной интеграции и охраны профессиональной тайны. // Вестник Южно-Уральского государственного университета.
Психология 2009, выпуск 6, с.31—45.
Шмелев А.Г., Одинцова В.В. Анализ ситуационных различий в тестовых нормах (на примере тест-опросника «Большая пятерка»). // Вопросы
психологии, 2006, №6, с.143—147.
Шмелев А.Г., Портнова Д.С., Страхов Н.Н. Метод контекстной вставки
как инструмент компьютеризированного контроля качества знаний. //
Вестник Моск. ун-та. Сер.14. Психология. — 2012, №4, с.133—147.
Шмелев А.Г., Похилько В.И. Анализ пунктов при конструировании и
применении тест-опросников: ручные и компьютерные алгоритмы. // Вопросы психологии, 1985, 4, с.126—133.
Шмелев А.Г., Похилько В.И. ТЕЗАЛ — автоматизированный тезаурус
личностных черт. — «Информатика и образование», 1988, 6, с.68—69.
Шмелев А.Г., Похилько В.И., Козловская-Тельнова А.Ю. Репрезентативность личностных черт в сознании носителя русского языка. // Психологический журнал, 1991, 2, с.27—44.
Библиография и веблиография
641
Шмелев А.Г., Резапова Д.Б. Компьютерная тревожность как фактор
успешности прохождения студентами компьютерного экзаменационного
тестирования. // Электронный журнал «Психологические исследования»
(www.psystudy.ru), 2013, в печати.
Шмелев А.Г., Серебряков А.Г., Ларионов А.Г. Тесты для старшеклассников и абитуриентов. Телетестинг. — Ежегодное приложение к газете «Первое сентября». — М.: Первое сентября, 2000, — 137 с., 2001, — 132 с.
Abrahams N.M., Alf, E. F., Wolfe J.H. Taylor-Russell tables for dichotomous
criterion variables. // Journal of Applied Psychology, 1970, Vol. 55, No. 5, 449—457.
Bartram D. Increasing validity with forced-choice criterion measurement
formats. // International Journal of Selection and Assessment, 2007, Vol. 15,
Issue 3, pp. 263—272.
Beckers J.J., Wicherts J.M., Schmidt H.G. Computer anxiety: «Trait» or
«State»? // Computers in human behavior, 2007, 23, p. 2851—2862.
Bersin J., Howard C., O’Leonard K. Learning management system 2009:
facts, practical analysis, trends and provider profiles. — Oakland (CA): Bersin
and associates research report. 2009. — 352 pp.
Brown A. The Impact of Questionnaire Item Format on Ability to «Fake
Good».// In Brown, A.: Exploring the use of ipsative measures in personnel
selection.// Symposium presented at the 6th Conference of the International
Test Commission, Liverpool, 2008.
Computerized adaptive testing, 2012.
http://en.wikipedia.org/wiki/Computerized_adaptive_testing
Coombs C.H. A Theory of Data. — New York: Wiley & Sons, 1964.
Coopera А., Petrides K.V. A psychometric analysis of the Trait
Emotional Intelligence Questionnaire-Short Form (TEIQue-SF) using Item
Response Theory. // Journal of Personality Assessment, 2010, 92 (5), 449—457.
Cronbach L.J. Essentials of psychological testing. -N. Y.: Harper & Row,
1970. — XX, 650 p.
Edwards A.L. The measurement of personality traits by scales and
inventories. — N. Y.: Holt et al.,1970. — X, 308 p.
Embretson S.E., Reise S.P. Item response theory for psychologists. —
Mahvah (N. J).: Lawrence Erlbaum Associates Inc, 2000. — 372 p.
Fincham R., Rhodes P. Principles of organisational behavior. Oxford: Univ.
Press, 1998.
Hembree R. Correlates, causes, effects, and treatment of test anxiety. //
Review of Educational Research, 1988, 58 (1), 47—77.
Holling Н. Utility analysis of personnel selection an overview and
empirical study based on objective performance measures. — Methods of
Psychological Research Online 1998, Vol.3, No.1 — 24 p.
Gronlund N.E., Linn R.L. (6th ed). Measurement and Evaluation in
Teaching. NY: Macmillan, 1990.
642
Практическая тестология
Guilford J.P. The phi-coefficient and chi-square as indices of item validity. //
Psychometrika, 1940, p. 10—19.
Kaplan R.M., Saccuso D.O. Psychological testing. Principles, applications,
and issues. Third edition. — Belmont (Ca): Brooks Pub. Co, 1991. — 701 p.
Lord F. A Theory of Test Scores. — Psychometric Monograph, 1952, No. 7. — 93 p.
Mead A.D.; Drasgow F. Equivalence of computerized and paper-and-pencil
cognitive ability tests: A meta-analysis. // Psychological Bulletin, Vol. 114(3),
1993, p. 449—458.
Peabody D. Evaluative and descriptive aspects in personality perception: a
reappraisal. // Journal of Personality and Social Psychology, 1970, v.16, 4: 639—646.
Rosental R., Rubin D.B. A simple, general purpose display of magnitude of
experimental effect. — Journal of educational psychology, 1982, v.74, p. 066 — 069.
Samejima F. Estimation of Latent Ability Using a Response Pattern
of Graded Scores. // Psychometric Monograph No. 17. Richmond, VA:
PsychometricSociety, 1969. (доступно в Интернете по адресу — http://www.
psychometrika.org/journal/online/MN17. pdf)
Schmidt F.L., Hunter J.E. The validity and utility of selection methods in
personnel psychology: Practical and theoretical implications of 85 years of
research findings. Psychological Bulletin, 1998, 124, p. 262—274.
Shmelyov A.G. TESTAN: An integrated modular system for personality
assessment and test development on MS_DOS personal computers. // Behavior
Research Methods, Instruments and Computers, 1996, 1, 89—92.
Shmelyov A.G., Naumenko A.S. Developing Culture Specific Asessments. —
In: Multicultural psychoeducational assessment. Ed. By E.L. Grigorenko. N. Y.:
Springer Pub. Co, 2009. p. 335—350.
SJT, 2012 — см. гиперссылку: http://en.wikipedia.org/wiki/Situational_
judgement_test
Strack, F., Deutsch, R. Reflective and impulsive determinants of social
behavior. Personality and Social Psychology Review, 2004, 8(3), p. 220—247.
Taylor H.C., Russell J.T. The relationship of validity coefficients to the
practical effectiveness of tests in selection: discussion and tables. — Journal of
applied psychology, 1919, v.21, p. 565—578.
Thissen D. Multilog for Windows (Version 7.0.3) [Computer software].
Lincolnswood(IL): Scientific Software International, 2003.
Weiss D.J. Computerized Adaptive Testing for Effective and Efficient
Measurement in Counseling and Education. — Measurement and Evaluation in
Counseling and Development, 2004, Vol. 37, July, p.70—84.
Winsteps (2012) — http://www.winsteps.com
Xcalibre-4 (2012) — http://assess.com/xcart/product.php? productid=415
643
ПРИЛОЖЕНИЯ
1.
СЛОВАРЬ-ГЛОССАРИЙ СОКРАЩЕНИЙ И ОСНОВНЫХ ТЕРМИНОВ
AMS (assessment management system) — компьютеризированная система управления ассессментом.
Authoring system — инструментальная компьютерная система, обеспечивающая разработку обучающих, тестовых и экспертных систем, это
фактически программная среда (или программа-оболочка), независимая
от авторского содержания (контента), который в ней создается.
GPА (grade point average) — средняя оценка в серии экзаменов (по ряду
предметов).
DSM (decision support module) — подсистема в автоматизированной системе тестирования, которая обеспечивает обработку результатов тестирования и автоматизированное принятие решения — выбор диагностической категории или управленческого решения.
HR (humаn resources) — переводится как «человеческие ресурсы» (кадры), аббревиатура HR в настоящее время широко обозначает всю сферу
управления и оценки персонала.
HRM (human resources management) — кадровый менеджмент, управление персоналом.
HT-LINE — интегрированная инструментальная система Интернетсервисов, разрабатываемая в 2004—2012 гг. в Лаборатории «Гуманитарные
технологии» (научный руководитель — А.Г. Шмелев). Обеспечивает возможность подготовки, проведения и обработки результатов тестирования
в личном веб-кабинете в режиме онлайн.
ICC (item characteristic curve) — характеристическая кривая тестового задания, которая визуально отражает функциональную зависимость
вероятности правильного ответа на задание от уровня измеряемого свойства (способности) испытуемого.
IP-адрес (от англ. InternetProtocolAddress)–постоянный адрес компьютера или компьютерного узла в глобальной сети, по которому данный
компьютер может быть распознан.
IQ — коэффициент интеллектуальности, обозначает результат по определенному классу тестов и тестовых шкал, связанных с оценкой общих
когнитивных (познавательных) особенностей человека, нередко сводится
к уровню умственного темпа, выявляемого в тестах на скорость.
644
Практическая тестология
IQ-баллы — это баллы на стандартизированной шкале с параметрами: среднее равно 100, а стандартное отклонение равно 15; в первых тестах
интеллекта балл 100 интерпретировался как 100-процентное соответствие
умственного возраста хронологическому.
IRT (item response theory)– теория ответов на тестовые задания, или
современная теория тестов.
Item analysis — анализ тестовых заданий, при этом имеются в виду
главным образом статистические процедуры анализа ответов на тестовое
задание.
IWS (item writing system) — подсистема в компьютерной системе тестирования, которая обеспечивает поддержку авторской работы по созданию тестовых заданий.
KPI (key performance indicators) — ключевые показатели эффективности, часто выступают основным критерием для оценки практической
валидности (пригодности) тестов. В русскоязычных текстах в настоящее
время уже прививается аббревиатура КПЭ.
LMS (learning management system) — система (компьютеризированного) управления обучением.
MC-item (multiple-choice item) — задание с выбором ответа.
Multiple choice — популярнейший формат тестового задания, предлагающий выбрать единственный правильный ответ из нескольких предложенных вариантов.
RSIP (random selection from item pool) — случайная селекция из банка
заданий.
TCM (test construction module) — подсистема компьютерной системы
тестирования, обеспечивающая конструирование тестов.
TDM (test dialogue module) — подсистема компьютерной системы тестирования, обеспечивающая тестирование испытуемых в интерактивном режиме.
TMS (test management system) — система управления тестированием.
Z-балл — стандартизированный тестовый балл на шкале с параметрами: среднее равно 0, стандартное отклонение равно 1.
Адаптивное тестирование — компьютерное тестирование, при котором порядок и число предъявляемых тестовых заданий зависит от предшествующих ответов испытуемого.
Альфа-коэффициент — коэффициент внутренней надежности-согласованности тестовых заданий, относящихся к одной шкале — направленных на измерение одного свойства. Предложен Ли Кронбахом и является
самой популярной мерой надежности тестов.
Анкета — это нетестовый опросник с открытыми или смешанными
вопросами, который позволяет получать информацию от респондента о
нем самом.
АОС — автоматизированная обучающая система (в книге чаще используется англоязычная аббревиатура LMS).
Приложение 1. Словарь-глоссарий сокращений и основных терминов
645
Ассессмент — совокупность методов оценки персонала, в которых решающая роль принадлежит компетентности оценивающего специалиста
(ассессора); нередко на практике метод ассессмента практически сводится
к методу «Центр оценки»
АСТ — автоматизированная система тестирования (в книге чаще используется англоязычная аббревиатура TMS).
Баллирование — это процедура, которая сводится к подсчету сырого
балла по ключам и переводу сырого балла в стандартный (шкалированный) балл с опорой на результаты шкалирования.
Банк тестовых заданий — компьютерное хранилище, в котором собраны тестовые задания по определенной тематике; на основе банка заданий современные программы автоматически формируют в сеансе тестирования варианты для предъявления одному испытуемому.
«Большая пятерка» — пять ведущих личностно-характерологических
факторов, которые были получены в результате факторного анализа многими независимыми исследователями в разных странах.
Валидизация — проверка валидности.
Валидность — мера соответствия результатов тестирования заявленной цели тестирования, в частности, тому свойству (или свойствам),
которое измеряется. В. — одно из четырех основных психометрических
свойств теста.
Валидность экологическая — см. Экологическая валидность.
Внешний критерий — это показатель эффективности производственной или учебной деятельности, относительно которого проверяется валидность теста; в некоторых случаях в качестве ВК может выступать другой тест.
Высокая группа — примерно треть испытуемых с наиболее высокими баллами по тесту.
Грейды — это качественные градации (ступени, ранги), соответствующие определенным содержательно-интерпретируемым интервалам на
шкале тестовых баллов. Школьные (или вузовские) оценки — это частный
случай грейдов.
Гуманитарная тестология — наука об измерении индивидуальных
особенностей и компетенций здоровых людей с целью прогноза их социального поведения. От гуманитарной надо отличать техническую, или
медицинскую тестологию.
Дециль — десятая часть выборки испытуемых, обследованных по тесту и получивших тестовый балл на определенном интервале тестовой
шкалы.
Диагностическая оценка — отнесение обследуемого к определенной диагностической категории по набору значимых признаков; может
базироваться на результатах многофакторного тестирования; диагностическую оценку следует отличать от рейтинговой оценки — на одномерной
шкале рейтинга (см. ТРМ).
646
Практическая тестология
Диагностический концепт — понятие, в котором формулируется родовая принадлежность и видовые отличия определенного свойства человека, подвергающегося измерению и/или диагностике.
Диагностический конструкт — это диагностический концепт, содержание которого обогащено операциональным определением — описанием методической процедуры, направленной на выявление диагностируемого свойства.
Дистрактор — любой неправильный (неключевой) ответ в задании с
заданными вариантами ответов.
Дифференциальная психология — отрасль психологической науки,
изучающая межиндивидуальные психологические различия.
Достоверность — степень защищенности тестовой методики от фальсификации и мотивационных искажений; Д. — одно из четырех основных психометрических свойств теста.
ЕГЭ — единый государственный экзамен.
ЗУН — знания-умения-навыки.
ИКТ — информационно-коммуникационные технологии.
Идеальный профиль — графическая модель идеального работника,
которая визуально отражает соотношение измеряемых свойств, характерное для работника с высокой производительностью труда.
ИМСТ — информационная модель системы тестирования.
Инкрементная валидность — это валидность, добавленная в результате внедрения тестирования в дополнение к прежней базовой технологии оценки.
К-ЕГЭ — компьютерная модель ЕГЭ.
КБТЗ — компьютерный банк тестовых заданий.
Квалиметрия — научная дисциплина, изучающая методологию и
проблематику количественного оценивания качества объектов любой
природы — абстрактных и конкретных, продуктов труда и продуктов
природы.
Квалификационные тесты — это тесты на профессиональные знания и умения. КТ не входят в область психодиагностики, но входят в область практической гуманитарной тестологии.
Квартиль — четвертая часть выборки испытуемых, обследованных
по тесту и получивших тестовый балл на определенном интервале тестовой шкалы.
Кейс-тест — тест, в котором тестовые задания содержат развернутые (иногда избыточные) описания жизненных проблемных ситуаций
(случаев), а варианты ответа представляют собой возможные способы действия в этих ситуациях. На Западе чаще используется название
situationaljudgementtest (SJT).
КИМ — контрольно-измерительный материал. В отличие от ПТМ (педагогических тестовых материалов) КИМ включает задания, требующие
экспертной проверки (пример — часть «С» в ЕГЭ).
Приложение 1. Словарь-глоссарий сокращений и основных терминов
647
КИТТ — клуб испытателей тестовых технологий на сайте www.ht-line.ru.
Ключи к тесту — это правила соответствия ответов на задания и тестовых шкал, с помощью которых осуществляется подсчет тестовых баллов по шкалам.
Коэффициент дискриминативности (КД) — коэффициент, указывающий на качество теста в целом или отдельного тестового задания; КД лежит в пределах от -1 до 1 и указывает степень связи между правильным решением конкретного задания и успешностью выполнения теста в целом.
Компетенции — характеристики человека, включающие его знания,
умения, навыки, способности и личностные черты — все свойства, которые
оказываются важными для эффективной профессиональной деятельности в
определенной организации на определенной позиции (должности).
Конверсионная таблица — таблица перевода сырых баллов в стандартизированные баллы (или в оценки).
КОРТ — критериально-ориентированное тестирование.
Критериальное событие — такое событие, которое разделяет людей
на успешных и неуспешных (в профессиональном или социальном плане).
КТТ — классическая теория тестов.
Локализация — приспособление теста к местным условиям (включая
языковой перевод) силами самой организации, разработавшей тест.
Логит — единица измерения трудности тестовых заданий и способности испытуемого в современной теории тестов (IRT).
ЛПР — лица, принимающие решения, или руководители в организациях.
Менеджер-тестолог — главный читатель-адресат данной книги; это,
по замыслу автора, квалифицированной пользователь тестов и одновременно управленец, внедряющий и отлаживающий комплексные тестовые
системы в организации, для этого менеджер-тестолог должен уметь координировать действия всех других участников системы — испытуемых,
авторов-экспертов, ЛПР, математиков-программистов, операторов, наблюдателей-администраторов и т.п.
Метод контекстной вставки (МКВ) — задание, в котором испытуемого просят заполнить пропуски в связном и осмысленном тексте.
Метаанализ данных– определенный метод интеграции статистических результатов, полученных разными исследователями на разных выборках.
Модель Раша — одна из базовых моделей современной теории тестов
(IRT), связывающих вероятность решения тестового задания с экспоненциальной функцией от разности между способностью испытуемого и
трудностью задания, измеренными на шкале логитов.
МЦО — метод «Центр оценки».
Надежность — мера защищенности результатов теста от случайных колебаний; Н. — одно из четырех основных психометрических
свойств теста.
648
Практическая тестология
Надежность одномоментная — см. Одномоментная надежность.
Надежность ретестовая — см. Ретестовая надежность.
Нормы — граничные значения на шкале тестовых баллов, отделяющие интервалы с различной интерпретацией.
НОРТ — нормативно-ориентированное тестирование.
Область валидности — определенный класс ситуаций, в которых
проявляется измеряемое тестом свойство.
Одномоментная надежность (или надежность-согласованность) —
это надежность, которая измеряется без проведения повторного тестирования путем расчета согласованности различных частей теста (отдельных
заданий) друг с другом.
Опрос — эмпирическая вопросно-ответная процедура, позволяющая
собрать статистику ответов, но в общем случае не позволяющая приписать
числовую характеристику индивидуальному респонденту.
Ошибка измерения — определенный разброс (дисперсия) в тестовых
показателях, который получается при повторном выполнении одного и
того же теста одним и тем же испытуемым.
ПВК — профессионально-важные качества; некоторые авторы ставят
знак равенства между терминами ПВК и «компетенции», другие авторы
связывают ПВК с более широким контекстом «профессия в целом», а не с
отдельной частной организацией. Например, «умение вписаться в определенную корпоративную культуру данной организации» — это особая компетенция, которая связана не столько с профессиональной принадлежностью человека, сколько с определенными навыками социальной адаптации и ценностными ориентациями.
Первичные баллы — это тестовые баллы до применения стандартизации (перевода в стандартные шкалы).
ПТМ — педагогические тестовые материалы.
Практический тестолог — это грамотный пользователь профессиональных тестов, прошедший специальную подготовку (сертификацию).
См. также термин «менеджер-тестолог».
Прогностическая валидность — способность теста предсказать будущее критериальное событие, то есть выделить группу испытуемых, с которыми это событие может произойти с высокой вероятностью.
Проективные тесты — это психологические тесты, основанные на
психологическом механизме проекции — приписывании неопределенным стимулам (словам или рисункам) своих собственных индивидуальных значений и личностных смыслов.
Процентильный балл — это процент испытуемых из числа протестированных, набравших более низкий балл, чем набрал данный испытуемый.
Психодиагностика — наука о распознавании психических свойств
человека. Психодиагностика и гуманитарная тестология — это во многом пересекающиеся, но не совпадающие дисциплины. Не все методы
Приложение 1. Словарь-глоссарий сокращений и основных терминов
649
психодиагностики являются тестовыми, не все свойства, измеряемые в
гуманитарной тестологии, являются психическими (например, профессиональные знания и умения).
Психологика испытуемого — это совокупность тактических приемов и уловок, к которым прибегает испытуемый, не знающий вопроса
по существу, но пытающийся угадать правильный или выигрышный для
него ответ.
Психометрические свойства теста — это надежность, валидность,
репрезентативность и достоверность.
Распределение тестовых баллов — это частоты встречаемости тестовых
баллов среди всех прошедших тестирование (в выборке стандартизации).
Рейтинговая шкала — шкала оценивания, по которой объекты оценивания (в чатности, работники, учащиеся и т.п.) ранжируются в соответствии с их ценностью по какой-то системе критериев, значимых для
организации; следует отличать рейтинговые и диагностические оценки.
Репрезентативность — это мера соответствия тестовых норм, полученных на выборке стандартизации, тому контингенту, на котором проводится тест; Р. — одно из четырех основных психометрических свойств
теста.
Респондент — лицо, которое отвечает на опросник или тестопросник; в случае с тестом на знания или способности говорят об испытуемом, или «участнике тестирования».
Ретестовая надежность — надежность, которая измеряется путем
расчета корреляции между результатами первого и повторного тестирования одного множества испытуемых (методика измерения надежности
«тест-ретест»).
РПО — Российское психологическое общество.
Система сертификации — совокупность организаций и мероприятий, которые подтверждают соответствие тестовых методик профессиональным стандартам; сертификация пользователей — это подтверждение
квалификации пользователей в области профессионального применения
тестов.
Ситуация клиента — это такая ситуация обследования, которая возникает по инициативе самого обследуемого, являющегося одновременно
и главным получателем результатов.
Ситуация экспертизы — это такая ситуация, когда обследование
проводится принудительно и главным получателем его результатов оказываются лица, принимающие решения в интересах организации, а не в
интересах обследуемого.
Служебные шкалы теста — это шкалы, обеспечивающие контроль
фальсификации результатов, в частности, это шкалы лжи, или шкалы социальной желательности.
СМК — система менеджмента качества.
СНБ — система накопленных баллов.
650
Практическая тестология
СТТ — современная теория тестов (чаще используется аббревиатура IRT).
Стандартизация теста — сбор обширного банка данных с целью измерения репрезентативных тестовых норм; после стандартизации в процедуру теста уже запрещается вносить модификации — вплоть до пересмотра и создания новой версии методики.
Стены — это баллы на стандартизированной шкале «стандартная десятка» (от 1 до 10).
Супервизор — уполномоченный, подготовленный наблюдатель в аудитории, где выполняется тестирование.
Сырые баллы — число правильных (ключевых) ответов, которое еще
невозможно интерпретировать без сравнения с тестовыми нормами или
без перевода в стандартизированную тестовую шкалу.
Т-баллы — это баллы на стандартизированной шкале с параметрами:
среднее равно 50, а стандартное отклонение равно 10.
ТДМ — тестовая диагностическая методика (подробнее см. Диагностическая оценка).
Тестовый экзамен — экзамен, который проходит в форме тестирования.
Тестолог-психометрист — прикладной математик, разрабатывающий современные измерительные (психометрические) тесты с использованием специализированных компьютерных инструментов конструирования тестов; в маленьких организациях (в неразвитых тестовых проектах) ему часто приходится совмещать роль менеджера-тестолога, но в
общем случае это разные специалисты.
Тест-опросник — это тестовая процедура, в которой тестовые задания задаются как вопросы, касающиеся характера, привычек, установок
и предпочтений человека; в ТО не бывает однозначно правильных или неправильных ответов.
Точка отсечения (cut score) — точка, разделяющая всех испытуемых,
выполнивших тест, на 2 категории (например, успешные и неуспешные).
Традиционные методы оценки — устные и письменные экзамены
по билетам.
ТРМ — тестовые рейтинговые методики, позволяющие построить по
результатам тестирования рейтинг ценности сотрудников (успешности
студентов и т.п.); ТРМ целесообразно отличать от ТДМ — тестовых диагностических методик.
Фактор социальной желательности — это установка большинства
испытуемых давать при выполнении тест-опросников так называемые
«социально-одобряемые ответы».
Фальсификация — это сознательная стратегия в поведении испытуемого, при котором его ответы на тестовые задания искажаются; пользование «шпаргалками» — это один из вариантов фальсификации; существуют
Приложение 1. Словарь-глоссарий сокращений и основных терминов
651
и неосознаваемые мотивационные искажения, которые не сводятся к сознательной фальсификации.
Фи-коэффициент — это четырехклеточный коэффициент корреляции, который выражает знак и плотность связи двух бинарных переменных; например, первая переменная — это правильный-неправильный ответ на тестовое задание, вторая — «успешность-неуспешность» в работе.
Характеристическая кривая задания — см. ICC.
Четырехклеточная таблица сопряженности — это таблица, образованная двумя бинарными переменными (дихотомическими признаками), в клеточках которой указывается частота (или численность) объектов,
обладающих определенной комбинацией дихотомических признаков;
при проверке надежности ключа к тестовому заданию в клеточке А, например, указывается число испытуемых, ответивших правильно на данное задание и одновременно оказавшихся в «высокой группе» по тесту.
Шкалирование — это процедура, в результате которой устанавливается правило отображения сырых баллов в стандартные — на некой стандартной шкале.
Эйчар — специалист по управлению персоналом (образовано от англоязычной аббревиатуры HR–human resources).
Экологическая валидность — мера соответствия результатов теста
измеряемому тестом свойству, полученная в реальной практической социально-психологической ситуации — с учетом всех ситуационных факторов и мотивационных искажений; в настоящей книге автор чаще использует вместо ЭВ понятие «достоверность».
Экспертная система — компьютерная система, основанная на знаниях экспертов; компьютеризированный тест с набором тестовых заданий по классификации программных средств относится к «экспертным
системам».
ЭРМ — экспертно-рейтинговая методика, или экспертная оценка работников по шкалам-компетенциям. Методы «Центра оценки», а также
«360 градусов» во многом базируются на процедурах ЭРМ, которые нельзя
считать тестовыми.
652
2. КОНТРОЛЬНЫЕ ВОПРОСЫ
Вопросы к главе 1 «Определение и классификация»
1. Чем отличаются житейское представление и научное толкование понятия «тест»?
2. Как и почему исторически возникли две трактовки понятия «тест» —
узкая и широкая?
3. Сформулируйте отличительные признаки различных процедур сбора
данных: теста, опроса, анкеты и эксперимента.
4. На пересечении каких научных дисциплин зародилась тестология как
область междисциплинарных научно-прикладных исследований?
5. Почему предмет и объект тестологии не совпадают с предметом и объектом деятельности тестирования?
6. По каким признакам тест можно отнести к широкому классу оценочных процедур?
7. Назовите общие и отличные признаки понятий «гуманитарная тестология» и «психодиагностика»?
8. Относится ли оценка знаний студента и школьника к области «гуманитарной тестологии»?
9. Что такое организационно-технологическая дисциплина в отличие от
научно-теоретической дисциплины?
10. Назовите основные компоненты теста и дайте им операциональные
определения.
11. Назовите основные психометрические свойства теста и дайте им операциональные определения.
12. Назовите по памяти, как минимум, 10 из 24 оснований для классификации тестов (хотя бы самые важные признаки).
13. Можно ли считать хотя бы часть проективных методик тестами?
14. Если процедура экспертной оценки встроена в методику, то является
ли данная методика тестовой?
15. Можно ли для экспертно-оценочных процедур сформулировать набор
условий, при которых они могут рассматриваться с точки зрения психометрических свойств теста — надежности, валидности, репрезентативности, достоверности?
16. При каких условиях тестовая методика может служить инструментом
рейтинговой оценки?
17. При каких условиях тестовая методика может служить инструментом
диагностической оценки?
18. Чем отличаются подход, основанный на многошкальных тестах, от
одношкальной логики принятия решения?
19. Что такое комплексный подход к оцениванию, внутри которого тесты
оказываются лишь одним из источников оценочной информации? Каковы другие источники этой информации?
Приложение 2. Контрольные вопросы
653
20. В чем заключаются недостатки аддитивной модели принятия решений?
21. Чем формула близости реального профиля к идеальному профилю отличается от подхода «логический коридор»?
22. Проранжируйте известные Вам тестовые методики (или операциональные типы тестов) по уровню зависимости от субъективизма тестирующего.
23. Приведите примеры известных Вам тестов с разными форматами тестовых заданий.
24. Приведите примеры тестов, различающихся по уровню продуктивности или репродуктивности деятельности испытуемого.
25. Приведите примеры тестов на сложность и тестов на скорость.
26. Приведите примеры гомогенных и гетерогенных тестов.
27. Приведите примеры известных Вам тестов с различной ситуационноцелевой принадлежностью (по содержанию решаемой диагностической задачи).
28. Приведите примеры тестов, различающихся по техническому способу предъявления тестового материала.
29. Приведите примеры тестов, различающихся по контингенту обследуемых.
30. Какие компоненты входят в понятие «тестовая система»?
Вопросы к главе 2 «Конструкция и конструирование»
1. Дайте определение ключей к тесту.
2. Приведите пример ключа к тесту в матричной форме.
3. В чем различие двух стратегий конструирования тестов — теоретикодедуктивной и эмпирико-индуктивной?
4. Почему при конструировании локальных тестов надо применять
практическую стратегию «от грейдов к шкалам»?
5. Чем нормативно-ориентированное тестирование (НОРТ) отличается
от критериально-ориентированного тестирования (КОРТ)?
6. Каковы процентильные доли для четырех традиционных оценок
(грейдов) по модели НОРТ?
7. Почему критерий «прозрачность» является приоритетным на ранних
этапах внедрения теста в организации?
8. Назовите последовательность из 12 основных этапов конструирования
локального теста профессиональных знаний.
9. Приведите образец статической модели (спецификации) теста с кодированием заданий по признакам — тематика, формат, трудность.
10. Чем этап апробации отличается от пилотного тестирования?
11. Каким должно быть соотношение численности заданий в банке и варианте (при автоматическом порождении варианта на основе банка
заданий)?
654
Практическая тестология
12. Как скорректировать процентильные доли после проведения массового тестирования так, чтобы не нарушить принципов субъективной
справедливости?
13. Почему расчетная длительность решения заданий с выбором ответов
(типа А) не должна превышать одной минуты?
14. В чем заключается специфика этапов конструирования при создании
глобальных коммерческих тестов?
15. Какие компоненты теста являются охраноспособными, а какие не являются?
16. По каким признакам публикация теста сходна с публикацией киносценария или пьесы?
17. Чем языковая адаптация отличается от локализации?
18. Что такое разработка аналога, чем аналог отличается от модификации
теста?
19. Является ли компьютеризация разновидностью адаптации теста и почему?
20. В чем назначение профессиональных стандартов в области конструирования тестовых методик?
Вопросы к главе 3 «Разработка тестовых заданий»
1. Из каких сотрудников в организации набираются авторы тестовых заданий?
2. Чем концепция оперативного конструирования КБТЗ отличается от
стандартной стратегии конструирования теста?
3. Какие пункты в «памятке автору» должны быть обязательно зафиксированы в виде письменной инструкции (технического задания)?
4. Каким образом (в каких возможных форматах) авторы должны оформлять тестовые задания (в электронной форме)?
5. Почему задания с множественными правильными ответами следует
сводить к заданиям с единичным правильным ответом?
6. В чем достоинства и недостатки заданий на ранжирование и соответствие?
7. Приведите пример кластера вопросов на понимание одного текста.
8. Перечислите по памяти хотя бы 10 логико-семантических форматов
вопросов из 15.
9. В чем причины чрезвычайной популярности фактологических и персонологических вопросов?
10. Чем дистракторы в логико-теоретических вопросах отличаются от
дистракторов в фактологических вопросах?
11. Приведите примеры терминологических, концептуальных и методических вопросов на однородном материале (так, чтобы все вопросы касались какого-то одного объекта).
Приложение 2. Контрольные вопросы
655
12. Сформулируйте тестовое задание типа «кейс» (случай из жизни).
13. Что такое психологика испытуемого?
14. В чем заключается рефлексивная игра разработчика против испытуемого, который пытается угадать правильный ответ?
15. Перечислите признаки, с помощью которых «хитрый испытуемый»
пытается угадать правильный ответ.
16. Что такое частотно-классификационная таблица заданий? Приведите
пример такой таблицы.
17. Укажите, как выглядит трехсимвольная нотация тестовых заданий —
по тематике, формату и трудности.
18. Как лучше выявлять и кодировать тестовые задания, несовместимые
в одном варианте?
19. В чем заключаются недостатки «клонированных» тестовых заданий,
искусственно порожденных компьютером «на лету» с помощью подстановки разных чисел и слов?
20. По каким принципам и количественным порогам принимаются решения об отсеве или коррекции тестовых заданий на основе коэффициентов дискриминативности, полученных по данным пилотного тестирования?
Вопросы к главе 4 «Математическая тестология»
1. В каких случаях при подсчете баллов требуется поправка на случайное угадывание?
2. Почему колоколообразная гауссовская кривая распределения возникает автоматически, если в тесте собрано много заданий с вероятностью правильного решения «фифти-фифти»?
3. В чем состоит удобство нормализованных шкал тестовых баллов?
4. Что такое процентильный балл и какое значение он имеет при нелинейной нормализации?
5. Какому децилю соответствует квартиль Q2?
6. Укажите сходные элементы в коэффициенте ранговой корреляции
Спирмена и формуле Рюлона для измерения надежности?
7. При каких значениях Альфа-коэффициента надежность-согласованность
личностного тест-опросника оказывается неправдоподобно высокой?
8. Какой смысл имеют частотные показатели в клеточках четырехклеточной таблицы при проверке валидности по методу контрастных групп?
9. Какова должна быть численность контрастных (крайних) групп, чтобы обеспечить максимальную статистическую достоверность четырехклеточной корреляции?
10. Чем фи-коэффициент корреляции лучше коэффициента дискриминативности при измерении плотности статистической связи с помощью
четырехклеточных таблиц сопряженности?
656
Практическая тестология
11. Почему валидность теста не может превышать его надежность?
12. Как можно применить четырехклеточную корреляцию для измерения достоверности тест-опросника?
13. Расскажите, в чем состоит метафора взвешивания для обоснования
единой шкалы логитов — шкалы трудности заданий и способности
испытуемого?
14. Почему шкала логитов имеет размах в пределах интервала (-6, +6)?
15. Нарисуйте по памяти, как выглядит семейство характеристических
кривых для тестовых заданий, обладающих разной трудностью (согласно однопараметрической модели Раша)?
16. Каков содержательный смысл двух параметров в двухпараметрической IRT-модели? Как можно геометрически представить эти параметры?
17. Как произвести измерение устойчивости шкалы оценок (шкалы грейдов) с помощью критерия Хи-квадрат для матриц сопряженности 2*m?
18. В чем заключается модификация формулы Раша при ее применении к
прогнозированию вероятности выбора ответа в кейс-тестах?
19. Как выглядят характеристические кривые для тестовых заданий, построенных по принципу Лайкертовских шкал?
20. Почему тестологические исследования психометрических свойств теста можно считать диссертабельными?
Вопросы к главе 5 «Организационно-технологическое обеспечение»
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
В чем суть системного подхода к внедрению тестов в организации?
Какие подсистемы входят в состав тестовой системы?
Назовите различительные признаки обучающей и тестовой системы.
Приведите примеры документов, которые участвуют в электронном
документообороте при создании и функционировании тестовой системы.
Укажите перечень организационных ролей (состав исполнителей) в
рамках тестовой системы в организации.
Перечислите по памяти семь классов программных средств практической тестологии.
Для каких категорий пользователей предусмотрены программные
средства подготовки тестовых заданий?
Каковы функции тест-плейеров при реализации тестового диалога?
Какие задачи решают системы управления тестированием (TMSпрограммы)?
Чем программы управления ассессментом отличаются от программ
управления тестированием?
Для какого типа тестов необходимо применять программы IRTанализа? В каких случаях использование этих программ ограничивается или не является необходимым?
Приложение 2. Контрольные вопросы
657
12. Что такое веб-портфолио результатов тестирования? При каком условии можно создать веб-порфолио?
13. Каковы основные трудности при создании распределенной базы тестов и тестовых заданий в Интернете?
14. Почему дихотомические алгоритмы адаптивного тестирования менее эффективны, чем лестничные?
15. Какие временные ограничения устанавливаются в ходе компьютерного тестирования на различные части разнотипного теста?
16. Почему RSIP-алгоритмы повышают достоверность тестирования?
17. Почему компьютерные тесты контекстной вставки слабо защищены
от фальсификации?
18. Почему невысока валидность компьютерных игровых тестов?
19. Приведите пример куба данных в случае экспертных оценок по компетенциям: что именно по строкам, столбцам, слоям и в клетках?
20. Примените практически определенные формулы расчета рейтинга —
просчитайте расчетный пример.
Вопросы к главе 6 «Валидность, рентабельность и достоверность»
1. Чем экспертная валидизация теста по содержанию заданий отличается от экспертной валидизации с помощью оценивания испытуемых?
2. Какова структура четырехклеточной матрицы сопряженности (что по
строкам и столбцам, что в клетках) при эмпирической валидизации
теста по внешнему критерию?
3. Чем схема проспективной валидизации отличается от ретроспективной валидизации?
4. Почему метод «известных групп» не позволяет говорить о прогностической валидности теста, даже если получена высокая корреляция?
5. Укажите в матрице Кемпбелла-Фиске клеточки, которые отвечают за
конвергентную валидность двух многомерных тестов, а также клеточки, которые отвечают за дискриминантную валидность.
6. Как выяснить с помощью корреляционного анализа и матриц интер- и
интракорреляций, где именно происходит «склейка» компетенций-факторов — на уровне тестовых измерений или на уровне экспертных оценок?
7. Приведите примеры легких и трудных KPI.
8. Как тестолог может помочь при построении комплексного КPI (с помощью нормирования частных KPI)?
9. Почему метод «360 градусов» может давать систематическое смещение
субъективных оценок?
10. Почему точность прогноза успешности неправильно сводить к квадрату коэффициента корреляции?
11. Почему корреляционная мера валидности 0,4 примерно соответствует
точности прогноза 0,7, а не 0,4 и не 0,16?
658
Практическая тестология
12. Каким образом применить формулу ожидаемой полезности для расчета рентабельности тестов в случае с работниками, производительность труда которых легко измерить в денежном выражении?
13. Каким образом рассчитать рентабельность тестов в случае с работниками, производительность труда которых трудно измерить в денежном выражении?
14. Почему выборка, составленная из добровольцев, вносит искажения в
ключи и нормы теста? В каком направлении действуют эти искажения?
15. В каких случаях шкалы лжи оказываются неэффективным инструментом для сопротивления фальсификационной стратегии «социально-желательного ответа»?
16. Что такое ипсативные тест-опросники? Для каких типов испытуемых
они эффективны, а для каких вносят искажения в тестовый профиль?
17. Каким образом четырехполюсная модель черты личности может быть
применена для конструирования тест-опросников, свободных от фактора социальной желательности?
18. Кто и как должен обеспечивать информационную безопасность в ходе
компьютерного тестирования знаний?
19. Назовите виды фальсификационных стратегий при тестировании
знаний, какие технические приемы эффективны в борьбе с этими
стратегиями?
20. В чем заключаются рациональные основания для формирования этики честного тестирования?
Вопросы к главе 7 «Внедрение тестов в вузы»
1. По каким параметрам устные экзамены превосходят тесты в качестве
оценочной процедуры?
2. Почему письменные экзамены нельзя считать тестами?
3. Что такое система накопленных баллов (СНБ)? Приведите пример начисления очков по системе СНБ.
4. Опишите основную логику алгоритма адаптивного тестирования
«сближающиеся пороги» (в рамках использования тестового испытания в качестве «зачета-допуска»).
5. Можно ли менять после экзаменов таблицу соответствия между тестовыми баллами и оценками? Если можно, то в каком направлении?
6. Когда и как должен быть организован доступ к демоверсии тестового
экзамена?
7. В чем заключаются основные цели и задачи предэкзаменационной
консультации в случае тестового экзамена?
8. Почему удобно применить онлайн-самозапись для распределения
участников по сеансам тестового экзамена?
Приложение 2. Контрольные вопросы
659
9. Когда и в какой форме должна быть реализована обратная связь по результатам тестового компьютеризированного экзамена?
10. Что должен делать дежурный в аудитории, если в ходе компьютеризированного тестового экзамена произошел сбой в питании?
11. Как технически реализовать апелляцию в ходе компьютерного экзамена по содержанию тестовых заданий?
12. Что лучше суммировать для итоговой оценки — баллы или оценки за
отдельные оценочные процедуры?
13. Используя логику четырехклеточных таблиц сопряженности, опишите, по какому критерию и как подсчитать валидность тестовых экзаменов в вузе.
14. В чем заключается сезонная работа авторов и экспертов по поддержке
и обновлению банка тестовых заданий?
15. Назовите по памяти основные пункты рабочего соглашения с автором-экспертом.
16. В каких случаях участник тестового экзамена может быть удален без
предварительного предупреждения? Почему такого рода удаления
становятся юридически допустимыми?
17. Перечислите возможные варианты учета результата тестового испытания в итоговой экзаменационной оценке.
18. Каким образом следует поощрять победителей конкурса авторов тестовых заданий?
19. Каким образом лучше мотивировать на добросовестное выполнение
своих обязанностей технических исполнителей в рамках системы тестирования?
20. Как лучше преодолеть разногласия среди педагогического коллектива
вуза в вопросе о возможном весовом (долевом) вкладе тестовых экзаменов в итоговую оценку?
Вопросы к главе 8 «Социально-психологические проблемы»
1. Почему на рубеже 20 и 21 веков дискуссия о тестах попала в российские СМИ?
2. В чем причины исторического отставания Российской Федерации в
развитии тестологии и тестологической культуры?
3. По каким пунктам работает метафора «тест как оружие»? В чем сходство теста с оружием?
4. Чем отличаются и могут дополнять друг друга в ходе принятия кадровых решений логика экспертных оценок и логика на основе тестовой
информации?
5. Какие эмпирические факты свидетельствуют, что ориентация (установка)
на использование количественных методов в диагностических исследованиях связана с уровнем социализации личности будущего специалиста?
660
Практическая тестология
6. Что такое самосбывающееся пророчество и чем оно принципиально
отличается от научного предсказания?
7. Как связаны между собой личностная, экзаменационная и компьютерная виды тревожности?
8. Какие личностные факторы связаны с относительной успешностью в
выполнении компьютеризированного тестового экзамена по сравнению с традиционными устными и письменными экзаменами?
9. От каких факторов зависит субъективная готовность к участию в тестировании?
10. Какой вклад в предпочтение той или иной формы контроля вносит
субъективно успешный опыт и легкость получения высокой оценки?
11. Какое значение могут иметь мониторинговые опросы студентов для
внедрения метода тестов в систему вузовских экзаменов?
12. Почему тестовые шкалы можно рассматривать как некий фактор,
структурирующий конкуренцию между учащимися и/или работниками?
13. Как объяснить, почему именно избегание конкуренции лежит в основе социально-психологических факторов сопротивления внедрению
тестов?
14. В каких случаях лучше отказаться от внедрения тестов в организации?
15. Почему профессионально-этические принципы для ситуации клиента и ситуации экспертизы оказываются различными?
16. Назовите по памяти основные профессионально-этические принципы в ситуации обследования клиента.
17. Назовите по памяти основные профессионально-этические принципы
в ситуации принудительного обследования (ситуации экспертизы).
18. В каких ситуациях особенно необходимо, чтобы испытуемый подписал документ под названием «информированное согласие»?
19. С чем соглашается испытуемый, который подписывает документ «информированное согласие»?
20. Какие признаки сближают ответственность пользователя теста с ответственностью лечащего врача, прописывающего пациенту лекарственный препарат?
21. Почему за результаты тестирования отвечает не разработчик теста, а
тот, кто проводит тестирование — практический тестолог?
661
3. ВРЕМЕННЫЙ СТАНДАРТ ТРЕБОВАНИЙ К ПСИХОДИАГНОСТИЧЕСКИМ МЕТОДИКАМ
Полный текст этого объемного документа насчитывает более 35 000
знаков (около 2 учетных издательских листов). Ниже для ознакомления
читателей с документом публикуются лишь наиболее важные из нескольких десятков пунктов (только треть пунктов). Точную ссылку на адрес в
Интернете читатель может найти в разделе «Библиография и веблиография» (см. Стандарт, 2012). Следует также сделать такую оговорку, что текст
стандарта — это рабочий документ, в который во всем мире сертифицирующие организации вносят регулярно немало поправок. Так что это вполне
естественно — публиковать данный полный текст не в книге, а именно на
более динамичном носителе информации — на сайте.
1. Требования к конструированию психодиагностических методик
(нумерация пунктов НЕ соответствует тем, которая используется в полной
версии документа)
1.1. Методики должны создаваться на основе теоретических представлений и эмпирических свидетельств об изучаемых концептах и
конструктах.
Разработчик должен однозначно выбрать из множества представлений об изучаемом явлении одно и документально зафиксировать его.
1.2. Спецификация содержания теста, включая количество заданий для
выявления конкретного параметра (диагностического фактора),
должна быть логически и/или эмпирически обоснована и задокументирована.
1.3. Отбор пунктов (тестовых заданий) должен сопровождаться их эмпирической проверкой и доводиться до соответствия принятому
уровню психометрических параметров.
1.4. При использовании для отбора пунктов экспертов их квалификация и степень согласованности решений должны быть проверены и
задокументированы.
1.5. При расчете тестового балла, исходя из различного «веса» вопросов
и/или ответов, вся процедура по созданию, обоснованию и назначению «весовых» коэффициентов должна быть обоснована и задокументирована.
1.6. При использовании в методике пунктов со свободными ответами
должны быть представлены обоснованные и документированные
критерии оценки ответов. В этом случае в инструкции для специалистов, занимающихся обработкой результатов, должны быть
представлены не только критерии, но и примеры-образцы ответов,
отнесенных к определенным категориям.
662
Практическая тестология
1.7. При использовании классического подхода к конструированию
тестов должен быть обоснован выбор коэффициентов корреляции (сопряженности, ранговой, линейной) в соответствии с установленным типом измерительной шкалы (номинальная, порядка, интервалов).
1.8. При использовании методов и моделей IRT для оценки параметров и отбора пунктов необходимо представить документальные
доказательства соответствия избранной модели IRT процессу отбора пунктов и структуры данных, на основе которых проводится фиксация трудности каждого пункта.
2. Требования к описанию методики и сопутствующим документам
2.1. Процесс разработки методик и ее использование требуют создания специальных документов — Технического отчета (отчетов)
и Руководства, а в случае необходимости, Технического справочника, Справочника пользователя и других дополнительных
материалов. Эти сопутствующие методике документы должны
быть доступны для зарегистрированных пользователей и исследователей сразу, как только методика издана для профессионального применения.
2.2. В Технических отчетах должны быть собраны все документы, которые в соответствии с различными пунктами требований данного Стандарта должны быть представлены разработчиком для
проверки (перепроверки), рецензирования и/или сертификации
методики.
2.3. В Руководстве к бланковой методике должны содержаться все
сведения, необходимые для качественного проведения (администрирования) методики, обработки полученных данных, перевода сырых результатов в шкальные значения, интерпретации результатов и подготовки отчета (отчетов).
3. Требования к надежности методики
3.1. Для психометрической проверки методики на её надежность необходимо вычислять и предоставлять пользователю результаты
расчетов по нескольким видам надежности, поскольку каждый
вид надежности фиксирует различные источники ошибок измерения.
3.2. Размеры выборки для исследования одного вида надежности
должны составлять не менее 100 человек. Оптимальным является проведение нескольких исследований на различных выборках каждого из видов надежности. В особых случаях допускается
меньший размер выборки, но не менее 50 человек.
Приложение 3. Временный стандарт требований к методикам
663
3.3. Надежность по внутренней согласованности должна находиться в
пределах от 0,70 до 0,90 показателя Альфа-Кронбаха (подсчитанного
по шкале «сырых» баллов). При этом для личностно-характерологических тест-опросников, имеющих высокие показатели внешней
валидности, допустимый диапазон может быть 0,6 — 0,8.
3.4. Надежность по ретестовой стабильности должна находиться в
пределах коэффициентов корреляции от 0,60 до 0,80. При этом
необходимо документально обосновать продолжительность интервала между повторными тестированиями, в зависимости от
объективной стабильности измеряемого методикой свойства (феномена). В случаях высокой зависимости измеряемого свойства
(феномена) от изменчивых ситуационных или внутренних факторов, допускается корреляция в интервале 0,4 — 0,6.
4. Требования к валидности методики
4.1. Разработчиком методики должны быть представлены эмпирические и теоретические доказательства высокой степени обоснованности интерпретации полученных результатов во всех документально обозначенных сферах использования методики, что
является главным свидетельством её валидности.
4.2. Если валидность методики для какой-либо интерпретации не
была изучена или если интерпретация плохо соответствует
предложенным доказательствам, это должно быть недвусмысленно сообщено пользователю методики.
4.3. Если пользователь предполагает применять методику способом,
который не был валидизирован, что приводит к необоснованной
интерпретации результатов, то на пользователя возлагается обязанность обосновать новый способ использования и собрат
ь новые доказательства валидности.
4.4. При доказательстве конвергентной конструктной валидности
методики через уровень корреляции с методиками со сходными
или одинаковыми конструктами рекомендуется наличие величины коэффициентов корреляции на уровне от 0,55 до 0,75 при
выборке обследуемых не менее 100 человек.
4.5. Для проверки и доказательства критериальной валидности необходимо обосновать выбор соответствующего методике внешнего
критерия, обосновать качество выбранного критерия и определить необходимую и/или достаточную величину взаимосвязи
между методикой и критерием.
4.6. Рекомендуемая величина взаимосвязи между методикой и критерием может находиться в пределах величин коэффициентов
корреляции от 0,3 до 0,5. При этом величина выборки должна
быть не меньше 150.
664
Практическая тестология
5. Требования к разработке норм
5.1. Методики, предназначенные для психологической диагностики,
должны сопровождаться разработкой норм для перевода получаемых
«сырых» (первичных) баллов в производные (вторичные, стандартизированные) в соответствии с психометрическими требованиями.
5.2. Любые нормы, предлагаемые пользователю, должны относиться к
точно описанным популяциям (контингенту применения методики). Эти популяции должны включать только индивидов или группы, с которыми пользователи будут сравнивать обследуемых.
5.3. Разработчик должен представить пользователю сведения о том,
к какому виду относятся предлагаемые нормы: статистические
(групповые, или относительные) — полученные на репрезентативной выборке; предметно-ориентированные (абсолютные) — с экспертным обоснованием одного или нескольких «секущих баллов»
(границ диагностическуих интервалов); критериальные — с эмпирической разработкой уровней критериальных показателей или
«таблиц ожидания».
5.4. Репрезентативность тестовых норм должна доказываться с помощью определенных статистических процедур проверки их устойчивости к расщеплению выборки или соответствию заранее заданным теоретическим моделям распределения сырых баллов.
5.5. Размер выборки для получения норм зависит от референтной для методики популяции и колеблется от 150—300 человек для небольших
популяций до 1000 и больше для больших и разнородных популяций.
6. Требования к процедуре проведения методики (администрированию) и обработке результатов
6.1. Создатель методики должен описать приемлемые условия проведения, которые позволяют гарантировать «чистоту» тестовых баллов,
в том числе условия, исключающие возможность обследуемому получить результаты обманными средствами.
6.2. Разработчик методики должен предусмотреть и описать в Руководстве допустимые реакции пользователя на возможные типичные
вопросы обследуемых на разных этапах проведения методики.
6.3. Обработка пользователем полученных данных должно строго соответствовать заданному разработчиком алгоритму.
6.4. Процедура обработки и (если применимо) критерии подсчета должны быть представлены создателем методики достаточно детально и
ясно, чтобы максимально увеличить точность обработки. Инструкции для использования оценочных шкал или для получения баллов
путем кодирования, шкалирования или классифицирования должны быть ясными и не допускать двойственного подсчета баллов.
Приложение 3. Временный стандарт требований к методикам
665
7. Требования к интерпретации результатов и отчетам
7.1. Ответственность за предоставление всей необходимой информации для осуществления пользователем валидной интерпретации
должен нести разработчик и издатель методики. В частности, разработчик обязан явно указывать все известные ему случаи (категории обследуемых и типы ситуаций), в которых рекомендуемая им
интерпретация не может считаться валидной.
7.2. В отношении конкретных обследуемых лиц ответственность за качество интерпретации и качество отчетов несет пользователь методики. Разработчик в своих документах должен помочь пользователю установить соответствие ситуации проведения методики тем
предписаниям и ограничениям, которые он сформулировал в Руководстве пользователю.
8. Требования к изданию методики и её распространению
8.1. Издатель методики должен соблюдать необходимые юридические
процедуры по охране имущественных и неимущественных авторских прав разработчика: выплачивать авторское вознаграждение с
каждой копии методики, сохранять имя автора методики, её авторское название и аббревиатуру и т.п.
8.2. Издание в России методики, разработанной и уже изданной за рубежом, требует наличия соответствующих договоров на перевод и
адаптацию методики, на издание и распространение с правообладателем (автором-разработчиком, фирмой-издателем или дистрибьютером, наделенными соответствующими правами).
8.3. Перевод, адаптация и последующее использование в коммерческих
целях компьютерных методик в режиме on– или off-line требует заключения лицензионного договора с правообладателем на распространение (использование) фиксированного количества запусков
методики или на дистрибьюцию методики в ограниченное количество времени.
8.4. Распространение и использование контрафактных психодиагностических методик категорически запрещено законом, а также
профессионально-этическими нормами издателей и пользователей
психодиагностических методик.
8.5. Издание модифицированных методик возможно только при наличии письменного разрешения от автора (или правообладателя) оригинальной методики. Издание методик-аналогов (см. глоссарий)
письменного разрешения не требует.
666
Практическая тестология
4. ПРЕДМЕТНО-ИМЕННОЙ УКАЗАТЕЛЬ
100-балльная шкала, 133
16PF, 83, 87, 127, 185, 590
16РФ, 124, 590, 593, 610
360 градусов, 46, 422, 454
Abrahams N.M. 460
academic history score, 531
American Psychological Association,
195
Anyplace, 491
API, 394
application program interface, 394
artificial intelligence, 250
assessment, 105
B5-поговорки 302
base rate, 458
basecamp, 352
Beckers J.J., 598
Bersin J., 346
Brogden, 474
BSCAS, 598
cloze test 230, 414
content validity, 432
Coombs C.H., 328
Coopera A., 372
correct, 260
CPI, 83
Cronbach L.J., 474, 432
cut score, 66
DBM 375
Decision Support Module, 375
Deutsch R., 107
disclosure, 389
DOS, 362
drag-and-drop, 220, 370
Drasgow F., 186
DSM, 375
Education Testing Service 170
Edwards A.L., 244
EFPA, 195
Embretson S.E., 327
EPI, 83, 315, 444
EPPS, 89
error, 275
ETS, 89, 170
evernote, 379
eyet racking, 491
face validity 147
Facebook, 188, 352, 360, 394
failure, 458
fairness, 196
fairplay, 496
Fincham R., 570
FineReader, 226
F-шкала Адорно, 89
gap filling 87
Gleser, 474
goodness of fit, 372
Google, 188
Google Chrome, 378
Google Documents, 351
Google Groups, 351
Google mail, 351
GPA, 531, 536
grade dresponse scale, 328
grade point average, 531, 536
GRE, 170
Gronlund N.E., 132
GRS, 328
Guilford J.P., 287
half-split 87, 280
HCM, 347
Hembree R., 589
hire, 458
Holling H., 474
Приложение 3. Временный стандарт требований к методикам
HR, 294
HT-LINE, 47, 113, 144, 153, 164, 207, 230,
252, 362, 363, 373, 377, 390, 395, 414, 419,
426, 428, 456, 499, 518, 519, 575, 591
HT-LINE LMS, 352, 383
HT-LINE MASTER-TEST, 403
HTML, 361
Human Technologies, 89
Hunter J.E., 437
ICC-кривая 301, 328
IMS, 208
International Test Commission, 195
IPB, 360
IP-адрес, 152, 419, 511
IQ, 78, 79, 87, 268, 271, 566
IQ-тесты, 202, 236, 437
IRT, 125, 135, 294, 306, 344, 372
IRT-анализ, 300, 378
IRT-модель, 327, 407
ISO 10667, 196
ISO 17000, 197
ISO 17024, 628
ISO/IEC 20000, 198
IT, 294
item, 86
item analysis, 184, 293, 359
item characteristic curve, 300
item fit, 300, 302
item response theory, 294
item writing system, 244, 358, 359
IT-технологии, 616
Joomla 346
667
LS-типы заданий, 233
L-шкала, 316
MAINTEST 207
MAINTEST-5, 378
MAS, 189, 444
maximum likelihood estimation, 337
MC-item, 198
Mead A.D., 186
Microsoft, 188
Ministep, 372
MMPI, 80, 91, 127, 128, 185, 189, 268,
315, 381, 418, 483, 589
Moodle, 346, 374
Mozilla FireFox, 378
MS Access, 207
MS Excel, 207, 576
MS Excel, 247, 274, 312, 365, 371
MS Explorer, 378
MS Office, 312
MS PowerPoint, 574
MS PowerPoint, 365
MS Word, 207, 358, 363
Multilog, 372
multiple choice, 103, 146, 150, 322
multi-traits and multi-method
matrix, 448
MyTest, 376
narrative report 173
NaumenkoA.S., 185
NEO-PI, 83
key performance indicators 436
knowledge engineering, 250
KPI, 450, 451
OLE 369
OpenOffice, 358
Opera, 378
Outfit, 303
over-qualified, 109
learning management system 346
like, 352
Linn R.L., 132
LMS, 47, 346, 347
Lord F., 335
Page-test 414
paper-and-pencil, 77
Partial Credit, 373
pass, 260
Peabody D., 487
668
Практическая тестология
person fit, 300
percentile score, 262
personal account, 391
personal room, 359
Petrides K.V., 372
PR, 294
Psychometrika, 276, 328
QTI 208, 359, 396
QuestionMark, 359
RANDOM 401
Rasch, 298
Rating Scale, 373
raw test score, 65
Red Mine, 472
Reise S.P., 327
reject, 458
Remote Anywhere, 491
Rhodes P., 570
RSIP, 368, 401, 644
Russell J., 457
SaaS 377
Saccuso D.O., 457
Safari, 378
SAT, 89, 170
Schmidt F.L., 437
SCORM, 208, 359, 396
script, 179
selection ratio, 459
SEM, 276
shareware, 372
SHL, 389
Shmelyov A.G., 185, 361
situational judgement tests, 323
SJT, 93, 323
Skype, 400
software as a service, 377
SPSS, 307, 371
standard error of measurement, 276
standard nine, 269
standard ten, 269
standard test score, 66
StrackF., 107
structured free answers, 225
success, 458
success coefficient, 458
Taylor H. 457
TCS-программы, 363
Team Viewer, 160, 491
test development software, 360
test takers, 164
Thissen D., 372
TMS, 349, 350, 351, 352, 353, 356, 359,
375, 376, 378, 379, 392
TOEFL, 89, 170
t-критерий, 312
Unitest 376
up your score, 164
Vkontaktе 386, 394
Weiss D.J. 337
WiFi, 160
Wiki, 351
Windows, 362
Winsteps, 303, 372
www.cc.psytest.ru, 195
www.ht.ru, 232, 396, 564
www.kadrovik.ru, 232
www.maintest.ru, 378
www.totaldict.ru, 231
www.ukoz.ru, 377
Xcalibre 372
XML-файлы, 359
z-баллы 67
Z-шкала, 268
абитуриенты 110, 614
Аванесов В.С., 184, 218, 563
автоматизированная
интерпретация, 184
Приложение 3. Временный стандарт требований к методикам
автоматизированная тестовая
система, 350
авторизующие гиперссылки, 352
авторская группа, 148
авторские тесты, 20
авторский банк заданий, 204
авторский гонорар, 540
Авторский указатель, 397
авторский цикл, 212
авторское соглашение, 545
авторы тестовых заданий, 31, 122,
141, 200, 395, 539
аггравация, 479
адаптация тестов, 184
адаптивное тестирование, 93, 135, 514
адаптивный алгоритм, 180
аддитивные модели решений, 109
администрирование тестов, 18
Адорно Т., 89
адресная книга, 353
Азгальдов Г.Г., 38
Айзенк Г., 60, 87, 186, 444
акцентуация характера, 268
Алгина Дж., 31
алгоритм сближающихся порогов,
514
Альфа-коэффициент, 306, 599
альфа-шкала, 380
Амтхауэр Р., 83
анализ ключей, 573
анализ почерка, 228
анализ пунктов, 293
анализ распределения баллов, 532
аналоги, 189
Анастази А., 87, 227, 457, 559, 573, 587
анкета, 46, 47
анонимность участия, 356
анонимные условия, 319
антиколлектив, 456
антиэлитные механизмы, 619
АОС, 346
апелляционная комиссия, 525
апелляция, 166
апелляция по процедуре, 525
669
апробация теста, 157
Аристотель, 487
артефакт, 55
асимметричная связь, 536
асимметрия распределения баллов,
131, 162
Асмолов А.Г., 555
ассессмент, 98, 105, 106, 381, 382
Ассессмент-сессия, 382
Ассессмент-центр, 81, 569
ассессор, 98, 106
АТ-алгоритм расходящихся рядов, 408
аттестационная процедура, 524
аттестационное тестирование, 213, 413
аттестация, 262
аутентификация испытуемых, 418
аутсорсинг, 473
АЭС, 100
Бабанин Л.Н. 186
база знаний, 380
Бакарак В., 31, 258
баллирование, 168
банк заданий, 122, 127, 148, 167, 494,
524, 529, 531, 541
баннерная реклама, 387
БАТ, 393
батарея тестов, 309
Батурин Н.А., 173, 194, 258, 398, 562
Бекерс Дж., 598
Березин Ф.М., 268
Бернулли, 141
Бертрам Д., 195
бета-шкала, 380
Библиотека Экспресс-тестов, 232
бинарная переменная, 458
Бирнбаум А., 373
бланковые тесты, 91, 125
бланк ответов, 220
близость реального и идеального
профилей, 115
блогосфера на www.ht.ru, 175, 193, 597
блочная рандомизации, 403
Бодалев А.А., 174, 227, 313
670
Практическая тестология
Болотов В.А., 133, 555
Болсинова М.А., 586, 597
Большая пятерка, 83, 87, 478, 485, 611
Бондаренко С.М., 587, 588
Борисова Е.М., 174, 477
браузер, 377, 378
Бриджмен П., 237
бумажно-карандашные тесты, 77
Бурлачук Л.Ф., 227, 573
валидизация 100
валидность, 68, 242, 285, 417
валидность-дискриминативность
задания, 291
валидность интервью, 570, 571
валидность как пригодность, 73
валидность кратко, 71
валидность оценочных процедур, 435
валидность по критерию, 100
валидность практическая, 49, 431
валидность теста, 68, 101, 286, 456, 565
валидность тестов способностей, 436
валидность тест-опросников, 436
Вандерлик Э.Ф., 83, 87
Вартегг Э., 227
Веб 3.0, 381
веб-досье, 392, 394, 522
веб-интерфейс, 387
веб-камеры, 495
веб-портфолио, 391, 425
веб-страница, 370
веб-страницы респондентов, 422
веб-страницы экспертов, 422
Вебтьютер, 376
Векслер Д., 83, 418, 566
вербальные способности, 202
вероятность ошибки., 41
верхняя группа, 119
весовые коэффициенты, 110
ветвящиеся алгоритмы, 409
взаимопроверяющие критерии, 428
взвешенный рейтинг, 111
видеонаблюдение, 491
Википедия, 105, 159, 183, 313, 346, 476
Виноградов М.В., 559
виртуальная проектная группа, 352
виртуальные почтовые ящики, 352
виртуальные профессиональные
сообщества, 396
внешние авторы, 202
внешний критерий, 93, 285
внешняя валидность теста, 163
внешняя мотивация, 516
внутренние тесты, 171
внутренние эксперты, 202
возобновление теста, 165
воронка отбора, 55
воспроизводимость теста, 433
временная структура теста, 147
временные лимиты, 492
встречная проекция, 227
вступительные экзамены, 110
вторичный балл., 136
входной контроль, 349
высокая группа, 66
высоковалидные дорогие тесты, 471
высокоочковые испытуемые, 23
высшая психометрика, 293
Высшая школа экономики, 270
выходной контроль, 349
Гайда В.К., 184, 258
Гаусс К.Ф., 267, 301
генерация вариантов, 201
гетерогенные тесты, 87
Гилфорд Дж., 287
Гильбух Ю.З., 184
гистограмма распределения, 271, 579
гистограмма экспертного голосования, 153
ГИФО, 226
глобальные тесты, 257
Гольдберг, 228
гомеостат Горбова, 89
гомогенность, 442
гомогенные тесты, 87
Горбов Ф.Д., 89
госэкзамен, 589, 603
Приложение 3. Временный стандарт требований к методикам
госэкзамены, 517
готовность к конкуренции, 611
Готтсданкер Р., 316
Готтшальдт К., 566
градации-отметки, 511
границы перевода баллов в оценки, 523
Гребенюк Г.А., 418
грейды, 130, 131
Грей К.Ф., 350
групповое тестирование, 480
групповой фаворитизм, 40
групповые тесты, 92
группы интересов, 613
гуманитарии, 585
гуманитарная метрология, 41
гуманитарная тестология, 41
Гуревич К.М., 129, 174
671
дискриминативность задания, 304
дисперсия, 580
дистанционное обучение, 346
дистрактор, 125, 127
дистракторы, 103, 127, 152, 169, 209,
235, 242, 416
дифференциальная психология, 53
дихотомическое тестовое задание, 322
добавленная валидность, 460, 464
добровольная сертификация, 628
доверительная валидность, 619
доверительный интервал, 274, 280
Дом-Дерево-Человек, 95
достоверностъ, 566
достоверность, 167, 556, 631
достоверность кратко, 71
достоверность методики, 506
достоверность теста, 70, 418
достоверность тестов знаний, 317
двоичные логиты 411
двухпараметрические IRT-модели, 305 достоверность тест-опросников,
двухэтапная стратегия принятия
317, 488
решений, 117
достоинства тестов, 102
декларативные документы, 57
Дружинин В.Н., 94, 477
Делингер С., 227
ДСП, 49
деловая игра, 105
Дюк В.А., 258
демоверсия, 164
ДюкВ.А., 287
деривация, 190
детские тесты, 94
ЕГЭ 18, 34, 35, 40, 74, 85, 110, 137, 147,
дециль, 615
186, 208, 214, 221, 222, 225, 239, 343, 372,
децильное отношение, 265
388, 555, 556, 557, 558, 614, 625
децильные ранги, 265
Ежегодник профессиональных реДжексон П., 183
цензий и обзоров, 195
Джерелиевская М.А., 418
Ефремова Н.Ф., 344
диагностика качественная, 41
диагностическая гипотеза, 44
журнал оценок 55
диагностическая задача, 43
журнал тестирования, 165
диагностическая методика, 43
Забродин Ю.М., 185
диагностическая оценка, 43
задание кейсового типа, 541
диагностические концепты, 191
задание на продолжение ряда, 237
диагностический конструкт, 477
задание с развернутым ответом,
диагностическое мышление, 79, 118 34, 224
диагност-тестолог, 477
диахронная надежность, 284
задания на аналогию 236
дискриминантная валидность, 444, 448 задания на ранжирование, 84, 219
672
Практическая тестология
задания на соответствие, 84
задания с выбором ответа, 213
задания с множественными ответами, 215
задания с множественным ответом, 322
задания с пропусками, 87
задания фасетного типа, 402
закон Йеркса-Додсона, 597
закрытые тест-вопросы, 84
Захаров В.П., 184, 258
зачет-допуск, 406
защищенность от фальсификации, 506
звездчатая коммуникограмма, 354
Звонников В.И., 193
Зейгарник Б.В., 240
Зинченко Ю.П., 531, 597
инструментальная компьютерная
система, 121
инструментальный вопрос, 233
интеграция даннных, 420
интеграция оценочных технологий, 55
интеллектуальный инструмент, 21
интерактивная матрица ключей, 364
интерактивный диктант, 231
интервал категориальный, 60
интервалы-категории, 132
интервальная шкала, 285
интервьюеры-эйчары, 24
Интернет, 17, 22, 127, 132, 157, 159, 161,
166, 176, 177, 225, 231, 313, 372, 385, 397,
494, 506, 564
Интернет-опросы, 152
Интернет-пираты, 389
Интернет-сайты, 311
игровое моделирование 418
Интернет-сообщество, 396
игровой тест, 418
интерфейс пользователя, 356
идеализированное ассимилятивное Интранет, 351
восприятие, 453
интроверсия, 589
идеальный испытуемый, 65
интроект, 583
идеальный профиль, 115, 380
инфантилизм, 580
избыточная компетентность, 109, 380 инфолента, 352
измерение достоверности, 315
информационная безопасность, 58,
измеряемое свойство, 130
104, 161, 205, 318, 379, 382
ИК-технологии, 183
информационная система тестироимпульсивное принятие решений,
вания, 56
107
информированное согласие, 621, 629
импульсивность, 580
ипсативные опросники, 485
ИМСТ, 350
ипсативныетестовыенормы, 90
индекс качества заданий, 169
ипсативные тест-опросники, 90
индекс хронометрической достоипсативный формат вопросов, 484
верности, 405
искаженная мотивация, 27
индивидуальная веб-страница,
исключение эксперта, 155
511, 522
искусственный интеллект, 250
индикаторы и факторы, 75
испытание, 614
индустриальная психология, 269
испытуемые, 18, 614
инженер-программист, 544
исследование и обследование, 44
инкрементная валидность, 460
исследователь-тестолог, 54
инструкция для авторов, 203
истинная дисперсия, 275
истинный балл, 68
Приложение 3. Временный стандарт требований к методикам
итоговая аттестация, 538
итоговый рейтинг-балл, 138
ИТ-специалисты, 56, 58
КPI 434
Кабаченко Т.С., 345
кадровая политика, 627
кадровое тестирование, 97
кадровый ассессмент, 55
калибровка заданий, 135
калибровка шкалы, 264
Карданова Е.Ю., 303, 373
Карузо Д., 106
кастомизация, 171
категории ответов, 37
категории-отметки, 131
качественный вывод, 41
качество подгонки, 302
качество теста, 200
КБТЗ, 137, 149, 151, 201
квазиизмерительные тесты, 62
квалиметрия, 38
квалификационное тестирование,
158
квалификационые тесты, 436
квантили, 266
квартиль, 265
квартиль Q1, 90
квартиль Q3, 90
квотирование грейдов, 313
квотированные грейды, 134
КГР, 92
КД, 251, 374
К-ЕГЭ, 521
кейс, 192, 239
кейс-задания, 78
кейс-задача, 146
кейс закрытого типа, 240
кейсовое задание, 146
кейсовые задания, 238
кейс-тест, 322
кейс-тесты, 81, 93, 246, 418
кейсы, 436
кейсы открытого типа, 239
673
Келли Дж., 583
КИМ, 34
КИТТ, 393
классификация тестов, 82
классифицирующие таблицы, 245
классическая психометрика, 266
классическая теория тестов, 266, 293
кластерный анализ, 127
кластеры тестовых заданий, 247
клиент-сервер, 376
клиентский модуль, 359
клиническая беседа, 79
клинический метод диагностики, 79
клонирование тестовых заданий,
248
Клуб испытателей тестовых технологий, 303, 393
ключевой ответ, 363
ключевые ответы, 127
ключевые показатели эффективности, 434
ключи, 123, 124, 620
ключ как вектор идеальных ответов, 65
ключ как трафаретка, 65
ключ к тесту, 64, 183, 192
ключ к тесту как логический
фильтр, 65
Кобцева Ж.В., 587
Козелецкий Ю., 107
Козловская-Тельнова А.Ю., 487
количество ответов, 210
количество экспертов, 150
командообразование, 398
Комиссия по психодиагностике
РПО, 196
коммерческие тесты, 171
коммуникативная инфраструктура, 56
коммуникативная компетентность, 587
коммуникативные сценарии, 352
компетентностый подход, 240
компетентность, 120
674
Практическая тестология
компетенции, 103, 105, 106, 143, 585,
620
компетенции тестолога, 630
комплексная оценка, 425
комплексное обследование, 118
комплексные экзамены, 503
комплексный подход, 104
компоненты теста, 123, 129
компоненты тестовой системы, 56
компьютеризация процедуры тестирования, 492
компьютеризация теста, 186
компьютеризированное тестирование, 590, 594, 600
компьютеризированный тестзачет, 516
компьютеризированный тест знаний, 531
компьютеризированный экзамен, 595
компьютерная грамотность, 247
компьютерная модель ЕГЭ, 186
компьютерная психодиагностика,
258
компьютерная революция, 385
компьютерная тревожность, 598
компьютерное тестирование, 385,
420, 493, 499
компьютерно-игровые тесты, 91
компьютерные игровые методы, 416
компьютерные игры, 417
компьютерные классы, 491, 519
компьютерные тесты, 91, 561
компьютерные тесты знаний, 500
компьютерный банк тестовых заданий, 137
Компьютерный ЕГЭ, 521
компьютерный экзамен, 586
конвергентная валидность, 443
конверсионная таблица, 273
конкордация экспертных оценок, 152
конкуренция, 610
конкурс, 262
конкурс авторов, 547
конкурсное тестирование, 28
конструирование теста, 127
конструкт, 106, 203, 442
конструктная валидность, 441
конструктор тестов, 360
контент-анализ, 96, 228
контент-валидность, 434
контент теста, 185
контроль достоверности, 405
контрольно-оценочные средства, 21
контрольно-оценочные тесты, 21
контрольные списки, 84
конфликт интересов, 479
концепт, 442
концепция сдерживания фальсификации, 496
кооперативная готовность, 631
координатор, 156, 200
копилефт, 176
копирайт, 176, 183
корпоративная лояльность, 568
КОРРЕЛ, 273, 282, 287
корреляционный граф, 592
КОРТ, 62, 90, 129, 131, 134, 262
косвенные тесты, 92
Костин А.В., 38
КОТ Вандерлика, 87
коэффициент валидности, 286, 308
коэффициент дискриминативности, 169, 251, 290, 373, 542
коэффициент интеллектуальности, 268
коэффициент КД, 252
коэффициент надежности, 283
коэффициент ранговой корреляции, 283
коэффициент умственного развития, 269
краткий свободный ответ, 221
Кринчик Е.П., 588, 597
критериальное поведение, 431
критериальное событие, 76
критериально-ориентированное
тестирование, 129
Приложение 3. Временный стандарт требований к методикам
критериально-эмпирические шкалы, 93
критериальные группы, 286
критериальные тестовые нормы, 131
критериальный подход, 66
критерий Вилкоксона, 312
критерий Колмогорова-Смирнова,
313, 591
критерий Манна-Уитни, 312
критерий независимости, 40
критерий Стьюдента, 311
критерий цена-качество, 24
критерии эффективности тестовой
системы, 24
Крокер Л., 31
Кронбах Л.Дж., 306, 432
Кроник А.А., 453
кроссвалидизация, 309
кросс-ситуационная мотивация, 52
Круги Торранса, 589
круговые оценки, 456
Крымов А.А., 115
КТО, 364
КТТ, 266
куб данных, 420
кубы Кооса, 88
Кулагин Б.В., 258, 457, 459
кулинарная метафора, 179
культивирование тестов, 543
культурно-языковая адаптация, 185
Кумбс, 328
курс «Основы психодиагностики»,
234, 383, 398, 416, 574, 499
Кэмпбелл Д., 320
Кэттелл Р., 87, 127, 566, 580, 590
Лаборатория Гуманитарные технологии 144, 161, 206, 207, 377, 395, 485
лабораторная валидность, 476
Лайкерт Р., 328
Ларионов А.Г., 131, 390, 411
Ларсон Э.У., 350
латентные переменные, 75
легкие задания, 250
675
легкие тесты, 91
легкость выбора поступка, 324
лестнично-адаптивный метод, 409
Лефевр Г., 241
ли-вопросы, 124, 214
лимиты на тест, 404
линейная корреляция, 534
линейная корреляция Пирсона, 273,
282
линейная стандартизация, 261
Лири Т., 89
лицензионная чистота, 82, 187
лицензионное соглашение, 177, 180
лицензия, 71
личная веб-страница пользователя,
394
личностная тревожность, 596
лобовые тест-опросы, 92
логика луддитов, 30
логико-семантическая структура
задания, 231
логико-теоретические задания, 235
логин и пароль, 164
логины и пароли, 392
логит способности, 295
логит трудности, 294
логический коридор, 117
логический фильтр, 110
лог-файл, 419
локализация, 187
локальная сеть, 165
локальные тесты, 257, 313
Лопатин В.Н., 176
лояльность исполнителей, 356
ЛПР, 23, 26, 56, 59, 350, 353
любители тестирования, 19
Люшер М., 95, 566
массив ответов 183
массовое обследование, 164
математическая тестология, 118
матрица ключей, 125
матрица Кэмпбелла и Фиске, 448
676
Практическая тестология
матрица-протокол тестирования,
297
матрица сопряженности, 534
матрица суждений, 433
матрицы интракорреляций, 449
матричные тесты, 65, 89
МГУ, 27, 416, 573
медиана, 265, 274
медианный балл, 625
медицинская диагностика, 79
медицинская психодиагностика, 479
Мельникова Н.Н., 173
Мельников В.М., 127
менеджер-тестолог, 49, 544
менеджеры-тестологи, 394
мера производительности, 472
местная достоверность, 477
метаанализ данных, 437
метафора дерева, 103
метафора Мишень, 77
метод восходящего ряда, 408
метод известных групп, 128, 439
методика оценки, 35
методики шкалирования, 83
методические задания, 233
методическое руководство, 72
метод контекстной вставки, 103, 230
метод контрастных групп, 292
методологическая тестология, 53
метод тестов, 102, 529, 572
метод тест-ретест, 281
метод Центра оценки, 105
методЦентра оценки, 55
методы валидизации, 432
методы педагогической оценки, 54
метрологический алгоритм, 64
микрокейс, 240
микрокомпьютерная революция, 499
Мимикс, 418
ММИЛ, 82, 268
ММПО, 590, 593
многокритериальный подход, 107
многошкальные тесты, 87
многошкальный ключ, 124
множественная регрессия, 309
множество Парето, 112
мобильный класс, 161
модель компетенций, 144, 441
модель нормального распределения, 66, 130, 262
модель оценивания, 453
модель принятия решений, 107
модель расстояниедоякоря, 329
модель Раша, 302, 372, 407
модель СНБ, 518
модель теста, 88, 136, 143
модификация, 189, 190
модифицированная формула Раша,
325
модуль Мастер-тесты, 153, 230
модульно-рейтинговый подход, 509
модуль Онлайн-шкалирование, 155
Моргунова В.В., 115
Морено Я.Л., 454
Морозов С.М., 227, 573
мотивационные искажения, 319, 436
мотивация достижения, 610
мотивация обучения, 346
мотивация тестирования, 346
мотивация участников, 158
Мошков М., 178
МЦО, 105, 106, 571
Мэйер Дж., 106
мягкое информирование, 551
наблюдатель-организатор 165
наблюдение, 43
надежность, 417
надежность, валидность и репрезентативность, 54
надежность вероятностная, 41
надежность-дискриминативность
задания, 293
надежность и валидность, 71
надежность измерения, 67
надежность кратко, 71
надежность-согласованность, 162,
573, 599
Приложение 3. Временный стандарт требований к методикам
надежность статистическая, 41
надежность теста, 67, 565
Наследов А.Д., 371
наука, 63, 200
Науменко А.С., 175, 388, 585
научный прогноз, 583
невербальные тестовые задания, 85
недостатки тестов, 102
независимая сертификация, 72
независимые эксперты, 40
независимый эксперт, 148
независимык эксперты, 505
нейтральный ответ, 125
некогнитивные компетенции, 74
неработающие задания, 250
несанкционированное распространение, 178
несовместимые задания, 247
нестрогий алгоритм, 179
Несуществующее животное, 95
нетест, 35
нетестовая методика, 36
нетестовые методики, 39, 42
неформализованные ответы, 38
низкая группа, 55, 119, 242
низковалидные дешевые тесты, 471
номинально-качественная шкала, 96
нормализованая шкала, 131
нормальная модель, 130, 271
нормативно-ориентированное тестирование, 129
нормативы конфиденциальности, 57
НОРМОБР, 273
нормы статистические, 61
НОРТ, 62, 90, 129, 130, 131, 134, 262
носители корпоративного знания, 202
нотация заданий, 246
ноу-хау, 627
НОЦ Психодиагностика, 195
область валидности 74, 99, 101
обратные вопросы, 64
обратный вопрос, 125
обследование, 119
677
обучающие тесты, 85
Общество психологов СССР, 175
объективность теста, 102
объективные тесты, 83
объект тестологического исследования, 53
обыденное понимание слова тест,
33, 34
обязательное обследование, 627
Одинцова В.В., 478
одномоментная надежность, 281
одношкальные решения, 108
одношкальные тесты, 87
ожидаемая вероятность, 465
ожидаемая полезность, 466
олимпиада Телетестинг, 412, 507,
514, 597
Олимпиада Телетестинг, 131
онлайн-демоверсия, 518
онлайн-диалог, 390
онлайн-обработка, 390
онлайн-опрос, 601
онлайн-опросы, 356
онлайн-паспортичка, 521
онлайн-редактор тестовых заданий, 362
онлайн-режим, 187
онлайн-тестирование, 207, 429
онлайн-технологии, 600
онлайн-экспертиза тестовых заданий, 395
О педологических извращениях,
559
оперативное конструирование
теста, 254
оперативные тесты, 348
операциональные определения, 237
операционная готовность, 356
опрос, 45
Опросник экзаменационной тревожности, 590
опросы учащихя, 507
организатор тестирования, 400
организационная психология, 59
678
Практическая тестология
организационные решения, 26
организационные роли, 357
отбор заданий, 156, 200
ответственность при тестировании, 572
отвлекающий ответ, 248
откатка назад, 186
открытые тест-вопросы, 84
относительный рейтинг-балл, 131
отношение отбора, 464
отрасли тестологии, 81
отрицательная селекция, 27
отсев тестовых заданий, 169
отсекающая точка, 131
охраноспособный объект, 191
оценка качества задания, 151
оценка персонала, 81, 98, 569
оценочная деятельность, 631
оценочные категории, 264, 511
оценочные методики, 54
оценочные процедуры, 138
оценочные шкалы, 99
оценочные эталоны, 228
оценщики, 613
очевидная валидность, 147, 173, 630
ошибка измерения, 274
памятка автору 205
памятка участнику, 522, 547
параллельная форма теста, 189
параллельное применение, 538
параметры авторизации, 392
пароли, 58
пароль, 225, 494
паспорт теста, 76
патологическое отклонение, 268
Пачиков С.А., 379
ПВК, 143
ПДД, 623
педагоги-репетиторы, 181
первичные баллы, 131
первичные тестовые баллы, 55
первичный балл, 348
перевод стенов в оценки, 270
перекрестная оценка заданий, 150
перепроверка надежности, 187
пересчет тестовых норм, 173
перечень документов, 353
персональные данные, 378
персональный блог-форум, 397
Пибоди Д., 487
Пиктограммы, 227
пилотная выборка, 156
пилотное тестирование, 162, 172
пиратские сайты, 177
пиратские тестовые сайты, 389
Пирсон К., 267, 460
письменный экзамен, 504, 505, 507, 589
плагиат, 190
платежные системы, 387
поведенческие тесты, 83
погрешность измерения, 130
подтасовки, 104
позиционный стиль ответа, 241
поисковый сайт, 405
показатель трудности заданий, 250
полезависимость, 229
полиграф, 27, 92
политомические модели IRT, 328
Положение об экзамене, 529
Положение о тестировании, 161, 353
пользователи тестов, 18, 121, 168,
172, 572
помогающее тестирование, 622
понимание текста, 211
поправка на надежность, 308
поправка на угадывание, 261
поправка Спирмена-Брауна, 282
Портер М., 613
Портнова Д.С., 416
послужной список, 540
пособие Основыпсиходиагностики, 75
постатейное голосование, 355
посттестовый анализ, 168
Похилько В.И., 185, 381, 487
поэкранное предъявление, 186
Правила аттестации, 196
правила интерпретации, 123
Приложение 3. Временный стандарт требований к методикам
правила поведения испытуемых, 354
правила тестирования, 165
правило остановки, 180, 408
правильное тестирование, 633
правильный ответ, 125
право распространения, 187
прагматическая стратегия, 126
прагматическая стратегия конструирования, 94
прагматический подход к конструированию тестов, 134
практико-ориентированные тесты,
49
практическая гуманитарная тестология, 51
практическая тестология, 32, 33, 50,
56, 58, 543, 633
практические тестологи, 79
практический тестолог, 49, 118, 227, 451
пралогическое мышление, 585
предварительная оценка, 550
предвзятость экзаменатора, 502
предмет и объект тестирования, 50
предметные тесты, 74
предмет тестирования, 477
предмет тестологического исследования, 53
предписывающая информационная технология, 181
предпочтение оценочной технологии, 507
предпочтение письменных экзаменов, 508
представления о справедливости,
28, 617
предтестовая инструкция испытуемому, 123, 128
предтестовая консультация, 164
преподаватели, 540
принцип объективности, 627
причинно-следственный вопрос, 233
провайдеры тестовых услуг, 389
проверка валидности, 129
проверка внешней валидности, 173
679
проверка надежности, 129
проверка психометрических
свойств, 129, 186
проверка репрезентативности, 129
прогностическая валидность, 75,
107, 556
прогностичность теста, 76, 438
программа для ЭВМ, 179
программа-оболочка, 208
программа тестирования, 26
программирующий диагноз, 585
продолжительность сеанса, 199
продуктивные тесты, 86
продуктивные экспертные методики, 86
проективная методика, 97
проективные методики, 37, 95, 227
проективные методики нетестовые, 37
проективные тестоподобные методики, 96
проективные тесты, 20
проективный тест, 89
производители тестов, 542
производительность труда, 472
промилли, 265
просоциальное поведение, 323
проспективная валидизации, 438
протокол, 553
протокол конфиденциальности, 206
протокол тестового экзамена, 522
профессиональная коммуникация, 104
профессиональная тайна, 175, 388, 625
профессиональная этика, 29
профессионально-важные качества,
143
профессиональное тестирование,
622, 626
профессиональные компетенции,
349
профессиональные предпочтения, 573
профессиональные психологи, 20
профессиональные установки, 558
Профориентатор, 440
680
Практическая тестология
профориентационное тестирование, 94
профориентационные тесты, 78
процентили, 349
процентиль, 262
процентильная шкала, 262
процентильные доли, 130
процентильный балл, 131, 262
процент ошибок, 296
психиатрическая нозология, 128
психогеометрический тест, 227
психодиагностика, 227
психологи-гуманитарии, 257
психологика испытуемого, 241
психологическая совместимость, 74
психологические тесты, 158, 564
психологический факультет МГУ, 574
психологическое консультирование, 79
психометрика, 58, 582
психометрист-тестолог, 31
психометрическая обоснованность, 630
психометрическая проверка, 542
психометрическая эффективность, 618
психометрические исследования, 320
психометрические параметры, 22,
73, 129
психометрические свойства, 237
психометрические свойства теста,
54, 67, 157
психометрические тесты, 60, 257, 348
психометрический отчет, 310
ПТМ, 193
Пушкин А.С., 581, 584
пятибалльная шкала, 132
Пятна Роршаха, 95, 96
рабочая шкала 316
Равен Дж., 83
радио-кнопки, 217, 247, 370
развлекательные тесты, 33, 60
разделяющие точки, 109, 129, 169
разработка тестовых заданий, 200
разработчики тестов, 122, 162, 167, 394
ранги, 132
ранговая корреляция Спирмена,
283, 591
ранговое место, 262
расписание сеансов., 164
распределение тестовых баллов, 162
распределенные базы тестов, 394
Расселл Дж., 457, 459
расценки, 541
расщепление теста, 284
Раш, 298
реальный профиль, 116
режим ноу-хау, 49, 176
режим секретности, 206
Резапова Д.Б., 596
рейтинг-балл, 101
рейтинговая методика, 43
рейтинговая система Эло, 111
рейтинг-оценка, 101
рентабельность, 631
рентабельность тестирования, 30
рентабельность тестов, 621
репрезентативная выборка, 311
репрезентативность, 163
репрезентативность кратко, 71
репрезентативность тестовых норм,
49, 69, 169, 311
репрезентативные тестовые нормы, 304
респондент, 45
респондент-испытуемый, 46
ресурсная кейс-модель, 327
ретестовая надежность, 285
ретроспективная валидизации, 438
рефлексивная активность, 27
рефлексивная игра, 241
риски нарушений, 494
Рисунок несуществующего животного, 228, 564
Рисунок семьи, 119
рисуночные методики, 229
рисуночные техники, 95, 227
Приложение 3. Временный стандарт требований к методикам
Роджерс К., 90
родительский веб-кабинет, 379
Розенцвейг С., 95
ролевая позиция испытуемого, 19
Ролз Дж., 28
Ромек В.Г., 186
Роршах Г., 566
Рособрнадзор, 557
Ротенберг В.С., 587, 588
роцентаж, 267
роялти, 187
РПО, 194, 398, 562
Рубежное тестирование, 514
рубежный контроль, 514
Рунион Р., 266, 312
Ручные инструменты, 20
681
систематическое смешение, 316
системная дополнительность, 632
ситуационная теория управления, 93
ситуационная тревожность, 98
ситуационно-поведенческие тесты, 91
ситуационный якорь, 328
ситуация испытания, 623
ситуация клиента, 94, 481, 611, 624
ситуация тестирования, 18, 68
ситуация экспертизы, 94, 106, 172,
317, 611, 624
склейка оценочных конструктов, 449
склонность к риску, 124
скорректированный балл, 258
скрытый саботаж, 619
Слоссон С.У., 180
служебные шкалы, 315
сайт-визитка 391
случайное угадывание, 250, 258
салонные тесты, 61
случайные ответы, 490
самоконтроль, 347
случайный выбор из банка задасамооценочная валидизация, 73
ний, 492
самопознание, 388
СМИ, 558
самосбывающееся пророчество, 583
СМИЛ, 82, 268, 381, 590
самоэффективность, 598
Смирнов С.Д., 588
Сатин Д.К., 186
СМК, 194
связанные ранги, 263
СНБ, 132, 383, 509, 511, 514, 527, 534
себестоимость тестирования., 468
Собчик Л.Н., 268, 381, 446, 590
сервер разработчика, 376
современная теория тестов, 266
сервер тестирования, 369, 420
согласование независимых оцеСергеев В.В., 409
нок, 551
Серебряков А.Г., 131, 390, 440
содержательная валидность, 48, 53, 432
сертификат тестолога, 19
соискатель, 628
сертификация тестовых материаСонди Л., 95
лов, 193
сертифицированный специалист, 119 сопротивление тестам, 613, 618
сопротивление тестированию, 81, 612
сигма-шкала, 268
составные тесты, 86
симуляция, 479
софт-инженеры, 31, 56, 357
синхроннная надежность, 284
социальное сравнение, 610
система контроля, 496
Система Накопленных Баллов, 509, 511 социальные сети, 53
социологические опросники, 219
система сертификации, 175, 398
социологические опросы, 609
система тарифов, 377
социометрическая техника, 454
система тестирования, 613
систематическое искажение, 75
социометрический опрос, 46
682
Практическая тестология
социоцентрическое ассимилятивное восприятие, 453
СПбГУ, 132
спекулятивные тесты, 20, 62
специалист по оценке, 473
спецификация, 145
спецификация теста, 88
Спилбергер Ч.Д., 188
СПОТ, 115
справедливости имплицитная
модель, 28
сравнительная успешность, 586
среднее плюс сигма, 270
средний балл диплома, 536
средняя группа, 61, 66
средняя группп, 60
ССЗ, 103
стандартизационное обследование, 172
стандартизация теста, 283
стандартизированные тестовые
методики, 119
стандартизированные тесты, 568
стандартизированный балл, 66
стандартизированный инструмент, 20
Стандартинформ, 196
стандартная ошибка измерения, 276
стандартное отклонение, 267
стандартные шкалы, 269
стандарт требований к тестам, 196
стандарты ISO, 196
статистическая правомочность
ключа, 291
стены, 265
Стимул, 418
стимульный материал, 96
Столин В.В., 174, 227, 258, 313
стратегия исключения, 261
стратегия честного пропуска, 261
страхование от провала, 551
Страхов Н.Н., 383, 416
стресс дефицита времени, 603
стресс-интервью, 98
стрессоустойчивость, 588
СТТ, 266
студенты-выпускники, 609
студенты-психологи, 574
Стьюдент, 267
Стьюдрасп, 312
СУБД, 375
субтест, 85
субтесты, 88, 143
субшкала, 87
субъективная справедливость, 631
суверенитет личности, 625
сумма накопленных баллов, 132
суммарный накопленный балл, 416
суммирование оценок, 529
супервизия, 400
супервизор, 420
супервизоры, 159, 494
Суходольский Г.В., 284
сценарий, 180
сцепление с СД-шкалой, 317
сцепление факторов, 68
счетчик числа запусков, 183
сырая шкала, 129
сырой балл, 125
сырой тестовый балл, 65
сырые баллы, 136, 166
Сэловей П., 106
таблица перевода баллов в оценки
552
таблица сопряженности, 293
таблица сравнительной эффективности, 570
таблица стандартизации, 136
таблицы Тейлора-Расселла, 457
табличная нормализация, 273
тактика фальсификации, 27, 619
тарификация персонала, 205
ТАТ, 80, 95, 238
Т-балл, 268
Т-баллы, 273
творческий конкурс, 539
ТДМ, 78
Приложение 3. Временный стандарт требований к методикам
ТЕЗАЛ, 381
Тейлор, 444
Тейлор Ж., 189
Тейлор Х., 457, 459
текстовое заключение, 173
телеметрия, 92
Телетестинг, 208, 390, 556
тематические блоки, 136
тематический апперцептивный
тест, 238
тенденция завышения оценок, 535
теорема Муавра-Лапласа, 141, 271
теоретико-дедуктивная стратегия,
126
теоретико-дедуктивные шкалы, 93
терминологические задания, 233
тест, 17, 20, 86
Тест, 26, 561, 614
ТЕСТАН, 361
тест в кратком определении, 38
тест в полном определении, 39
тест в узком смысле, 35, 36
тест в широком смысле, 36
тестирование, 17
тестирование в здравоохранении, 79
тестирование в организации, 59
тестирование на наркозависимость, 109
тестирование образовательное, 50
тестирование персонала, 78
тестирование психологическое, 50
тестируемые, 164
тестируемый, 19
тест как инструмент исследования,
48
тест как инструмент обследования, 49
тест как инструмент отсева, 55
тест как интеллектуальный инструмент, 22
тест как испытание, 20
тест как контрольное упражнение, 213
тест как лекарство, 632
тест как оружие, 19, 561
тест-конструктор, 360
683
тест контекстной вставки, 370
тест моторной реакции, 277
тест неоконченных предложений, 89
тестовая батарея, 88, 571
тестовая подсистема, 349
тестовая система, 56, 345
тестовая тетрадь, 220
тестовая технология, 502
тестовые баллы, 219
тестовые задания, 123, 191
тестовые нормативы, 156
тестовые нормы, 66, 123, 128, 168, 184
тестовые шкалы, 123, 192, 610
тестовые экзамены, 224, 507
тестовый балл, 550
тестовый интеллект, 269
тестовый контент, 526
тестовый контроль, 587
тестовый модуль, 390
тестолог, 18, 79, 82
тестологи, 18, 631
тестологическая грамотность, 72
тестология, 19, 20, 22, 31, 42, 53, 227,
566, 610
тестология кадровая, 51
тестология как методологическая
наука, 53
тестология на производстве, 81
тестология профессиональная, 51
тестоподобная методика, 37
тестоподобные задания, 348
тест-опросник, 89, 91, 106, 574
тест-опросники, 45, 64, 479
тест-опросник компьютерной тревожности, 597
тест-плейер, 363
тест по грамматике, 24
тест простой моторной реакции, 87
тест-ретест, 289
тест Слоссона, 408
тесты, 47
тесты, встроенные в эксперимент, 44
тесты достижений, 89
тесты знаний, 202
684
Практическая тестология
тесты и анкеты, 46
тесты и опросы, 45
тесты и эксперимент, 44
тесты когнитивных способностей, 437
тесты креативности, 89
тесты мониторинга состояния, 95
тесты на понимание, 229
тесты на сайтах, 17
тесты на скорость, 21, 86, 158
тесты на сложность, 86
тесты-опросники, 83
тесты профессиональных знаний, 78
тесты профориентации, 95
тесты профотбора, 95
тесты ситуационных суждений, 323
тесты сортировки, 370
тесты учебных знаний, 78
техника парных сравнений, 90
техническая тестология, 50
технические сбои, 549
технофобия, 598
тип заданий, 213
типы служебных шкал, 483
Т-критерий Стьюдента, 478
Торранс Э.П., 89, 227
точечно-бисериальный, 252
точечно-бисериальный коэффициент, 285
точка отсечения, 66, 349, 620
точка случайного угадывания, 214
точки разделения, 131
точность прогноза, 462
традиционные методы оценки, 30
традиционные оценочные технологии, 621
традиционные процедуры контроля, 500
традиционные экзамены, 133
трехзначная логика диагностического вывода, 61
трехуровневые TMS, 376
ТРМ, 78
трудные задания, 250
трудные тесты, 91
ТТЕСТ, 312
ТТЗ, 294
Тукачев Ю.А., 371
ТУТ, 115
Тхостов А.Ш., 597
угадайка 243
удостоверение протокола, 166
укажите лишнее слово, 236
умственный возраст, 268
Уорд П., 454
управление проектами, 350
управление человеческим капиталом, 347
упущенная выгода, 177
Урбина С., 87, 227, 457, 573, 587
уровень значимости p<0,01, 515
уровень согласованности, 228
устная защита, 510
устные тесты, 91
устные экзамены, 500
устный экзамен, 99, 502, 534, 589, 603
устойчивость распределения оценок, 313
утечка вариантов, 506
утечка заданий, 225
утечка ключей, 162, 569
утечка методической информации, 388
участники, 614
учебные тесты, 34, 64
ученый-тестолог, 53, 54
учетная карточка, 521
учетная карточка участника, 164
учетные записи, 392
учетный код задания, 245
фактологические задания 232
факторный анализ, 127, 611
фактор социальной желательности,
244, 477
факультет психологии МГУ, 48, 114,
517, 528, 531, 538, 589, 597, 612
фальсификационная стратегия, 441
Приложение 3. Временный стандарт требований к методикам
фальсификация, 23, 29, 104, 416, 475,
493, 587
фасетные задания, 248
Фаулз Дж., 582
фейс-контроль, 495
Фер М., 31, 258
ФЗ РФ №162, 378
физическая метрология, 41
фи-коэффициент, 252, 287, 288, 291,
316, 465, 575, 608
Фи-коэффициент, 463
фи-коэффициент Гилфорда, 577
фи-критическое, 292
Филиппов В.М., 555
фильтр зачет-незачет, 514
фокус-группа, 143
фонд оценочных средств, 21
Фонд оценочных средств, 194
фоновый фактор, 75
формально-логическое мышление,
241
формат проведения теста, 147
форматы тестовых заданий, 206
формула взвешенного рейтинга, 421
формула надежности измерения, 276
формула подсчета, 64
формула Раша, 323
формула рейтинга на лимитах, 113
Формула рентабельности теста,
469
формула Рюлона, 276, 279
формула совместимости, 74
форсированная нормализация,
271
ФОС, 21
Фрейд З., 581
фрустрационный тест Розенцвейга, 95
Хайтун С. 563
Ханин Ю.Л., 188
характеристическая кривая задания, 300
Хембри Р., 588
Хи-квадрат, 287, 411, 515, 578
685
хитрый студент, 243
ХоллингХ., 474
Холодная М.А., 560, 563
целостный тест 192
целочисленное взвешивание, 337
цель тестирования, 431
цена лицензии, 71
централизованное тестирование, 412
центральный интервал, 61
Центр оценки, 81
центр тестирования Гуманитарные
технологии, 440
ЦК ВПБ(б), 174
ЦК КПСС, 174
частотно-классификационная
таблица 245
часть А ЕГЭ, 226
часть С ЕГЭ, 40, 224
чек-боксы, 247
Челышкова, 306
Челышкова М.Б., 132, 193, 306
Червинская К.Р., 184, 381
четырехклеточная корреляция, 287
четырехклеточная таблица, 290
четырехклеточная таблица сопряженности, 251, 476, 577
четырехпозиционная модель черты, 488
четырехполюсная модель черты, 487
численность крайних групп, 310
числовой код ответа, 65
ЧСС, 92
Чумаков А.А., 531, 597
Шадриков В.Д. 554
шкала F в MMPI, 483
шкала IQ, 269
шкала градуированных ответов,
328
шкала грейдов, 132
шкала Лайкерта, 328
шкала логитов, 294
686
Практическая тестология
шкала первичных баллов, 315
шкала рейтинга, 111
шкала Рокича-Ядова, 89
шкала станайнов, 269
шкала стенов, 269
шкала сырых баллов, 131
шкала Т-баллов, 91
шкалирование, 66, 167, 427
шкалы лжи, 315, 481
шкалы порядка, 266
шкалы социальной желательности, 481
шкальный ключ, 88
школьная психодиагностика, 80
школьная тестология, 80
школьный психолог, 72, 80
Шмелев А.Г., 19, 32, 75, 82, 124, 126,
131, 132, 174, 175, 180, 185, 258, 273, 381,
385, 388, 390, 396, 411, 416, 418, 477, 478,
486, 487, 556, 560, 563, 565, 573, 575, 586,
590, 596, 610, 611
Шмидт Х., 598
шпаргалки, 506
Щелкова О.Ю., 184
Эббингауз Г. 414
эгоцентрическое ассимилятивное
восприятие, 453
эгоцентрическое контрастное восприятие, 453
ЭДМ, 80
Эйдман Е.В., 258
эйчар-интервьюер, 98
эйчары, 18, 53, 78, 81, 181, 613
экзамен, 17
экзаменаторы, 21, 97
экзаменационная тревожность,
592, 600
экзаменационный стресс, 587
экологическая валидность, 477
экономическая эффективность,
467
экономический эффект тестирования, 465
Эксель, 245, 246, 282, 420
Эксель-модель, 111, 113, 141, 266, 272,
286, 292, 299, 305, 307, 313, 469
эксперимент, 44
экспертиза, 627
экспертиза тестов, 149
экспертиза тестовых заданий, 153
экспертная квалиметрия, 96
экспертная оценочная шкала, 37
экспертная система, 173
экспертное голосование, 527
экспертное наблюдение,, 105
экспертное оценивание, 99
экспертно-квалиметрическая процедура, 505
экспертно-рейтинговые методики
оценки, 42
экспертные оценки, 34, 38, 98, 446,
568
экспертные системы, 34, 183, 228
экспертные тесты, 96
экспертный рейтинг, 111
эксперты, 97
эксплораторный факторный анализ, 128
Экстраверсия-Интроверсия, 611
экстраверты, 593
экстрапунитивная реакция, 609
экстремальные группы, 285
электронный ассессмент, 422
электронный документооборот, 351
Эло А., 111
эмоциональная неустойчивость,
594
эмоциональный интеллект, 106
эмпирико-индуктивная стратегия, 126
эмпирико-статистические щкалы, 93
эмпирическая валидизация, 434
эмпирическая валидность, 416, 529
эмпирические индикаторы, 75,
127
эмпирические методы, 44
ЭРМ, 81
Приложение 3. Временный стандарт требований к методикам
эссе, 120
эталонные требования, 262
этап стандартизации, 304
этика научно-исследовательской
деятельности, 48
этика честного тестирования, 497
этика честной конкуренции, 612
этические принципы, 621
эффект добровольцев, 480
687
эффективность деятельности, 26,
163, 431
эффективность пароля, 206
эффект разглашения, 389
эффект самоорганизующейся выборки, 480
язык разметки 361
Ямпольский Л.Т., 127
А. Г. Шмелев
ПРАКТИЧЕСКАЯ ТЕСТОЛОГИЯ.
Тестирование в образовании,
прикладной психологии и управлении персоналом.
Корректор — А. Шерстюк
Макетирование — А. Кудрявцев
Сдано в набор 12.05.2013.
Гарнитура «Greta» 43 п.л.
Формат 60х84/16. Бумага офсетная.
Тираж 1000 экземпляров. Заказ Заказ.
Отпечатано в ООО «ИПЦ „Маска“»
Москва, Научный проезд, 20.
Тел. 8 495 510-32-98
www.maska.su, info@maska.su