Бизнес-анализ информации. Статистические методы: Учебник - Аббакумов В.Л., Лёзина Т.А.

Автор: Аббакумов В.Л. Лёзина Т.А.

Теги: процессы управления документация научно-техническая информация (нти) печать в целом авторство общие основы экономического развития бизнес анализ данных математическая статистика статистический анализ

ISBN: 978-5-282-02918-5

Год: 2009

Похожие

SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей

SPSS для социологов. Учебное пособие

Математические методы в психологии. Практикум

Практикум по анализу данных на компьютере

Текст

Учебники экономического факультета СПбГУ
В.Л. АББАКУМОВ, Т.А. ЛЁЗИНА
БИЗНЕС-АНАЛИЗ ИНФОРМАЦИИ. СТАТИСТИЧЕСКИЕ МЕТОДЫ
Ь Экономика
УДК 005.52:002(075.8)
ББК 65.011.15я73
А13
Печатается по постановлению Редакционно-издательского совета экономического факультета Санкт-Петербургского государственного университета
Аббакумов В.Л.
А13 Бизнес-анализ информации. Статистические методы: Учебник // В.Л. Аббакумов, Т.А. Лёзина. — М.: ЗАО «Издательство «Экономика», 2009. — 374 с. — (Учебники экономического факультета СПбГУ).
ISBN 978-5-282-02918-5
Предлагаемая книга является учебником по анализу экономической информации с использованием пакета SPSS. Она предназначена в первую очередь для магистрантов, обучающихся по специальности «Информационные системы в бизнесе» экономического факультета СПбГУ, а также для магистрантов и студентов всех экономических специальностей, изучающих курсы: «Маркетинг», «Маркетинговые исследования», «Количественные методы маркетинговых исследований», «Бизнес-анализ информации», «Прикладная статистика». Книга также будет полезна всем, кто по роду своей деятельности анализирует экономические данные.
Достоинствами данной книги являются подробный разбор примеров анализа данных и изложение приемов интерпретации результатов работы статистических процедур.
В книгу вошли материалы курсов, прочитанных авторами на экономическом и математико-механическом факультетах СПбГУ, а также включенных в программу MBA «Маркетинг — Менеджмент» Высшей экономической школы СПбГУЭФ.
Статистические методы, описанные в книге, могут быть использованы в любой другой прикладной области (биологии, медицине,
психологии).
УДК 005.52:002(075.8)
ББК 65.011.15я73
ISBN 978-5-282-02918-5
© Аббакумов В.Л., 2009
© Лёзина Т.А., 2009
© Экономический факультет СПбГУ, 2009
©ЗАО «Издательство «Экономика», 2009
СОДЕРЖАНИЕ
1. ВВЕДЕНИЕ.......................................7
Переменные и наблюдения.........................9
Зависимые и независимые переменные..............Ю
Кодирование данных опроса......................12
Шкалирование...................................14
Описание и ввод данных.........................21
Работа с пропущенными данными..................32
Копирование и импорт данных из Microsoft Excel..34
Сохранение файла...............................38
Открытие данных из баз данных..................38
Открытие данных, хранящихся в текстовых файлах.........................................43
2. РАБОТА С ДАННЫМИ..............................48
Фильтрация данных..............................48
Сортировка данных..............................51
Вычисление новых переменных....................52
Использование функций.........................54
Перекодирование данных........................56
Создание одной категории из нескольких.....56
Создание категориальной переменной из количественной...........................58
Создание категориальной переменной из количественной для большого числа наблюдений........62
Создание и редактирование диаграмм............68
Стандартные диаграммы.......................68
Столбиковая диаграмма.......................68
Круговая диаграмма..........................77
Ящиковые диаграммы..........................80
3
Редактирование стандартной диаграммы............$2
Отображение меток на диаграмме...............§2
Удаление меток на диаграмме..................§2
Изменение внешнего вида элементов диаграммы....................................84
Создание интерактивных диаграмм.................85
Редактирование интерактивной диаграммы..........88
Изменение внешнего вида диаграммы............89
OLAP Кубы.......................................90
Создание OLAP Кубов..........................92
3. ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ........................97
Описательные статистики качественных переменных......................................97
Описательные статистики количественных переменных.....................................103
Нормальное распределение........................112
4. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ................135
Основные понятия проверки статистических гипотез........................................135
Определение гипотезы........................136
Ошибки первого и второго рода...............138
Уровень значимости..........................139
Ошибка второго рода и мощность..............140
Алгоритм проверки статистических гипотез (типичный случай)...........................140
Проверка гипотез о центрах распределений........
Проверка нормальности распределения случайной величины.............................* °
Выбор статистики, используемой в качестве центра распределения...........................J '
Парные и независимые выборки.................
Сравнение медиан выборок.....................
4
5 АНАЛИЗ КАЧЕСТВЕННЫХ ПЕРЕМЕННЫХ. ТАБЛИЦЫ СОПРЯЖЕННОСТИ......................177
4.1. Критерий Хи-квадрат....................177
6. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ......................................188
Исследование взаимосвязей с помощью диаграмм рассеяния и корреляций...................190
Функциональная и статистическая зависимость.190
Диаграммы рассеяния.........................193
Некоторые приемы работы с диаграммами рассеяния..............................196
Коэффициент корреляции......................198
Коэффициент корреляции и диаграмма рассеяния................................201
Вычисление коэффициента корреляции в SPSS...................................205
Типичные ошибки при корреляционном анализе................................209
Простая линейная регрессия..................213
Множественная регрессия.....................223
7. ДИСПЕРСИОННЫЙ АНАЛИЗ.......................245
Однофакторный дисперсионный анализ..........246
8. ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АНАЛИЗ 254
Этапы кластерного анализа...................255
Проблема интерпретации результатов..........259
Расстояние между объектами и меры близости.................................286
Расстояние между кластерами.................289
9. ДИСКРИМИНАНТНЫЙ АНАЛИЗ.....................293
5
10. ФАКТОРНЫЙ АНАЛИЗ..........................
Практическое применение факторного анализа. Факторный анализ как метод сокращения размерности массива данных................
Факторный анализ как метод выявления структуры зависимости в данных.............
Факторный анализ при описании характеристик, не поддающихся непосредственному измерению................................. -
Проведение факторного анализа.................
11. CONJOINT (совместный анализ)..................
338
Глоссарий...........................................
Литература..........................................
371
373
1. ВВЕДЕНИЕ
Предлагаемая книга является учебником по статистическому анализу с использованием пакета SPSS. Она предназначена для магистрантов, обучающихся по специальности «Информационные системы в бизнесе» экономического факультета СПбГУ, а также для всех, кто по роду своей деятельности анализирует экономические данные.
Отметим особенности данной книги. Авторами были предприняты специальные усилия, чтобы не дублировать существующую литературу.
С одной стороны, математические модели, изучаемые в книге, описываются скорее качественно, излагается только идея метода. Одновременно с этим ссылки на учебники по математической статистике позволят заинтересованному читателю восстановить пробелы. Тем самым удается избежать дублирования существующих текстов и потенциально описать математические модели с максимально возможной полнотой. В качестве основного учебника была выбрана книга авторов С.А. Айвазяна, В.С. Мхитаряна «Прикладная статистика и основы эконометрики».
С другой стороны, в книге нет полного описания функций пакета SPSS. Такие сведения можно найти, например, в книге А. Бююль, П. Цефель «SPSS: искусство обработки информации». От читателя не требуется предварительного изучения указанных выше книг. Для освоения материала, изложенного в книге, требуется владение математической статистикой в объеме семестрового курса и знание основ работы с операционной системой Windows.
Существование хороших пособий по математической статистике и пакету SPSS, изданных на русском языке, позволило авторам сконцентрировать изложение на приемах, которые помогают при интерпретации результатов работы статистических процедур.
7
Поясним на примере. Несложно научиться принуждать использовать пакет SPSS к проведению факторного анализа конкретного набора данных. Гораздо сложнее ответить на следующие вопросы:
Сколько факторов надо оставить в модели?
Какие из исходных переменных стоит исключить из факторной модели?
Применим ли факторный анализ для анализируемого набора данных?
Какие именно приемы помогут при интерпретации факторов в конкретном случае?
Разумные ответы на подобные вопросы крайне важны для успешного применения модели. Они касаются интерпретации результатов и не обсуждаются в известной авторам русскоязычной литературе.
Кроме факторного анализа в книге рассматриваются: подготовка и преобразование данных в SPSS; визуализация, редактирование графиков;
проверка статистических гипотез: сравнение центров распределений;
линейный регрессионный анализ;
совместный (Coinjoint) анализ;
дисперсионный анализ;
дискриминантный анализ;
кластерный анализ.
Обсуждение проводится в ходе анализа задач экономического характера.
Выбор пакета SPSS обусловлен тем, что в России он чаще используется для анализа экономической информации, чем пакеты Statistica, SAS, S-Plus. Существенным аргументом при выборе программного средства для авторов было также то, что Санкт-Петербургский государственный университет обладает лицензионной версией именно SPSS. В книге используется англоязычный вариант программы SPSS (версия 13), но для всех команд и диалоговых окон приведены соответствующие команды из русифицированной версии.
Весь материал проиллюстрирован примерами, заимствованными из практики. Каждая часть пособия содержит контроль-
8
ные вопросы и упражнения. В конце книги вы найдете словарь используемых терминов. В приложении приведены данные, обсуждавшиеся в книге.
Авторы предлагают слушателям магистерских программ и исследователям, знакомым с основным курсом статистики, пропустить начальные главы книги, связанные с описанием шкал и кодированием. Тем не менее мы сочли возможным включить обсуждение таких базовых понятий в книгу для того, чтобы и менее опытные читатели смогли использовать в своей деятельности возможности пакета SPSS.
Данные для примеров и упражнений расположены на сайте экономического факультета СПбГУ http:\\www.econ.pu.ru
Переменные и наблюдения
Перед тем как мы приступим к описанию процедуры ввода данных в SPSS, необходимо обсудить такие понятия, как наблюдение и переменная.
В экономических исследованиях анализируются данные различной природы, например данные о покупателях: их возраст, состав семьи, покупательные возможности, образование; данные о фирмах-конкурентах: характеристики их товаров и т.д. Изучаемые объекты будем называть наблюдениями. В примерах, приведенных выше, объектами будут покупатели или фирмы-конкуренты. Для каждого объекта регистрируются характеристики, эти характеристики изучаемых объектов будут называться переменными. Например, переменными могут являться пол опрашиваемых покупателей, их возраст, оценка товара (отличная, удовлетворительная, плохая), сумма, которую готов заплатить клиент за товар, и т.д.
Для анализа с помощью пакета SPSS данные надо организовать в виде таблицы. При этом строки таблицы содержат наблюдения, столбцы — переменные. Такая форма предоставления данных обязательна для новичка.
В файлах данных SPSS каждому наблюдению соответствует своя строка таблицы, а каждой переменной — свой столбец этой же таблицы. Рассмотрим пример, в котором изучаются ре
9
зультаты опроса покупателей. Анализируемые данные представлены в виде табл. 1.
Каждая строка табл. 1 содержит информацию об отдельном опрошенном и называется наблюдением.
Переменные (столбцы) содержат информацию об опрошенном и его ответы на вопросы анкеты. Таким образом, в этом примере переменными являются пол покупателя, образование заработная плата и тип выбранного покупателем телефона.
Таблица 1
Данные анкетного опроса покупателей 23 июня 2006 г.
Пол Заработная плата, руб. Образование Тип мобильного телефона
Женский 26 250 Н/высшее Nokia
Мужской 38 850 Высшее Nokia
Мужской 24 000 Среднее Samsung
Женский 16 950 Н/высшее Siemens
Женский 21 150 Среднее Nokia
Женский 31 350 Н/высшее Nokia
Мужской 19 200 Н/высшее Samsung
Женский 22 350 Высшее Siemens
Женский 22 350 Н/высшее Samsung
Женский 30 000 Высшее Siemens
Женский 26 400 Высшее Nokia
Женский 54 000 Н/высшее Nokia
; Женский 26 400 Высшее Samsung
Женский 54 000 Высшее Samsung _
Зависимые и независимые переменные
Разработчики SPSS активно используют понятия «зависимая переменная» и «независимая переменная», в частности эти тер' мины встречаются в процедурах пакета при исследовании ста-
10
тистических закономерностей. Работая с пакетом SPSS, нам придется пользоваться этими терминами.
Независимыми переменными называются переменные, которые используются для объяснения или предсказания значений других переменных, а именно — зависимых переменных. Примерами независимых переменных являются пол покупателей, количественный состав их семьи, доход, покупательские возможности.
Зависимые переменные — это переменные, значения которых зависят от значений независимых переменных, быть может, даже определяются ими.
Например, в регрессионном анализе предполагается, что зависимая переменная является функцией независимых переменных. Примерами зависимых переменных могут служить оценка покупателем товара, предпочтение товара и т.д.
Зависимость одних переменных от других обычно отражает мнение аналитика о структуре явления и является его гипотезой. Совокупность всех предположений (гипотез) исследователя будет называться моделью явления. Поведение экспериментальных данных может соответствовать гипотезе, тогда вера исследователя в гипотезу подкрепляется. Дело даже может зайти настолько далеко, что гипотеза превратится в закон. Например, гипотеза может звучать так: «Если цены на золото упали, то через две недели упадут цены на серебро». Если данные противоречат гипотезе, от нее отказываются. Если данные подкрепляют гипотезу, исследование развивается дальше, гипотеза уточняется и подправляется.
Применение зависимых и независимых переменных имеет свои достоинства и недостатки. Перечислим некоторые из них. Неудачны сами термины, так как возможна путаница с фундаментальным понятием независимости в теории вероятности1. На разных этапах исследования одни и те же переменные могут быть то зависимыми, то независимыми. Кроме того, суще-
’В результате сплошь и рядом изучают характер зависимости независимых переменных. Так получается, когда зависимость понимается в вероятностном смысле, а независимость — как в обсуждаемом определении.
11
ствуют методы, например кластерный анализ или многомерное шкалирование, в которых все переменные независимые. В факторном анализе и анализе главных компонент зависимые переменные являются целью исследования.
При этом, выделение зависимых и независимых переменных помогает новичку при выборе метода анализа.
При проведении исследований независимые переменные часто служат для разделения объекта исследования на группы. Например, если изучается отличие реакции на новый товар покупателей с высшим и средним образованием, то при статистической обработке результатов переменная «образование» может считаться независимой, а переменная «предпочтение товара» — зависимой.
Вернемся к данным, приведенным в табл. 1. В этом случае независимыми переменными являются пол покупателя, образование, заработная плата. Зависимой переменной является тип выбранного покупателем телефона.
Если аналитика интересует, как зависит выбор марки телефона от социальных и демографических характеристик покупателя, то переменные «пол», «заработная плата» и «образование» будут объявлены независимыми переменными, а переменная «тип мобильного телефона» — зависимой.
Рассмотрим теперь другую ситуацию, когда исследователь пытается спрогнозировать, какой тариф выберет абонент. В этом случае переменная «тариф» станет зависимой, а переменные «пол», «заработная плата», «образование» и «тип мобильного телефона» будут независимыми. Таким образом, в зависимости от решаемой задачи отношение аналитика к переменным может меняться: в разных ситуациях одна и та же переменная может быть как зависимой, так и независимой.
Кодирование данных опроса
Как и во всех других статистических пакетах, на первом шаге данные необходимо ввести в память компьютера.
При этом требуется, чтобы данные были закодированы. Кодирование - это сопоставление значению переменной некоторого числа, называемого кодом.
12
Например, для анализа результатов опроса пол опрашиваемых можно закодировать следующим образом:
О — мужской;
1 — женский.
При анализе ассортимента виды товаров можно закодировать как:
стул — 10;
стол — И;
пуф — 12 и т.д.
Процедура кодировки утомительна, но неизбежна. Заметим сразу, что если значения переменной — числа, то их кодировать не нужно, сами числа будут кодами. Если значения переменной — числа, записанные текстом, то их придется кодировать. Например, если фиксировались ответы на вопрос анкеты о количестве членов семьи (включая опрошенного) и допустимыми ответами были «отказ отвечать», «1», «2», «3», «4 или больше», то возможным вариантом кодировки будет:
-9999 — отказ отвечать;
0 — ноль членов семьи, невозможное значение, ошибка анкетера1;
1 — семья из одного человека, т.е. респондент живет один;
2 — семья из двух человек;
3 — семья из трех человек;
4 — семья из четырех или большего числа людей.
При этом нельзя вносить в таблицу данных текстовые значения, например нельзя набирать «три» вместо числа «3».
Как обычно, есть важные исключения. Иногда допустимо и даже полезно применять текстовые значения переменной, например, если именами наблюдений являются фамилии опрошенных или названия фирм-покупателей.
Во всех остальных случаях начинающему аналитику рекомендуем проводить кодировку.
Заметим, что кодировка — элемент обыденной жизни, ничего особенного в ней нет. Для каждого совершеннолетнего номер паспорта — его код. ИНН является другим примером кода. Обратимся к футболу. Номер на майке — код футболиста. Пне-
Анкетер — человек, проводящий анкетирование.
13
та формы команды — тоже код, на этот раз код страны. Таблица перекодировки известна каждому болельщику, например желто-зеленые цвета — Бразилия, оранжевый цвет — Голландия, бело-голубые — Аргентина.
Имеется много причин, которые побуждают рекомендовать начинать исследование с кодировки значений переменной. Среди них то, что прикладная статистика — раздел математики, он разрабатывался в первую очередь в расчете на операции с числами. Кроме того, определенные ограничения связаны с использованием компьютера, который в конечном счете обрабатывает числа. Да и для людей числа наиболее удобны: номера квартир или домов кодируются числами, а не, скажем, цветами.
Процесс кодировки пугает, он выглядит трудоемким, скучным и долгим. Все не так страшно, как кажется. При кодировке переменных можно обойтись без монотонной ручной замены текстовых значений переменных на соответствующие коды, поскольку пакет SPSS содержит средства, облегчающие кодировку переменных. Среди них функции Recode (Перекодировать) и Automatic Recode (Автоматическая перекодировка). В особо тяжелых ситуациях можно рекомендовать не спешить с использованием пакета SPSS, а сначала преобразовать данные, например в Excel’e. При преобразовании данных Excel мощнее SPSS, поскольку именно для таких действий — для манипуляций с таблицами — он и был создан. При статистическом анализе данных заметное преимущество уже у SPSS.
Шкалирование
В пакете SPSS для каждой переменной надо определить одну из трех шкал. Аналитик задает для переменной тип шкалы, для того чтобы указать пакету SPSS, какие операции разрешены, а какие нет при анализе данной переменной.
Почему некоторые операции могут быть запрещены?
Если ученик решает на уроке математики задачу и получает ответ «Для выполнения работы в течение часа требуется полтора землекопа», то он понимает, что с решением что-то не так.
14
С другой стороны, ответ «Работа будет выполнена за полтора часа» не будет абсурдным. Получается, что иногда число 1,5 допустимо, разрешено, а иногда запрещено.
Приведем другой пример. При опросе покупателей регистрировалось место жительства респондента, при этом ответ «Я житель Всеволожска» кодировался числом 1, ответ «Я житель Выборга» — числом 2, а ответ «Я житель Петербурга» — числом 3. Вдобавок во всех городах было опрошено одинаковое количество респондентов. Среднее арифметическое ответов на вопрос «В каком городе вы живете?» будет равно 2, т.е. в среднем все опрошенные живут в Выборге. Ответ бессмысленный, в такой ситуации нельзя вычислять среднее арифметическое, да и складывать коды городов тоже нельзя. Подобные случаи всем вполне понятны.
Итак, есть ситуации, когда человек принимает решение «автоматически». Но статистический анализ проводится вместе с пакетом SPSS, а у пакета нет вашего житейского опыта. На многое ему надо указывать. Чтобы предупредить возможные ошибки с запрещенными числами и операциями, введено понятие шкалы, в которой измерена переменная.
Номинальная шкала задается для переменных, значения которых являются условными именами. Обычно эти имена могут быть пронумерованы, номера используются в качестве кодов.* При этом сам номер не несет никакой смысловой нагрузки.
Типичные примеры переменных, измеренных в номинальной шкале, — имя, фамилия, пол, национальность, цвет, город, номер страхового полиса и т.д. Если переменная измерена в номинальной шкале, то те коды, которые используются для значений этой переменной, никак не характеризуют количественные свойства рассматриваемого объекта. Очевидно, что, сравнивая номера, присвоенные нескольким универмагам, невозможно выяснить, какой из универмагов лучше или хуже остальных. Бессмысленно также искать среднее значение номера универмага. Иногда в литературе вместо термина «номинальная шкала» используется термин «шкала наименований».
При использовании номинальной шкалы единственно доступная операция — это подсчет. Например, рассмотрим выборку из 60 мужчин и 40 женщин, для мужчин выбран код 1, а для
15
женщин — код 2. В такой ситуации не имеет смысла говорить что среднее значение пола равно 1,4, хотя расчет даст нам именно число 1,4 = (60 • 1 + 40 • 2) : 100. Мы можем заключить только, что в выборке больше мужчин или что 60% выборки составляют мужчины.
В программе SPSS номинальная шкала называется Nominal (Номинальная).
Говорят, что переменная измерена в порядковой (ранговой) шкале, если значения переменной можно сравнивать между собой, но величина разности значений не имеет смысла.
Примерами переменных, измеренных в порядковой шкале, являются сорта товаров (высший сорт, первый сорт, второй сорт); ранги предпочтений покупателей (1 — наиболее привлекательный товар, 2 — малопривлекательный, 3 — непривлекательный товар).
В программе SPSS порядковая шкала называется Ordinal (Порядковая).
Например, в маркетинге часто используется выставление оценок некоторым показателям (товаров, услуг и т.д.) в соответствии с определенной оценочной шкалой. Всевозможные рейтинги, оценка качества услуг в баллах измеряются в порядковой шкале.
Различия между номинальной и порядковой шкалами хорошо видны на примере с тремя переменными — стартовый номер спортсменов-бегунов, место, которое спортсмен занял в результате соревнований1, и время, за которое он пробежал дистанцию. Номера получены спортсменами при жеребьевке до начала соревнования и ничего не означают. Это просто числа, которые произвольным образом приписаны спортсменам, чтобы проще было отличать их друг от друга. Эти числа не имеют никакого отношения к месту, которое позднее займет спортсмен. Переменная «номер» измеряется в номинальной шкале. По окончании забега каждый бегун занимает определенное место среди спортсменов. Переменная «место спортсмена, занятое им на данных соревнованиях» измеряется в поряд-
1 Пример взят из книги Н. Малхотра «Маркетинговые исследования».
16
ковой шкале. Важно понимать, что сами по себе места не характеризуют качество спортивного результата. Школьник, занявший первое место на школьных соревнованиях, показывает результат, который будет намного хуже результата, показанного олимпийским чемпионом на такой же дистанции. Более того, на одном соревновании разница во времени между первым и вторым и между вторым и третьим может сильно различаться, хотя разность между местами одна и та же... Обращаем внимание: разность мест дает мало информации о разнице результатов. Результаты бегунов (время преодоления дистанции) измеряются в количественной шкале.
Достаточно часто значения переменной носят условный характер. Например, данные о предпочтениях по отношению к различным товарам среди опрошенных людей. Анализ таких данных требует особой осторожности, так как многие требования классических статистических методов (например, предположение о каком-либо конкретном (скажем, нормальном) законе распределения) для них не выполняются. Например, при анализе анкет с данными о симпатиях к торговым маркам мы можем сказать, что товарная марка, получившая больший балл в анкете, более симпатична респонденту, чем товарная марка (или товар), получившая меньший балл. Но насколько или во сколько раз он более привлекателен, сказать нельзя, так как для предпочтений нет объективной единицы измерения. В этих случаях имеет смысл вообще отказаться от конкретных значений данных, а исследовать только информацию об их взаимной упорядоченности (какое больше, какое меньше). Некоторые статистические методы, например «Совместный анализ», созданы специально для того, чтобы преодолеть такой недостаток.
Другими примерами величин, измеренных в ранговой шкале, будут рейтинги, например место компании в списке 100 лучших компаний.
Количественная шкала позволяет отражать количественные характеристики исследуемых объектов.
Примерами данных, отражаемых в количественной шкале, являются суммы денег, потраченные на покупки в одном универмаге, возраст, рост респондентов, размер их заработной пла-
17
ты. Чаще всего это характеристики, измеренные в рублях, метрах, секундах, килограммах.
В программе SPSS количественная шкала называется Scale (Количественная).
Часто от исходных числовых данных, измеренных в количественной шкале, переходят к их рангам, т.е. переходят к порядковой шкале. Упорядочение проводится от меньших значений к большим или наоборот, для анализа порядок не существенен. Номер места, которое занимает наблюдение в таком упорядоченном ряду, называется рангом соответствующего наблюдения.
Пример. Выборка состоит из чисел 7, 5, 12, 2, 8, 16. Упорядочение проводим от меньшего к большему. Тогда первый ранг будет иметь число 2 (самое маленькое), второй ранг — 5, третий - 7, четвертый — 8, пятый ранг — 16 (самое большое число).
Процедура перехода от совокупности наблюдений к последовательности их рангов называется ранжированием. Статистические методы, в которых мы делаем выводы о данных на основании их рангов, называются ранговыми (или порядковыми). Они получили широкое распространение, так как надежно работают при очень слабых ограничениях на исходные данные (не требуя, например, чтобы эти данные имели какой-либо конкретный закон распределения).
Заметим, что некоторые авторы выделяют несколько вариантов количественной шкалы. Вслед за разработчиками пакета SPSS мы ограничимся тремя типами переменных.
В табл. 2 приведены основные типы шкал, их характеристики, а также некоторые примеры.
Запоминать коды не нужно, если вы пользуетесь существующими в SPSS «ярлыками значений», описанными в следующем разделе. В этом случае анализ проводится в оптимальном режиме: статистический пакет производит все вычисления с кодами (как ему удобно), а в результатах статистической обработки каждый код будет заменен на соответствующее текстовое описание значения переменной, понятное человеку, анализирующему данные.
18
Таблица 2
Основные типы шкал
Шкала Основные характеристики I Примеры Примеры из экономики |
Номинальная Числа обозначают или классифицируют объекты Номера спортсменов, номера домов Обозначения марок товаров, типов магази- ; нов, пол ।
Порядковая Числа позволяют сравнивать объекты друг с другом, но не характеризуют величину различий между ними Ранги качеств, места команд в турнире "1 Ранги пред- * почтений, ры-ночная пози- 1 ция, социаль- i ный класс, от- : ношение к . товару
Количественная Числа соответствуют количественным характеристикам объекта Длина, температура, время J Возраст, ДОХОД, ; затраты, объе- ! мы продаж, доли рынка i
Примеры:
1. Задавая вопрос «В среднем сколько сигарет вы выкуриваете в день?», мы получим ответ, измеренный в количественной шкале. Если респондент упорядочивает сорта сигарет в соответствии со своими предпочтениями, то мы получаем ответ в порядковой (ранговой) шкале. Если респондент называет свой любимый сорт сигарет, то мы получаем ответ в номинальной шкале.
2. На вопрос «Сколько времени вам надо, чтобы добраться от вашего места жительства до ближайшего магазина нашей фирмы?» мы получим ответ, измеренный в количественной шкале. Если мы спрашиваем респондента, до какого магазина ему удобнее добираться — нашего или магазина конкурента, то мы получаем ответ в порядковой (ранговой) шкале.
19
Переменные, измеренные в непрерывной шкале, могут быть преобразованы в порядковую шкалу или в номинальную шкалу.
Для преобразования в номинальную шкалу переменной, ранее измеренной в непрерывной шкале, проводят группировку значений переменной.
Например, непрерывную переменную «возраст» можно преобразовать в номинальную переменную, образуя следующие категории: от 18 до 24, от 25 до 34, от 35 до 44 и т.д.
Для преобразования в порядковую шкалу переменной, ранее измеренной в непрерывной шкале, проводят ранжирование значений переменной.
Контрольные вопросы
1. В чем отличие номинальной шкалы от количественной? Приведите свои примеры.
2. К какому типу шкалы относится цена товара? К какому типу шкалы относится номер телевизионного канала?
3. Вам предлагаются три варианта анкеты по оценке потребительского отношения к безалкогольным напиткам. Определите, к какому типу относятся ответы на варианты анкет.
а. Какой безалкогольный напиток из приведенного списка вам нравится?
Pepsi, Seven Up, Sprite, «Буратино».
б. Пожалуйста, расставьте напитки из прилагаемого списка по степени вашего расположения к ним, оценивая наиболее привлекательный как 1, а наименее предпочтительный как 4.
Pepsi
Seven Up
Sprite
«Буратино»
в. Пожалуйста, укажите степень вашего расположения к каждому из напитков в следующем списке, указав подходящую позицию на шкале:
20
Очень не нравится Не нравится Нравится Очень нравится Pepsi
Seven Up
Sprite
«Буратино»
г. Пожалуйста, распределите 100 очков между каждым из напитков из прилагаемого списка в соответствии с вашим расположением к ним.
Pepsi
Seven Up
Sprite
«Буратино»
Описание и ввод данных
Запустите программу SPSS. Это можно сделать стандартной командой Пуск\Программы\8Р58 for Windows. После запуска программы SPSS появится окно, представленное на рис. 1. Начинающим пользователям мы рекомендуем нажать кнопку Cancel (Отмена), нажатие на нее уберет это окно и активизирует основное окно программы SPSS Data Editor, представленное на рис. 2.
Окно SPSS имеет строку меню, панель инструментов, строку редактирования. Внизу окна SPSS существуют два ярлыка с названиями Data View (Данные) и Variable View (Переменные). Эти ярлыки соответствуют двум представлениям окна. Внешне эти представления похожи на листы рабочей книги программы Microsoft Excel. Однако в отличие от Microsoft Excel это не листы рабочей книги, а два вида окна редактора данных SPSS, в одном из которых — Variable View — описываются все обрабатываемые переменные, в другом — окне Data View — задаются их значения.
Файлы данных SPSS организованы по наблюдениям (строкам) и переменным (столбцам). Например, в маркетинговых исследованиях достаточно часто наблюдения представляют ответы отдельных респондентов опроса, а переменные представляют ответы на вопросы, задававшиеся в ходе опроса.
21
- What would you like to do?— j C Run the tutorial
j fei'fS C Type in data
Г Run an existing query
C Create new guety using Database Wizard
<• Open an existing data source 0ЩЗЯНМ1ИМВ
C Open another type of file
More Files...
___
Г7> Don't show this dialog in the future
Cancel
Рис. 1. Диалоговое окно SPSS for Windows
снача-когда
надо
само-
Каждая строка имеет номер, а каждый столбец имеет имя по умолчанию var. Это имя можно и нужно изменить для тех переменных, которые будут обрабатываться (как это сделать будет описано ниже). До тех пор, пока файл не будет сохранен с определенным именем, в верхней части окна фигурирует надпись «Untitled — SPSS Data Editor» (безымянный).
Рассмотрим ла ситуацию, пользователю ввести данные
стоятельно. Если необходимо открыть уже созданный файл в формате SPSS, то выполняется стандартная команда File\Open (Файл\Открыть) Опишем, как вводятся данные в SPSS.
На первом шаге описывают каждую из переменных — с указанием ее имени, типа и т.д. Для этого щелкните1 на закладке Variable View (Вид Переменной). Окно программы SPSS примет вид, представленный на рис. 3.
Описание каждой переменной производится в отдельной строке таблицы, представленной на рис. 3. Для каждой переменной нужно указать:
• Имя переменной — Name',
13десь и далее, если не оговаривается отдельно, имеется в виду щелчок левой кнопкой мыши.
22
Меню
Строка редактирования
Панель инструментов
Ц gu Untitled - SPSS Data b

£ile £dit View [jata Transform' Analyze Q-aphs
• tflHlgl Bl g>]
Window rjelp
j SaslBl <<»l~
jrar^ ; var"l war var | УЭГ I
1
2
3
4 1
5
6
7
_ 8
1 9
Ш

! 1Э
14
' £
1
Ч | » j\Pata View X Variable View / — V ICLL_ iL_, ^2
SPSS Processot is ready -j.l-si
Рис. 2. Окно программы SPSS
• Тип переменной — Type;
• Ширину переменной — Width;
• Количество знаков после запятой — Decimals;
• Смысловое имя переменной — Label;
• Значения переменной — Values;
• Информацию об отсутствующих данных — Missing,
• Параметры выравнивания — Allign;
• Столбцы — Columns;
• Тип шкалы для переменной — Measure.
Мы опишем только наиболее важные параметры переменной (Остальные можно проигнорировать или найти в книге Бююля и Цефеля. См. список литературы).
В столбце Name (Имя) указывается имя переменной.
При выборе имен переменных рекомендуется соблюдать следующие правила: имена переменных могут содержать буквы
23
- SPSS Data Editor
- ЬЖ view Qata Transform Analyze graphs Utilities Window Help
Ж l£|e ь|1?1 «К1Й1 1|ф|ж| 1 Ш1| ’ ————,
Name Type Width Decimals Label Values : Missing Columns Align Measure

3 is
—.
5
.6 ;S

. a -}

w
i i
i-i.- i
’3 - s

15
'6
17 ▼J
< I 4\DataVfevrj < Variable View ~ll
1Й 1-— ~1 «^3^
Рис. 3. Вид окна программы SPSS в режиме Variable View '
латинского и русского алфавита, цифры, а также символы: «_» (нижнее подчеркивание), «.» (точка), «@», «#».
Замечание: специалистов заметим, что проблемы с
русским шрифтом в SPSS решаются, если за-дать правильные шрифты «по умолчанию». Шрифты можно изменять командой Edit\ Options. В случае неудачного выбора набора шрифтов на экране появится нечитаемый текст. Возможно, придется поэкспериментировать, подбирая правильный набор шрифтов. Если необходимость подбора шрифтов вас смущает, пользуйтесь латинским алфавитом.
24
Важно! Имя переменной обязательно должно начинаться с буквы. В именах переменных не разрешается использовать пробелы, знаки '., ?, «, *, скобки. Имя каждой переменной должно быть уникально. Программа SPSS не различает строчные и прописные буквы, поэтому имена SALARY, Salary и salary будут считаться идентичными.
Примерами допустимых имен переменных являются: salary, sex, shopl, region2.
В столбце Туре (Тип) следует указать, какой тип имеет переменная. Для этого нужно щелкнуть в клетке с соответствующим названием. В правой части клетки появится кнопка с тремя точками. Нажмите на нее. В ответ появится окно Variable Туре (Тип переменной), представленное на рис. 4. Щелчком мыши выберите нужный тип переменной. Нажмите кнопку ОК.
Мы опишем наиболее часто используемые типы переменных.
Numeric (Числовая). К этому типу данных относятся все числа со знаком «плюс» или «минус», целые или дробные. При
Variable Туре
г ^tjumerid
li Q Comma
Dot к - С* S cientif ic notation ktf Date f C Dollar^ . C Custom currency
Width: [iT
Decimal Elaces: [T”
OK |
Cancel
Help
। Q String
Рис. 4. Окно Variable View
25
выооре этого типа данных следует указать ширину — Width числа и количество знаков после занятой — Decimal Places.
Date (Дата). К допустимым значениям этого типа данных относятся даты и время.
String (Текстовая). Этот тип переменных описывает все символьные или текстовые переменные. Допустимыми значениями являются буквы, цифры и специальные символы. Примерами строковых переменных могут быть названия (например, названия универмагов ГД, ДЛТ и т.д.), коды товаров 01, 02, 03, 11, 12 и т.д. (Использование этого тина новичками опасно!)
Внимание! В числовых форматах десятичным разделителем может быть либо точка, либо запятая. Тип деся-тичного разделителя является настройкой операционной системы Windows и зависит от настроек диалогового окна «Язык и региональные стандарты» на панели управления. (Панель управления вызывается командой Г1уск\11анель управления.)
В столбце Width (Ширина) указывается количество символов в описываемой переменной.
В столбце Decimals (Десятичные) следует указать количество знаков после запятой для дробных чисел.
В столбце Label (Метка) указывается название переменной. Например, переменной sex можно дать русское название «пол опрашиваемых покупателей». Надпись появляется только при создании отчетов и построении графиков, заменяя в них имя переменной.
В столбце Values (Значения) указываются возможные значения переменной.
По существу эти значения являются расшифровками введенных кодов. Они упрощают восприятие данных пользователем.
Например, значениями переменной sex будут только два значения: 1 мужской или 2 - женский. Для того чтобы их ввести, необходимо в той строке, где описывается переменная
26
«пол», щелкнуть сначала в столбце «Значения», а затем на кнопке с тремя точками в клетке Values (Значения). Появится диалоговое окно Value Labels (Метки значений), представленное на рис. 5. В окне Values следует ввести 1, а в окне Value Label — мужской. Нажмите кнопку Add (Добавить). В окне Values следует ввести 2, а в окне Value Label — женский. Нажмите кнопку Add, а потом кнопку ОК.
Рис. 5. Диалоговое окно Value Labels (метки значений)
Для того чтобы увидеть расшифровки кодов переменной, следует переключиться в режим Data View (Панель данных), ввести для описанной переменной несколько значений и нажать на панели инструментов кнопку Value Labels: . Вме-
сто кодов переменной появятся их соответствующие расшифровки.
Пример 1. Создайте переменную QUALITY (КАЧЕСТВО). Для этого переключитесь в представление Variable View. Введите имя переменной. Укажите ее тип — Numeric. Укажите количество знаков после запятой (Decimals)- 0, ширину переменной (Width) — 1. Задайте значения этой переменной: 5 — «отлично», 4 — «хорошо», 3 — «удовлетворительно», 2 - «плохо». Для этого щелкните на кнопке с тремя точками в клетке
27
VALUES. Появится диалоговое окно, представленное на рис. 5. В окне Values введите 5, а в окне Value Label — «отлично». Нажмите кнопку Add. Затем в окне Values следует ввести 4, а в окне Value Label — «хорошо». Нажмите кнопку Add и т.д. Нажмите кнопку ОК.
Если анализ обрабатываемых данных несложный, проводится лишь один раз и интересен лишь его результат, то можно не тратить время на значения параметров Label и Values. Если результаты будут включаться в отчет и/или презентацию, то без этих параметров не обойтись. Название переменной лучше придумать недлинное, но при этом редко можно подобрать короткое и информативное название. Например, трудно придумать короткое название для переменной «Средний процент удачных сделок, заключенных менеджером до обучения». Можно предложить имя, аналогичное «проц до», которое будет присутствовать в результатах анализа переменной. В аналитическую записку результаты с таким сокращением включать не стоит. Если же в поле Label внести полное название «Средний процент удачных сделок, заключенных менеджером до обучения», то во ВСЕХ результатах анализа имя переменной будет заменено на полное, понятное, хоть и чуть длинное название.
То же самое справедливо для значений переменной. Более того, если это поле не будет заполнено и к анализу придется вернуться через пару месяцев, то кодировка будет забыта. Придется потратить много времени, чтобы разобраться с ней заново. (Если только у вас нет абсолютной фотографической памяти.)
И наконец, следует задать последний важный параметр, описывающий переменную, — Measure (Шкала). Этот параметр определяет вид шкалы переменной и имеет три значения: Scale (Количественная), Ordinal (Порядковая), Nominal (Номинальная). Щелкните на стрелку в столбце Measure (рис. 6).
В открывшемся списке шкал (рис. 7) выберите нужную.
Пример 2. Опишем переменные sex (пол), salary (зарплата), education (образование) (рис. 8).
28
Measure
Рис. 6. Вид столбца
Measure
мямвини
Рис. 7. Варианты шкал переменных
। пример?-SPSS Data Editor
Fie $t few Data Transform Analyze &aph$ gates Wim Mp
tflalal g| blilll зИ giR w.
Name | Type - 1 sex {Numeric
2 salaryjNumeric
3 educatlNumenc
Width
1
8
1
Label
iHOJt
Decimals 0_________________
О {Зарплата)
О ^Образование
Values jfassmg[Coluim^Align|feasure|4 {1, m}... iNone '.2 {Right Nominal ’
None ID ' Right Scalej ;
{1, BraieiO {Right'.Ordinal. ।
4
Variable View
Processor is ready
Рис. 8. Представление окна редактора данных SPSS с описанием переменных
Переменная sex имеет следующие параметры: Name (Имя) — sex;
Туре (Тип) — Numeric (числовой);
Width (Ширина) — 1;
Decimals (Дробь) — 0;
Label (Надпись) — Пол;
Values (Значения): 1 — «м»; 2 — «ж»;
Measure (Измерение) — Nominal (Номинальная).
Переменная salary имеет следующие параметры: Name (Имя) — salary;
Туре (Тип) - Numeric (Числовой);
29
Width (Ширина) — 8;
Decimals (Дробь) — 2;
Label (Надпись) — Зарплата;
Values (Значения);
Measure (Измерение) — Scale (Количественная).
Переменная education имеет следующие параметры;
Имя-educat;
Тип-Numeric (Числовой);
Ширина — 1;
Дробь — 0;
Надпись — Образование.
Значения: 1 — «высшее»; 2 — «н/высшее»; 3 — «среднее».
Измерение — Ordinal (Порядковая).
В столбцах Missing (Пропущенные значения), Columns (Столбцы), Align (Выравнивание) можно ничего не вводить.
После описания переменных можно вводить их конкретные значения. Ввод значений вводится в режиме Data View (Панель данных). Для перехода в этот режим нужно щелкнуть на закладке Data View (рис. 9).
[П1] пример2 - SPSS Data Editor
File Edit View Data Transform Analyze Graphs Utilities Window Help

|1 : sex ?
sex salary educat r var I _ V5r 1
1 2 26250 2 -...l.-jjTj
2 1 38850 1
3 1 24000 3 jqj
4 2 16950 2 <
5 2 21150 3 Ц
6 2 31350 2
1920LL 2.
« | >j\Data View J Variable View / ы J
Рис 9 Представление окна редактора данных SPSS со значениями переменных
30
На рис. 9 представлено несколько значений переменных в закодированном виде. Если выполнить команду View\Value Labels (Вид\Ярлыки значений) или нажать на кнопку, указанную на рис. 10, то введенные данные будут иметь более понятный вид.
пример! - SPSS Data Editor
'SPSS Processor is read*'
24000 среднее
16950 н\высшее
21150, среднее
31350 н\высшее
2 i
3
4 _5
6
Рис. 10. Окно редактора SPSS с расшифровкой кодов переменных
жене муже! муже, жене'' жене! женсТ
41 ► |\Data View X Variable View /
Контрольные вопросы 1
1. Для чего служит команда View\Value Labels? Для переменных каких типов ее применяют?
2. В чем отличие представления Data View от представления Variable View?
3. Какие правила следует соблюдать при формировании имен переменных?
4. Какие из указанных имен являются некорректными: education, salary, sex, enterprise, универмаг?
31
Работа с пропущенными данными
Внимательный читатель заметил, что при описании полей, характеризующих переменные, мы пропустили столбец Missing (Пропущенные). Это связано с более громоздким обсуждением проблемы пропущенных значений. Рассмотрим, почему возникают пропущенные значения и как с ними поступают при анализе статистических данных.
Часть значений оказывается пропущенной, например, из-за того, что респонденты отказываются отвечать на поставленные вопросы или дают недопустимые ответы. При сборе данных о конкурентах часть информации может оказаться недоступной. Мы встречали ситуации, когда из-за халатности персонала информация неаккуратно вводилась или попросту терялась, что приводило к отсутствию некоторых значений тех или иных переменных. Как правило, пропущенных или недопустимых данных слишком много, чтобы их игнорировать.
Если не отфильтровать и не обозначить такие данные, результаты анализа могут оказаться некорректными. Кроме того, причина, по которой значение пропущено, возможно, является важной для анализа. Например, может оказаться полезным различать тех, кто отказался отвечать на вопрос, и тех, кто затруднился ответить на вопрос.
Для числовых данных пустые поля и поля, содержащие недопустимые значения, автоматически конвертируются в системные пропущенные значения, обозначаемые точкой. Для того чтобы все пропущенные значения объединялись в группу и исключались из анализа (а иногда подлежали специальному анализу, например, при изучении анкет), необходимо их описать. Это делается следующим образом:
1. Перейдите в представление Variable View (Переменные).
2. В ячейке Missing (Пропущенные) для соответствующей переменной щелкните на кнопку с тремя точками, чтобы открыть диалоговое окно Missing Values (Пропущенные значения) (см. рис. 11).
3. Выберите опцию Discrete missing values (Отдельные пр0' пущенные значения).
32
Missing Values
No missing values
Discrete missing values
1-999991
' f"* R ange plus one optional discrete missing value
Рис. 11 Диалоговое окно Missing Values
4. Введите в первом поле любое значение, слишком большое или маленькое для реальных данных, например — 99999, и оставьте пустыми остальные два.
5. Нажмите кнопку ОК.
Для текстовых переменных задание пропущенных значений еще более важно, так как в отличие от числовых переменных пустые значения текстовых переменных не считаются системными пропущенными по умолчанию. Такие значения интерпретируются как пустые строки.
Задание пропущенных значений для текстовых переменных происходит по аналогии с заданием пропущенных значений для числовых переменных.
1. Щелкните по закладке Variable View (Переменные) в Редакторе данных.
2. Щелкните по ячейке Missing (Пропущенные) в строке с описанием текстовой переменной и нажмите появившуюся в ячейке кнопку, чтобы открыть диалоговое окно Missing values (Пропущенные значения).
3. Выберите опцию Discrete missing values (Отдельные пропущенные значения).
2-1471
33
4. Введите «НО» в первом текстовом поле1.
5. Нажмите кнопку ОК.
Для удобства работы с пропущенными значениями мы очень рекомендуем добавить им метки.
Щелкните в ячейке Values (Значения) в строке с описанием соответствующей переменной и нажмите появившуюся в ячейке кнопку, чтобы открыть диалоговое окно Value labels (Метки значений).
1. Введите «НО» в поле Value (Значение).
2. Введите «Нет ответа» в поле Value label (Метка значения).
3. Нажмите Add (Добавить), чтобы добавить метку в список меток значений переменной.
4. Нажмите кнопку ОК.
Вернемся к кодам пропущенных значений, в нашем примере это — 99999. Если аналитик различает причины пропуска значения, то для каждой причины использует свой код. К сожалению, SPSS допускает не больше трех разных кодов пропущенных значений.
Копирование и импорт данных из Microsoft Excel
Многие компании накапливают и хранят данные в таблицах Microsoft Excel. Компании, использующие коробочные продукты для накопления информации и ее последующего анализа, как правило, имеют возможность выгрузить данные в Microsoft Excel. Поэтому проблема импорта данных из Microsoft Excel в SPSS является очень актуальной. Рассмотрим, как можно это сделать.
Заметим, что для успешного импорта данных очень желательно, чтобы в таблице Microsoft Excel заголовки столбцов располагались в одной строке (что, впрочем, является стандартной рекомендацией для оформления электронных таблиц)-
1 Пропущенные значения для текстовых переменных чувствительны к регистру. Поэтому значение «но» не будет считаться пропущенным.
34
В этом случае SPSS использует заголовки столбцов как имена переменных.
Выполните команду File\Open\Data (Файл\Открыть\Дан-ные).
В появившемся диалоговом окне укажите папку, в которой находится таблица Microsoft Excel. (Мы предлагаем открыть файл Работники.xls.)
В выпадающем списке Тип файлов выберите Excel (*.xls) (рис. 12).
Рис. 12. Диалоговое окно Открыть файл
Выберите файл Работники.хк и нажмите кнопку Открыть.
В ответ открывается диалоговое окно Opening Excel Data Source (Открытие файлов Excel) (рис. 13), которое позволяет:
• указать должны ли читаться имена переменных из электронной таблицы;
• указать лист файла Microsoft Excel, из которого импортируются данные;
• задать диапазон ячеек, которые будут импортироваться.
35
Opening Excel Data Source

CADocuments and Settings'^^.Рабочий стол\ЗР55 грант\примеры\Работники.х!$ > >
• |7 Read variable names from the first row pf data.
Worksheet: |Лист1 [А1: G 475]
Range:
Maximum width for string columns:
1
32767
OK
l Cancel
.
Help [
Рис. 13. Диалоговое окно Открытие файлов Excel
Важно! При импорте данных из Microsoft Excel файл с данными электронной таблицы должен быть за-крыт. В противном случае пользователь получает сообщение:
«(2052)Error accessing the Excel file. The file may be open by another application. If so, close it and retry» (Ошибка доступа к файлу. Файл может быть открыт другим приложением. Если это так, то закройте его и попытайтесь заново).
Если в файле Microsoft Excel заголовки столбцов располага-. ются строго в одной строке, то следует поставить флажок Read variable names from the first row of data (Читать имена переменных из первой строки данных). В этом случае имена переменных в файле SPSS автоматически сформируются из заголовков столбцов таблицы Microsoft Excel. При импорте данных из файла Работники.хЕ именами переменных будут: кодработни ка, пол, категориязанятости, заработнаяплата, начальнаязар
плата, стаж.

Обратите внимание, что отсутствие пробела в именах переменных не является авторской ошибкой или типографской опечаткой. Такие имена переменных были сгенерированы SPSS. Это связано с тем, что если заголовки столбцов электронной таблицы не соответствуют требованиям SPSS к именам переменных, они преобразуются в допустимые имена переменных, а исходные заголовки столбцов будут сохранены в качестве меток переменных. (Напомним, что пробелы в именах переменных SPSS запрещены.) Как правило, при импорте данных тип переменных определяется корректно. Тем не менее имеет смысл в каждом конкретном случае проконтролировать выбор шкал для переменных.
'. При небходимости можно импортировать только часть электронной таблицы. Для этого в поле Range (Диапазон) диалогового окна Opening Excel Data Source (Открытие файлов Microsoft Excel) (рис. 13) необходимо указать диапазон ячеек, которые будут импортироваться.
Если вы хотите просто скопировать данные из MS Excel, то это вполне допустимо, но нужно иметь в виду, что сначала требуется описать все вводимые переменные в том порядке, в котором они фигурируют в таблице MS Excel. Дальнейшее копирование данных в Microsoft Excel и вставка в SPSS происходят по стандартной технологии: необходимо выделить данные в таблице Excel и выполнить команду Edit\Copy (Правка\Копировать). (При этом произойдет копирование в буфер обмена.)
Далее нужно переключиться в программу SPSS (в режиме Data View -Данные), щелкнуть в левой верхней клетке окна программы и выполнить команду Edit\Paste (Правка\Вста-вить).
Заметим, что копирование данных из Microsoft Excel с их предварительным описанием представляется менее технологичным, чем импорт с помощью команды File\Open.
Хотим обратить ваше внимание на то, что импорт из таблицы Microsoft Excel важен не только из-за популярности этого пакета. Если надо проанализировать данные, хранящиеся в каком-то необычном формате, то часто проще всего сначала импортировать данные в Excel, затем из Excel в SPSS.
37
Сохранение файла
Для того чтобы сохранить файл с анализируемыми данными следует выполнить команду File\Save (Файл\Сохранить) или File\Save as (Файл\Сохранить как). (При первом сохранении эти команды работают одинаково.) Далее следует выбрать папку, в которой будет храниться файл, и указать его имя.
Внимание! Все файлы с данными в программе SPSS имеют расширение .sav.
После внесения редакторских правок в ранее сохраненный файл следует выполнить команду или нажать на кнопку с изображением дискеты. В этом случае со стороны программы не следует ожидать никакой реакции в виде диалоговых окон, так как сохранение новых данных будет произведено по известному адресу.
Если есть необходимость сохранить измененные данные под новым именем, то следует выполнить команду File\Save as (Файл сохранить как). В этом случае появится диалоговое окно, аналогичное окну, появляющемуся при первом сохранении файла. В нем нужно указать папку, в которой будет храниться файл и новое имя файла.
Если вам требуются данные из уже сохраненного файла, нужно выполнить команду File\Open (Файл\Открыть). В появившемся диалоговом окне следует указать папку с интересующим файлом.
9. Открытие данных из баз данных
SPSS предоставляет возможность использования данных из одной из наиболее распространенных систем управления базами данных — Microsoft Access.
Выберите в меню; File\Open Database\New Query (Файл\ Открыть базу данных\Создать запрос...)
38
Выберите в списке источников данных «База данных MS Access» (рис. 14), а затем нажмите кнопку Далее1.
Welcome to the Database Wizard!
This wizard will help you get data from a non-SPSS data source
You can choose the data source, specify which cases are retrieved, aggregate and sort the data before retrieval and specify variable names and properties here. Some features ate available only when connected to SPSS Server.
Select Data Source:
From which data source(s) would you like to retrieve data?
База данных MS Access
Файлы dBASE______
Файлы Excel
Add Data Source... j
Рис. 14. Диалоговое окно Конструктор чтения баз данных
В следующем диалоговом окне нажмите кнопку Browse (Обзор), чтобы найти файл Microsoft Access, который вы хотите открыть (рис. 15). Мы предлагаем открыть базу данных СКЛАД. Нажмите кнопку Открыть, а затем ОК в диалоговом окне ODBC Driver Login.
На следующем шаге необходимо задать таблицы данных и переменные для импорта. Для этого перетащите таблицу Спец_поставки (Спецификация поставки) в список Retrieve fields in this order (Получить поля в следующем порядке) (рис. 16). Нажмите кнопку Далее.
^сли в списке нет пункта База данных MS Access, необходимо запустить приложение Microsoft Data Access Pack.exe, находящееся в папке Microsoft Data Access Pack на CD-диске SPSS.
39
Рис. 15. Диалоговое окно ODBC Driver Login
Database Wizard
Select Data
Select the fields you wish to work with. To select an item, click on it in the 'available' list and. with the mouse button pressed, drag it over to the'Retrieve Fields'list
Tip; Dragging a table selects all of its fields.
Available Tables:
TMPCLP28701
календарь Контрагенты Отпуск Поставка Слеи отпуска Спец_поставки }• Товар
Retrieve Fields In This Order: ____
Спец_поставки: №НП
Спец^поставки: КодКонтрагента Спец_поставки: КсдТ овара Спец_поставки: КолСдано

1
T M

P Sort field names
4
b
-----е--------
| <Назад~~~| Далее» | Г агово
' 11 . да г
Отмена | ! Справка , I•-
Рис. 16. Диалоговое окно Конструктор чтения баз данных — Шаг 2 из 6
На следующем шаге (рис. 17) можно произвести отбор засей (наблюдений), которые.будут импортироваться. (Напри-у если вы хотите импортировать не все наблюдения, а толь-часть, удовлетворяющую определенному условию.) Также
40
database Wizard
Limit Retrieved Cases
Limit the cases that are retrieved by specifying selection criteria
Tip: Fields and Functions can be added to an expression by dragging and dropping into a cell See help for how to express date and time values.
.Cneix_nocTd5i/B|
0ЯЗ :....№НП
: КодКонтрг
.КодТовар;
:.ЦенаПост*
; . КолСдано
Functions_____________9,^
ASCIi(strexpr) 2j
CHAR (asciicode) ZZJ
CO N CAT (strexpr,strexp LEFT (str expr,count) LTRIM(strexpr) LENGTHfstrexpr)
Prompt For Value
Connector Expression l|
Relation
Expressiot~j
2
3
< Назад | Далее > | Готово j Отмена [ Справка | j

Рис. 17. Диалоговое окно Конструктор чтения баз данных —
Шаг 4 из 6
можно произвести случайный отбор наблюдений. Для сокращения времени обработки данных большого объема может понадобиться ограничение числа наблюдений небольшой репрезентативной выборкой. По умолчанию импортируются все наблюдения.
Чтобы продолжить, нажмите кнопку Далее.
На основе имен полей создаются имена переменных. Если необходимо, имена преобразуются к допустимым в SPSS. Исходные имена полей сохраняются в виде меток переменных. Имена переменных также можно изменить перед тем, как импортировать данные.
Если установить флажок Recode to Numeric (Метки значений поля1), текстовые переменные будут преобразованы в чи-
1 Дословный перевод не соответствует названию в русифицированной версии SPSS.
41
Database Wizard

Define Variables
Edit SPSS variable names and properties.
Names will be automatically generated if left blank.
To convert a string variable to numeric using the original values as value labels, check Recode to Numeric.
Result Variable Name Data TypeJ Recode to Numeric ill
Спец_поставки: №НП №НП String Г
Спец_поставки: КодКонтрагента КодКонтрагента String F
Спец_поставки: КодТовара КодТовара String Г
Спец_поставки: КолСдано КолСдано Numeric
Рис. 18. Диалоговое окно Конструктор чтения баз данных — Шаг 5 из 6
еловые, а исходные значения будут сохранены как метки значений новых переменных.
После нажатия кнопки Далее появится диалоговое окно Результаты (рис. 19), в котором отображается команда SQL, созданная на основе параметров, выбранных в Конструкторе чтения баз данных. Если нажать кнопку Готово, выбранные для импорта данные Access появятся в Редакторе данных SPSS.
Что касается импорта из других баз данных, то надо иметь в виду, что SPSS позволяет открыть данные из любых баз данных, использующих драйверы ODBC (Open Database Connectivity). Необходимо, однако, чтобы на компьютере были гтановлены соответствующие драйверы. (Драйверы ODBC ля многих форматов баз данных находятся на CD-диске PSS.) Дополнительные драйверы можно получить у постав-гиков систем управления базами данных.
42
T^abase Wizard
Results
Your selection has resulted in the following SQL query:
Fl ECT 'N-НГГ. КодКонт
(-What would you like to do with this query?
* (* Retrieve the data I have selected.
I C Paste it into the syntax editor for further modification
r-Save query to file -—•———————— --------------
11
< Назад | , ] ] Готово | *" Отмена |
Рис. 19. Диалоговое окно Конструктор чтения баз данных —
Шаг 6 из 6
Открытие данных, хранящихся в текстовых файлах
Очень часто данные для анализа хранятся в текстовых файлах. Рассмотрим, как открываются такие данные. В текстовых файлах со статистическими данными значения одной переменной от значений другой обычно разделены запятыми или знаками табуляции. Рассмотрим пример, в котором значения переменных разделены знаками табуляции.
Выполните команду: File\Read Text Data (Файл\Открыть текстовые данные...). В появившемся диалоговом окне выберите Тип файлов Text (*.txt) (мы предлагаем открыть файл Ра-ботники.1х1) и нажмите кнопку Открыть.
В ответ запустится Text Import Wizard (Конструктор импорта текстовых файлов) (рис. 20), в первом диалоговом окне которого можно выбрать, соответствуют ли данные созданному заранее специальному файлу формата или параметры импорта
43

И'

\ 62*840 1 81 2*5
1 630 2400 0 73 4Q.33
I 632 «200 0 83 31 08
I 633 8?0
I 635 174
Д ext Import Wizard - Step 1 of 6
1 17
Ml 91
Welcome to the text import wizard!
This wizard will help you read data from your text file and specify information about the variables.
-Does your text file match a predefined format?-----------------
C-Yes Brow.se,. | |

I - ext file: C:\Documents and Settings'^ага\Рабочий стол\5Р55_грант\примеры\РаботникиЛх1-д- л- _
10 ... 20 30, 40 * 50

Код работникаПполООбразованиеОКатегария занятостиОЗар шЗмужс ко ЙП высше еОме не дже рП5700□□ 2 7 О О ОП 8Q ЕОмужс ко ЙЗ высше еП о фисП 4 О 2 О 0D187 50Q 8D рРженскимРнХ высшееРофисРг 1450ai2000D8a
J

Д
-ГогйёЬ- I Отмена I Справка I z| .....и..,...,— ----------------------1 .1
Рис. 20. Диалоговое окно Конструктора импорта текстовых файлов — Шаг 1 из 6
будут задаваться с самого начала. Выберите опцию No (Нет). Нажмите кнопку Далее.
В следующем диалоговом окне (рис. 21) следует указать, используются ли разделители для значений переменных — в нашем примере следует выбрать опцию Delimited (С разделителем), а также есть ли в первой строке имена переменных — в нашем примере следует выбрать опцию Yes (Да).
Напомним, что мы рассматриваем пример, в котором в качестве разделителей используются знаки табуляции. В нашем примере в первой строке находятся имена переменных. Для продолжения импорта текстовых данных, нажмите кнопку Далее.
В следующем диалоговом окне (рис. 22) следует подтвердить, что первая строка данных начинается со второй строки
44
[Text Import Wizard - Step 2 of 6
(-How are your variables arranged?--------
- Variables are defeated by a specific character (i.e., comma, tab]
• Variables ate aligned in fixed width cokmns.
<** delimited | Ж С fixed width
у Are variable names included at the top of your File'?
- Text file: C:\Documents and Settings'llатаХРабочий столХ5Е^5_гтзантХпримерьгХРабсггники txt-sn 0
AQ.
20
30 -=40.
Код работникаОполООбразованиеОКатепория занятостиОЗар
ЮнужскойО высше е0менеджер05700002 7000080
2 Омужс ко ЙО высше еП о фисП402 О 00187 50080
ЗРженскийОнХ высшее0офис02 1450D12000D8D_____________
£
SSSBtt- f--------------- I
< Назад I Далее > -^-<1ЭДгВо'* | Отмена | . Справка ф
Рис. 21. Диалоговое окно Конструктора импорта текстовых файлов — Шаг 2 из 6
[Text Import Wizard - Delimited Step 3 of 6
& The first case of data begins on which line number? ? |g jgh How are your cases represented?————— pi. (• Each .line represents a case .
• :C A specific number of variables represents a case: |1
- How many cases do you want to import?

^•‘ ^li of the cases
C Jhe first ffOOO cases
?< A random percentage of the cases lapprcxrmate]: |10
Data preview'

10
£
36

2
3
R
10мужской0высшее0менеджер05700002 7000080
2 Омужс ко ЙО высше eD о фисО 4 02 000 18750080 ЗОженскийОнХ высшееОофисО21450012000080
.4 40же нс кийО с р ед не еОме недже р021900013200080
<М /- •
______________.._ ____________________________-
< Назад | Далее > ffopfo | Отмена | Справка
_________. -______________________. ..... _______*______ jtS
Рис. 22. Диалоговое окно Конструктора импорта текстовых
файлов — Шаг 3 из 6
45
текстового файла, и что каждая строка текстового файла соответствует одному наблюдению. При желании можно ограничить количество импортируемых наблюдений. Нажмите кнопку Далее для продолжения диалога.
В следующем диалоговом окне (рис. 23) проверьте наличие флажка Tab (Табулятор). Этот флажок указывает, что разделителем является знак табуляции.
Поскольку в ходе импорта может возникнуть необходимость изменить имена переменных, так, чтобы они соответствовали требованиям SPSS, в этом диалоговом окне предоставляется возможность отредактировать имена переменных.
Здесь же можно задать типы данных. Чтобы изменить имя переменной и (или) ее тип данных, следует:
выбрать переменную, параметры которой вы хотите изменить (для этого достаточно щелкнуть на ее имени);
Text Import Wizard - Delimited Step 4 of 6 • '
£ p Which de!»mitefs appear between variables?
| j I7 Q P Space
| Г Comma Г* Semicolon
j П Other. |
-What is the text qualifier?-None
C Single guote ,
C Double quote
Other: |
, r-Data ргеум
- работника поя Образован не Категория занятости
1 мужской высшее менеджер 57000 27000 8
2 мужской высшее офис 40200 18750 8
3 женский н\высшее офис 21450 12000 8
4 11 женский среднее менеджер 21900 13200 8 Ч
< Назад | Далее > | Г^ргб&сг , | Отмена | Справка |
Рис. 23. Диалоговое окно Конструктора импорта текстовых
файлов — Шаг 4 из 6
46
выбрать в выпадающем списке Формат переменной необходимый тип данных.
Имя переменной меняется в этом же диалоговом окне в одноименном поле (рис. 24).
[Text Import Wizard - Step 5 of 6
Г- Specifications for variablefs) selected in the data preview—
Variable name:
Original Name:
Кед
Rata format: | Numeric
Data preview'
Код
работника
мужской мужской женский женский
поя
высшее высшее н\высшее среднее
Образован не
менеджер офис______
□Фис______
57000
40200
21450
27000
18750
12000 ’13200
Кэтегормя! занятости
менеджер 121900
• < Назад | Далее > j Отмена | Справка J
3
1
V
2
3
Рис. 24. Диалоговое окно Конструктора импорта текстовых файлов — Шаг 5 из 6
Нажмите кнопку Далее.
В следующем диалоговом окне нажмите кнопку Готово для завершения импорта данных.
Контрольные вопросы
1. Какова последовательность действий при импорте данных из MS Excel?
2. С каким расширением сохраняются файлы с данными, введенными в программе SPSS?
3. Почему требуют специальной обработки пропущенные значения?
2. РАБОТА С ДАННЫМИ
В этой части будут рассмотрены такие возможности программы SPSS по обработке данных, как фильтрация данных, их сортировка, создание новых переменных, вычисляемых по формулам и т.д.
Фильтрация данных
Очень часто при анализе статистических данных возникает необходимость рассмотреть только их часть. Например, аналитика может интересовать информация только о мужчинах, о покупателях с высшим образованием, о покупателях, доход которых превышает определенный уровень, и т.д. В этом случае используется фильтрация данных. Это делается с помощью команды Data\Select Cases (Данные\Отбор наблюдений).
В диалоговом окне, появившемся в результате выполнения этой команды, нужно нажать кнопку If (Если) (рис. 25). Появится окно, представленное на рис. 26. В нем нужно указать условие отбора данных. Например, для того чтобы оставить для анализа только строки, в которых указан мужской пол покупателей, нужно:
1) щелкнуть в левой части окна Select Cases на переменной ПОЛ (здесь вдобавок к имени переменной sex появляется смысловое имя переменной ПОЛ, заданное при ее описании в столбце Label) и нажать на стрелку [~7~[ , затем добавить = 1; в результате должно появиться sex = 1;
2) нажать кнопку Continue, а затем ОК.
В результате этих действий номера строк, исключенные из рассмотрения, будут перечеркнуты (рис. 27). Назначение перечеркивания скорее символическое, но иногда условие отбора бывает сложнее, чем в рассматриваемом примере. Тогда можно посмотреть, какие наблюдения не перечеркнуты, и проверить
48
; select Cases
- [Select---------- —
IB ф Зарплата [salary] ; All cases
‘В ф Образование [educat i If condition is satisfied
пол [sex]
Random sample of cases
Sample |
Based on time or case range
: Ranye... |
<“ Use filter variable:
Unselected Cases Are------------—
(* Filtered C Deleted
7 Current Status: Do not filter cases & -

ОК | Paste | Reset | Cancel^ Help j
Рис. 25. Окно Select Cases
Select Cases: If
wl
WHti „т,. j<T
Z I wr<-:
<Л
$> пол [sex] ф Зарплата [salary] s$> Образование [educat
sex=1
1'3
lb
*| .< | > | 7| 8j 9| Eunctions:
ABS(numexpr)
ANY(test,value,value,...] ARSIN(numexpr]
’ \ . )
CDFNORM(zvalue)
CDF.BERNOULLI(q,p)

------------------,ЧП01ПЦТ1иП1СЛр')
ARTAN(numexpr
’’I PPiCKlO D kil all i« 2J __Jj.ll. Delete
Continue | Cancel | Help |
Рис. 26. Диалоговое окно Select Cases: If
1
49
F3 пример! - SPSS Data Editor
File Edit View Data Transform Analyze Graphs Utilities Window Help
9
[муже! жене жене
жене муже жене жене жене
жене
glPlal SI yMgl ‘==ls/l Ml jHfc|p|a|r;l 1: salary 26250
]sexj salary ] educat j ~filter_S ] var
16950,
21150
н\высшее! Not Select высшее) Selected I среднее Selected^ н\высшее) Not Select j
жене; 31350 н\высшее
муже! 19200 н'высшее
23550 22350'
30000
26400 '
64000 ’
26400 ’
среднее' Not Select н\высшее| Not Select э j Selected высшее j Not Select н\высшее; Selected j высшее Not Select *
высшее Not Select н\высшее i Not Select высшее! Not Select
L Data View X Variable View < ( I
SPSS Processor is ready
УЗГ
ffigl
var
Рис. 27. Окно SPSS с исключенными данными
правильность записи условия. Более того, программа SPSS добавляет к данным дополнительный служебный столбец с именем filter_$ с двумя значениями 1 и 0. О соответствует «выброшенному» значению, 1 — оставленному. Если нажать кнопку Value labels, то в окне filter_$ появятся два значения — Selected и Not Selected.
Для задания ограничения salary >30 000 (отбор лиц со значением заработной платы, большей 30 000) нужно:
1) щелкнуть в левой части окна на переменной «Заработная плата»1 (см. рис. 26) и нажать на стрелку | > |, затем добавить: >30 000;
2) нажать кнопку Continue, а затем ОК.
’Переменная имеет имя salary, но в качестве метки имени — Label - указано Заработная плата.
50
^аМечание. При работе со стрелкой иногда имя переменной не копируется вправо. Посмотрите на стрелку. Если клавиша стрелки не активна (это проявляется в том, что изображение стрелки тусклое), то надо еще раз щелкнуть на имени переменной. После того как изображение стало ярким, продолжайте работать. Если вид клавиши не изменился, возможно, вы пытаетесь выполнить «запрещенную» операцию. Например, аналитик пытается сложить текст и число: «синий»+31. Такое может получиться, если переменная «цвет» не была закодирована и имеет тип String (Текстовой). Чаще всего такая ошибка происходит, когда аналитик делает осмысленную операцию, но забыл перекодировать переменную, начиная анализ.
Для отмены фильтра в окне, представленном на рис. 25, следует выбрать опцию All cases (Все случаи).
Для удаления условий фильтрации можно также удалить служебный столбец filter_$. Для этого нужно щелкнуть на имени столбца (при этом будет выделен весь столбец) и нажать на клавиатуре кнопку Delete.
Сортировка данных
При проведении статистических исследований часто возникает потребность отсортировать введенные данные. Для этого в окне редактора данных нужно выполнить команду Data\Sort Cases (Данные\Сортировка данных). В появившемся диалоговом окне следует указать имена переменных, определяющих сортировку, и выбрать порядок сортировки — Sort Order — по возрастанию (Ascending) или убыванию (Descending).
Пример 3. Рассмотрим пример сортировки наблюдений. На рис. 28 представлено окно, появившееся в ответ на команду Data\Sort Cases, примененную к таблице из примера 2. Если необходимо отсортировать записи по полу покупателей — сна-
51
’ Sort Cases

пол [sex]
ф Зарплата [salary] ф Образование [educat
Sort by:
-Sort Order—— (* Ascending C Descending
Рис. 28. Окно Sort Cases (Сортировка Данных)
чала мужской, а потом женский, то нужно щелкнуть на имени переменной «пол» и нажать стрелку направо |~И • Затем следует установить порядок сортировки (Sort Order) «по возрастанию» (Ascending) и нажать кнопку ОК.
Если в окне Sort Cases кроме имени переменной «пол» указать также и переменную «Зарплата (Salary)», то сначала будут отсортированы все записи по признаку «пол», а затем внутри групп записей «мужчины» и «женщины будет произведена сортировка по заработной плате. Результат такой сортировки приведен на рис. 29.
Совет. При вводе данных в программу SPSS во все таблицы рекомендуется добавлять служебную перемен-ную «номер наблюдения». Всевозможные преобразования могут изменить порядок следования наблюдений в таблице. Если заранее заготовлена указанная переменная, то в любой момент времени можно будет сделать сортировку по номеру события и вернуться к исходному порядку переменных.
Вычисление новых переменных
Достаточно часто при проведении анализа экономических данных возникает необходимость создать новую переменную. Рас-
52

пример1 - SPSS Data Editor
Data Transform Analyze Graphs Utilities \ yr,do',\ rteip
0.1 pTsalary 19200 1] tbj г»!
—— " sex salary' educat | var ] гт I - 1.4
7 муже 19200] н\высшее| i
муже 22350: н'.высшее । 7
3 муже 24000; среднее; ] 1 .
" 4 муже 38850 i высшее] ! I i —
т жене 16950 н\высшее. I I ;
- 6 жене 21150 среднее! | 1 1
— ~ жене 23550 высшее [
8 жене 24150. среднее1
, - жене 26250 н\высшее
10 жене 26400 [ высшее ] !
11 жене 26400; высшее; • 1 i
12 жене 30000: высшее; ]
13 жене 313501 н'.высшее (
14 жене 339001 нквысшее. I L | [ - - - _ L___ -
15 жене 540001 н\высшее i . Ы
7ГЛ\Data View X Variable View / I । jj
SPSS Processor ( - is reeav >
Рис. 29. Результат сортировки по полу покупателей и их заработной плате
смотрим, например, как для данных примера 2 рассчитывается новая переменная — «Заработная плата в условных единицах» (salary_v).
В окне редактора данных нужно выполнить команду Transform\Compute (Преобразовать\Вычислить). В ответ на эту команду появится окно Compute Variable (вычислить переменную), представленное на рис. 30.
В поле Target Variable (вычисляемая переменная) нужно указать имя новой переменной — salary_v, затем следует щелк-нуть на переменной «Зарплата» и нажать стрелку направо j. В поле Numeric Expression (числовое выражение) появится имя старой переменной salary. Введите знак деления (/) и величину курса доллара, например 29. Выражение в поле Numeric Expression примет вид salary/29. Нажмите кнопку ОК.
53
Target-Variable:
[ Type^'L^bel... I
J Compute Variable
пол [sex]
$> Зарплата [salary] ф Образование[educat
Рис. 30. Окно Compute Variable (вычислить переменную)
Результатом приведенных действий будет новая перемен ная salary_v (рис. 31).
Для того чтобы создать надпись на русском языке, которая будет появляться на графиках и в отчетах, в диалоговом окне Compute Variable нажмите кнопку Type and Label (Тип и метка) и в появившемся одноименном диалоговом окне в поле Label (рис. 32) укажите «зар. плата в у.е.». Нажмите кнопку Continue.
Использование функций
В числовых выражениях можно использовать встроенные функции. В списке функций содержится более 70 встроенные функций, включая:
арифметические функции;
статистические функции;
функции распределений;
логические функции;
функции агрегации (итожащие функции) и извлечения дан ных и времени;
54
gjl пример! - SPSS Data Editor
£d’t View Sata Transform Analy2e &raphs
ИЁ11х|
' - sex salaiy- | educat | salary_y | a. ] .3! | Эг l-±l
-—7 муже 19200. н'.высшее. 662.07
J муже 22350; н\высшее770 69: I I
""l муже 24000: среднее^ 827 59 . !, — i — 1
" 4 муже 38850] высшее -j 1339.66' | 1 i—1
T жене ! 16950: н\высшее| 584 48 I I 1-
" 6 жене iJ 211501 __ среднее: ~ 729.31^
' 7 жене i 23550 высшее 812.07 i J
" 8 женс_ 241_50 _..£РеДнее_ 832 76! I
— 9 жене 26250 Н'.высшее', 905.17' ;
10 жене 26400 высшее' 910 34 ।
11 жене 26400 высшее i 910 34'
12 жене 30000 высшее. 1034.48:
13 жене 31350 н\высшее: 1081 03
14 жене 33900 н\высшее', 1168.97: J
15 жене 54000 н\высшее! 1862.07; i г
< | ► j\Data View X variable View / . |’ < j | d
SPSS Processor is ready
Рис. 31. Данные примера 2 с новой переменной — salary_v (заработная плата в валюте)
Compute Variable: Type and Label | X
r Label 1 1 \
' ..:.| ..."---------------------Continue
i ** ^abel^l .....
i C‘ Use expression as label Cancel
pType ------- ---------- Help
I Numeric
j C String \Vidtb
рис. 32. Диалоговое окно Compute Variable: Type and Label
55
функции для работы с пропущенными значениями;
функции для работы с несколькими наблюдениями; функции для работы с текстом.
Чтобы вставить функцию в числовое выражение:
установите курсор в поле Numeric Expression (Числовое вы ражение) в позицию, где по смыслу нужна функция (рис. 30).
Дважды щелкните по функции в списке Functions (Функ ции) (либо выделите функцию и нажмите стрелку вверх на, списком Функции). Функция будет вставлена в выражение Если вы выделите часть выражения, а затем вставите функцию выделенная часть выражения станет первым аргументом функ ции.
Функция не является полной, пока не будут введены аргу менты, представленные во вставленной функции знаками вопросов. Количество знаков вопроса указывает на минимальное количество аргументов, которые требуются, чтобы сделатг функцию полной.
Выделите знак вопроса во вставленной функции. Введите аргументы. Если аргументами являются имена переменных, их можно вставить из списка переменных.
Перекодирование данных
Достаточно часто аналитикам приходится перекодировать переменные, например укрупнять группы анализируемых данных. Как правило, для решения этой проблемы необходимо:
• свести несколько категорий ответов в одну категорию;
• создать категориальную переменную из количественной.
Для решения такого рода задач SPSS предлагает использовать команду Transform\Recode (Преобразование данных\Пе-рекодировать).
Создание одной категории из нескольких
Пример 4. В таблице с данными из примера 2 организуем только две группы, характеризующие образование покупателей: 1 — высшее, 2 — среднее и неполное высшее.
56
Для этого следует выполнить команду Transform\Recode /Поеобразовать\Перекодировать). Появится выбор: изменить старую переменную (Into same variables) (В те же переменные) или создать новую (Into different variables) (В другие пененные). Мы советуем всегда создавать новую переменную, g ином случае пропадет информация о предыдущей группировке. В будущем, если вдруг снова потребуется анализировать данные о лицах с неполным высшим образованием (т.е. о студентах), данные придется набирать заново.
В появившемся диалоговом окне Recode into Different
Variables (Перекодировать в другие переменные) щелкните на переменной «Образование» и нажмите стрелку направо | ► ].
В части окна, имеющей название Output Variable, в поле Name введите имя новой переменной — educat_n, а в поле Label ее смысловое имя — Образование_н. Нажмите кнопку Change
(рис. 33).
Рис. 33. Окно Recode into Different Variables
На следующем этапе задаются коды новых групп данных. (В нашем примере это коды групп данных об образовании покупателей). Для этого необходимо нажать кнопку Old and New Values (Старые и новые значения). В появившемся диалоговом окне поочередно указываются старые коды переменной и
57
Рис. 34. Результат ввода имени новой переменной в окне Recode into Different Variables
соответствующие им новые. В поле Value (Значение) левой части диалогового окна, имеющей название Old Value, введите
значение 1, в поле Value правой части диалогового окна, имеющей название New Value, введите значение 1. (Код высшего образования мы менять не будем.) Нажмите кнопку Add.
Для создания кода среднего и неполного образования выберите опцию Range1 (Интервал) и введите значения 2 и 3 (рис. 35). Для задания нового кода (New Value) в окошке Value введите значение 2. Нажмите кнопку Add, а затем кнопки Continue и ОК.
В результате проделанных действий будет создана новая переменная educat_n, принимающая только два значения: 1 — высшее образование, 2 — среднее и неполное высшее (рис. 36).
Создание категориальной переменной из количественной
Рассмотрим пример создания категориальной переменной на основе количественной.
’Команда Range удобна, когда производится перекодирование диапазона кодов. В этом случае можно указать значение наименьшего и наибольшего кодов.
58
Tlode into pifferenMfariables: Q|d and New Valued
Рин Value —3; |C~yalue: j lu System-missing
I jT System- or user-missing f <7 Range:
|2~ through |з~
Г Range: •' . •
lowest through' |
C Range:
[ through highest
C AH other values
IS"
~i г N ew Value ——
2j Value. [F*
C System-missing
C Copy old value(s) ' v }~
Old-> New
Add I1 •> 1
- , Change
| Qefifaye
Г Convert numeric <rr0 to.wfeeri C?r>6j; J Continue | Cancel j Help |*

Рис. 35. Иллюстрация ввода объединяемых кодов

. File Edit View Data Transform Analyze Graphs Utilities Window Help
[ [Ш] пример2 - SPSS Data Editor
sg|H 5l Si Mi? I л IBl&ISl
l6: educat_n
sex salary educat educat_n var
1 2 26250 2 2,00
2 £ 38850 1 1,00
3 1 24000 3 2,00
; 4 2 16950 2 2,00
5 2 21150 3 2,00
6 2 31350 2 2,00
F 7 1 19200 2 2,_00
L- R 2 _2.33.5J1 1 1 .on I
jSPSS Processor is ready
la View X Variable View
Рис. 36. Окно редактора SPSS с новой переменной educat n
59
Пример 5. В примере 2 одна из переменных — переменная «зарплата» количественного типа. Создадим новую категориальную переменную. «Уровень доходов» со значениями, руб.:
1 — зарплата меньше 20 000;
2 — зарплата в интервале 20 000 — 50 000;
3 — зарплата больше 50 000.
Выберите в меню SPSS команду Transform\Recode. В появившемся диалоговом окне Recode into Different Variables (Перекодировать в другие переменные) щелкните на переменной salary «salary» и нажмите стрелку направо |~Г|. В части окна, имеющей название Output Variable, в поле Name введите имя новой переменной — salaryjevel, а в поле Label ее смысловое имя — Уровень доходов. Нажмите кнопку Change (Изменить) (рис. 37).
Рис. 37. Окно SPSS Recode into Different Variables
Для задания категории <20 000 следует выбрать вторую опцию Range из трех с таким же названием. В поле Lowest through (От наименьшего до) введите 20 000 (рис. 38). В части New Value того же диалогового окна введите соответствующее значение новой категориальной переменной 1.
Нажмите кнопку Add (Добавить).
60
Рис. 38. Окно Recode into Different Variable: Old and New Values для перекодирования количественной переменной в категориальную — Шаг 1
Замечание. Если забыть нажать кнопку Add и сразу нажать кнопку Continue в диалоговом окне Recode into Different Variable: Old and New Values, то появится следующее сообщение:
SPSS 13.0 for Windows
«Все отложенные операции Добавления или Изменения будут потеряны».
Кнопка Отмена позволит вернуться в предыдущее окно, в котором можно совершить забытую операцию — нажать кнопку Add.
Для задания категории >50 000 следует выбрать опцию Range последнюю из трех. В поле through highest (интервал до
61
Recode into Different Variables: Old and New Values <

г Old Value----------------
г C Value. |
1 C System-missing
- I C System-or user-missing
I C Range.
I ' through I
C Range: '
! , Lcrwest through • |
’ | Lowest thru 20000 --> 1
| Add
< Change I gemove |
Cop}' old value(sj
!j iUGW'vaiuQ
I/? Value: [F
t"“\3 ystem-missing
50000
through highest
r va ues
Рис. 39. Окно Recode into Different Variable: Old and New Values для перекодирования количественной переменной в категориальную — Шаг 2

Г~ Output variables are strings Width" |8 v " i J" Convert, numeric strings to numbers (*5^5)
Continue | Cancel | Help
наибольшего) введите 50 000 (рис. 39). Затем введите значение новой категориальной переменной 3 в части New Value того же диалогового окна.
Для задания категории зарплата больше 20 000 и меньше 50 000 следует выбрать опцию Range, первую из трех, и ввести 20 000 through (до) 50 000 (рис. 40). Затем нужно ввести Value — значение новой категориальной переменной 2 в группе опций New Value того же диалогового окна. Нажмите кнопку Add.
Создание категориальной переменной
из количественной для большого числа наблюдений
Если аналитик заранее не знает точных критериев попадания количественной переменной в одну из создаваемых категорий, то в этом случае очень удобно использовать инструмент Visual Bander (Визуальная категоризация). Он вызывается одноименной командой в меню Transform (Преобразовать).
Рассмотрим, как применяется эта процедура на примере данных из файла Работники.зау.
62
Ip
Recode^ntoDifferen^anables: Qld and
r Old Value----------
C Value: | ~
f System-missing
Old-> New .
iws«a . ]f|
_______Й1
Lowest thru 20000 •> 1
50000 thru Highest •> 3
Range:
J2OOO6 through [50
SQ Range-
I lowest through | .JQ Range:
w *f, ..... , ’
B^, | through highest
;& C All other values'
I Remove j
] « II II I ! Men! >
l Г Output variables are
Continue | Cancel | Helf
i1
Рис. 40. Окно Recode into Different Variable: Old and New Values для перекодирования количественной переменной в категориальную — Шаг 3
В первом окне процедуры Visual Bander (Визуальная категоризация) выберите количественные и/или порядковые переменные, для которых будут создаваться новые категориальные переменные. Напомним, что термин «категоризация» означает группировку двух или более последовательных значений в одно значение (категорию).
Процедура «Визуальная категоризация» начинается с чтения программой SPSS данных в файле. Если в файле много наблюдений (несколько десятков тысяч), то можно ограничить их количество для считывания, поставив флажок Limit number of cases scanned to: (максимальное число сканируемых наблюдений) в окне, представленном на рис. 41.
В нашем случае устанавливать такое ограничение не имеет смысла.
Перенесите переменную «Заработная плата» (salary) из списка Variables (Переменные) в список Variables to band (Переменные для категоризации), а затем нажмите кнопку Continue (Продолжить).
В появившемся диалоговом окне Visual Bander (рис. 42) выделите переменную «Заработная плата» (salary) в списке Scanned variable list (Отсканированные переменные).
63
Visual Bander
Variables to Band:
z
ЗАРАБОТНАЯ ПЛ...
Select the variables whose values will be grouped into bands. Data Up will be scanned when you click Continue.
The Variables list below contains all numeric ordinal and scale variables.
Variables: _______
I код работника [nJ ДАТА РОЖДЕНИ...
j90Уровень образова... KJ категория занятое... ^Нач. зар. плата [be...
Стаж на предприят... KJЗАРАБОТНАЯ ПЛ...
XI
Continue | Cancel | Help |
Г Limit number ot cases scanned to:
Рис. 41. Окно Visual Bander (Визуальная категоризация)
Распределение выбранной переменной выводится в виде гистограммы (в нашем случае оно несимметричное).
Введите salary2 в качестве имени новой (категоризованной) переменной: в поле Banded variable (Новая переменная) и «Категория дохода» в качестве метки переменной (рис. 42).
Нажмите кнопку Make cutpoints (Границы интервалов).
В появившемся окне Make cutpoints выберите опцию Equal Width Intervals (Равные интервалы) (рис. 43).
Введите 20 в поле First Cutpoint Location (Местоположение первой границы), 5 в поле Number of Cutpoints (Количество границ) и 25 000 в поле «Ширина».
Нажмите кнопку Apply (Применить).
Количество категорий новой переменной равно количеству границ плюс один. В нашем примере у новой категоризованной переменной будет шесть категорий. Диапазоны первых пяти
64
OErte interval cutpoints or cick Make Cikpoints fot automatic interval» A cutpoint value oHO, for example, defines an interval starting above the previous interval and erring at
Cases Scanned. [474
Missing Values;
r Copy Bands —“ r“r-~
. I /'gfprtrSiothetS/afieblf; I ----------------------------1 «S’* lO'fiflfa Variables. y | itlrT
»$
Рис. 42. Диалоговое окно Visual Bander
категорий будут равны 25 000 (тысячам), а последняя категория будет включать все значения выше наибольшей границы — 120 000.
По умолчанию граничные значения включаются в соответствующие категории. Если вы хотите исключить их, то выберите в группе параметров Upper Endpoints (верхние границы) (рис. 42) Excluded (<) (Исключены).
Кнопка Make labels (Создать метки) позволяет автоматически сформировать метки для вновь созданных категорий (рис. 44).
Заметим, что SPSS позволяет задавать и изменять границы и метки вручную в сетке прямо в окне Visual Bander, а также изменять расположение границ, перетаскивая линии границ в гистограмме, стирать границы, перетаскивая их с помощью мыши за пределы гистограммы.
Нажмите ОК. В результате всех действий в редакторе данных появится новая переменная salary2. Фрагмент таблицы «Работники с новой категоризованной переменной» приведен на рис. 45.
3- 1471
65
<•" =Equal Width Intervals
- Intervals - fill in at least two fields — '
First Cutpoint Location. |
Number of Cutpoints: |
Width. |
Last Cutpoint Location:
C Equal Percentiles Based on Scanned Cases
- interval» fill in either field — .-...~
Number of Cutpoint^ . |
Cutpoints at Mean and Selected Standard Deviations Based on Scanned Cases
Г” г ;
л I* ^'12^’Pev^°p
Apply will replace the current cutpoint definitions with this specification, kjffa A final interval will include all remaining values: N cutpoints produce
N+1 intervals.
-________—————
Рис. 43. Диалоговое окно Make Cutpoints
Контрольные вопросы
1. В каких случаях возникает необходимость перекодировать данные? Приведите примеры.
2. Какой прием позволит отказаться от неудачной сортировки данных?
Приведите
примеры, иллюстрирующие необходимость
вы-
числения новых переменных.
Какие существуют способы отмены фильтрации данных?
66

Sieved Vaoable L«t.
L. I У»иЫе
/> ЗАРАБОТНАЯ ПЛАТА 1».
Ci^ienf Vaiiable ftSey"
Minimum
Label
{заработная ПЛАТА
(ЗАРАБОТНАЯ ПЛАТА (Bardedl
HonmannBVaUn Maxnum |135000
<»7«0A0 i»w.o!j ' naii.oo 1 uamtioo нпл.оо ixzsoac
zeao.oci «это.1ю бм«.сю кскяяи icueioAc izoeeo.oo оаттоло
Case: Scanned.
Mreario Values:
Рис. 44. Visual Bander
[Hl] Работники.ба* - SPSS Data Editor
^1D12£1;
File Edit View Data Transform Analyze Graphs Utilities Window | Help 1
gjejel й! ^fel g|g»lg 1W
6 : catec pry • ' 2
salary teginsal stag salary2 I T|
1 21450 12000 98 S= 20000 i
2 21900] 13200 “ ’ 98 <= 200001
3 32100 13500' 98 20001 -45000
4 21900 9750 98 <= 20000
5 27900 12750 98 20001 - 45000
6 24000 13500 98 20001 -45000
7 30300 16500 98 20001 -45000
8 _35100 16800 98 120001 -45000
9 26250 11550 97 •'20001 -45000
Л 1 »|\ Data ViewJ\\ /ariabte View / u ilill
ready £
рис. 45. Фрагмент таблицы «Работники с новой категориальной переменной salary2» (категория дохода)
67
1.6. Создание и редактирование диаграмм
Очень часто анализ реальных данных начинается с построения диаграмм, отражающих те или иные данные. Диаграммы позволяют выявить существующие закономерности в данных, увидеть «проблемные» наблюдения, понять, в каком направлении следует вести исследование. Когда анализ данных завершен и сделаны те или иные выводы, их тоже зачастую иллюстрируют диаграммами. В рассматриваемой версии SPSS инструменты, позволяющие строить диаграммы, стали достаточно удобными и технологичными.
Программа SPSS позволяет построить несколько видов диаграмм. Многие диаграммы имеют два различных формата:
• стандартные диаграммы;
• интерактивные диаграммы.
Стандартные диаграммы создаются с помощью меню Graphs (Графики). Дополнительно многие статистические процедуры включают возможность построения диаграмм.
Интерактивные диаграммы создаются с помощью команды Graphs\Interactive (Графики\Интерактивные). Возможность построения интерактивных диаграмм встроена в процедуру создания Pivot Tables (Мобильные таблицы).
Стандартные диаграммы
Рассмотрим, как строятся диаграммы различных типов.
Столбиковая диаграмма
Для построения столбиковой диаграммы нужно выполнить команду Graphs\Bar (Графики\Столбиковая). В ответ на эту команду появится диалоговое окно, представленное на рис. 46.
В этом диалоговом окне нужно выбрать, какой тип диаграммы будет строиться:
• Simple (Простая);
• Clustered (Кластеризованная);
• Stacked (Состыкованные).
68
,Bar Charts
ar
Cancel |
Help f
- Data in Chart Are---->—-—=—i
Summaries tor groups of cases I C Summaries of separate variables |
Values of individual cases 1
Рис. 46. Диалоговое окно Bar Charts
В этом же окне необходимо указать, что отражает диаграмма:
• Summaries for groups of cases (Итоги по группам наблюдений);
• Summaries of separate variables (Итоги по отдельным переменным);
• Values of individual cases (Значения отдельных наблюдений).
Чтобы понять, какие виды диаграмм логично выбирать в тех или иных случаях, построим различные варианты диаграмм на примере данных файла Работники, sav.
Простая столбиковая диаграмма будет хорошо иллюстрировать, как отличаются заработные платы у работников разных категорий занятости. Для построения такой диаграммы в диалоговом окне, представленном на рис. 46, выберем тип столбиковой диаграммы — Simple (Простой) и вариант диаграммы Summaries for groups of cases (Итоги для групп наблюдений.) Нажмите кнопку Define.
В группе опций Bars represent (Столбики представляют) (рис. 47) выберите опцию Other statistic (Другая итожащая функция) и переместите переменную «заработная плата» в поле Variable. По умолчанию в нем появится MEAN (ЗАРАБОТНАЯ ПЛАТА) - среднее значение заработной платы. Если вас не устраивает вид итожащей функции, то сменить ее можно, нажав кнопку Change statistic (Изменить функцию). В нашем примере расчет среднего значения заработной платы вполне логичен. В поле Category axes (категориальная ось) перенесите переменную «категория занятости». Для организации заголовка диаграммы нажмите кнопку Titles (Заголовки). В поле Linel введите «Средняя зарплата различных категорий работников». Нажмите кнопку Continue, а затем кнопку ОК.
69
I Define Simple Bar: Summaries for Groups of Cases
\£> код работника [n] 3< пол [pol]
ДАТА РОЖДЕНИЯ (с
Уровень обсазованиг .^ЗАРАБОТНАЯ П" ф Нач. зар. плата [begin
Стаж на предприятии ЗАРАБОТНАЯ ПЛАН
p В ars R epresent-------------
C N of cases C % ol cases
I. N C Cum. %
ther statistic (e.g, mean]
Variable.________ -
QK U ЁЙе | ; Reset | Cancel | Help |
J fl
Я
I
ji
Statistic... |
Titles... : $
Options... Ц
- T emplate--------—-----------—-
Г Use chart specifications from:
| 1
1
Рис. 47. Диалоговое окно для построения простой столбиковой диаграммы
Полученный результат представлен на рис. 48.
Заметим, что диаграмма размещается в отдельном окне SPSS Viewer — Вывод. Таким образом, SPSS позволяет хранить результаты анализа данных в специальном файле с расширением .spo.
Попробуем теперь получить аналогичную диаграмму, но отдельно для мужчин и женщин. Для этого поставим переменную «пол» в поле Rows (Строки) (рис. 47).
Полученный результат представлен на рис. 49.
Но, на наш взгляд, более наглядно провести сравнение средних зарплат мужчин и женщин можно с помощью столбиковой кластеризированной (Clustered) диаграммы (рис. 50).
70
70000
« 60000-га с £ 50000 я
ё 40000
га
§ 30000
§ 20000 ф
S
10000
Средняя зарплата различных категорий работников
о
Рис. 48. Простая столбиковая диаграмма «Средняя зарплата различных категорий занятости»
70000-'
60000-
50000-
40000-
30000-
20000-
10000-
01
70000-
60000-
50000-
40000-
30000-
20000-
10000-
01
Средняя зарплата различных категорий работников
Офис Охрана Менеджер
Категория занятости
Рис. 49. Простая столбиковая диаграмма «Средняя зарплата мужчин и женщин различных категорий занятости»
71
Рис. 50. Кластеризованная столбиковая диаграмма «Средняя зарплата мужчин и женщин различных категорий занятости»
Выполните команду Graphs\Bar (Графики\Столбиковая). Укажите тип диаграммы Clustered. Проконтролируйте выбор опции Summaries for groups of cases (итоги для групп наблюдений).
В поле Variable снова поставьте переменную «заработная плата». В поле Category axes — категорию занятости, а в поле Define clusters by — переменную «пол».
И наконец, построим Stacked (Состыкованную) диаграмму по тем же данным из файла Работники.зау.
Выполните команду Graphs\Bar. Выберите тип диаграммы Stacked. Проконтролируйте выбор опции Summaries for groups of cases.
В группе опций Bars represent диалогового окна Define Stacked Bar: Summaries for groups of cases оставьте опцию N cases (количество наблюдений) (рис. 51).
В поле Category Axis поставьте переменную «категория занятости».
72
с
ф код работника [п] ф ДАТА РОЖДЕНИЯ [с <£> Уровень образование ф заработная ПЛАТ/
Bats Represent-—— %8? cases) <“ X of cgses
ГСит.м” С.Сиш.%
|Г*! Other statistic (e.g., mean)
ф Нач. зар. плата [begin
Стаж на предприятии ф ЗАРАБОТНАЯ ПЛАТ/
категория занятости, [се :
Category Axis
Panel By
Рис. 51 Диалоговое окно Define Stacked Bar: Summaries for groups of cases
В поле Define Stacks by (задать сегменты значениями) поставьте переменную «пол».
Задайте заголовок диаграммы.
Соответствующая диаграмма представлена на рис. 52. Эта диаграмма показывает, сколько человек относится к каждой категории занятости, при этом на каждом столбце видно, сколько из них мужчин и женщин.
Рассмотрим примеры, в которых используется столбиковая Диаграмма с подведением итогов по разным переменным. Используем файл магазины.эау.
73
Количество работников каждой категории занятости
Категория занятости
Рис. 52. Состыкованная столбиковая диаграмма
Описание данных файла Магазины, sav:
В файле приведены данные об объемах продаж за 30 дней в 5 магазинах. Данные по каждому магазину содержатся в различных столбцах и представляют собой переменные: site_l, site_2, site_3, site_4, site_5. Переменная day_num содержит информацию о дне недели.
Построим столбиковую диаграмму, сравнивающую суммарный объем продаж каждого из магазинов. Для этого выполните
команду Graphs\Bar.
for
Укажите тип диаграммы Simple, выберите опцию Summaries separate variables. Нажмите кнопку Define. В появившемся
диалоговом окне «отправьте» переменные site_l, site_2, site_3, site_4, site_5 в поле Bars represent. Для изменения итожащей функции со средней на сумму выделите все переменные, нажмите кнопку Change Statistic... и в появившемся диалоговом окне выберите опцию Sum of values.
Задайте заголовок диаграммы «Суммарный объем продаж
по пяти магазинам».
В результате должна получиться диаграмма, представлен-
ная
на рис.
53.
По данным файла магазины-sav можно построить и класте-
ризированную
столбиковую
диаграмму,
сравнивающую
сред-
ние
продажи любых двух магазинов по дням недели.
74
Суммарный объем продаж по пяти магазинам
Рис. 53. Столбиковая диаграмма по разным переменным
Рекомендуем построить такую диаграмму самостоятельно. Результат приведен на рис. 54.
И наконец, рассмотрим последний вариант столбиковой диаграммы, отражающей данные для разных значений пере-
Средний объем продаж двух магазинов в разрезе дней недели
Рис 54. Кластеризированная столбиковая диаграмма для нескольких переменных
75
менной, т.е. с использованием опции Values for individual cases. Такой пример логичен для специальных данных, аналогичных данным, приведенным в файле продажи_бренд.$ау. Данные из этого файла приведены в табл. 3.
ТаблицаЗ
Процент продаж Продажи Имя_бренда
32 10656 Бренд_1
18 5994 Бренд_2
10 3330 Бренд_3
40 13320 Бренд_4
Для построения столбиковой диаграммы выберите тип Simple — простой и опцию Values in different cases. Действительно, в этом примере в каждой строчке находятся данные, которые «персонально» должны отображаться на диаграмме.
В диалоговом окне Define Simple Bar: Values of Individual Cases в поле Bars Represent укажите переменную «продажи».
В поле Variable — Имя_бренда. Нажмите кнопку ОК.
Результат представлен на рис. 55.
Объемы продаж товаров разных брендов
14000-
12000-
Бренд_4
10000-
8000-
6000-
4000-
2000-
0
Бренд_1 Бренд_2 Бренд_3
Номер продукта в каталоге
Рис. 55. Столбиковая диаграмма по объемам продаж товаров разных брендов
76
Лтак, мы рассмотрели основные варианты столбиковых диаграмМ) котоРые возможно построить средствами SPSS.
В следующем разделе менее подробно рассмотрим, как строятся круговые диаграммы.
Круговая диаграмма
Начнем с круговой диаграммы, которая показывает процентное соотношение мужчин и женщин, работающих в компании (данные из файла работники.зау).
Выполните команду Graphs\Pie (Графика\Круги).
Поскольку мы
Pie Charts
яё'
ata in Chart Are . Г., •. • •
Summaries for groups of cases
Summaries of separate variables
Values of individual cases^,; •
Define
1
'i
i ‘ Cancel
Help I
Рис. 56 Диалоговое окно Pie Charts
хотим построить диаграмму по одной переменной в диалоговом окне Pie Charts (Круги), выберите опцию Summaries for groups of cases (Итоги по группам наблюдений), а за-
тем щелкните по кнопке Define (Задать) (рис. 56).
В появившемся диалоговом окне (рис. 57) выберите пол в
качестве переменной, задающей сектора. Для этого выделите

переменную «пол» и нажмите стрелку направо около поля Define slices (Задать сектора значениями).
Для создания заголовков диаграммы нужно нажать одноименную кнопку. В диалоговом окне Titles (Заголовки) в поле Line :1 введите «Процентное соотношение мужчин и женщин в компании». В поле подзаголовок введите «По данным 2006 года» (рис. 58).
Если в данных есть пропущенные значения, то многие аналитики считают полезным разместить на диаграмме соответствующую категорию. Показывать ее целесообразно для того, чтобы убедиться, что количество наблюдений с пропущенными
77
Define Pie: Summaries for Groups of Cases
I- Slices Represent-------
(?N of cases
ф Уровень обр Г Sum of variable
:$> категория занят t----} variable:
$> Нач. эар. плата [begin ® Стаж на предприятии ф ЗАРАБОТНАЯ ПЛАТ/
Define Slices by:
r Panel by------
________ Rows:
Г Nest variables IntfembtyWsi
Columns r„ ,
p Template------:-------——н—
j Г Use chart specifications from:

Titles |
Options...
Рис. 57. Диалоговое окно Define Pie: Summaries for groups of cases
Titles
i-Title--- .................
Line 1: (Процентное соотношение мужчин и женщи Line 2: j П о данным 2006 года
iff Footnote-ЯйЬ--' .^«1 - -esg- -
а ’ - . Я^рттВуМпт. ' ц-j
Lrel; J 2 _
(Line 2 ( ....... —
...........- ' - .’J ‘
'WriiM.. __________ ... _________________
Рис. 58. Диалоговое окно Titles (заголовки)
78
значениями не слишком велико. Для этого в диалоговом окне Define Pie: Summaries for groups of cases (Круги: Итоги по группам значений) нажмите кнопку Параметры.
Установите флажок Display groups defined by missing values (Выводить группы, заданные пропущенными значениями), а затем нажмите Continue (Продолжить).
Для завершения создания диаграммы в диалоговом окне на рис. 57 нажмите кнопку ОК.
Круговая диаграмма на рис. 59 показывает, что большинство сотрудников компании — мужчины. При этом диаграмма была бы нагляднее, если на ней отражалось бы процентное со-
Ete Ef® View &dta Insert Ffirmat gratae. Srachs igMes Help
Рис. 59. Круговая диаграмма
79
отношение между мужчинами и женщинами или абсолютные значения их численности. Настроить диаграмму можно в редакторе диаграмм.
Примером данных, для иллюстрации которых используется ь круговая диаграмма с выбором опции Summaries for different I variables так же, как и для столбиковой диаграммы, может слу-I жить файл магазины.зау. Для этих данных вполне логично по-F строить круговую диаграмму, показывающую, какой процент | от общей выручки составляет выручка каждого магазина за месяц.
' Предлагаем читателям построить такую диаграмму самостоятельно.
Ящиковые диаграммы
Начинающему аналитику ящиковые диаграммы кажутся несколько экзотическими, но достаточно быстро при сравнении выборок они становятся любимым вариантом графического анализа данных. Другими названиями ящиковой диаграммы являются «Коробчатая диаграмма», «Ящик с усами».
Начнем сразу с примера. Построим ящиковую диаграмму для данных файла Альбукерк.зау.
Выполните команду Graphs\Boxplot (Графика\Ящики). В появившемся диалоговом окне выберите тип диаграммы Simple (Простая). В поле Variable поместите переменную price (цена), а в поле Category Axis — тип застройки. Нажмите кнопку ОК (рис. 60).
Ящиковая диаграмма для файла Альбукерк представлена на рис. 61. Разберемся теперь, что на ней изображено.
Прямоугольник представляет пространство между первым и третьим квартилями, т.е. от 25 до 75% данных попадают в него1. Линия внутри прямоугольника соответствует медиане, т.е. значению, левее и правее которого лежит половина всех значений.
’Первый квартиль — это точка на шкале значений, левее которой располагаются 25% измеренных значений. Третий квартиль — это точка, левее которой располагаются 75% значений.
80
с
ф площадь [sqft] g} возраст[age] ф удобства [feats] ф район [north_e] ф угол [сог]
—. Variable: , ф| aa I I tf.-r -irr^r _ I |<$> цена [price]
g} налоги [tax]
ф возраст [age2]
ф налоги [tax2]
—t Category Axis: j-J | <$> тип застройки [oust]
Рис. 60. Диалоговое окно Define Simple Boxplot: Summaries for Groups of Cases
81
На диаграмме отображаются минимальное и максимальное значения, если они не являются выбросами. Значения, удаленные более чем на три длины построенного прямоугольника, помечаются на диаграмме звездочками и называются экстремаль-l ными. Значения, удаленные более чем на полгоры длины прямоугольника, помечаются кружочками и называются выбросами. Зги наблюдения важны Они могут соответствовать нетипичным объектам При анализе данных их влияние может привести к неверным выводам.
На рис. 61 наглядно видно, что цены для домов разного типа застройки отчетливо различаются
SPSS п|>едлагает и другие гипы диаграмм. Правила работы с ними аналогичны описанным выше. Мотивация использования некоторых из них появится позже. На данный момент представляется актуальным обсуждение проблем, связанных с редактированием стандартных диаграмм.
Редактирование стандартной диаграммы
К редактированию диаграммы относится:
• отображение меток — процентов или значений для элементов диаграммы,
• изменение текста заголовка:
• изменение внешнего вида диаграммы.
Все манипуляции по редактированию производятся в Редакторе диаграмм, который запускается двойным щелчком по исходной диаграмме
Отображение меток на диаграмме
Рассмотрим, как можно настроить диаграмму на примере, представленном на рис. 59.
На круговых диаграммах очень часто указывают значения тех долей, которые составляют сектора от целого круга. Для этого двойным щелчком активизируйте редактор диаграмм — SPSS Viewer.
Выделите круговую диаграмму.
82
Выполните команду. Elements\Show Data Isabels. (Диаграмма Показать метки данных.)
В появившемся диалоговом окне Properties (Свойства) выделите «Проценты» и нажмите кнопку (рис. 62). Нажмите кнопку Apply (Применить) В секторах круговой диаграммы должны появиться значения процентов.
Другие типы меток создаются аналогично
Properties
Chart Sire > Text !
C*egone& ! Number f ot mat
Labels
Drspteyed
& Court
№t Displayed
А Пол f Percent
Рис 62 Диалоговое окно Properties (Свойства)
Удаление меток на диаграмме
Для удаления на диаграмме существующих меток, например, процентов:
83
двойным щелчком активизируйте редактор диаграмм; выделите круговую диаграмму;
выполните команду; Elements\Hide Data Labels.
Изменение внешнего вида элементов диаграммы
К изменению внешнего вида диаграммы в первую очередь относится изменение цвета ее элементов. Рассмотрим, как, например, можно изменить цвет секторов круговой диаграммы.
Двойным щелчком активизируйте Редактор диаграмм. Выделите изменяемый сектор, щелкнув на нем.
Выполните команду Edit\Properties (Правка\Свойства).
В появившемся диалоговом окне Properties (Свойства) щелкните на закладке Fill and Borders (заливка) и поле Fill (рис. 63), а затем в правой части этого же окна укажите новый цвет сектора.
Нажмите кнопку Apply (Применить).
К изменению внешнего вида относится также изменение плоского вида диаграммы на объемный. Для того чтобы изменить, например, плоскую круговую диаграмму на объемную, необходимо: активизировать редактор диаграмм;
выбрать закладку Depth and Angle (Глубина и угол);
Properties
Categories i Data ValueljjheJs_______I___
Chart Size ..... Fill ’s Border
Preview-------------------------------------------------

Xala.
К Border
Pattern
Border Style
Weight Style

(62,88,172)
Reset | j
End Caps ”3 lRound 3
J -elp
Рис. 63. Диалоговое окно Properties. Закладка Fill and Borders
84
В группе опций Effect (Эффект) выбрать «Трехмерный» (рис. 64);
Нажать кнопку Apply (Применить).
На этой же закладке можно настроить угол наклона круговой трехмерной диаграммы, поворот секторов, их порядок.
Для остальных типов диаграмм технология редактирования совершенно аналогична. Общей рекомендацией может быть использование контекстного меню, вызываемого щелчком правой кнопки мыши, облегчающее поиск и запоминание команд редактора диаграмм.
Chart Size | га Я Border
Categories j Data Value Labels Depth & Angle
Position Slices —----------------------
First slice (clock position): |l2:00 |
Order o1 Slice -
I (* Clockwise
i C Counterclockwise I
(-Distance------
' Farther (100)
Apply | Cancel | Help
Рис. 64. Диалоговое окно Свойства. Закладка Глубина и угол
Создание интерактивных диаграмм
SPSS предлагает еще одну технологию создания диаграмм — интерактивные диаграммы. Рассмотрим, как строится столбиковая интерактивная диаграмма на примере файла Работни-KH.sav. Так же, как и в предыдущем разделе, построим диаграмму, иллюстрирующую сравнение зарплат различных категорий занятости. Будем сравнивать средние зарплаты.
85
Выполните команду: Graphs\Interactive\Bars (Графика\ Интерактивные\Столбики...).
В появившемся диалоговом окне Create Bar Chart (Создать столбиковую диаграмму) перенесите переменную «заработная плата» в поле (вертикальной) оси Y, а переменную «катего-рия_занятости» в поле (горизонтальной) оси X (рис. 65).
Выбор итожащей функции осуществляется в нижней части этого же диалогового окна. В нашем случае выбрана функция MEAN (среднее).
Create Bar Chart

Assign Variables j Bar Chart Options } Error Bars | Titles | Options |
Case[$case] Count [$count] Percent [Spot] $ Код работника-$ Начальная зар ю [Пол] $ Стажнапредп(
габогная плата [j
Legend Variables
Color: j
Style: j
Panel Variables -------
flb Cluster jJ
ЙД Stack 4
Rnpegent Зар j Means
OK |
ная плата [Зарплата] -
~ 47 Display Key —
Paste j Reset
Отмена I Справка J
Рис. 65. Диалоговое окно Create Bar Chart
86
Заголовок диаграммы можно ввести на закладке Titles (Заголовки). Нажмите кнопку ОК.
В окне вывода результатов должна появиться диаграмма, приведенная на рис. 66.
Эта диаграмма сравнивает величину средней заработной платы для различных категорий занятости в компании.
Эти же данные можно проиллюстрировать другой столбиковой диаграммой, разбив каждую категорию занятости на две группы — мужчин и женщин (в SPSS эти группы называются кластерами). Для этого выполните команду: Graphs\ Interactive\Bars (Графика\Интерактивные\Столбики...).
В появившемся диалоговом окне Create Bar Chart (Создать столбиковую диаграмму) перенесите «Категория занятости» в поле (горизонтальной) оси X.
Переменную «пол» перенесите в поле Color (Цвет) (рис. 67). Нажмите кнопку ОК.
На получившейся диаграмме (рис. 68) видно, что в каждой категории работников средняя зарплата мужчин больше средней зарплаты женщин.
87
Create Bar Chart fxj
Assign Variables [ Bar Chart Options | Error Bars | Titles | Options |
Case (lease) jl Count [$count] Percent [$pct] Код работника Начальная зар $ Стажнапредпг
л ₽ L 2-D Coordinate
j Заработная плата [
j Категория занятост
Style:
Panel Variables
ster <-[
Stack ”
Bars Represent Заработная плата [Зарплата] -j Means “▼‘j
fv Display Key —
[ OK 1 Paste
Reset
Отмена I Справка
Рис. 67. Диалоговое окно Create Bar Chart
Редактирование интерактивной диаграммы
В отличие от стандартных диаграмм редактирование интерактивных диаграмм производится непосредственно в окне Вывода — SPSS Viewer. Для редактирования диаграммы нужно дважды щелкнуть на диаграмме, активизировав панели инструментов.
88
Bars show Means
Категория занятости
Рис. 68. Столбиковая диаграмма с кластерами
Изменение внешнего вида диаграммы
Рассмотрим, как можно изменить цвета, например, столбиков диаграммы. Для изменения цвета одного из столбиков достаточно:
1. Выделить изменяемый столбик.
2. Открыть на вертикальной панели инструментов Палитру цветов, нажав стрелку около кнопки Цвет заливки (рис. 69).
3. Выбрать нужный цвет.
Технология изменения цвета всех столбцов ряда данных несколько иная. На диаграмме одним цветом выделены столбцы, объединенные некоторым признаком, например в нашем примере признаком пола. Для изменения цвета всех одинаковых с точки зрения формата столбцов необходимо:
1. Дважды щелкнуть по цветному квадрату рядом с категорией, цвет которой вы хотите поменять (рис. 70), например на квадратике, соответствующем мужскому полу.
2. В появившемся диалоговом окне Colour Legend (Легенда Цвета) — Пол выберите нужный цвет и нажмите кнопку ОК (рис. 71).
В результате этих действий должны поменять цвет все соответствующие столбцы.
89
Рис. 69. Панели инструментов для редактирования интерактивной диаграммы
OLAP Кубы
В версиях SPSS, начиная с 12.0, появилась возможность создания OLAP — Online Analytical Processing — Кубов. Соответствующая процедура вычисляет итоги — средние значения и другие одномерные статистики для количественных переменных внутри категорий одной или нескольких категориальных группирующих переменных. OLAP процедура позволяет создать отдельны." слой для каждой категории каждой группирующей переменной. Заметим, что логика работы с OLAP Кубами во многом напоминает работу со сводными таблицами Microsoft Excel.
90
Рис. 70. Кластеризованная столбиковая диаграмма в окне SPSS Viewer
Например, для данных файла работники-sav с помощью OLAP процедуры можно найти среднюю зарплату и средний стаж сотрудников каждого пола и каждой категории занятости.
OLAP процедура позволяет автоматически получать следующие статистики: сумма, число наблюдений, среднее значение, медиана, групповая медиана, стандартная ошибка среднего, минимум, максимум, размах, значение переменной для первой категории группирующей переменной, значение переменной для последней категории группирующей переменной, стандартное отклонение, дисперсия и многие другие.
91

Рис. 71. Панели инструментов для редактирования интерактивной диаграммы
Создание OLAP Кубов
Для получения итогов выполните команду: Analyze\Reports\ OLAP Cubes... (Анализ\Отчеты\О LAP Кубы...).
В диалоговом окне OLAP Кубы выберите одну или несколько количественных анализируемых переменных.
Выберите одну или несколько категориальных группирующих переменных.
92
Для данных файла Работники.зач диалоговое окно OLAP Cubes представлено на рис. 72.
ф Код работника [Код_ ф Начальная зар. плат.
Grouping Variable(s):
Summary Variable(s): ф Заработная плота [3. ф Стаж на предприятии
Пол
ф^ Категория занятости
Рис. 72. Диалоговое окно OLAP Cubes
Выбрать, какие итоговые функции будут рассчитаны, можно, нажав кнопку Statistics (Статистики). В диалоговом окне OLAP Cubes: Statistics (рис. 73) следует добавить или убрать вычисляемые статистики. Нажмите кнопку Continue (Продолжить).
В результате получится таблица, приведенная на рис. 74.
На первый взгляд этот результат ничем не примечателен, более того, отсутствуют «обещанные» итоги по группам категориальных переменных. Для того чтобы их увидеть, необходимо дважды щелкнуть на OLAP Кубе. В строке Пол и Категория занятости появятся стрелки, позволяющие активизировать поля со списками — категориями, по которым подводятся итоги (рис. 75). В традиционной терминологии они называются слоями.
93
OLAP Cubes: Statistics
Statistics
First *;
Last
Variance
Kurtosis
Std. Error of Kurtosis t
Skewness 1
Std. Error of Skewness • Harmonic Mean r
Geometric Mean Ы
Percent of Sum in(Flon) p Percent of N in(Flon) Й « Percent of Sum in(Kare £ Percent of N in(Karerof ^! Percent of T otal N Percent of Total Sum v|)
Cell Statistics
Sum
Number of Cases
Mean
Continue
Help |
Рис. 73. Диалоговое окно OLAP Cubes: Statistics
OLAP Кубы
Пол: Итого
Категория занятости: Итого
Среднее % от общей суммы
Заработная плата Стаж на предприятии в месяцах 6883,91 6,28 100,0 100,0
Рис. 74 Пример OLAP Куба
94
Рис. 75. Поле со списком для выбора слоя OLAP Куба
Изменить структуру уже созданного OLAP Куба можно, активизировав с помощью кнопки Поля вращения на Панели инструментов одноименного диалогового окна. Кнопка Поля вращения на рис. 75 выделена прямоугольником.
На рис. 76 подписаны все элементы, позволяющие управлять структурой OLAP Куба. Например, чтобы поменять поря-
Рис. 76. Диалоговое окно Поля вращения
95
док группирующих переменных, нужно мышью поменять местами обозначающие их элементы.
Описание соответствующих манипуляций достаточно многословно. Лучшим способом понимания технологии изменения структуры OLAP Куба, на наш взгляд, является экспериментальный путь. Попробуйте «подвигать» в диалоговом окне Поля вращения управляющие элементы и проанализируйте результат.
Контрольные вопросы
1. Что такое OLAP Куб? В каких случаях он используется?
2. Какие виды диаграмм существуют в SPSS?
3. Чем отличается режим редактирования стандартных и интерактивных диаграмм?
4. Как отмечаются выбросы на ящиковой диаграмме?
з. ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ
Начинающему аналитику очень трудно принять решение, с чего начать анализ данных. И нас часто спрашивают: что нужно сделать на первом шаге, что делать дальше? На первом шаге мы советуем строить диаграммы. Глядя на «картинку», аналитик понимает, по какому пути нужно двигаться при проведении исследования. Следующим этапом статистического анализа любых данных, как правило, является анализ основных статистических параметров, называемых описательными статистиками. Цель предлагаемых процедур — ознакомиться с данными, выявить имеющиеся особенности, выдвинуть гипотезы, которые помогут выбрать модель, описывающую данные. Этот вид анализа проводится различно в зависимости от того, в какой шкале измерены переменные.
Описательные статистики качественных переменных
Для качественных переменных проводят частотный анализ.
Вспомним, что при анализе переменных, измеренных в качественной шкале, запрещены многие операции. Например, нельзя вычислять среднее арифметическое. Более того, качественные переменные нельзя складывать. Нарушителям запрета придется встретиться с уравнениями вроде «Москва» + «Пекин» = «Хельсинки». Нельзя даже сравнивать разные значения одной переменной. Например, рассмотрим переменную «любимый сорт пива респондента», сравнивая два ответа «пиво Пит» и «пиво «Бочкарев», при этом нельзя сказать, какое из этих двух значений больше. Можно сравнивать содержание алкоголя в разных сортах пива или объемы продаж сортов, но в этом случае изучаются уже другие переменные, измеряемые в количественной шкале.
4-147! 97
Для анализа переменных, измеренных в номинальной шкале, существует ограниченный набор приемов. В первую очередь сравнивают количество наблюдений в разных группах. Например, сравнивается количество мужчин и количество женщин среди покупателей продукта, сравнивается количество лиц с высшим образованием и без него среди покупателей.
Заметим, что характеристика «количество наблюдений» зависит от объема выборки (например, от количества опрошенных). Это неудобно, так как затрудняется сравнение показателей в выборках разного объема. Поэтому обычно вычисляют проценты (или доли, или частоты), которые составляют представители групп. Например, говорят о проценте женщин или о проценте лиц с высшим образованием среди покупателей.
Рассмотрим ситуацию, когда аналитика интересует процентное соотношение мужчин и женщин среди его клиентов. Две группы наблюдений — мужчины и женщины — различаются значениями одной конкретной переменной «пол». Поэтому сравниваемые частоты (проценты, доли) — это частота повторения одинаковых значений изучаемой переменной. Переменная «пол» в этом примере играет роль «группирующей» переменной.
Рассмотрим, как проводится частотный анализ в пакете SPSS на примере данных анкетного опроса, приведенных на рис. 77.
Сравним доли мужчин и женщин в выборке. Переменная sex (Пол) будет группирующей, ее значения делят выборку на две группы: мужчины и женщины. Выполним команду Analyze\Descriptive Statistics\Frequencies (Анализ\Описа-тельные статистики\Частоты). В диалоговом окне, приведенном на рис. 78, нужно внести переменную «пол» в список анализируемых переменных. Для этого в окне Frequencies нужно выделить переменную sex (Пол) и нажать стрелку направо. Затем следует нажать кнопку ОК.
В результате откроется новое окно — окно просмотра результатов, содержащее отчет о проведенном анализе данных (рис. 79). По умолчанию первое такое окно имеет имя Outputl. Если окно просмотра результатов открывается, скажем, шестой раз, то оно будет иметь имя Output6, т.е. число — это номер окна.
98
ITgl] пример 1_без сортировки - SPSS Data Editor
□]
File Edit View Data Transform Analyze Graphs Utilities Window Help
gig |<a| g| M M m| -stel Blglsl j>|ij
|24000
sex salary educat >' О £ var |
1 жен 26250 нХВысше
2 муж 38850 Высшее
3 муж 24000 среднее
4 жен 16950 н\6ысше
5 жен 21150 среднее
6 жен 31350 нХВысше
V муж 19200 нХВысше
R ЖАН 2ЯЯ5П Высшее
~4 | ► |\Data View д Variable View / ] 'd 1 ► j
!,SPSS Processor is ready
1
A
Рис. 77. Данные анкетного опроса покупателей
Statistics...] grafts... | Format.., |
Рис. 78. Диалоговое окно Frequencies (Частоты)
99
Рис. 79. Отчет о проведении частотного анализа
Важно! Все отчеты можно сохранять как самостоятельные файлы с расширением .spo.
Окно просмотра результатов разделено на две половины: в левой находится структура (оглавление) отчета, а в правой — непосредственно результаты анализа. Пользуясь левым окном, можно быстро перемещаться от одной части отчета к другой. Логика использования оглавления схожа с той, которая реализована в Проводнике Windows.
В рассматриваемом опросе участвовали 15 покупателей: 4 мужчины и 11 женщин — эти данные находятся в столбце Frequency (Частота). В столбце Percent указано, что мужчины составляют 26,7%, а женщины — 73,3% общего состава покупателей. В столбце Cumulative percent указан так называемый процент с накоплением количества мужчин и женщин. Столбец Valid Percent становится полезным, когда присутствуют пропущенные значения (среди наших данных пропусков нет).
100
SPSS позволяет построить диаграмму, иллюстрирующую полученный результат, сразу в диалоговом окне Frequencies (его можно повторно вызвать командой Analyze\Descriptive Statistics\Frequencies). Для этого следует нажать кнопку Charts...
В появившемся диалоговом окне (рис. 80) нужно выбрать
тип диаграммы:
Ваг charts — столбиковая диаграмма;
Pie charts — круговая диаграмма;
Histograms — гистограмма. (Гистограмма не может быть построена для переменной, имеющей тип String — Текст. При анализе переменных, измеренных в номинальной шкале, гисто-
граммы применяются очень редко.)
Напомним, что круговая диаграмма — это круг, разбитый на секторы. В данном случае площадь каждого сектора пропорциональна объему каждой группы одинаковых значений. В нашем примере круговая диаграмма показывает, какой процент составляют мужчины и женщины в выборке покупателей.
Столбиковая диа
Frequencies: Charts
Рис. 80. Диалоговое окно Frequencies: Charts
грамма отражает частоту повторения каждой переменной.
Круговая и столбиковая диаграммы содержат одну и ту же
информацию, только в первом случае зрители сравнивают углы, а во втором — столбики. Специальные психологические ис
следования показали, что люди плохо сравнивают углы и хорошо — высоты столбиков. Поэтому столбиковая диаграмма полезнее круговой. Скучно просматривать много столбиковых диаграмм подряд. Обычно диаграммы чередуют: круговые диа-
101
граммы применяют, когда надо получить картинку «понаряднее», а столбиковую — когда надо в чем-то убедить зрителя.
Гистограмма также состоит из столбцов. Высота каждого столбца пропорциональна количеству значений количественной переменной, попадающих в интервал, лежащий в основа-
нии столона.
Пол
Рис. 81. Круговая диаграмма, отражающая соотношение мужчин и женщин среди покупателей
Гистограммы применяют, когда переменная измерена в количественной шкале.
После выбора типа переменной следует нажать кнопку Continue, а затем кнопку ОК.
Круговая диаграмма представлена на рис. 81.
Как редактировать такие диаграммы, было описано раньше.
Рассмотрим переменную educat — «образование». Определим, сколько человек, данные о которых хранятся в указанной таблице, имеют
высшее, неполное высшее или среднее обра-
зование. Для этого снова выполним команду Analyze\ Descriptive Statistics\Frequencies (Анализ\Описательные ста-тистики\Частоты).
Результат частотного анализа переменной educat приведен на рис. 82. В этой таблице указано, что среди опрошенных 5 человек с высшим образованием, 7 с неполным высшим, 3 со средним, что составляет соответственно 33,3, 46,7 и 20% от общего числа. В столбце Valid Percent указан «допустимый» процент (при расчете этого значения исключаются пропущенные данные), в столбце Cumulative Percent — накопительный процент или процент нарастающим итогом.
102
fs Частотм_пример1 - SPSS Viewer fZ~~ifO || X
Ed.t view Insert Ffirmar Analyze &apns айЬе5
_ogiHH!a| ri PNG?! £_J
- H i.•*• Г.! • I- I t$j ______________________________________
I Output
. [ь| Frequencies
Frequencies
♦ijj OSpasceauHe
Образование
Pivot Table is visible
Рис. 82. Результат частотного анализа для переменной «Образование»
По результатам анализа получается, что половина покупателей — студенты. Такие результаты наводят на размышления: а не смещена ли наша выборка, действительно ли студенты составляют половину покупателей? Если нет, то были опрошены не те покупатели, выборка нерепрезентативна.
Построим столбиковую диаграмму для переменной educat — «образование». Для этого в диалоговом окне Frequencies нужно нажать кнопку Charts и в появившемся диалоговом окне выбрать опцию Bar charts — Столбиковая диаграмма.
На приведенной диаграмме (рис. 83) высота каждого столбика показывает, как часто указанное на горизонтальной оси значение (тип образования) встречается в наборе данных.
Описательные статистики количественных переменных
При анализе количественных переменных аналитика могут интересовать такие характеристики, как их среднее значение, минимальное значение, максимальное значение и т.д.
ЮЗ
Образование
Рис. 83. Столбиковая диаграмма для переменной «образование»
Для получения статистических характеристик числовых переменных, например переменной «зарплата» из файла Работ-ники-sav, следует выполнить команду Analyze/Descriptive Statistics/Frequencies и в появившемся диалоговом окне Frequencies следует нажать кнопку Statistics.
В диалоговом окне, приведенном на рис. 84, необходимо отметить интересующие характеристики, затем нажать кнопку Continue.
Рассмотрим некоторые статистические характеристики.
В группе показателей, объединенных названием Central Tendency диалогового окна Frequencies: Statistics (рис. 84) можно указать приведенные ниже показатели для автоматического вычисления.
Mean — среднее арифметическое измеренных значений.
Median (Медиана) — точка на шкале измеренных значений, выше и ниже которой лежит по половине всех измеренных значений.
Mode (Мода) — это значение, которое наиболее часто встречается в выборке. Если одна и та же наибольшая частота встречается у нескольких значений, то выбирается наименьшее из них. На практике моду применяют редко. Исключение составляют ситуации, когда распределение данных мулътимо-
104
Frequencies: Statistics
-Percentile Values' Г Quartile?
Г Cut points for
Г Percentile(s): Add ,?‘Change
equal groups
r- Central T endency-,
! Г Mean
! Г" Median
I Г" Mode
;Г” Sum

Г" Values are group midpoints
-Dispersion
Г” Std. deviation
Г Variance
Г Range
Г Minimum
Г Maximum
П S.E. mean
“ Distribution .Cj Skewness > П Kurtosis
Рис. 84. Диалоговое окно Frequencies: Statistics
далъное, т.е. имеет несколько мод. В этом случае проверяют, не распадается ли выборка (например, покупатели) на группы (на сегменты).
Sum — сумма значений переменой.
И среднее значение, и медиана интерпретируются как «типичное», «центральное» значение переменной в выборке (а часто и в генеральной совокупности).
В группе Dispersion (Дисперсия, рассеивание) существует возможность выбрать указанные ниже показатели.
Std. Deviation (Стандартное отклонение) — мера разброса измеренных величин. Стандартное отклонение — это число, описывающее, насколько значения переменной обычно отличаются от среднего. Это понятие очень важно для статистических исследований, поскольку оно измеряет степень случайности в изучаемой ситуации.
Если стандартное отклонение большое по отношению к среднему значению, то значения переменной чаще заметно отличаются от среднего значения. Чем больше отношение стан-
105
дартного отклонения к среднему значению, тем чаще значения переменной заметно отличаются от среднего. При проведении тех процедур анализа, которые обсуждаются в пособии, и в частности при анализе дисперсии, надо опасаться ситуаций, когда присутствует несколько наблюдений, резко отличающихся от всех остальных. Такие наблюдения называются выбросами.
। Инженеры и физики используют так называемое правило «трех сигм». В соответствии с этим правилом все наблюдения, отличающиеся от среднего больше, чем на три стандартных отклонения, либо вовсе отбрасываются (нежелательный вариант), либо рассматриваются отдельно от остальных (предпочтительный вариант).
Важно! Стандартное отклонение имеет следующую интерпретацию: эта величина описывает типичное расстояние от среднего значения для отдельных значений набора данных. Стандартное отклонение обычно обозначают буквой ст.
Стандартное отклонение рассчитывается по формуле
а - [Z (xt - xcp)2/n]V2,
где — значения переменной (например, значения зара-
ботной платы);
хср — среднее значение;
п — количество значений переменной.
Еще одним статистическим показателем, характеризующим разброс количественных переменных, является показатель
Variance (Дисперсия) — квадрат стандартного отклонения. Он определяется как сумма квадратов отклонений всех измеренных значений от их среднеарифметического значения, деленная на количество измерений. На практике обычно анализируют стандартное отклонение, в теоретических работах чаще используют дисперсию
Программа SPSS вычисляет все указанные характеристики автоматически. Также существует возможность рассчитать следующие показатели:
106
Range (размах) — разность между наибольшим и наименьшим значениями переменной.
Minimum — наименьшее значение переменной;
Maximum — наибольшее значение переменной;
S.E. mean (стандартная ошибка среднего) — определяется как стандартное отклонение, деленное на квадратный корень из объема выборки.
<~>х “ (a2/")V2-
На практике стандартную ошибку среднего используют, когда строят доверительные интервалы, т.е. когда желают представить ответ вместе с его погрешностью.
Пример 6. Рассмотрим смысл основных статистических характеристик для переменной «зарплата» из файла Работни-KH.sav.
Для получения интересующих нас характеристик данных по зарплате нужно выполнить команду Analyze/Descriptive Statistics/Frequencies. В появившемся диалоговом окне следует отметить следующие опции:
Std. Deviation (Стандартное отклонение);
Variance (Дисперсия);
Range (Размах);
Minimum;
Maximum;
Median (Медиана);
Mode (Мода).
Нажмите кнопку ОК. В результате анализа получим результат, представленный в табл. 4.
Таблица 4
Основные статистические характеристики для переменной «зарплата»
Заработная плата
N Valid 474
Missing 0
Mean 34 419,57
107
Продолжение табл. 4
Median 28 875,00
Mode 30 750
Std. Deviation 17 075,66
Variance 291578 214,453
Minimum 15 750
Maximum 135 000
Range 119 250
Рассмотрим, как следует интерпретировать полученные результаты.
Меап\ средняя зарплата работников — 34 419,57.
Median-. 28 875,00 — значение на шкале измеренных значений зарплат, выше и ниже которой лежит по половине всех измеренных значений переменной «зарплата».
Mode-, наиболее часто встречающееся значение заработной платы — 30 750 (оно встречается два раза). Данный результат иллюстрирует правило: мода используется только при анализе переменных, измеренных в номинальной шкале. Для характеристик, измеренных в порядковой и количественной шкалах, величина моды бессодержательна: разные значения переменной редко совпадают. Хотя есть и исключения, когда выборка очень велика.
Std. Deviation: стандартное отклонение средней зарплаты опрошенных — 17 075,66.
Variance: дисперсия - (17 075,66)2 = 291 578 214,453.
Minimum: минимальная зарплата опрошенных покупателей - 15 750.
Maximum: максимальная зарплата опрошенных покупателей — 135 000.
Range: разница между максимальной и минимальной зарплатой — 119 250.
Построим гистограмму для переменной «зарплата». Для этого в окне Frequencies следует нажать кнопку Charts, в появившемся диалоговом окне выбрать опцию Histograms и нажать кнопку Continue. Результат приведен на рис. 85.
108
Histogram
Рис. 85. Гистограмма для переменной «зарплата»
Важно! Гистограмма — это диаграмма частот, а не данных. Высота каждого столбика на гистограмме пропор-циональна числу значений переменной, попавших в интервал, лежащий в основании столбца.
Для того чтобы понять разницу между гистограммой и столбиковой диаграммой, построим последнюю для переменной «зарплата».
Столбиковая диаграмма показывает частоту повторения каждого значения переменной. Столбиковая диаграмма для переменной «зарплата» приведена на рис. 86.
При построении гистограммы переменная, измеренная в количественной шкале, преобразуется в другую переменную. Новая переменная создается так, чтобы она была измерена в номинальной шкале. При этом новая переменная скрыта от пользователя пакета SPSS. Для новой переменной строится столбиковая диаграмма.
Посмотрим, как создается новая переменная в предыдущем примере с зарплатой. Фактически производится перекодировка в соответствии с правилом, приведенным в табл. 5. Высота каждого столбца на диаграмме пропорциональна количеству значений, попавших в соответствующий диапазон зарплаты.
109
Рис. 86. Столбиковая диаграмма для переменной «зарплата»
Таблица 5
Пример «скрытой» перекодировки в SPSS при построении гистограммы
Интервал значений зарплаты Значения новой переменной
-5000-5000 0
5000-15 000 10 000
15 000-25 000 20 000
25 000-35 000 30 000
35 000-45 000 40 000
45 000-55 000 50 000
При использовании гистограмм выбор интервалов группировки производится пакетом SPSS автоматически. Иногда аналитику хочется изменить схему группировки.
Для изменения правила, по которому производится группировка значений на гистограмме, необходимо:
110
дважды щелкнуть на диаграмме для запуска Chart Editor — Редактора диаграмм;
щелкнуть правой кнопкой на оси X и выбрать команду properties Window (окно свойств). В появившемся окне Properties (Свойства) на закладке Histogram options (см. рис. 87) в группе опций Bin Sizes выберите опцию Custom, а затем одну из опций Number of intervals (количество интервалов) или Interval width (Ширина интервала).
Нажмите кнопку Apply (Применить).
Chart Size It, Text Ik ф;. («МвЛТНсе i
Number Format * Histogram Options
". Г Display normal curve
Automatic
r0n Sizes-------------------------
I C Automatic
(* Custonj r—
i MUfT1ber of inter als: |24 : C Interval width:
5000
_ ft”’.

Рис. 87. Диалоговое окно Properties (свойства)
Важно! Если значения переменной измерены в номинальной шкале, то применяется столбиковая диаграм-ма, если в количественной шкале, то гистограмма.
Пример 7. Рассмотрим пример, иллюстрирующий смысл такого статистического показателя, как стандартное отклонение.
111
Пусть цена единицы выпускаемой вами продукции равна 12 у.е. Известны цены конкурентов: 20,00; 16,00; 13,00; 14,00; 18,00; 10,00; 8,00; 12,00; 11,00; 15,00; 13,00; 14,00; 16,00; 11,00; 9,00; 8,00; 21,00.
Руководство компании хочет оценить, насколько соответствует ваша цена продукции ценам конкурентов.
После описания и ввода значений переменной «Price» (цена) выполним команду Analyze/Descriptive Statistics/ Descriptives. Получим следующий результат (рис. 88).
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
PRICES 17 8,00 21,00 13,4706 3,89098
Valid N (listwise) 17
Рис. 88. Фрагмент отчета по ценам продукции фирм-конкурентов
Проинтерпретируем полученный результат:
средняя цена продукции — 13,47 у.е.;
минимальная цена — 8 у.е., а максимальная — 21 у.е.;
стандартное отклонение — 3,89 у.е.
Поскольку разница между ценой продукции в вашей компании и средней ценой фирм-конкурентов отличается меньше, чем на величину стандартного отклонения, то можно считать, что установленная вами цена достаточно обоснованна. Заметим, что более обоснованный вывод можно сделать, проверяя гипотезу о равенстве центров распределения, описанную ниже.
Нормальное распределение
Как уже было показано выше, анализ проводится различно в зависимости от того, в какой шкале измерены переменные. Сейчас нам придется уточнить классификацию шкал. Среди
112
временных, измеренных в количественной шкале, выделяется jejiacc переменных, имеющих нормальное распределение.
Особое внимание к нормальному распределению вызвано тем, что оно часто возникает на практике. Например, ошибки, возникающие при измерениях, часто имеют нормальное распределение. Количество покупок в супермаркете, количество задач, решенных на Едином экзамене в школе, коэффициент интеллекта часто приближаются нормальным распределением.
Нормальное распределение имеет большое значение в статистике, так как его свойства хорошо известны. Для нормально распределенных переменных разработаны специальные методы статистического анализа.
Важно! Для начинающих аналитиков рекомендуется количественные переменные, значительно отличаю-щиеся от нормальных, анализировать теми же методами, что и переменные, измеренные в порядковой шкале.
Часто аналитик может выбирать между методом, разработанным для нормально распределенных величин, и непараметрическим методом, применимым для широкого класса распределений. Возникает желание всегда пользоваться универсальным подходом, применять его и для нормально распределенных переменных. Это дорогостоящий подход. Если исследователь применяет универсальный подход, а данные имеют нормальное распределение, то его результаты будут иметь большую погрешность, чем если бы он применял специализированный метод. Другими словами, чтобы добиться той же точности, ему придется анализировать больше наблюдений. Обычно сбор дополнительных наблюдений требует и денег, и времени.
Заметим, что в некоторых учебниках вместо термина «нормальное распределение» используют термин «гауссовское распределение» или «распределение Лапласа».
В этом разделе мы рассмотрим, как отличать переменные, имеющие нормальное распределение.
113
Первый (визуальный) метод заключается в анализе гистограмм. Надо построить гистограмму и наложить на нее колоколообразную линию (график плотности распределения случайной величины, имеющей нормальное распределение). Если соответствие гистограммы и линии хорошее, то делается вывод о нормальности распределения переменной.
Неверно, что можно накладывать любую колоколообразную линию, но и беспокоиться о точном виде линии не надо: пакет SPSS строит именно тот график, который нужен.
На рис. 89 приведен пример почти идеального соответствия гистограммы и колоколообразной линии.
Рис. 89. Пример гистограммы с наложенной на нее колоколообразной линией
Мы видим, что большинство значений наблюдений переменной сконцентрировано в средней части диапазона значений, а график симметрично затухает по мере удаления от центра.
Например, если возраст ваших клиентов распределен примерно нормально, то можно ожидать, что возраст двух третей из них попадает на расстояние не более одной величины стандартного отклонения от среднего значения — либо выше, либо ниже. На рис. 90 эта область выделена светло-серым цветом.
В случае нормального распределения следует ожидать, что 95% всех данных окажутся в пределах двух величин стандарт-
114
Рис. 90. График нормального распределения
него отклонения от среднего значения (область закрашена в светло-серый и белый цвета).
Продолжим пример. Одна шестая часть клиентов имеет возраст, превышающий среднее значение более чем на величину одного стандартного отклонения, и примерно одна шестая часть окажется ниже среднего далее, чем на расстояния двух стандартных отклонений.
Все данные (точнее, 99,7%) будут находиться в пределах трех величин стандартного отклонения от среднего (область закрашена в светло-серый, белый и темно-серый цвета).
Теперь посмотрим, как может выглядеть гистограмма, построенная по наблюдениям случайной величины, имеющей явно ненормальное распределение.
На рис. 91 приведена гистограмма переменной, имеющей равномерное распределение.
На рис. 92 приведена гистограмма переменной, имеющей экспоненциальное распределение.
На рис. 93 приведена гистограмма переменной, имеющей логнормальное распределение.
Советуем запомнить последний график. Во-первых, он часто встречается при анализе экономических показателей. Во-вторых, логарифм такой величины имеет нормальное распределение.
115
Рис. 91. Гистограмма переменной, имеющей равномерное распределение
116
Рис. 93. Гистограмма переменной, имеющей логнормальное распределение
Рассмотрим следующий вопрос: насколько близкими должны быть гистограмма и колоколообразная линия, чтобы мы
приняли гипотезу о нормальности распределения переменной. Существенными отклонениями признаются выраженная асимметрия гистограммы и присутствие наблюдений — выбросов, которые обсуждались при анализе дисперсии.
Для того чтобы вывести на гистограмме нормальную кривую, нужно выполнить команду Analyze\Frequencies (Анализ
частоты). В появившемся диалоговом окне следует указать анализируемую переменную, нажать кнопку Charts. В следующем диалоговом окне необходимо установить опцию
Histograms. Для вывода нормальной кривой необходимо поста
вить флажок With normal curve. Для переменной «зарплата» из файла Работники.зау результат представлен на рис. 95.
Другим вариантом проверки на близость к нормальному
распределению является приведенная ниже процедура.
Рассмотрим те же данные по зарплате из файла Работни-KH.sav. Выясним, можно ли считать распределение этих данных близким к нормальному.
Выполните команду Analyze\Descriptive Statistics\Explore 'Лнализ\Описателъные статистики\Исследовать).
117
Explore: Plots
-Boxplots----------------- Descriptive
! factor levels together i Г" Stem-and-leaf
C Dependents together |7 Histogram
! None |
Continue
Cancel
Help
17 Normality plots with tests
-Spread vs. Level with Levene Test-----
7 None
C Power estimation
C* .Transformed Power; ?i ioc
!; C Untransformed
Рис. 94 Диалоговое окно Explore: Plots
1. В диалоговом окне Explore щелкните на кнопке Plots (диаграммы). Откроется диалоговое окно Explore: Plots...
2. Снимите флажок Stem-and-Leaf, вместо него установите флажок Histogram (гистограмма), а также флажок Normality plots with tests.
3. Щелкните на кнопке Continue, а затем на ОК (рис. 94).
В окне просмотра Output появятся гистограмма, аналогичная приведенной на рис. 95, а также таблица с результатами теста на нормальное распределение (табл. 6).
Гистограмма не имеет формы симметричного колокола, что дает нам право предположить, что распределение этих данных может считаться отличным от нормального.
Второй способ проверки нормальности распределения — опенка асимметрии и эксцесса. Для того чтобы получить их значения, можно использовать группу показателей, объединенных названием Distribution (распределение) диалогового окна Frequencies: Statistics (рис. 84).
118
Histogram
Заработная плата
Рис. 95. Гистограмма для переменной «зарплата» с нормальной кривой
Таблица 6
Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Заработная плата ,208 474 ,000 .. ,771 474 ,000 :
a Lilliefors Significance Correction.
Skewness (асимметрия) - характеристика распределения, которая оценивает симметрию расположения значений данных относительно среднего. Обычная интерпретация полученного значения: чем ближе коэффициент асимметрии к нулю, тем распределение переменной ближе к нормальному.
Kurtosis (эксцесс) - это показатель относительной крутости кривой вариационного ряда по сравнению с нормальным распределением. Эксцесс нормально распределенной величины равен 0.
К сожалению, практика показала (а теория подтвердила), нто оба показателя неустойчивы, вариабельны. Поэтому в на
119
стоящее время не рекомендуется пользоваться ни коэффициентом асимметрии, ни коэффициентом эксцесса.
Третий способ проверить, является ли распределение данных нормальным, провести тест на нормальность. Как уже упоминалось, результаты теста на нормальность приведены в табл. 6. Как интерпретируется эта таблица, будет описано позже.
Поскольку предложено три метода проверки анализа распределения, в каждой конкретной задаче возникает вопрос о выборе наиболее подходящего. К сожалению, однозначного ответа нет. Первый метод (наложение линии на гистограмму) либеральный, и может случиться, что аналитик ошибется, сочтя распределение переменной нормальным. Третий подход слишком жесткий, он часто отвергает гипотезу нормальности. Дело в том, что на практике идеально нормальное распределение данных необязательно, некоторые отклонения от нормальности допустимы.
Второй метод применять не рекомендуется, он приведен здесь лишь потому, что присутствует в большинстве старых учебников.
Напомним, какие отклонения от нормальности допустимы, а какие нет. Существенными отклонениями признаются выраженная асимметрия гистограммы присутствие выбросов (выбросы обсуждались, когда анализировалась дисперсия) и очень выраженное отклонение от колоколообразной формы.
Важно! Для переменных, имеющих нормальное распределение, применяют так называемые параметриче-ские методы. Для переменных, имеющих другие виды распределений, применяют непараметрические методы.
Вычисление и анализ описательных статистик для переменной, измеренной в порядковой шкале, проводится так же, как и для переменной, измеренной в номинальной шкале. Кроме того, используется медиана, которая интерпретируется как центр распределения данных. Иногда пользуются и методами, разработанными для переменных, измеренных в количественной
120
шкале. Но начинающему аналитику не рекомендуется использовать такой подход, так как при этом легко сделать ошибку в интерпретации.
контрольные вопросы
1. Каковы свойства нормального распределения?
2. Какие статистики рассчитываются для качественных переменных?
3. Какие статистики рассчитываются для количественных переменных?
4. Каковы мода и среднее значение для данных о возрасте покупателей: 20, 30, 25, 37, 25, 40?
5. Для каких переменных применяются параметрические методы? Для каких — непараметрические?
6. Что такое стандартное отклонение?
7. Какое, по вашему мнению, распределение у переменной «заработная плата» (см. рис. 95)?
Пример 8. Проанализируем данные о населении городов России, полученные по результатам переписи 1959 г. Данные находятся в файле town_1959.sav. Файл содержит три переменные — номер города в списке, название города и население в тысячах человек. Данные упорядочены по населению, первое наблюдение — Москва (5 046 000 человек), последняя строка Вуктыл (100 человек). Всего имеется 1004 наблюдения (города). На рис. 96 приведены начало и конец файла данных.
Попробуем ответить на вопрос: каково население типичного города России в 1959 г.?
При решении этой задачи вернемся к обсуждению среднего арифметического и медианы.
Чаще всего они используются для описания типичного наблюдения выборки. В SPSS выборка наблюдений измеряемой величины — это просто столбец, содержащий десятки, сотни, а иногда и миллионы чисел. Чтобы составить представление о переменной, удобно кратко описать весь этот набор чисел. Та-Кая °перация привычна и общепринята. Мы говорим: «цены в
121
номер город население
1 Москва 5046
2 Санкт-Петербург 3003
3 Нижний_Новгород 941
4 Новосибирск 885
5 Самара 806
6 Екатеринбург 779
номер город I население
988 Сосновый_Бор | 17
989 Ладушкин 1.6
990 Курильск 1,5
991 Верхоянск 1,4
992 Высоцк 1,4
993 Байкальск 1.2
994 Пущино 1,1
995 Урай ,9
996 Стрежевой ,8
997 Кириши ,6
998 Нефтеюганск .6
999 Нерюнгри ,5
1000 Усть-Илимск ,5
1001 Ясный ,5
1002 Мегион .4
1003 Надым ,3
1004 Вуктыл ,1
Рис. 96. Фрагмент файла towns_1959
сети магазинов «X» в среднем ниже, чем цены в сети магазинов «У». Понятно, что утверждение не строгое, что можно найти конкретный товар, который будет дешевле в одной сети, и другой товар, который будет дешевле в другой сети. Но вывод сделан в результате сравнения цен по всей совокупности товаров. Задача упрощена, вместо рассмотрения огромного списка цен на разные товары сравниваются всего два числа — средние цены.
122
Итак, среднее арифметическое — способ описать выборку одним числом. Развивая этот подход далее, выборки сравнивает по их средним значениям с помощью t-критерия Стыоден-Та, описанного далее.
Среднее арифметическое — самый популярный способ описания переменной, понятный всем. Но есть ситуации, когда использование среднего значения обманывает аналитика, в этих случаях типичное значение выборки лучше описывать другими показателями — медианой или усеченным средним.
Вернемся к решению задачи о типичном городе России в 1959 г. Будет рассмотрено несколько вариантов ответа, несколько решений.
Решение 1. Население типичного города России в 1959 г. равно среднему арифметическому, сосчитанному по всем наблюдениям выборки.
Для вычислений воспользуемся командой Analyze\ Descriptive Statistics\Explore (Анализ\Описательные стати-стики\Исследовать...). Мы не используем процедуру «Частоты», так как позднее будем обсуждать усеченные средние, а они не вычисляются этой командой. В диалоговом окне, приведенном на рис. 97, задаем зависимую переменную «Население»,
2d
<$> номер [номер]
Dependent List:_______
! ’.$> население [населен- _
Factor List:
rDtsplay—-------------------
[ftjjBoth С Statistics С Plots
Label Cases by.
город [город]
Statistics... | Plots... | Options..
Рис. 97. Диалоговое окно Explore (Исследовать)
123
Explore: Statistics * 4
!
#1*/ Descriptives
Confidence Interval for Mean: |95 :
£T" M-estimators
jgp Outliers
kRj Percentiles
j|. Continue | Cancel Help |
и
Рис. 98. Диалоговое окно Explore: Statistics (Исследовать: Статистики)
переместив ее в окно анализируемых переменных (Dependent List). Кроме того, в окно Label Cases by (Подписывать наблюдения значениями переменной) поместим переменную «Город», содержащую названия городов.
Нажав на кнопку Statistics (Статистика), проверим наличие опций, заказы-
вающих вычисление описательных статистик: отмечена опция Descriptives (Описательные) и Percentiles (Процентили) (рис. 98).
Нажмите кнопки Continue (Продолжить) и ОК (Вычислить). Результаты вычислений приведены в табл. 7.
Описательные статистики
Descriptives
Таблица 7
Statistic Std. Error
население I Mean 52,925 6,4661
95% Confidence Interval for Mean Lower Bound 40,236
Upper Bound 65,614
5% Trimmed Mean 29,616
Median 19,250
I : Variance j 41978,135
124
Продолжение табл. 7
Statistic Std. Error
— Std. Deviation 204,8857
Minimum ,1
Maximum 5046,0
Range 5045,9
Interquartile Range 27,4
Skewness 17,906 ,077
Kurtosis 395,387 ,154
Если учитывать только среднее арифметическое (Mean), то ответ уже готов: население типичного города России равно 52 935 человек.
Обсудим решение 1.
Чтобы уточнить наше понимание данных, разберемся с процентилями и посмотрим на них. Напомним определение. Процентилью уровня р% называется число, меньше которого р% наблюдений, а больше которого (100-р)%.
Заметим, что:
возможны варианты определения, отличающиеся от нашего;
медиана — процентиль уровня 50% (сравните определения!);
процентили уровня 25, 50 и 75% называют квартилями (от кварта — четверть), и эти значения делят выборку на четыре части, в каждой из которых четверть (25%) всех наблюдений.
Рассмотрим теперь табл. 8. В первой строке — заголовок, во второй строке указаны уровни процентилей, в третьей — значения процентилей. Четвертая строка не нужна, первые два столбца таблицы опущены.
Пятый столбец таблицы показывает, что три четверти (75%) всех наблюдений меньше, чем 38,125, что меньше среднего значения. (На самом деле даже 82% меньше среднего значения, но MbI не будем обсуждать, как это можно найти.)
125
Таблица 8
Процентили
Percentiles
5 10 25 50 75 90 95
3,6 5,7 10,7 19,25 38,125 93 173,5
10,7 19,25 38,05
Получается, что если взять за типичное значение среднее, т.е. 52,935, то более 75% городов имеют меньшее население, это противоречит здравому смыслу, а значит, в этом случае типичность среднего значения сомнительна...
Обсудим поправку первого решения. В выборке присутствуют выбросы, т.е. нетипично большие значения. Это такие города, как Москва, Санкт-Петербург, они резко отличаются от остальных. Попробуем удалить их из выборки и сосчитать среднее значение по оставшейся части.
Решение 2. Население типичного города России в 1959 г. равно среднему арифметическому, сосчитанному по всем наблюдениям выборки, кроме двух самых больших.
Начнем с того, что удалим данные о Москве и Санкт-Петербурге, но не будем стирать эти значения, а отфильтруем их. Для этого выполним команду Data\Select Cases... (Данные\ Отбор наблюдений...). Мы проводим отбор, основываясь на номерах наблюдений, поскольку отбрасываем первые два наблюдения, поэтому в диалоговом окне Select Cases (Отбор наблюдений) отмечаем опцию Based on time or case range (Отбор наблюдений из временного интервала или из интервала номеров наблюдений) (рис. 99).
Нажмите кнопку Range (Диапазон), в ответ откроется окно Select Cases: Range (Отбор наблюдений: интервал) (рис. 100).
Выбросить первые два наблюдения — это все равно, что оставить наблюдения с 3-го по 1004-е. Заметим, что, раз наблюдение номер 1004 последнее, его можно было не указывать, пакет
126
Select----——----------------
C All cases
f If condition is satisfied
_±_1
f Random sample of cases
I. ^aTrip]e- |
I В ased on time or case range
I Han9e- |
I C Use filter variable:
| Qjl—
r Unselected Cases Are------
I <♦ Filtered C Deleted
Current Status: Do not filter cases
I Heset | Cancel |
Help [
Рис. 99. Диалоговое окно Select Cases (отбор наблюдений)
SPSS понимает такие случаи. Нажмите кнопки Continue (продолжить) и ОК (вычислить). Теперь проверьте, что все сделано верно,
First Case Last Case
Observation: [з |l 004
Continue
Cancel
Help
Для этого посмотрите окно Data View (окно данных) (рис. 101).
Рис. 100. Диалоговое окно Select Cases: Range (отбор наблюдений: интервал)
Перечеркнутые номера у первых двух наблюдений подтверждают, что первые два наблюдения исключены из анализа.
127
номер .7 '4 город население
1_ Москва 5046,0
2 Санкт-Петербург 3003,0
3 3 Нижний_Нов город 941,0
41 4|Новосибирск 885,0
Рис. 101. Первые два наблюдения исключены из анализа
Далее повторим вычисления описательных статистик и процентилей (делаем это точно так же, как и ранее). В окне просмотра результатов получаем следующие таблицы (табл. 9 и 10).
Описательные статистики
Descriptives
Таблица 9
Statistic Std. Error
Население Mean 44,998 2,8952
95% Confidence Interval for Mean Lower Bound 39,317
Upper Bound 50,679
5% Trimmed Mean 29,313
Median 19,150
Variance 8398,965
Std. Deviation 91,6459
Minimum 0,1
Maximum 941,0
Range 940,9
Interquartile Range 27,0
г Skewness 5,469 0Д)77___
Kurtosis 36,726 0Д5£__
128
Новое значение среднего арифметического 44,998, оно почти на 15% меньше, чем ранее (было 52,935). Делаем вывод, что ответ, полученный в первом решении, неудовлетворителен. Действительно, уменьшив выборку на два наблюдения (на 0,2%), получили ответ, уменьшившийся на 15%. Наблюдения «Москва» и «Санкт-Петербург» слишком влиятельны, очень сильно меняют ответ.
Теперь посмотрим на процентили (табл. 10).
Таблица 10
Процентили
Percentiles
5 10 25 50 75 90 95
3,6 5,7 10,7 19,15 37,675 91,7 172
10,7 19,15 37,6
Результат снова неутешительный: ведь из пятого столбца таблицы следует, что опять-таки три четверти (75%) всех наблюдений меньше, чем 37,675 (точнее, 78% меньше среднего значения). Снова получается, что если применять среднее в роли типичного значения, т.е. 44,998, то более 75% городов имеют меньшее население, опять сомнительно, насколько типичным является полученное среднее значение.
Конечно, можно развивать этот подход: выбросить еще Нижний Новгород, Новосибирск... Главное уже ясно: если выборка содержит выбросы, т.е. аномально большие и (или) аномально маленькие наблюдения, среднее арифметическое значение является ненадежным, неустойчивым показателем. В таких ситуациях от среднего значения надо отказываться.
Рассмотрим значения медианы в первом и втором решениях.
Медиана, сосчитанная по всей выборке, равна 19 250 человек (см. табл. 7), по выборке без Москвы и Санкт-Петербурга — 19 150 человек (см. табл. 9). Этим подтверждается устойчивость медианы к выбросам: при исключении наблюдений значение медианы мало изменилось.
5-1471
129
Заметим, что для описания выборки можно применять 5%-ное усеченное среднее. Оно вычисляется следующим образом. Из выборки исключаются 2,5% самых маленьких наблюдений и 2,5% самых больших. В итоге отбрасываются 5% общего числа наблюдений. После этого вычисляется обычное среднее арифметическое оставшихся значений. Идея заключается в том, что в эти 5% скорее всего попадут все выбросы и будет получена более объективная оценка типичного значения. Посмотрим, какие значения усеченного среднего получаются в нашем случае. В табл. 7 и 9 находим строчку 5% Trimmed Mean (5%-ное усеченное среднее). Значения равны 29,616 и 29,313 соответственно, т.е. так же, как и с медианой, видим устойчивое поведение показателя.
С нашей точки зрения, усеченное среднее — хороший надежный метод определения типичного значения. К сожалению, в отличие от медианы он малоизвестен. Ваши коллеги и начальство будут воспринимать его с недоверием. Похоже, повсеместного применения усеченного среднего придется подождать, но заметим, что лет 15 назад медиана тоже была экзотикой...
Сделаем промежуточный вывод. Если выборка содержит выбросы, как в нашем случае, среднее арифметическое является ненадежным способом описания типичного значения, вместо него лучше использовать медиану.
Разберемся, какие наблюдения можно считать выбросами. Основными претендентами на эту роль являются Москва и Санкт-Петербург, возможно, выбросами являются также Нижний Новгород и Новосибирск... Чтобы ответить на этот вопрос, разберемся с распределением выборки. Для этого построим гистограмму и проанализируем ее.
Прежде всего не забудьте отключить исключение первых двух наблюдений. Выполните для этого команду Data\Select Cases... (Данные\Отбор наблюдений...). На этот раз мы будем анализировать все наблюдения, поэтому в диалоговом окне Select Cases (Отбор наблюдений) отметим опцию All cases (все набтюдения) (рис. 102).
Затем выполните команду Graphs\Histogram... (рис. 103).
130
номер [номер]
ф население [населени
-Select - - ---------------------
All cases
Г' If condition is satisfied
_л .1
: С" Random sample of cases
i ^ampte; |
t* Based on time or case range Range j
C Use filter variable:
- Unselected Cases Are--------------
filtered, Г Deleted
Current Status: Do not filter cases
OK. I Paste I Reset i Cancel I Help
Histogram
ф номер [номер]
Рис. 102. Диалоговое окно Select Cases (Отбор наблюдений)
~ Т emplate— - -
Г~ Use chart specifications from: **•
Рис. 103. Диалоговое окно Histogram (Гистограмма)
131
В окно Variable (анализируемая переменная) поместите переменную «население», отметьте опцию Display normal curve (Нанести нормальную кривую), нажмите кнопку ОК (Выполнить). В окне вывода должна получиться гистограмма, приведенная на рис. 104.
Население
Рис. 104. Гистограмма переменной «население»
График выглядит необычно: примерно 950 наблюдений из 1004 попали в самый левый интервал, правая часть выглядит пустой. На самом деле пустота кажущаяся, там имеется несколько столбиков высотой единица. На фоне первого столбца они так малы, что просто не видны. Пять шестых всего интервала, на котором расположены данные, заняты выбросами.
Проверим, что распределение данных близко к логнормальному, т.е. что распределение логарифмов значений переменной «население» близко к нормальному. Для этого сосчитаем логарифмы значений. Выполним команду Transform\Compute... (Преобразовать\Вычислить) (рис. 105).
В диалоговом окне Target Variable (Имя вычисляемой переменной) введите название новой переменной «лог_населе-ние». Напомним, что пробелы и тире в имени переменной запрещены. В окне Function group: (группы функций) выберите
132
Type & Label...
номер [номер] gl город [город]
<£> население [населенр
d _d_d dJU
_d_Lkd _ddj. ,d _L!_Ll . PJ
UU111 _ Delete |
Function group:
Current Date/Time Date Arithmetic Date Creation |Date Extraction
LN(numexpi). Numeric. Returns the base-e «Д logarithm of numexpr, which must be numeric and greater than 0.
[optional case selection condition]
Functions and Special Variables:
Help |
Paste I Reset I Cancel I

Рис. 105. Диалоговое окно Compute Variable (вычислить переменную)
Arithmetic (арифметические функции, по-русски, наверное, было бы правильнее называть эту группу функций алгебраическими). В окне Functions and Special Variables (функции и специальные переменные) без труда находится логарифм, там их даже два. Мы выбрали натуральный, а не десятичный логарифм, в данном случае разница несущественна, результаты различаются множителем. Нажмите стрелку, направленную вверх, тем самым выбранная функция перебрасывается в рабочее окно Numeric Expression (выражение, по которому вычисляется новая переменная). После этого в рабочем окне появляется выражение LN(?). Чтобы вместо вопросительного знака подставить имя переменной, выберите в левом нижнем окне переменную «население» и стрелкой, направленной горизонтально, перебросьте имя переменной в рабочее окно. Если все сделано верно, то окно должно выглядеть как на рис. 105. Заметим, что выражение можно было просто набрать с клавиатуры...
133
Нажмите кнопку ОК (Выполнить). В окне переменных Data View появился новый столбец «лог_население» (рис. 106).
номер
1 Москва
город
2 [ Санкт-Петербург
3 Нижний_Новгород
4[Новосибирск
население 5046 3003
941 885
логнаселение
В[53
___________8,01
6^85
6,79
Рис. 106. Новый вид окна данных Data View
Для новой переменной, так же как и ранее, построим гисто-
Рис. 107. Гистограмма переменной «лог_население»
Распределение новой переменной не является нормальным: центральная часть гистограммы заметно выше нормальной кривой. Видны по крайней мере три выброса, один слева (Вуктыл) и два справа (Москва и Санкт-Петербург). Эти случаи надо анализировать отдельно. После отбрасывания распределение гистограммы несущественно отличается от нормального. Действительно, гистограмма симметрична, имеет колоколообразную форму без явных выбросов.
4 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
Основные понятия проверки статистических гипотез
Многие процедуры прикладного статистического анализа включают в себя проверку статистических гипотез.
Проверка статистических гипотез — один из способов отвечать на вопросы, связанные с распределением случайной величины (с распределением генеральной совокупности). Сразу заметим, что правильно формулировать вопросы очень сложно. Корректно отвечать на них, используя данные, имеющиеся в распоряжении аналитика, не легче. Поэтому список вопросов, на которые умеет отвечать теория проверки статистических гипотез, ограничен, в данном разделе будут рассмотрены три процедуры.
Основное условие применения статистических тестов — задаваемый вопрос должен касаться какой-либо характеристики массового явления. Конечно, возможно обсуждение нескольких характеристик одновременно, но это усложняет задачу.
Второе условие — независимость наблюдений между собой. Например, при проведении опроса опрашиваемые выбираются случайным образом, и можно предполагать, что их ответы не зависят друг от друга. Из этого правила имеются два исключения: во-первых, анализ временного ряда, например, в задачах прогнозирования. В этом случае обычно поздние значения зависят от предыдущих. Во-вторых, при повторных наблюдениях одних и тех же объектов.
Третье условие — вопрос должен быть относительно простым и четко сформулированным. Для прикладных статистиков третье ограничение может выглядеть и так: вопрос должен принадлежать списку «допустимых» вопросов.
На практике часто приходится на основе результатов обследований, испытаний и т.д. проверять различные предполо
135
жения о характеристиках массового явления. Приведем примеры.
1. В обычных условиях зафиксирован некоторый уровень продаж. Руководство компании полагает, что в результате рекламной кампании уровень продаж увеличился. На основе данных о продажах нужно, во-первых, определить, существенно ли это увеличение, во-вторых, окупились ли затраты на рекламу.
2. При появлении нового варианта упаковки товара требуется проверить предположение, что товар в новой упаковке имеет в данном регионе больший уровень продаж, чем вариант в старой упаковке.
3. Верно ли, что основной конкурент действует на том же сегменте рынка, что и фирма «X»? При ответе на этот вопрос может потребоваться проверить, одинаково ли распределение по возрасту у покупателей товаров фирмы «X» и ее основного конкурента.
4. Фирма изучает постоянных покупателей своей продукции, для того чтобы увеличить их лояльность и количество. В рамках этой задачи аналитик проверяет, зависит ли лояльность потребителя от его пола, возраста, уровня образования. Этот вопрос может быть переформулирован и так: проверить гипотезы о независимости а) уровня лояльности и пола потребителей; б) уровня лояльности и возраста потребителей; в) уровня лояльности и уровня образования потребителей.
Далее может возникнуть необходимость проверить, различаются ли средние значения изучаемых показателей у лояльных и нелояльных покупателей.
Определение гипотезы
Традиционно статистический анализ данных начинают с того, что вопрос переформулируют так, чтобы ответ на него заключался в выборе между двумя утверждениями. Эти два утверждения называют статистическими гипотезами.
Чаще всего (но не всегда) одна из них утверждает, что предположение верно, другая — что нет. Одну из гипотез называют основной и обозначают, как правило, Н (или Но), а другую — альтернативной (конкурирующей) и обозначают К (или Н0.
136
Проверку гипотез на основе выборочных статистических данных называют статистической проверкой гипотез.
В прикладной статистике принято следующее правило: если в рассуждениях не уточняется, о какой гипотезе идет речь, то имеется в виду основная гипотеза.
Вместо того, чтобы говорить «...выбрана основная гипотеза...» или «—выбрана альтернативная гипотеза...», обычно формулируют «...основная гипотеза не отвергнута...» или «основная гипотеза отвергнута...». Если в результате проверки гипотезы она не была отвергнута, то хочется сказать «гипотеза справедлива». Как правило, такая формулировка была бы преувеличением.
Во-первых, при проверке гипотезы часто проверяется всего лишь необходимое условие. Воспользуемся аналогией. Допустим, надо проверить, делится ли число на четыре. На деле проверяется, делится ли число на два. Конечно, если число не делится на два, то оно не будет делиться и на четыре тоже. Гипотеза «число делится на четыре» отвергается. Но если проверка показала, что число делится на 2, то было бы опрометчиво заключать, что оно делится на 4. Приходится говорить «гипотеза, что число делится на 4, не отвергается».
Почему же ограничиваются проверкой необходимых условий, почему не проверяют саму гипотезу? Оказывается, последнее слишком сложно, и приходится радоваться малому.
Во-вторых, возможно, что в распоряжении аналитика имеется недостаточно данных, чтобы изучаемый эффект проявился. Например, фармацевтическая компания выпускает лекарство, аналогичное уже существующему, так называемый «дженерик» (generic) вместо оригинального, производимого разработчиком («brand-named»). Компания проводит исследование, проверяющее, что лекарство-аналог эквивалентно уже существующему. Основная гипотеза при анализе: отличия между лекарствами нет. Но когда дело касается здоровья людей, не отвергнуть гипотезу недостаточно. Необходимы более жесткие требования к процедуре. Надо проверить еще и побочные эффекты у лиц, страдающих заболеванием «х1», «х2» и т.д.
137
Итак, хотя часто можно прочитать, что (основная) гипотеза принята, такое выражение неточно. Грамотнее говорить, что (основная) гипотеза не отвергнута.
Подведем промежуточные итоги. Статистический критерий не может ответить на вопрос, верна ли проверяемая гипотеза. Он лишь измеряет, противоречат или не противоречат выдвинутой гипотезе выборочные данные, насколько сильно противоречат, можно ли отвергнуть данную гипотезу. Более того, на практике чаще всего проверяется некоторое необходимое условие.
Ошибки первого и второго рода
Очевидно, что на основе статистических данных очень трудно, а иногда и невозможно делать безошибочные выводы.
Ошибки при проверке гипотез могут быть двух родов. Ошибка первого рода состоит в том, что отвергается основная гипотеза, когда на самом деле она верна. Ошибка второго рода состоит в том, что отвергается конкурирующая гипотеза, когда она верна.
Чтобы лучше понять определения ошибок, проиллюстрируем введенные понятия с помощью аналогии. В больнице врач принимает решение, направлять пациента на операцию или нет. Его проблему можно переформулировать и так: ему нужно выбрать между основной гипотезой, что операция необходима, и альтернативной гипотезой, утверждающей, что операция не нужна. При этом врач может ошибиться. Допустим, операция нужна, а она не делается. Скажем то же самое в статистических терминах: основная гипотеза верна, но она отвергается. Как ни говори, в этом случае врач делает ошибку первого рода. Если операция не нужна, а она делается, т.е. принимается основная гипотеза, когда она неверна, то врач делает ошибку второго рода.
Может ли врач свести частоту (вероятность) ошибок первого рода к нулю? Да, если всегда будет принимать основную гипотезу. В этом случае все пациенты будут направляться на операцию. Чтобы свести к нулю ошибку второго рода, надо вовсе не делать операций. Понятно, что оба крайних варианта непри-
138
еМлемь1- Хотя есть исключения. Например, если мы будем вакцинацию считать операцией (все же укол, введение вакцины, эТо маленькая, но операция), то получается, что врачи действует по первому сценарию: делать маленькую «превентивную» операцию всем, чтобы в будущем свести ошибку первого рода к нулю.
«Последствия ошибок могут быть различными» — каков смысл этого утверждения в контексте рассмотренного примера? Если пациенту операция не нужна, но она сделана (ошибка второго рода), это очень неприятно. Если нужна, но не сделана (ошибка первого рода), то возможен и смертельный исход.
Итак, ошибка первого рода опаснее, но полностью избежать ее не удастся. Это так не только в медицине, при проверке статистических гипотез ситуация такая же.
Уровень значимости
В классической теории проверки статистических гипотез ошибку первого рода ограничивают числом, называемым уровнем значимости. Исторически сложилось так, что в качестве уровня значимости чаще всего выбирают одно из чисел 0,005; 0,01; 0,05.
Проиллюстрируем предыдущие рассуждения, продолжив рассматривать «медицинский» пример. Задав уровень значимости 0,005, мы указываем врачу, что в среднем на 1000 больных, нуждающихся в операции, он может ошибиться 5 раз. Не больше. Если хирург ошибается реже, то он великий диагност либо чаще всего перестраховщик. Во втором случае увеличивается доля операций, которые были не нужны (а значит растут частоты ошибок второго рода).
Вы считаете, что соглашаться на пять смертельных случаев бесчеловечно? Согласны. А сколько можно? К нулю ведь не свести... Один на 10 000? Значит, вы задаете уровень значимости 0.0001. Напоминаем, уровень значимости задаете именно вы, но чем он меньше, тем чаще будете принимать гипотезу. Подобная перестраховка неизбежно приведет к тому, что чаще будут делаться ненужные операции.
139
Ошибка второго рода и мощность
Значительно труднее добиться того, чтобы вероятность ошибки второго рода была малой. Как правило, ее можно уменьшить, если увеличить число анализируемых наблюдений. Поэтому так необходимы большие выборки. Методы проверки гипотезы, обладающие таким свойством, называют состоятельными. Статистики добиваются такого результата математическими средствами, разрабатывая специальные алгоритмы проверки гипотезы.
Если выборка маленькая (часто в качестве границы между большой и маленькой выборками берут пороговое значение 30 наблюдений), проверить гипотезу удастся. Платой за малый размер будет неприемлемо большая вероятность ошибки второго рода. Большинство практиков, работающих с маленькими выборками, думают, что смогут преодолеть эту трудность, если будут игнорировать ошибку второго рода, вовсе не обращать внимания на нее. Профессиональные статистики в таких ситуациях часто увеличивают уровень значимости (например, до 0,15 или 0,2), чтобы сделать вероятности ошибок первого и второго рода сопоставимыми.
Задача. Модифицируем «медицинский» пример. Вместо врача рассмотрим банковского служащего, принимающего решение выдавать заем или нет. Как в этом случае будут интерпретироваться статистические понятия, введенные выше?
Алгоритм проверки статистических гипотез (типичный случай)
1. Имеются п наблюдений Хр Х2, ..., Хп, т.е. п чисел, полученных, например, в результате опроса.
2. Задан уровень значимости а. Обычно это одно из чисел 0,005; 0,01; 0,05.
3. Задан статистический критерий, т.е. функция от наблюдений р = p(Xv Х2, ..., Х„). Значение этой функции называ-
ется p-значением (р-value). В пакете SPSS оно называется Significance, сокращенно записывается как Sig. и часто переводится как значимость.
140
к. Проверяются все условия, при которых критерий будет работать.
5. Если р < сс, то гипотеза отвергается, если р > а — не отвергается. Все так просто? В теории да, на практике нет. Выше описана схема алгоритма в самом общем виде. Дьявол же, как обычно, прячется в деталях.
Прокомментируем приведенный алгоритм.
Вообще говоря, наблюдения Х2, Х3,..., Хп необязательно являются числами, а могут быть, например, векторами. Но начинающему трудно справиться с такими случаями, ему лучше обратиться к профессиональному статистику.
При выборе «правильного» числа из списка 0,005; 0,01; 0,05 важно иметь в виду, что с точки зрения статистики «правильного» числа не существует. Необходимо понимание конкретной задачи, оно диктует выбор. Если вам кажется, что конкретная задача ничего не диктует, предлагаем практический совет, основанный на здравом смысле. Просмотрите статьи или книги по вашей дисциплине, в которых изучаются сходные темы, и заимствуйте из них наиболее популярное значение уровня значимости.
В книге уровень значимости всегда будет полагаться равным 0,05. Авторы сделали этот выбор только потому, что им показалось, что такое значение наиболее популярно в экономических исследованиях.
Выбор того статистического критерия, который подходит для данной задачи, — важная и сложная задача. Сначала надо узнать название нужного критерия. Большинство начинающих консультируются у опытных знакомых или на соответствующем форуме в Интернете. Описание критерия обычно находится далее в литературе: учебниках по математической статистике или справочниках. Главный ответ, который надо получить из книги, — действительно ли предложенный вам критерий отвечает на интересующий вас вопрос. Данная книга тоже является учебником, ниже для некоторых задач будут рекомендованы несколько популярных критериев. После того, как критерий выбран, надо убедиться, что изучаемые данные удовлетворяют тем требованиям, при которых позволительно применять данный критерий.
141
Иногда важна еще одна функция, которая называется статистикой критерия или тестовой статистикой. В литературе чаще всего обсуждается именно она, не надо путать ее с р-значением. Изредка она важна сама по себе (например, коэффициент корреляции), в таких конкретных случаях мы будем ее указывать. Обсудим интерпретацию статистики критерия.
Статистика критерия измеряет степень соответствия поведения данных и гипотезы, она «мала», если данные ведут себя согласно с гипотезой, в соответствии с тем, как они «должны» вести себя при справедливости гипотезы. Наоборот, статистика критерия «велика», если данные не соответствуют статистическим закономерностям, заданным гипотезой.
Какие именно условия надо проверять, т.е. при каких ограничениях применим статистический критерий, указывается вместе с описанием самого критерия. Например, применение t-критерия Стьюдента или проверка гипотезы независимости с помощью критерия Пирсона требует проверки близости распределения переменных к нормальному.
Следите за тем, какую гипотезу вы проверяете! Начинающие пользователи часто путают основную и альтернативную гипотезы.
В статистике существует традиция, что именно задавать в качестве основной гипотезы.
Когда проверяется гипотеза независимости и она отвергается, то аналитик делает вывод, что зависимость есть. Когда t-критерием Стьюдента проверяется гипотеза о равенстве средних и гипотеза не отвергается, то делаем вывод, что значимого различия средних нет.
В следующем разделе рассмотрим несколько методов, основанных на проверке статистических гипотез.
Проверка гипотез о центрах распределений
Соглашение. Каждый раз, когда говорится о распределении выборки, имеется в виду, что случайная величина, из независимых наблюдений которой составлена выборка, имеет данное распределение.
142
«ровер*0 веХ»чииЫ
нормальности распределения случайной
<тоОблема формулируется следующим образом: можно ли считать, что случайная величина имеет нормальное распределе-
ние?
Сформулируем основную и альтернативную гипотезы.
Гипотеза: случайная величина имеет нормальное распреде
ление, значения параметров распределения заранее не известны- Альтернативная гипотеза: распределение случайной величины отличается от нормального.
В рамках нашей книги это не потребуется, но для лучшего понимания заметим, что параметрами распределения обычно являются математическое ожидание и дисперсия. Иногда вме
сто дисперсии рассматривают корень из нее, т.е. стандартное отклонение. Еще реже, например в задачах контроля качества продукции, вместо дисперсии применяют межквартильный размах. Для проверки гипотезы предлагается использовать один из двух критериев: либо Колмогорова — Смирнова (с поправкой Лилиефорса), либо Шапиро — Уилка. При этом если анализируется меньше 60 наблюдений, рекомендуется использовать критерий Шапиро — Уилка, если больше 60, то критерий Колмогорова — Смирнова. Правило не надо абсолютизировать, число 60 только лишь ориентир. Приведенное правило позволяет уменьшить субъективизм при выборе статистического критерия. Если у вас 65 наблюдений и хочется применить критерий Шапиро — Уилка, применяйте, это не будет ошибкой. В то же время имея 30 наблюдений, лучше применять критерий Колмогорова-Смирнова.
Для лучшего понимания поясним, откуда появилось такое правило. Оно появилось в результате сравнения вероятностей ошибок второго рода. Для маленьких выборок эта ошибка меньше у критерия Шапиро — Уилка, для больших — у критерия Колмогорова — Смирнова. При этом в маленьких выборках меньше 60 наблюдений, в больших — больше 60.
Новичкам не рекомендуется использовать эти критерии одновременно, довольно трудно понять, как поступать, когда два Разных критерия приводят к противоречивым выводам. Опыт-
143
ному статистику легче, он имеет возможность вычленить причину различий, зная статистики каждого критерия.
Замечания.
1. Проверка гипотезы нормальности распределения случайной величины — частный случай проверки гипотезы согласия.
2. Обычно при решении практических задач проверка гипотезы нормальности имеет вспомогательный характер. Встречаются исключения, например тест интеллекта IQ специально сконструирован так, чтобы итоговый коэффициент имел нормальное распределение со средним значением 100 и стандартным отклонением около 16.
В книге гипотеза нормальности будет проверяться, в частности, при анализе остатков регрессионной модели и при выборе статистического критерия для проверки гипотезы о равенстве центров распределения у двух случайных величин.
3. Насколько объективен рассмотренный метод?
Проверяя гипотезу нормальности, аналитик пользуется довольно объективным и (что так же важно) стандартным инструментом.
В рамках этой же проблемы нужно обсудить и такой вопрос: допустим, известно, что распределение случайной величины не нормальное. В каком случае отклонение от нормальности несущественное?
Как оказалось, для тех методов, которые рассматриваются в книге далее, требование нормальности распределения можно ослабить. Эти методы работают не только тогда, когда переменные имеют нормальное распределение, но и когда, как говорят, «распределение данных несущественно отличается от нормального».
Итак, давайте рассмотрим ситуацию, когда гипотеза о нормальности распределения изучаемой переменной отвергнута с помощью статистического критерия. Научимся отличать ситуации, когда отклонения от нормальности распределения несущественны для наших целей. Для этого изучают гистограмму. Предлагается искать на графике три вида отклонений, которые считаются существенными. Это либо наличие выбро
144
сов в данных, либо явная асимметрия гистограммы или очень сильное отклонение формы гистограммы от колоколообразной формы.
Порядок следования характеристик в предыдущем списке отражает их важность. Рекомендуется строго относиться к присутствию выбросов, последствия таких отклонений наиболее пагубны, но снисходительно к отклонениям от симметрии. Нате отношение к колоколообразной форме гистограммы зависит от числа наблюдений. Если имеется меньше 30 наблюдений, наше отношение в высшей степени либерально, если число наблюдений находится между 30 и 150, мы относимся к отклонениям снисходительно, если имеется больше 150 наблюдений — строго.
К сожалению, авторам не известны более формализованные правила. Конечно, новичку трудно понять, что значит «относиться либерально», подобное понимание приходит с опытом (и, к сожалению, с ошибками), поскольку вкладываемый смысл зависит также и от решаемой задачи.
Рассмотрим на примерах, как осуществляется проверка гипотезы нормальности в пакете SPSS.
Пример 9. Распределение населения городов России.
Вернемся к данным о населении городов России в 1959 г. Откройте файл с данными town_1959.sav. Фрагмент этой таблицы представлен на рис. 108.
Проверим гипотезу о нормальности распределения переменной pop (население городов). Сама процедура проверки запрятана довольно далеко. Последовательно выберите Analyze\ Descriptive Statistics\Explore... (Анализ\Описательные стати-стики\Исследовать).
В открывшемся окне на рис. 109 поместите анализируемую переменную pop в окно Dependent List: и нажмите кнопку Plots (Графики). (Да, это не опечатка, проверка гипотезы нормальности распределения заказывается в разделе графиков.)
В появившемся окне произведите следующие изменения (рис. 110).
Снимите флажок Stem-and-leaf, такой график не нужен, это Устаревший способ описывать данные.
145
Qi) townl 959.sav - SPSS Data Editor
File Edit View Data Transform Analyze Graphs Utilities Window Help
ggjH]<s| s| rlgl **J jM ffijflslBl glal
[lnumb_ jj_______________________
I numb town pop In pop
1 М о с ква 5046 8,53
2 Санкт-Петербург 3003 8,01
3 3 Нижний_Новгород 941 6,85
4 4 Новосибирск 885 6,79
5 5 Самара 806 6,69
6 6(Екатеринбург 779 6,66
7 7(Челябинск 689 6,54
8 8(Казань 667 6,50
| 9 9[Пермь 629 6,44
| 10 10 (Ростов-на-Дону 600 6,40
! и 11 (Волгоград 591 6,38
12 12 Омск 581 6,36
13 13(Саратов 579 6,36
4 4 А 4 I С Л7 е on I
Рис. 108. Фрагмент таблицы town_1959.sav
I Explore

номер [numbj Й> город (town] <$> ln_pop
Рис. 109. Диалоговое окно Explore
146
Explore: Plots
Рис. 110. Диалоговое окно Explore: Plots
Поставьте флажок Histogram (Гистограмма), потому что всегда полезно посмотреть на гистограмму, кроме того, если гипотеза нормальности будет отвергнута, по гистограмме предстоит определять, насколько существенны отклонения от нормальности.
Отметьте опцию Normality plots with tests (Проверка нормальности распределения и сопутствующие графики). Эта опция заказывает вычисления, необходимые для проверки гипотезы нормальности; ради нее в первую очередь и открывалась обсуждаемая последовательность окон.
Завершите настройку процедуры, нажимая Continue, а затем ОК.
В окне результатов найдите таблицу Tests of Normality (Критерии нормальности распределения). Она содержит результаты проверки гипотезы нормальности (табл. И).
В таблице критериев нормальности распределения приведены результаты расчетов для двух критериев: Колмогорова — Смирнова (Kolmogorov - Smirnov) и Шапиро — Уилка
147
Таблица И
Tests of Normality
Kolmogorov — Smirnov(a) Shapiro — Wilk
Statistic df Sig. Statistic df Sig.
Население ,398 1004 ,000 ,164 1004 ,000
a Lilliefors Significance Correction.
(Shapiro — Wilk). Так как в исходных данных более 60 наблюдений, применяем критерий Колмогорова — Смирнова. В данном случае оба критерия дают один и тот же результат, но мы следуем правилу. Далее находим в таблице нужное нам р-значение. Его ищем сначала под заголовком Kolmogorov — Smirnov(a) (так как используем критерий Колмогорова — Смирнова) и потом ниже под подзаголовком Sig. (значимость). Эту величину часто называют р-значение, p-значение записано как «,000», такая запись требует расшифровки. Во-первых, как обычно в SPSS, опущен ноль перед запятой, во-вторых, три нуля обозначают, что полученное число меньше, чем 0,001. Какое именно маленькое число, при желании можно выяснить. Для этого можно, например, скопировать таблицу в Excel. Но на практике то-ная величина p-значения редко бывает важной. В первую очередь важен результат сравнения p-значения и уровня значимости, который мы берем равным 0,05, как принято в этой книге. Поскольку уровень значимости больше найденного p-значения, гипотеза отвергается. Напомним, что проверялась гипотеза нормальности распределения, и эта гипотеза была отвергнута.
Далее надо ответить на вопрос: можно ли считать отклонения от нормальности существенными? Рассмотрим гистограмму (см. рис. 111), ее построение было заказано одновременно с проверкой гипотезы нормальности.
Отредактируйте полученную гистограмму, добавьте график плотности нормального распределения, увеличьте число столбцов до 55 и уберите описательные статистики справа от графика.
148
юоо -Г
Histogram
800-
Mean = 52,93 Std. Dev. = 204,886 N = 1 004
6001
400
2001
1000
2000 3000
Население
4000
5000
0-^» 0
Рис. 111. Гистограмма для данных файла towns_1959.sav
Для этого в редакторе диаграмм щелкните на любом столбце и выполните команду Edit\Properties. Для добавления графика плотности нормального распределения на закладке Histogram options (Параметры гистограммы) поставьте флажок Display normal curve (Нанести на картинку график плотности нормального распределения). Для изменения количества столбцов на той же закладке в группе опций Bin sizes (Размеры столбиков) выберите опцию Custom (Определяется пользователем) и в поле Number of intervals (число столбцов) укажите число 55 (рис. 112).
Нажмите кнопку Apply (Применить). Полученная диаграмма представлена на рис. ИЗ.
Ясно видно, что отклонения от нормальности в высшей степени существенные. Пустое пространство в правой части графика появилось за счет выбросов (это города Москва и Ленинград). Сами выбросы не заметны, так как высота соответствующих им столбцов равна 1, что намного меньше, чем высота основного столбца. Кроме присутствия выбросов, распределение явно асимметрично, наблюдения сильно сдвинуты влево.
Окончательный вывод: распределение существенно отклоняется от нормального.
149
Chart Size | Fill & Border Histogram Options |
-Anchor First an—------------—
(* Automatic
C Custom value tor anchor: |0.O
rEtoSzes-

si
Automatic *r
• Custom
{•'Number of in
3*{"j Interval width

f
II
it ‘ Wv *

i?
I Apply I Cancel | Help |
—-—:__________________________&
Рис. 112. Диалоговое окно Properties
Histogram
Frequency
Рис. 113. Гистограмма с графиком плотности нормального распределения
150
Интересно проверить гипотезу о нормальности распределения переменной 1п_рор (натуральный логарифм от величины населения города).
Откройте окно процедуры Explore (исследовать), для этого выполните команду Analyze\Descriptive Statistics\Explore...
На этот раз поместите в окно Dependent List переменную 1п_рор (рис. 114).
MlExplore
Гф номер [numb.]
I Й> город [town]
I ф население [pop]
Dependent List:
OK
Paste
Reset
Factor List:
Label Cases by:
Cancel
Help
г D isplay -------------------------—
I f* Both C Statistics C Plots
Statistics... I Plots... 1 Options... I
Рис. 114. Диалоговое окно Explore
Нажмите кнопку Plots (графики) и выберите те же опции.
Нажмите Continue, h затем ОК.
Рассмотрим таблицу результатов проверки на нормальность (табл. 12).
Таблица 12
Tests of Normality
j _ . _
Kolmogorov — Smirnov(a) ! Shapiro — Wilk
Statistic df Lsig- । Statistic i df Sig. i
Ч-Рор ,063 1004 : ,000 : .975 I 1004 1 ,000
I I L—. ... J . i
^a) Lilliefors Significance Correction.
151
Наблюдений столько же, поэтому снова применяется критерий Колмогорова — Смирнова, p-значение выглядит таким же, а именно «,000», откуда мы заключаем, что p-значение меньше, чем 0,001. Следовательно, p-значение меньше, чем уровень значимости 0,05.
В результате получаем, что гипотеза нормальности распределения отвергнута.
Для проверки того, насколько существенны отклонения от нормальности, снова обращаемся к изучению гистограммы. Если таблицы Tests of Normality в этих примерах похожи, то гистограммы сильно отличаются (см. рис. ИЗ и 115).
Рис. 115. Гистограмма для переменной «логарифм численности населения»
Добавьте на рис. 115 линию плотности нормального распределения. Соответствующая гистограмма представлена на рис. 116.
Гистограмма отклоняется от графика плотности, но это ожидаемо, ведь уже известно, что статистический тест отверг гипотезу нормальности. Придирчивый взгляд найдет асимметрию в очертаниях гистограммы, но явно выраженной асимметрии, конечно же, нет.
152
Histogram
Рис. 116. Гистограмма переменной «логарифм численности населения» с нормальной кривой
Очень неоднозначна ситуация с выбросами. Конечно, присутствуют три выброса. Один — самое левое наблюдение, еще два выброса заметны справа. Разные аналитики отнесутся к ним по-разному. Многие сочтут, что выбросы далеко отклонились от основного массива выборки, другие — что нет. На сегодняшний день нет объективного способа отдать предпочтение одной из двух точек зрения. В таких ситуациях выбор — дело вкуса. Авторы принадлежат ко второй группе, поэтому в данном случае наше заключение — отклонение от нормальности несущественное.
Получается, что два аналитика, изучая одну и ту же гистограмму, могут прийти к разным выводам... К сожалению, это так: при изучении существенности отклонений от нормальности используется довольно субъективная процедура.
Выбор статистики, используемой в качестве Центра распределения
При анализе данных экономического характера исследователя часто интересуют средние характеристики выборок: средний
153
возраст покупателей, величина среднего чека, средний доход клиента и т.д. Однако среднее значение — не всегда лучшая характеристика выборки. В прикладной статистике при анализе данных различных выборок вместо средних значений изучают центры распределений.
Прежде чем сравнивать центры распределений, определим что именно под ними будет пониматься.
В книге под центром распределения понимается то единственное число, которое описывало, характеризовало бы выборку. В качестве центра чаще всего используют среднее арифметическое, медиану или усеченное среднее. Иногда центр распределения интерпретируют как типичное наблюдение выборки.
Часто выбор центра распределения предопределен заранее, например, когда среди специалистов сильна традиция использования среднего или медианы. Тогда выбирать нечего. Иногда заранее неизвестно, какая статистика наиболее пригодна для вычисления центра распределения. Обсудим, какие соображения могут помочь в выборе.
Предлагается следующее правило. Если распределение хотя бы одной из выборок существенно отличается от нормального, в качестве центра предлагается использовать медиану. В остальных случаях, т.е. если распределение каждой выборки можно считать нормальным или несущественно отличающимся от нормального, в качестве центра предлагается использовать среднее арифметическое. Как именно принимать решение о нормальности распределения или о существенности отклонения от нормальности, обсуждалось в предыдущем разделе.
Вопрос, когда в качестве центра распределения надо использовать усеченное среднее, в книге не рассматривается.
В книге будет рассматриваться только случай, когда центры двух распределений определяются одинаково.
Важно! Если в качестве центров распределения выбрана медиана, их сравнивают с помощью критерия Ман-на — Уитни или критерия Вилкоксона.
Если центром распределения выбрано среднее арифметическое, центры сравниваются с помощью одной из версий t-критерия Стьюдента.
154
Дарные и независимые выборки
При сравнении центров распределений с помощью пакета SPSS важно уметь отличать независимые и парные выборки, так как для парных и независимых выборок применяются разные процедуры.
В случае парных выборок имеются пары наблюдений (измерений) одного и того же объекта. Два раза измеряется одно и то же. При этом данные должны быть организованы в виде двух столбцов. В одном столбце содержится «первое» измерение каждого объекта, во втором столбце — «второе» измерение пары.
Рассмотрим набор данных (файл Обучение менеджеров.зач, рис. 117), в котором приведены характеристики работы менеджеров до и после обучения. Чтобы выяснить, дало обучение ка-
агент ! неуд л о I [ вр после неуд_пос
1 Петрова 21 ! 6 1 21 4
2 Скворцова 23 1 6 8 8
3 Фень 23 7 11
4 Тулин 30 9 ! 17 { !
5 Чумакова 43 14_ 38 I
6 Тарасов 62 21 33 101 i—
7 Сампсонов 40 13 34 ' 9
8 Труфелев 38 1зТ зо i 7
9 Смирнова 26 9 22 L — I 7
10 Князева __56 21 I I . ! 16 i
И Пронин 5СГ 20 37_ : 15
12 Макарова 45: 19 ' 29 10
13~ Аристов 16 ' 33 9_
14 Томсон 32j 16 I 21 13
15 Цендер 11! 6 6 4
16 Рогова ] 34| 18 24 14
17 Грачева j 42 23i 38_ 15
18 Чумак 2?Т 16 27 16
19 Пономарев 52 i 41 25! —— — ——4—
20 Чалин 47! —— 41
рис. 117 Данные из файла Обучение менеджеров.sav
155
кой-то эффект или нет, и оценить влияние обучения, сравниваются проценты неудачных переговоров до обучения (переменная неуд_до) и после обучения (переменная не-уд_пос). В этом случае анализируются парные выборки, ведь имеются две характеристики одного и того же объекта, в данном примере — менеджера по продажам, эти характеристики наблюдались дважды — до обучения и после него.
В случае независимых выборок каждое наблюдение соответствует отдельному объекту, т.е. измеряются разные объекты. Принадлежность объектов выборкам определяется по значениям дополнительной переменной.
Рассмотрим набор данных из файла «время_в_магазинах. sav», в котором содержится информация о покупателях магазина. При исследовании фиксировались время, проведенное в магазине до покупки, сумма, потраченная покупателем, и пол покупателя (рис. 118).
Изучая время, проведенное в магазине женщинами (первая выборка), и время, проведенное в магазине мужчинами (вторая выборка), замечаем, что наблюдения из выборки в одном столбце, ' примере ся «время». Это отличает независимые выборки от парных выборок. В случае парных выборок каждая выборка находится в своем столбце. Да-
время сумма ПОЛ
58 17,0 7030,00 м
59 21,0 8430,00 м
60 19,0 6470,00 м
61_ 23,0 9730,00 м
62 25,0 9650,00 м
63 13,0 7260,00 м
64 18,0 8310,00 м
65 32,0 12890,00 м
66 21,0 5470,00 ж
67 28 £ 6720,00 ж
68 17,0 4530,00 ж
69 26,0 6950,00 ж
70 28£ 7660,00 ж
Л _ 29с° j 8210,00 ж
7? 3F. П ' Р7ЯП ПП
Рис. 118. Данные файла Время в магазинах.sav
156
; каждой находятся и том же который в
называет -
заметим, что принадлежность наблюдения к выборке опре-едяется значением, находящимся в дополнительном столбце. В рассматриваемом примере это переменная «пол».
Итак, если наблюдения из двух выборок находятся в одном столбце, то выборки независимые, если в разных — то выборки парные. Но бывают и более сложные случаи. Один из них рас
смотрен в следующем примере.
рассмотрим данные о проценте брака на пяти разных заводах. Данные собирались в разное время, приводятся не значения процента брака, а то, насколько процент брака превышает
заранее заданное пороговое значение, не известное аналитику. В каждом столбце (от РТ1 до РТ5) находятся данные о заводе с соответствующим номером (рис. 119).
PT1 I PT2 PT3 PT4 PTS
1 1,2 16,4 12,1 11,5 24
2 10,1 -6,0 9,7 10,2 -4
3 -2,0 -11,6 7,4 3,8 8
- 4 1.5 -1.3 -2.1 8.3 9
t 5 -3,0 4.0 10,1 6.6 -9
6 -.7 17,0 4.7 10,2 8
; 3,2 3.8 4.6 8.8 16
2.7 4.3 3.9 2.7 22
fc 9 -3,2 10,4 3.6 5.1 3
jjq -1.7 4.2 9,6 11,2 17
dl 2.4 8.5 9.8 5.9 11
L12 ,3 6.3 6.5 13,0 12
JI 3.5 9.0 5.7 6,8 17
114 ^15 JZ -2 121 -.8 7.1 5,1 14,5 -9999
19,4 4.3 3.4 5.2 -9999
2.8 19,7 -.8 7.3 -9999
13,0 3,0 -3.9 7.1 -9999
. 42,7 7.6 ,9 3.4 -9999
1,4 70,2 1.5 ,7 -9999
3,0 8.5 -9999,0 -9999,0 -9999
_____ 2,4 6.0 -9999,0 -9999,0 -9999
__ 1,3 2.9 -9999,0 -9999,0 -9999
Рис 119. Данные с информацией о проценте брака на различных заводах
157
Заметим, что — 9999 в данном случае — код пропущенного значения. Остальные отрицательные значения соответствуют случаям, когда процент брака был ниже порогового значения. Если аналитик захочет сравнить процент брака на двух заво-
дах, например на первом и втором, то он должен понять, какие |у него выборки — независимые или парные. Неизбежное заключение состоит в том, что выборки в данной задаче незави-1 симые. а данные представлены как выборки парные, значит, данные неудачно представлены в таблице SPSS!
брак завод
19 1.4 завод 1
20 3,0 завод 1
21 2,4 завод 1
22 1,3 завод 1
23 16,4 завод 2
24 -6,0 завод 2
25 -11,6 завод 2
26 -1,3 завод 2
27 4,0 завод 2
28 17,0 завод 2
29 3,8 завод 2
30 4.3 завод 2
31 10,4 завод 2
32 завод 2
33 8,5 завод 2
Рис. 120. Преобразованные данные о проценте брака на разных заводах
Да, бывает и так. Вспомним раздел о том, как данные представлены в SPSS. Каждая строка соответствует наблюдению, одному и тому же объекту. В другой задаче такое было бы возможно, если каждая строка соответствовала бы одному и тому же моменту времени, например, если это были бы показатели за один и тот же интервал времени, день, месяц или квартал. Но в рассматриваемом примере это не так. Итак, правильное занесение данных в файл данных SPSS должно быть другим, таким, как указано на рис. 120.
Данные о браке на каждом заводе собраны в одном столбце, в другом столбце указывается, на каком заво-
де регистрировались данные. Теперь нет сомнений, что сравниваются независимые выборки. Что более важно, представление данных соответствует требованиям SPSS.
158
Сравнение
медиан выборок
Важно!
Если выборки парные, рекомендуется использовать критерий Вилкоксона.
Если выборки независимые, рекомендуется использовать критерий Манна — Уитни.
Сформулируем основную и альтернативную гипотезы.
Гипотеза: Медианы равны.
Альтернативная гипотеза: Медианы различаются.
Замечание1.
Строго говоря, эти критерии проверяют не равенство медиан, а другое утверждение.
Имеются две выборки наблюдений случайных величин X и У соответственно.
Гипотеза: Случайные величины X и У таковы, что Р{Х > У} = 1/2.
Альтернативная гипотеза: Случайные величины X и У таковы, что Р{Х > Y} * 1/2.
Для практических целей различие тем не менее несущественно.
Рассмотрим, как применяются критерии Вилкоксона и Манна — Уитни.
Пример 10. Рассмотрим данные из файла State Spending and Ability to Pay.sav. Необходимо сравнить процентное изменение населения за 1950-1960 гг. в США на западе и на востоке. Данные о процентном изменении находятся в столбце GROW, переменная WEST содержит информацию о районе США, для западных штатов используется код 1, для восточных штатов код 0. Переменная state является текстовой и содержит сокращенные названия штатов (рис. 121).
Начинаем с того, что определим вид центра распределения. Проверим гипотезу нормальности распределения для каждой Выборки, т.е. для выборок из восточных и западных штатов.
^то замечание не предназначено для начинающих аналитиков.
159
GROW WEST state
20 8,1 восточный ТЕ
21 12,4 восточный NC
22 12,9 восточный SC
23 14,4 восточный GA
24. 77,2 восточный FL
25 7,0 западный AL
26 ,5 западный |MS
27 14,4 западный [MN
28 5,3 западный [IA
29 9,8 западный |МО
30 2,9 западный ^ND
Рис. 121. Фрагмент данных файла State Spending and Ability to Pay.sav
Имеем две выборки, поэтому анализ надо провести два раза. Осуществим процедуру не самым экономным способом, ее можно выполнить быстрее, зато используемый нами способ универсальный, т.е. применим и при решении других задач.
Выполните команду: Data\Split File... (Данные\ Расщепить файл...).
В окне Split File (рис. 122) выберите опцию Organize output by groups (организовать вывод результатов по группам).
Рис. 122. Диалоговое окно Split file
Поместите переменную (WEST) «регион» в окно Groups Based on (группы формировать по значениям переменной).
160
Сохраните заданный по умолчанию выбор опции Sort the file by grouping variables (Сортировать файл по значениям группирующей переменной).
Напомним, что расщепление файла предписывает пакету каждое действие выполнять не для всего набора данных в целом, а для каждой подгруппы наблюдений этого набора. Если имеется 150 подгрупп, анализ будет выполнен 150 раз. В нашем случае групп всего две, восточные и западные штаты США.
При этом группы определяются значениями переменной «West» (регион). Таким образом, в данном примере первую группу образуют наблюдения, у которых значение этой переменной равно нулю, т.е. восточные штаты США, во второй группе находятся наблюдения, у которых значение переменной равно единице, т.е. западные штаты США. Если бы переменная принимала еще какое-то третье значение, анализ проводился бы три раза.
Нажмите ОК. В правом нижнем углу окна SPSS появилась надпись Split File On (Включено расщепление файла данных на группы).
Теперь перейдем к проверке гипотезы нормальности. Все операции уже обсуждались ранее. Выбираем Analyze\ Descriptive Statistics\Explore...
В открывшемся окне (см. рис. 123) перебросим анализируемую переменную GROW в окно Dependent List1.
Нажав на кнопку Plots (графики), отказываемся от построения графика Stem-and-leaf, заказываем построение гистограммы (Histogram) и отмечаем опцию Normality plots with tests (Проверка нормальности распределения и сопутствующие графики).
’На первый взгляд переменная GROW отсутствует на рисунке. Она присутствует, только видна не полностью. Дело в том, что имя переменной следует за меткой переменной, поэтому имя не видно, оно попало за край окна. Посмотрим на имена двух других переменных, там все нагляднее, так как имя и метка короткие. Например, сначала идет метка переменной «регион», затем имя переменной WEST.
6-!<71 161
Рис. 123. Диалоговое окно Explore для данных файла State Spending and Ability to Pay.sav
Заканчиваем оформление процедуры, нажимая Continue и ОК, далее смотрим результаты в окне вывода.
Первое, что надо отметить, — все таблицы и графики с результатами встречаются два раза. Первый раз под заголовком регион = восточный штат, т.е. для первой группы наблюдений, второй раз под заголовком регион = западный штат, т.е. для второй группы. Ниже приведены табл. 13 и 14 с результатами проверки гипотезы нормальности и гистограммы распределения процентного изменения населения для восточных и западных штатов (рис. 124 и 125).
Таблица 13
Tests of Normality (b)
Kolmogorov — Smirnov (а) Shapiro — Wilk
Statistic df Sig. Statistic df Sig.
, Изменение % населения за 1950-1960 гг. с. ... ,181 ! 24 ,040 ,820 4 ,001
(a) Lilliefors Significance Correction.
(b) регион = восточный штат.
162
Таблица 14
Tests of Normality (b)
Kolmogorov — Smirnov (а) Shapiro — Wilk
Statistic df Sig. Statistic df Sig.
Изменение % населения за 1950-1960 гг. ,211 24 ,007 ,825 24 ,001
(a) Lilliefors Significance Correction.
(b) регион = западный штат.
В каждой группе 24 наблюдения, поэтому оба раза нужно применять критерий Шапиро-Уилка. В каждом случае р-значе-ние равно 0,001, т.е. меньше, чем уровень значимости 0,05, в каждом случае гипотезу о нормальности распределения отвергаем.
Итак, гипотеза о нормальности распределения отвергнута, но может быть отклонения от нормальности не существенны? Проанализируем гистограммы, находящиеся в окне вывода (рис. 124 и 125).
Histogram
Регион = восточный штат
Изменение % населения за 1950-1960 гг.
рис. 124. Гистограмма распределения процентного изменения населения восточных штатов
163
Histogram
Регион = западный штат
Изменение % населения за 1950-1960 гг.
Рис. 125. Гистограмма распределения процентного изменения населения западных штатов
Очевидно, что на второй гистограмме сильно выражена асимметрия графика. На первой гистограмме асимметрия умеренная. На каждой гистограмме видны выбросы, этого достаточно, чтобы сделать вывод, что оба раза отклонения от нормальности существенные.
Хотя это совершенно не важно для наших целей, заметим, что на первой гистограмме выбросом является штат Флорида, на западе это штаты AZ и NV (Аризона и Невада). Определять, какие наблюдения являются выбросами, проще всего с помощью опции Outliers (Выбросы) в той же самой процедуре Explore (Исследовать).
Важно! Выбросы — очень важный элемент данных. Наблюдения, соответствующие выбросам, — кандида-ты на исключение из набора данных, поэтому всегда старайтесь понять, почему данное наблюдение является выбросом.
Сделаем промежуточный вывод. Поскольку распределение выборок существенно отличается от нормального, в качестве центра распределения лучше использовать медиану.
164
Для дальнейшего анализа всей выборки нужно отключить растепление файла на две группы. Для этого выполните команду Data\Split File... (Данные\Расщепить файл...). В открывшемся окне выберите опцию Analyze all cases, do not create groups (Анализировать все наблюдения, не создавать группы). Нажмите ОК.
Перейдем собственно к сравнению выборок. Выборки независимые, и все наблюдения расположены в одном столбце, а принадлежность к выборке определяется значением дополнительной переменной (WEST) «регион».
Сравним медианы в двух выборках с помощью критерия Манна — Уитни. Напоминаем, используется именно критерий Манна — Уитни, так как выборки независимые.
Выполните следующие шаги. Запустите процедуру сравнения медиан командой Analyze\Nonparametric Tests-\2 Independent Samples...
" Moses extreme reactions Г" Wald-Woffowitz runs
r T est T ype * ————— —
Ip Mann-WhitneyU ' Г Kolmogorov-SmirnovZ
b Exact.^Bh Options...
Рис. 126. Диалоговое окно Two-Independent-Samples Tests
Заметим (рис. 126), что критерий Манна - Уитни (Мапп — Whitney U) выделен по умолчанию заранее. Оставьте эту опцию без изменений.
165
Перенесем переменную GROW (изменение % населения за 1950-1960 гг.) в окно Test Variables List. Тем самым укажем, что сравниваются выборки наблюдений из этого столбца. Перенесем переменную WEST (регион) в окно Grouping Variable: (Переменная, по значениям которой определяется принадлежность к группе). Мало указать переменную как группирующую. Обратите внимание: кнопка ОК не активна, так как не все опции заполнены. Подсказка, что не так, находится в окне/опции Grouping Variable: там фигурируют два вопросительных знака. Нажмите кнопку Define Groups...
В появившемся диалоговом окне (рис. 127) задайте значения переменной WEST. (То, что используются именно эти коды, надо выяснить заранее, до запуска процедуры.) Далее нажмите кнопку Continue (Продолжить). В главном окне проце-
Two Independent Samples: Define Gr../^Ед
* I
r Group!: 10
Group 2: [ij
Рис. 127. Диалоговое окно Two Independent Sample: Define Groups
дуры нажмите кнопку Exact... (Точные...).
В появившемся окне (см. рис. 128) можно определить точность вычисления p-значения. По умолчанию установлена опция Asymptotic only
(Пользоваться только асимптотической формулой). Эта опция предписывает применять наиболее простой, но зато и наиболее быстрый метод приближенных вычислений. Мощность компь
ютеров растет очень быстро, сейчас можно применять и точный метод. Для этого надо задать опцию Exact (Точный).
Поскольку точный метод вычисления наиболее долгий, ос-
тавим временной предел, равный 5 мин. Если вычисления по точному методу превысят 5 мин, то анализ будет остановлен. Если в окне вывода появится сообщение о прерванной процедуре, придется либо сохранить настройку точных вычислений и при этом увеличить ограничение по времени, либо вернуться к применению приближенных формул. Заметим, кстати, что прервать затянувшиеся (как кажется аналитику) вычисления
166
Екаск Tests •
С Asymptotic only
C Monte Carlo
Confidence level: Igg
Number of samples: JTOOOO
(* Exact
|7 Time limit per test:
minutes
Exact method will be used instead of Monte Carlo when computational limits allow.
For nonasymptotic methods, cell counts are always rounded or truncated in computing the test statistics.
Рис. 128. Диалоговое окно Exact Tests
можно в любой момент. Для этого надо выполнить команду File\Stop Processor (Файл\Остановить вычисления).
После выбора опции Exact (Точный) нажмите кнопку Continue (Продолжить) и затем ОК, запуская процедуру на выполнение.
В окне вывода результатов получим табл. 15.
Таблица 15
Test Statistics(a)
Изменение % населения за 1950-1960 гг.
Mann — Whitney U 284,000
Wilcoxon W 584,000
Z -,082
Asymp. Sig. (2-tailed) ,934
Exact Sig. (2-tailed) ,939
Exact Sig. (1-tailed) ,469
Point Probability ,004
(a) Grouping Variable: регион.
167
Если бы мы пользовались асимптотической формулой, то обратились бы к строке таблицы
j Asymp. Sig. (2-tailed) ,934
и p-значение равнялось бы 0,934.
Если (как в данном случае) было заказано применение точной формулы для p-значения, то используем одну из двух строк.
Exact Sig. (2-tailed) ,939
Exact Sig. (1-tailed) ,469
Вспомним формулировку задачи. Ставилась задача сравнить изменение населения за 1950-1960 гг. в США на западе и на востоке. Это значит, что альтернативная гипотеза двусторонняя (2-tailed) и p-значение равно 0,939.
Если бы формулировка звучала так: на западе США прирост населения за 1950-1960 гг. выше, чем на востоке, то альтернативная гипотеза была бы односторонней (1-tailed) и p-значение равнялось бы 0,469.
В любом случае p-значение больше уровня значимости 0,05, гипотеза не отвергается.
Обобщая и выходя за рамки математических утверждений, приходим к выводу, что проведенный анализ не дал оснований считать, что рост населения на востоке и западе США был различным.
Рассмотрим еще один пример, в котором сравниваются средние.
Пример 11. Проанализируем данные файла время_в_мага-зинах.зау.
В этом файле представлены данные о времени, которые провел покупатель в магазине, сумме, на которую он приобрел различные товары. Также в каждой строчке указан пол покупателя.
Требуется определить, значимо ли отличается среднее время, проведенное в магазине мужчинами и женщинами, а также средние суммы покупок, делаемых мужчинами и женщинами.
168
Как и в предыдущем примере, сначала проверим гипотезу формальности распределения выборок, соответствующих муж-нинам и женщинам. Проверяемая гипотеза звучит так: случайные величины «сумма» и «время» отдельно для мужчин и женщин (т-е- всего проверяется четыре выборки) имеют нормальное распределение.
Запустите процедуру проверки на нормальность переменных «сумма» и «время» с помощью команды Analyze\ Descriptive Statistics\Explore. Укажите эти переменные в качестве зависимых переменных. На этот раз вместо расщепления файла используйте другой прием. Поместите переменную «пол» в поле Factor List (см. рис. 129). Как и в предыдущем примере, нажмите кнопку Plots и обеспечьте вывод гистограммы и теста на нормальность в отчете вывода (для этого нужно поставить флажки Histogram и Normality plots with tests).
Рис. 129. Диалоговое окно Explore для примера 11
В окне отчета появится результат теста на нормальность каждой из выборок (табл. 16).
В соответствии с критерием Колмогорова — Смирнова получаем, что величины «время» и «сумма» для женщин можно считать нормально распределенными (значимость Sig. > 0,05).
169
Таблица 16
Tests of Normality
Пол Kolmogorov — Smirnov (a) Shapiro — Wilk
Statistic i df Sig. Statistic df Sig.
Муж. : 0.098711 j 65 J 0,190469 0,963115 65 0,049917
« 1 | Жен. 0,105323 ; 65 0,070632 0,925161 65 0,000742
Муж. 0,116183 65 ; j i । 0,02943 0,96158 65 0,041465
1 Жен. Й. ; 0,103431 1 65 ! 1 0,081336 0,96951 65 0,108729
(a) Lilliefors Significance Correction
Для мужчин ситуация несколько иная. Для переменной «сумма» (пол = «м») значимость Sig. = 0,19 свидетельствует о том, что эту величину можно считать нормально распределенной. Для переменной «время» (пол = «м») величина Sig. равна 0,02, что требует отвергнуть нулевую гипотезу о нормальности распределения этой переменной. Обсудим тогда вопрос, можно ли считать распределение переменной «время» отклоняющимся от нормального несущественно.
Для этого проанализируем гистограмму, приведенную на рис. 130. Добавим на гистограмму нормальную кривую и установим количество интервалов по оси X равным 10. (Напомним, что для этого нужно дважды щелкнуть на гистограмме для активизации режима ее редактирования. Затем нужно щелкнуть правой кнопкой мыши на любом столбце и в появившемся диалоговом окне выбрать команду Properties Window («Окно свойств»). В следующем диалоговом окне на закладке Histogram options нужно установить опцию Display normal curve и установить количество интервалов равным 10.
170
Histogram
Время
Рис. 130. Гистограмма для переменной «время» (пол = «м»)
Делаем вывод, что распределение переменной «время» (пол = «м») отличается от нормального несущественно.
Тогда для решения вопроса, является ли различие в средних значениях переменных «сумма» и «время» для мужчин и женщин значимым, применим t-критерий Стьюдента.
Для этого выполните команду Analyze\Compare means\ Independent Samples T-test. (Анализ\Сравнение средних\ t-критерий для независимых выборок).
В появившемся диалоговом окне в качестве зависимых переменных укажите сумму и время, а в качестве группирующей переменной — пол. Нажав кнопку Define groups, укажите значения переменной «пол»: 1 и 2.
В табл. 17 приведен фрагмент из получившегося отчета. Величина Sig. для переменных «время» очень мала, что позволяет отвергнуть гипотезу об отсутствии значимого различия между средними величинами времени, проводимого в магазине мужчинами и женщинами, и, следовательно, позволяет сделать вывод о значимом различии между этими величинами.
Аналогично делается вывод о значимом различии между средними значениями сумм покупок, делаемых мужчинами и женщинами.
171
Таблица 17
Independent Samples Test
Independent Samples Test — —
Levene’s Test for Equality of Variances t-test for Equality of Means
F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference
Lower Upper
Время Equal variances assumed 0,604 0,439 -4,437 128 ,000 -4,138 0,9328 -5,984 -2,293
Equal variances not assumed -4,437 127,82 ,000 -4,138 0,9328 -5,984 -2,293
Сумма Equal variances assumed 0,341 0,560 4,948 128 ,000 1784,76 360,717 1071, 2498,51
•> Equal variances not assumed 4,948 127,13 ,000 1784,76 360,717 1070,98 2498,56 ,
табл- IS видно, что в среднем мужчины проводят в мага-71 мин и тратят при этом 8442 руб., а женщины проводят зИ11® „ и тратят 6657 руб.
2^ Таблица 18
Group Statistics
пол N Mean Std. Deviation Std. Error Mean
$ремя м 65 20,615 5,4161 ,6718
ж 65 24,754 5,2173 ,6471
Сумма м 65 8441,8462 2139,50337 265,37273
ж 65 6657,0769 1969,79593 244,32312
Возможность проинтерпретировать полученные цифры мы
предоставим
читателю.
Пример 12. Рассмотрим пример, в котором решается вопрос о значительном различии средних значений в парной выборке (файл Обучение_менеджеровлау).
В компании был проведен тренинг по обучению менеджеров, работающих с клиентами. Нужно определить, был ли тренинг эффективным. Для этого предлагается сравнить время, которое тратил каждый менеджер на работу с клиентом до обучения и после обучения. Время включает весь период от первого контакта с клиентом до заключения сделки.
Сначала проверим, можно ли считать распределение «количество дней до обучения» и «количество дней после обучения» близким к нормальному.
Для этого запустите процедуру проверки на нормальность переменных «количество дней до обучения» и «количество дней после обучения» с помощью команды Analyze\ Descriptive Statistics\Explore. Укажите эти переменные в качестве зависимых переменных. Нажмите кнопку Plots и обеспечьте вывод гистограммы и теста на нормальность в отчете вывода (для этого нужно поставить флажки Histogram и Normality plots with tests). В табл. 19 приведен результат теста на нормальность.
173
Таблица 19
Tests of Normality
Kolmogorov — Smirnov (а) Shapiro — Wilk
Statistic df Sig. Statistic df Sig.
Количество дней от первого контакта до заключения сделки (до обучения) ,087 20 ,200* ,992 20 ,999
Количество дней от первого контакта до заключения сделки (после обучения) J ,139 20 ,200* ,931 20 ,162
*This is a lower bound of the true significance.
(a) Lilliefors Significance Correction.
Критерий Шапиро-Уилка позволяет считать распределение изучаемых переменных близким к нормальному.
Тогда для решения вопроса, имеется ли различие в средних значениях переменных, мы можем применить параметрический t-тест для парных выборок. Нулевая гипотеза в этом случае звучит так: «Нет значимого различия между средними значениями величин «количество дней до обучения» и «количество дней после обучения».
Для запуска нужной процедуры выполните команду Analyze\Compare means\Paired Samples T-test... (Анализ\ Сравнение средних\Ькритерий для парных выборок). В диалоговом окне, приведенном на рис. 131, выделите переменные «количество дней до обучения» и «количество дней после обучения» и поместите полученную пару в поле Paired Variable. Нажмите кнопку ОК.
174
Paired-Samples T Test
кол-во дней от первог ф процент неудачных а
Я $> кол-во дней от первог
£ процент неудачных ад 1~
Paired Variables: вр_до - вр_после
W Cancel
Help
: -Current Selections
£ i Variable 1:
Il t Variable 2:
Рис. 131. Диалоговое окно Paired Samples T-test
В табл. 20 приведен отчет по проведенной процедуре.
Значимость меньше, чем 0,05, следовательно, гипотеза о равенстве средних значений парных выборок должна быть отвергнута. Из чего мы можем сделать вывод о том, что обучение сотрудников компании было полезным и среднее время, затрачиваемое менеджерами на контакты с клиентами до обучения и после обучения, значимо различается. Из табл. 21, присутствующей в окне вывода, видно, что в среднем до обучения менеджеры тратили 37 дней, после обучения — 27, это различие значимо.
Упражнение. По данным файла Обучение менеджеров.sav проверьте можно ли считать, что процент неудачных сделок до обучения менеджеров и после их обучения значимо различается.
175
Таблица 20
Paired Samples Test
— Mean Paired Differences t df Sig. (2- 1 tailed)
Std. Deviati on Std. Error Mean 95% Confidence Interval of the Difference
- Lower _ Upper — — .. —
Pair 1 Количество дней от первого контакта до заключения сделки (до обучения) — количество дней от первого контакта до заключения сделки (после обучения) | 9,367 6,906 1,544 6,135 12,598 1 6,066 19 ,000
Paired Samples Statistics
Mean N Std. Deviation Std. Error Mean
Pair 1 Количество дней от первого контакта до заключения сделки (до обучения) 36,88 20 13,051 2,918
I количество дней от первого контакта до заключения сделки (после обучения) 27,52 20 10,922 2,442
АНАЛИЗ КАЧЕСТВЕННЫХ ПЕРЕМЕННЫХ.
таблицы сопряженности
Критерий Хи-квадрат
Перейдем к методам анализа зависимости(ей) между переменными. Нужно различать два типа задач. В первом случае проверяется, есть зависимость или нет, а если есть, измеряется степень зависимости. Во втором случае аналитик пытается описать, смоделировать зависимость. Если анализируются две качественные переменные и ставится вопрос о влиянии одной из них на другую, то в первом случае обычно изучают таблицы сопряженности признаков, а во втором — строят, например, регрессионную логит-модель (логит-регрессию). Второй подход требует хорошего знания линейной регрессионной модели и в пособие не включен.
Рассмотрим критерий Хи-квадрат, который чаще всего применяется в случае, когда обе изучаемые переменные измерены в номинальной или порядковой шкале (часто такие переменные называют качественными). Сразу отметим, что данным способом нельзя установить, какая из двух переменных оказывает влияние (она часто называется независимой), а какая из них подвергается влиянию (и называется зависимой). В простых ситуациях различие переменных определено еще при постановке задачи. Например, то событие, которое произошло раньше, влияет на более позднее, а не наоборот, количество осадков влияет на урожай, а не наоборот. В более сложных ситуациях распознать зависимую и независимую сложно. Вообще Гов°Ря, совсем не обязательно, что раз событие «А» произошло п°сле события «В», то оно произошло «по причине В». Для ре-Шения задач со сложной структурой зависимостей часто при-
177
меняют факторный анализ, описанный в соответствующем разделе.
В каких ситуациях актуален анализ таблиц сопряженности? В табл. 22 приведены примеры вопросов, на которые помогает ответить указанный метод.
Таблица 22
Примеры задач, решаемых с помощью анализа сопряженности переменных
Постановка вопроса Зависимая переменная 1 Независимая переменная
1. Зависит ли выбор товара покупателями от района их проживания? Категории товаров Район проживания
2. Зависит ли выбор товара покупателями от их принадлежности к той или иной возрастной группе? Категории товаров Возрастные группы
3. Зависит ли охват населения средствами рекламы от возрастных групп населения? Средства рекламы Возрастные группы
I - ; 4. Являются ли определенные ! средства рекламы наиболее под-ходящими для определенных ка- j тегорий товаров? Средства рекламы Категории товаров
Анализ таблиц сопряженности состоит из двух этапов:
1. Составление таблиц сопряженности признаков (иногда их называют перекрестными таблицами).
2. Проверки гипотезы независимости переменных.
Рассмотрим на примере, что представляет собой перекрестная таблица и как она строится.
Пример 13. По результатам анкетного опроса сформирована таблица из 181 наблюдения о предпочтениях городских и
178
сельских жителей в выборе масло — маргарин. Каждое наблюдение (строка) содержит ответы одного опрошенного.
Независимой переменной в этой таблице является район проживания покупателя: город или сельская местность, а зависимой переменной — его выбор: масло или маргарин (фрагмент эТой таблицы представлен на рис. 132).
Qgj масло_маргарин - SPSS Data Editor
File Edit View Data Transform Anaiyze Graphs Utilities Window Help jJitalal ?l rid gl Ы&Т *j_,glfclBla;lsll»^li T^good p
1
2
3
4
_5
6
2 a
region______| good var | var
сельская местность । масло: i
___________________1 — -------------------------------------------город; маргарин; i сельская местность маргарин"’-;
город] масло jj сельская местность: масло!
город! масло!
город; масло;
город( масло I
9 _________город; масло; |
< | >• |\ Data View / Variable View / '""]<{ |
SPSS Processor is ready
Рис. 132. Фрагмент таблицы, содержащей данные о предпочтениях покупателей
В перекрестной таблице в строках и столбцах находятся итоговые данные для групп одинаковых значений. Перекрестная таблица для данных этого примера имеет вид, представленный в табл. 23.
Рассмотрим, как интерпретируются данные из этой перекрестной таблицы: 30 городских жителей из ИЗ опрошенных предпочитают покупать масло, а 83 городских жителя предпочитают покупать маргарин. 45 сельских жителей из 68 опрошенных предпочитают покупать масло, а 23 - маргарин. Иногда говорят, что такая таблица показывает профиль предпочтений городских и сельских жителей. Можно предположить, что городские жители предпочитают использовать маргарин, а сельские жители — масло.
179
Таблица 23
Перекрестная таблица для данных о покупательских предпочтениях городских и сельских жителей
I Товар Total
Масло Маргарин
Район j Город 30 83 113
; ! Сельская местность 45 23 68
Total 75 106 181
Для того чтобы в SPSS построить перекрестную табл. 23, нужно выполнить команду Analyze\Descriptive statistics\ Crosstabs (Анализ\Описательные статистики\Перекрестные таблицы). В появившемся диалоговом окне, представленном на рис. 133), нужно выделить переменную «район» и нажать
Crosstabs
j£> район [region] $> товар [good]
Row(s):
Column(s):
OK
Paste
Reset
Cancel
Help
j- Layer 1 of 1 — -----------
Previous | Next
Г" Display clustered fcar charts
Г" Suppress tables
E><act . | Statistics... | Cglls... | 1
Рис. 133. Диалоговое окно Crosstabs (перекрестные таблицы)
180
на рис. 134.

Crosstabs: Ceil Display
Continue I
стрелку направо, находящуюся около поля Rows (строки); затем нужно выделить переменную «товар» и нажать стрелку направо, находящуюся около поля Columns (столбцы). Далее следует нажать кнопку ОК.
В открывшемся окне с отчетом появится перекрестная таблица, представленная в табл. 23.
Очень часто при анализе качественных переменных возникает необходимость оценить процентное соотношение групп данных, например какой процент городских жителей предпочитает масло. Для этого нужно нажать кнопку Cells (Ячейки) в диалоговом окне, представленном на рис. 133, и выбрать опцию Bow (Строки) в группе опций Percentages (Проценты) диалогового окна Crosstabs: Cells Display (Таблицы сопряженности: Вывод в ячейках), п
Нажав последовательно кнопки Continue и ОК, вы получите таблицу, представленную на рис. 133. Из этой таблицы видно, что 26,5% городских жителей предпочитают масло, а 73,5% — маргарин; 66,2% сельских жителей предпочитают масло, а 33,8% — маргарин. Из всех 181 опрошенных покупателей 41,4% предпочитают масло, а 58,6% — маргарин. Теперь понятно, почему в окне, представленном на рис. 134, была выбрана опция Row (строки): надо было получить значения процентов в пределах каждой строки, построчно. (Проверьте, ято сумма процентов по строке равна 100%.)
Cancel
-Counts -
i
! P Observed
* F E cted
F Total
IГ Percentages
Lp Row
Help
Г Residuals----------
F Unstandardized F Standardized
F Adj. standardized
Рис. 134. Диалоговое окно Crosstabs: Cell Display
181
Рис. 135. Перекрестная таблица с расчетом процентов по строкам
Рис. 136. Перекрестная таблица с расчетом процентов по столбцам
182
Заметим, что итоговые данные, количество наблюдений, но-й1пих в каждую клетку, можно было бы убрать. Для этого на-1 было смять опцию Observed (количество наблюдений).
Если в диалоговом окне, представленном на рис. 134, вместо опции R°w выбрать опцию Column (подсчитать значения процентов в пределах каждой колонки), то получится результат, как на рис. 136.
Эта таблица дает возможность взглянуть на данные с другой стороны: из 75 опрошенных покупателей, предпочитающих масло, 40% городских жителей, а 60% - сельских; из 23 опрощенных покупателей, предпочитающих маргарин, 78,3% городских жителей, а 21,7% — сельских жителей. Рассмотренная таблица показывает профиль каждого товара.
Существует еще один полезный вариант перекрестной таблицы с выводом так называемых общих процентов. Общий процент — это процент, который составляют наблюдения, попавшие в клетку таблицы, от всех наблюдений. Для их вывода надо в диалоговом окне, представленном на рис. 134, установить флажок Total. Соответствующая перекрестная таблица представлена на рис. 137.
Output 1 - SPSS Viewer Q®®
File Edit ^ie’/' Insert Format Analyze Graphs Utilities jVindo/. Help
cg]ajgi&r»i ^ГТаЫь| Si _l
район * товар Crosstabulation
товар Total
масло маргарин
район город Count % of Total 30 16.6% 83 45,9% 113 62 4%
сельская местность Count % of Total 45 24,9% 23 12,7% 68 37.6%
Total Count % of Total 75 41.4% 106 58.6% 181 100.0%
• ’_______ SPSS Processor is ready________________________________________
Рис- 137. Перекрестная таблица с расчетом общих процентов
183
Заметим, что существует возможность вывести значения процентов по строкам и столбцам одновременно, но в этом случае перекрестная таблица будет перегружена цифрами, а значит, более сложна для интерпретации. Не ленитесь, стройте несколько таблиц, лишние 5 секунд, потраченные на вывод нескольких таблиц, окупятся при анализе.
Итак, полученные результаты все более убеждают нас, что выбор большинством городских жителей маргарина, а сельских жителей масла неслучаен. Существует ли какой-нибудь объективный метод подтверждения нашей гипотезы?
Для проверки гипотез о зависимости качественных переменных, измеряемых по номинальной шкале, используют так называемый тест Хи-квадрат. (Термин «Хи» происходит от греческой буквы %, так назвали этот статистический критерий классики.) Алгоритм применения этого метода очень прост. Рассмотрим его.
Итак, уже построена перекрестная таблица, она проанализирована и была выдвинута гипотеза, что выбор между маслом и маргарином зависит от района проживания покупателей.
Основная гипотеза: переменные «район проживания покупателя» и «предпочтения в выборе масло — маргарин» независимы.
Альтернативная гипотеза: переменные «район проживания покупателя» и «предпочтения в выборе масло — маргарин» зависимы.
Напомним, критерий Хи-квадрат не различает зависимую переменную и независимую, какая переменная влияет, а какая подвергается влиянию, домысливает аналитик. И он может при этом ошибиться...
Снова выполните команду Analyze\Descriptiye statistics\ Crosstabs. В диалоговом окне, представленном на рис. 138, нажмите кнопку Statistics. В появившемся в ответ новом диало--говом окне Crosstabs: Statistics (Перекрестные таблицы: Статистики) установите флажок Chi-square, нажмите кнопку Continue, а затем кнопку ОК (рис. 138).
Результат применения критерия Хи-квадрат приведен на рис. 139. Вообще говоря, информативной для исследователя является величина коэффициента Хи-квадрат 27,473, которую
184
^sstabs: Statistics -
Мопцп
. contingency coefficient j p phi and Cramer's V
p [.ambda
p (Jncertainty coefficient
Г~ Correlations г Ordinal--------—
I Г* Gamma
, Г Somers' d
; Г Kendall's tau-b
' Г Kendall's tau-c
Continue I
Cancel |
Help
1 F Kappa F Risk. Г McNemar
p Cochran's and Mantel-Haenszel statistics Test common odds ratio equals: [i
Nominal by Interval
Г
Рис. 138. Диалоговое окно Crosstabs: Statistics
ft Outputl - SPSS Viewer
File Edit View Insert Format Analyze graphs Utilities Window Help
Chi-Square Tests
ли
^earson Chi-Square Сог&ТГСбГГШбДО Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association _N of Valid Cases
27.321
181
Value 2^4> 25,864 27.773
Wnp. Sig. (p-sided)
.000 .000
.000
SPSS Processor is ready
Exact Sig. 112-sided;
Exact Sig. (1-sided;

, JW *
рис. 139. Результат применения метода Хи-квадрат
185
нужно сравнить с некоторым известным табличным значением. Эти табличные значения уже рассчитаны и находятся в любом учебнике по статистике.
Напомним, что SPSS предлагает другой, более экономный путь, не требующий использования специальных таблиц. Достаточно посмотреть на величину Sig.
В нашем примере величина Sig. очень близка к нулю (меньше, чем 0,001), меньше уровня значимости 0,05, следовательно, гипотеза независимости отвергнута. Интерпретируя результат, получаем, что имеется зависимость предпочтений покупателей в выборе «масло — маргарин» от района их проживания.
Заметим, что не рекомендуется использовать значение статистики Хи-квадрат для описания степени зависимости переменных, для этого используют коэффициенты Чупрова, Крамера, Пирсона.
Чаще всего критерий Хи-квадрат применяют одновременно с вычислением таблицы сопряженности, а не после нее.
Применение метода требует выполнения двух условий:
1. Набор данных представляет собой случайную выборку из рассматриваемой генеральной совокупности.
2. Для каждой комбинации категорий ожидаемое количество наблюдений в ячейке не меньше 5. Если это условие нарушено, надо перекодировать переменные, объединяя категории так, чтобы условие начало выполняться. Поскольку при всяком объединении теряется информация, желательно сделать изменения минимальными.
Как уже говорилось, метод Хи-квадрат используется, если переменные измеряются в номинальной шкале. Он используется и для переменных, измеренных в других шкалах, если значения этих переменных были предварительно категоризированы. Например, переменная «возраст» (количество лет) преобразуется в новую со значениями «до 18 лет» (код «1»), «от 19 до 55 лет» (код «2») и «старше 55 лет» (код «3»). Полученная переменная принимает всего три значения, ее значения измерены в порядковой шкале, но, пренебрегая упорядоченностью значений (если код больше, то человек старше), можно считать эти значения кодами переменной, измеренной в номинальной шкале.
186
диализ взаимосвязи переменных дичественной шкалы, проводится КоГО и регрессионного анализа.
, измеряемых с помощью с помощью корреляцион-
^онтролъные вопросы
1. Какой результат дают перекрестные таблицы’ 2 Какой инструмент Microsoft Еад1 ныи таблицам сопряженности?
3 Что такое нулевая гипотеза?
4. Как звучит нулевая гипотеза в тесте Хи-квадрат*?
5. Какова должна быть величина значимости Signecra Хм-квад-рат, для того чтобы можно было утверждать, что одна каче-ственная переменная зависит от другой?
6. В каких задачах используются перекрестные таблицы*?
7. Приведите самостоятельные примеры применения теста Хи-квадрат.
6. КОРРЕЛЯЦИОННЫЙ
И РЕГРЕССИОННЫЙ АНАЛИЗ
Корреляционный анализ позволяет оценить взаимосвязь между двумя переменными и в случае положительного ответа измерить степень ее выраженности.
Регрессионный анализ проводится в предположении, что существует линейная зависимость между переменными, и показывает, как можно предсказать и управлять одной из переменных (зависимой переменной) с помощью одной или нескольких других переменных (независимых переменных).
Таблица 24 содержит типичные вопросы, возникающие в бизнесе и решаемые с помощью регрессионного анализа.
Таблица 24
Примеры проблем, решаемых с помощью регрессионного анализа
I Постановка вопроса | Зависимая переменная Независимая переменная
* 1. Зависит ли объем това- । рооборота от числа посе- 1 щений клиентов? | Объем товарооборота в заданном периоде Число посещений клиентов в заданном периоде
; 2. Каким образом изме- 1 нится объем сбыта при : увеличении объема рек-; ламы в 2 раза? Объем сбыта в заданном периоде Объем рекламы
3. Существует ли взаимосвязь между объемом сбыта и объемом рекламы, ценой и числом визитов представителей фирмы? Объем сбыта в заданном периоде 1 ! _1 Число визитов представителей фирмы, цена то- 1 вара, затраты на рекламу в заданном периоде
188
Продолжение табл. 24
Постановка вопроса Зависимая переменная Независимая переменная
4. Каким образом можно оценить изменение объема сбыта в ближайшие месяцы? Объем сбыта за месяц Количество месяцев 1
5. Каким образом можно оценить уменьшение силы воздействия рекламы с течением времени? Объем сбыта в период t Объем рекламы в различные периоды
6. Как отразится на объеме сбыта увеличение цены на 10%, если затраты на рекламу также увели-1 чатся на 10%? Объем сбыта в заданном периоде Затраты на рекламу, цена
Эти ситуации можно объединить в три основных класса задач, решаемых с помощью регрессионного анализа (табл. 25).
Таблица 25
Классы задач, решаемых с помощью регрессионного анализа
Название класса задач Цель решаемых задач
Аналитическое исследование взаимодействия переменных Определить степень влияния независимых переменных на зависимую переменную
Прогнозирование влияния одной переменной на Другую Определить как изменяется значение зависимой переменной при измене- i нии значений независимых переменных
Анализ поведения переменной во времени —— Определить как изменяется значение зависимой переменной с течением времени, а также как оно будет изме- : няться в будущем при сохранении существующих условий
189
Исследование взаимосвязей с помощью диаграмм рассеяния и корреляций
Корреляционный анализ дает возможность установить, взаимосвязаны ли переменные. Если увеличение значений независимой переменной ведет к увеличению зависимой переменной, то говорят, что существует положительная корреляция между переменными. Если увеличение независимой переменной ведет к уменьшению зависимой, то говорят, что существует отрицательная корреляция. Корреляция, близкая к нулю, свидетельствует о том, что две переменные никак не связаны. В статистике широко используется коэффициент корреляции. Этот коэффициент используют, чтобы определить, существует ли между переменными линейная зависимость.
Функциональная и статистическая зависимость
Начнем с определений функциональной зависимости и статистической зависимости.
Функциональная зависимость переменных будет обозначаться у = /(х) и является правилом, в соответствии с которым по значениям переменной х однозначно определяются значения другой переменной у. Функция f — краткое обозначение правила. Именно функциональную зависимость все мы изучали в школе. Ее обычно иллюстрируют графиком функции. Например, функциональная зависимость может иметь вид у = 1п(х). В рассматриваемом примере график может иметь следующий вид (рис. 140).
В данном примере зависимость даже взаимно однозначная: не только по аргументу х можно определить значение у, но и по у можно определить х. Но это верно не для всех функций, например синус не взаимно однозначная, если х определен на всей числовой оси.
Статистическая зависимость двух переменных — обобщение функциональной зависимости. В этом случае одному и тому же значению х могут соответствовать разные значения у-Например, один и тот же товар (например, мобильный телефон) продается в разных магазинах по разной цепе, т.е. одному
190
и тому же товару соответствуют разные цены. В чем же тогда зависимость? По
определению статистическая зависи-
мость — это функциональная зависимость СРЕДНЕГО значения переменной у от значения переменной х. Заметим, что если применять вероятностную модель, то вместо среднего значения мы говорили бы о ма
Рис. 140. График функции у = 1п(х)
тематическом ожидании случайной величины у. Откуда появляется среднее значение? Проводятся эксперименты (или наблюдается явление) при одном и том же
значении х, при этом регистрируются разные значения у, затем эти значения усредняются. На практике не всегда заметно, что одному и тому же значению переменной х может соответствовать много значений у, например, когда не проводились повторные наблюдения при одном значении х.
При изучении взаимного влияния нескольких переменных, в частности при проведении корреляционного или регрессионного анализа, очень полезно рассматривать диаграммы рассеяния. На диаграмме рассеяния каждому наблюдению соответствует точка. Координаты точки равны значениям переменных Для этого наблюдения, первая координата равна значению первой переменной, вторая координата — значению второй переменной и т.д.
В нашем случае изучаются всего две переменные, каждому наблюдению будет соответствовать точка на плоскости. На рис. 141 и 142 приведены две диаграммы рассеяния, в каждом случае среднее значение переменной у равно натуральному ло-гарифму значения переменной х.
191
Рис. 141. Диаграмма рассеяния, случай большого разброса данных
Рис. 142. Диаграмма рассеяния, случай умеренного разброса данных
Когда функциональная зависимость заранее определена, работать удобно и просто. Измерять переменную у не надо, она однозначно определяется по значению переменной х. Когда установлен вид статистической зависимости, ситуация немного осложняется. Обычно для заданного значения переменной х определяют интервал, в который с наперед заданной вероятностью попадет значение у. Такой интервал называется доверительным, методы его построения излагаются в любом учебнике математической статистики. В нашей книге доверительные интервалы не используются.
В данном разделе рассматривается намного более сложная ситуация, когда неизвестно даже есть ста-
тистическая зависимость или ее нет, когда сам факт присутствия зависимости подвергается сомнению. Вернемся к рис. 141 и 142. Если при рассмотрении рис. 142 еще можно угадать логарифмическую
192
зависимость переменных, то на рис. 141 (не зная правильного ответа) можно усмотреть лишь общую тенденцию к росту, т.е. что большим значениям переменной х соответствуют большие значения переменной у. Часто говорят, что зависимость между переменными х и у в примере, изображенном на рис. 142, сильнее (более ярко выражена), чем зависимость в данных, изображенных на рис. 141.
Диаграммы рассеяния
Прервем теоретические рассуждения и рассмотрим пример построения диаграммы рассеяния с помощью пакета SPSS.
Пример 14. Рассмотрим данные из файла Альбукерк.зау.
В файле приведены данные риэлтерских компаний о сделках купли-продажи жилой недвижимости.
Анализируемые данные являются случайной выборкой из записей о перепродажах домов, совершенных между 15 февраля и 30 апреля 1993 г. Информация предоставлена Советом риэлтеров (Albuquerque Board of Realtors) Альбукерка, США. Файл содержит 117 наблюдений.
Описание переменных:
price — продажная цена в сотнях долларов;
sqft — площадь в квадратных футах;
age — возраст дома (в годах);
feats — количество дополнительных удобств из 11 возможных: посудомоечная машина, холодильник, микроволновая печь, домофон, ночная подсветка участка, сушилка, удобства для инвалидов, кабельное телевидение и т.д:
north_e — дом расположен в престижном районе на северо-востоке города или нет;
cust — тип постройки: был ли дом обычной постройки или нет;
сог — как расположен дом, на углу или нет;
tax — величина налогов за владение домом.
В этом примере конечной задачей исследования будет построение модели, позволяющей по заданным значениям харак-
7- 147!
193
Рис. 143. Диалоговое окно Scatterplot
Simple Scatterplot
х
g} возраст [age] г—। X^xis;---------------
ф удобства [feats] L2J | ф иена [price]
< ф район [north_e] _________________ x д ^.
5Г <$> тип застройки [cust] 1-^'1 ’ =---------------
Ф <£> угол [cor] - L*
|И налоги [tax] '
я ф> возраст [age2]• Ч ф налоги [tax2] i ДФ price (FILTER) [filter_$|.
площадь [sqrt]
Set Markers by:
OK |
- ~a$te I
Reset I
Help |
Label Cases by:
Columns:
-Panel by— Rows.
pHI
r Template1
Г" Use chart specifications from
h. *

Titles... | Options |
Рис. 144. Окно Simple Scatterplot
194
теристик дома оценить его продажную цену. Например, чтобы сообщить клиенту, на какую цену он может рассчитывать при продаже дома. Эта модель будет построена позднее, пока мы только делаем предварительный анализ.
Чтобы прикинуть, какие из имеющихся переменных влияют на цену домов, построим диаграмму рассеяния для переменных «цена» и «площадь» (вообще говоря, рекомендуется рассматривать диаграммы для каждой пары переменной).
Для этого следует выполнить команду Graphs\ScatterDot (Графика\Рассея-ния).
В появившемся Диалоговом окне (рис. 143) выберите вариант Simple (Простая). Затем нажмите кнопку Define (Определить). В диало-говом окне, представ-
Рис. 145. Диаграмма рассеяния, отражающая зависимость цен домов от их площади
Возраст
Рис. 146. Диаграмма рассеяния «Цена дома — Возраст дома»
195
ленном на рис. 144, в качестве аргумента X — X Axis укажите площадь (sqft), а в качестве зависимой переменной Y (Y Axis) — цена (price). Для этого нужно щелкнуть на соответствующей переменной и нажать стрелку направо. Далее нужно нажать на кнопку ОК.
Несмотря на то, что на диаграмме есть отдельные «выбросы» (рис. 145) в целом можно считать, что получилось вытянутое облако, характерное для переменных, между которыми существует линейная взаимосвязь (что, впрочем, естественно).
Построим диаграмму рассеяния переменных «цена» — «возраст дома». Приведенная на рис. 146 диаграмма показывает, что взаимосвязь между этими переменными достаточно слабая.
Некоторые приемы работы с диаграммами рассеяния
В целом диаграммы рассеяния редактируются с помощью тех же приемов, что и остальные диаграммы.
Но если аналитика интересуют, например, номера наблюдений, значения которых сильно отличаются от остальных, то нужно зайти в редактор диаграмм Chart Editor, выполнить команду Elements\Data Label Mode (Диаграмма\Режим идентификации данных) или нажать на панели инструментов кнопку
. Затем нужно выделить мышью те точки, которые вас интересуют. В результате около каждой точки появится номер наблюдения. Если такие точки являются выбросами, то их следует исключить из анализа. (Напомним, что это делается с помощью команды Data\Select Cases.)
Когда аналитику надо оценить попарные связи между несколькими переменными, утомительно строить диаграмму для каждой пары. Можно заказать построение нескольких диаграмм одновременно. Для этого командой Graphs\Scatter\Dot (Графики\Диаграмма рассеяния\Точечная) откройте диалоговое окно Scatterplot (Диаграмма рассеяния), которое изображено на рис. 143. В этом окне вместо опции Simple (Простая) выберите Matrix (Матрица диаграмм рассеяния).
196
Данные могут быть разбиты на группы. В рассматриваемом примере группы могут различаться тем, расположен дом на углу или нет. При другом варианте разбиения дома в группах могут различаться по числу удобств. В первую группу входят дома без удобств, во вторую — с одним удобством, в седьмую — с шестью удобствами... В другой задаче при анализе анкет бывает интересно сопоставить ответы женщин и мужчин. Информация о принадлежности к группе содержится в отдельной переменной. В рассматриваемом примере это переменные сог (как
расположен дом, на углу или нет), feats (количество дополнительных удобств из 11 возможных), при анализе анкет наверняка будет переменная «пол». Если такой переменной нет, ее можно создать, в нашем примере может понадобиться переменная «ценовой сегмент» со значениями «1», если цена дома выше ме-
Площадь дома
Рис. 147. Диаграмма рассеяния цена дома — площадь дома с выделением угловых и неугловых зданий
в окне Simple Scatterplot (см. рис. 144)
дианы, и «О», если ниже.
Чтобы различать на диаграмме рассеяния наблюдения из разных групп, нужно
поместить переменную, указывающую на принадлежность к группам, в окно Set Markers by (Цвет точки определяется переменной). Если цвет определяется переменной сог (как расположен дом, на углу или нет), то диаграмма рассеяния, представленная на рис. 145, преобразуется в диаграмму, представленную на рис. 147.
197
Коэффициент корреляции
Анализ диаграмм рассеяния улучшает понимание явления, выявляются выбросы, облегчается выбор модели и метода дальнейшего анализа. Когда нужен объективный показатель, свидетельствующий о наличии или отсутствии связи между переменными и измеряющий выраженность этой связи, используют коэффициенты корреляции.
Сразу заметим, что коэффициент корреляции оказался не идеальным инструментом, он пригоден лишь для измерения силы линейной зависимости, но подробности будут изложены чуть ниже.
Если распределение переменных нормальное или несущественно отличается от нормального, применяют коэффициент корреляции Пирсона. Для порядковых (ранговых) переменных или переменных, чье распределение существенно отличается от нормального, используется коэффициент корреляции Спир-мана1 или Кендалла. Имейте в виду, что существуют и другие коэффициенты.
Коэффициент корреляции Пирсона будем обозначать согг(х, у), он рассчитывается по формуле
- у)
согг(х, у) - '*‘ - — (1)
Jf,(xi ~х)2Х(У, - У)2
N i = 1 i = 1
где x, , yi — наблюдения, элементы выборки; х, у — средние значения;
’Фамилия автора Spearman, в литературе ее пишут как Спирман, Спирмен или Спирмэн.
198
п — число наблюдений. Заметим, что формула (1) задает эмпирическую версию коэффициента, которая является оценкой теоретического значения.
Начнем с того, что напомним математические свойства коэффициента корреляции, который где* и у — изучаемые переменные.
1. \согт(х, у)\ < 1.
2. Если х и у — независимые переменные, то согт(х, у) = 0.
3. Если х и у связаны линейной зависимостью, т.е. найдутся а и b такие, что у = ах + Ь, то согг(х, у) = ±1. При этом знак в правой части последнего равенства совпадает со знаком а.
4. Если согг(х, у) = ±1,70 х и у связаны линейной зависимостью, т.е. найдутся а и b такие, что у = ах + Ь. При этом знак в правой части последнего равенства совпадает со знаком а.
5. Неверно, что если согг(х, у) = 0, то переменные х и у независимы. Важным исключением является случай, когда переменные х и у имеют нормальное распределение.
6. Величина коэффициента корреляции не изменится, если ко всем значениям переменной добавить одно и то же число или если все значения переменной умножить на одно и то же число, большее нуля. Такое свойство называется инвариантностью относительно сдвига и масштаба. Коэффициент корреляции — безразмерная величина, т.е. не зависит от единиц, в которых измерены переменные.
На практике коэффициент корреляции используется как некоторый «градусник», который показывает «ноль» в случае независимости переменных (смотри свойства 1 и 5), плюс единицу в случае прямой линейной зависимости переменных и минус единицу в случае обратной линейной зависимости переменных (смотри свойства 3 и 4). Значения коэффициента, находящиеся между нулем и единицей, понимаются (с математической точки зрения необоснованно!) так: чем ближе значение коэффициента корреляции к нулю, тем слабее зависимость, чем ближе к (плюс или минус) единице — тем сильнее зависимость. Отметим, что речь идет лишь об интерпретации свойств коэффициента корреляции, при этом анали-
199
тик далеко выходит за рамки математически точных утверждений.
Важно! Принято считать, что чем согг(х, у) ближе по модулю к 1, тем ближе связь между анализируемы-ми переменными к линейной. Если величина согг(х, у) близка к — 1, то связь обратная (с возрастанием переменной х переменная у убывает). Если величина согг(х, у) близка к + 1, то связь прямая (с возрастанием переменной х переменная у возрастает).
Обычно задается вопрос: какие значения коэффициента корреляции указывают на сильную зависимость, а какие — на слабую? Этот вопрос не имеет ответа. Строгая теория по этому поводу ничего не говорит. Тем не менее во многих пособиях приводится ответ, но, к огорчению новичков, в каждой книге ответ свой! Отчасти это связано с тем, что в разных дисциплинах сложились разные традиции интерпретации коэффициента. Приведем таблицу из книги [Бююль, Цефель].
Имейте в виду, что значения, приведенные в табл. 26, могут служить лишь неточными ориентирами. Заметьте, что в таблице рассматривается модуль коэффициента корреляции.
Таблица 26
Интервал значений коэффициента корреляции Интерпретация
0-0,2 Очень слабая корреляция
0,2-0,5 Слабая корреляция
0,5-0,7 Средняя корреляция
0,7-0,9 Высокая корреляция
0,9-1 | Очень высокая | корреляция
200
Коэффициент корреляции и диаграмма рассеяния
Напомним, выше мы договорились считать, что чем теснее расположены точки вдоль линии, тем сильнее выражена зависимость. При этом утверждалось, что коэффициент корреляции измеряет степень зависимости. Попробуем согласовать эти два утверждения. Ниже на рис. 148-154 приведена последовательность диаграмм рассеяния, отличающихся степенью выраженности зависимости. Для данных, изображенных на диаграммах, сосчитаны коэффициенты корреляции.
Как видно из рисунков, каждый раз облако точек заполняет область, ограниченную линией, очень похожей на эллипс. Чем ближе коэффициент корреляции к единице (по модулю), тем уже облако точек, тем теснее расположены точки вокруг воображаемой прямой, проведенной вдоль главной оси эллипса. В предельном случае, когда эллипс сжимается до отрезка, коэффициент корреляции равен единице. В случае когда коэффициент корреляции приближается к нулю, оси эллипса становятся одинаковыми, в предельном случае, когда коэффициент корреляции равен нулю, эллипс вырождается в круг.
х.з
Ис ^48. Диаграмма рассеяния: коэффициент корреляции равен 1
201
Рис. 149. Диаграмма рассеяния: коэффициент корреляции равен 0,9
Рис 150. Диаграмма рассеяния: коэффициент корреляции равен 0,8
202
X
Рис. 151. Диаграмма рассеяния: коэффициент корреляции равен 0,6
6-'
5-
4 . . 3 • • 1- , , . • • 0-• . 1 2 Рис‘ 152. Диаграмма рассеяния равен < I*’Af.4 • • * • •.rt ? / i •* Г • Т^4 г~" : коэффициент корре^иии
6
Рис. 153. Диаграмма рассеяния: коэффициент корреляции равен 0,2
Рис. 154. Диаграмма рассеяния: коэффициент корреляции равен 0
204
Вычисление коэффициента корреляции в SPSS
Для расчета коэффициента корреляции Пирсона с помощью программы SPSS следует выполнить команду Analyze\ Correlate\Bivariate (Анализ\Корреляция\Двумерная).
Рассмотрим, как рассчитываются коэффициенты корреляции между переменными «затраты на PR», «индекс делового цитирования», «индекс технологического уровня»1. (Данные из файла Индексы.зау.)
В появившемся диалоговом окне (рис. 155) выберите для анализа все три переменные (для этого поочередно выделяйте каждую из переменных и нажимайте стрелку направо2). Про-
; Bivariate Correlations .
ф Значение индекса де. <$> Индекс технологичес
Variables:
Paste.
Reset
Cancel
Help
Correlation Coefficients
F Pearson F Kendall's tau-b F Spearman
Г Test of Significance----------------—------------
I ;. Two-tailed C One-tailed
0ag significant correlations
Options...
Рис. 155. Диалоговое окно Bivariate Correlations
Данные из примера В.Н. Татаренко.
Более экономным является следующий способ выделения пере-Мснных: выделите первую переменную, нажмите клавишу Shift, выде-ЛИте последнюю переменную.
205
верьте в окне Correlation coefficients наличие флажка Pearson. Нажмите кнопку ОК. В окне просмотра результатов Output появится табл. 27.
Таблица 27
Расходы на PR, долл. Значение индекса делового цитирования Индекс технологического уровня
Расходы на PR, долл. Pearson Correlation 1 ,989 ,050
Sig. (2-tailed) > ,000 ,906
N 8 8 8
Значение индекса делового цитирования Pearson Correlation ,989 1 -,010
Sig. (2-tailed) ,000 7 ,981
N 8 8 8
Индекс технологического уровня
Pearson Correlation ,050 -,010 1
Sig. (2-tailed) ,906 ,981 J
N 8 8 8
Поскольку анализируются три переменные, то в таблице 3x3 = 9 клеток. В каждой клетке три числа. Верхнее число — значение коэффициента корреляции, оно находится в строке с подзаголовком Pearson Correlation. Среднее число — р-значе-ние или значимость, оно находится в строке с подзаголовком Sig. (2-tailed). Нижнее — число наблюдений, использованных при вычислениях коэффициента корреляции, обозначенное буквой N.
206
Таблица симметричная, так как коэффициент корреляции симметричен относительно переменных, т.е. согг(х, у) = = согг(у, х). На главной диагонали таблицы стоят единицы, так как corr(x, х) = 1.
Сначала рассмотрим значения коэффициентов корреляции. Оказалось, что коэффициент корреляции между затратами на PR и индексом делового цитирования равен 0,989, а коэффициент корреляции между затратами на PR и индексом технологического уровня равен — 0,10. Эти расчеты подтверждают наше предположение о том, что увеличение затрат на PR увеличивает индекс делового цитирования (коэффициент 0,989 очень близок к 1) и никак не влияет на индекс технологического уровня (коэффициент 0,05 очень близок к нулю).
Значимости используются при проверке гипотезы независимости переменных. Важно, что на переменные накладывается дополнительное предположение о нормальности распределения. Это необходимо, чтобы из равенства нулю коэффициента корреляции Пирсона следовала независимость переменных по приведенному выше свойству 5 коэффициента корреляции.
Проверяется гипотеза, что переменные независимы, против альтернативной гипотезы, что гипотеза несправедлива.
Теперь надо задаться уровнем значимости а, в книге он всегда равен 0,05, и начать сравнивать его с р-значениями.
Гипотеза проверялась три раза.
Сначала проверим гипотезу независимости между затратами на PR и индексом делового цитирования. Указано, что p-значение равно 0,000, что означает «меньше, чем 0,001», значит, оно меньше, чем уровень значимости 0,05. Следовательно, гипотеза независимости отвергнута. Значит, можно считать, что переменные зависимы. Коэффициент корреляции ничего «не знает» о том, какая именно переменная влияет на Другую, аналитику приходится домысливать, в данном случае это несложно. Интерпретация результата следующая: затраты на PR влияют на индекс делового цитирования, увеличение затрат на PR увеличивает индекс делового цитирования. Именно увеличивает, так как коэффициент корреляции положителен.
207
Далее проверим гипотезу независимости между затратами на PR и индексом технологического уровня; р-значение равно 0,906, что больше, чем уровень значимости 0,05. Следовательно, гипотеза независимости не отвергнута. Домысливаем: можно считать, что переменные независимы. Интерпретация результата: затраты на PR не влияют на индекс технологического уровня, увеличение затрат на PR не увеличивает (и не уменьшает) индекс делового цитирования.
В последнюю очередь проверим гипотезу независимости между индексом делового цитирования и индексом технологического уровня; р-значение равно 0,981, следовательно, гипотеза независимости не отвергнута. Можно считать, что переменные независимы.
Число наблюдений N в каждой ячейке таблицы равно восьми. Столь малое число наблюдений допустимо лишь при разведывательном анализе или в учебном примере. Содержательные выводы можно делать лишь в том случае, если имеется гарантия, что переменные имеют нормальное распределение, или если число наблюдений больше 30.
Итак, если каждая переменная имеет нормальное распределение, или если распределение несущественно отличается от нормального, используем коэффициент корреляции Пирсона.
Если распределение хотя бы одной переменной в паре существенно отличается от нормального, особенно если одна или обе переменные измерены в порядковой шкале, то вычисляется коэффициент корреляции Спирмана или Кендалла. Математические свойства этих коэффициентов описаны в разделе 11.3 книги Айвазяна, Мхитаряна.
Технология проверки того, существенно отклонение от распределения от нормального или нет, описана выше.
Для того чтобы рассчитать значения коэффициента корреляции Спирмана или Кендалла, в диалоговом окне Bivariate Correlations в группе опций Correlation Coefficients нужно поставить флажок Spearman или Kendall’s tau-b. Выбор между этими двумя — дело вкуса, но по ощущениям авторов, на практике коэффициент Спирмана понемногу вытесняет конкурента. Возможно, причина этого в большей концептуальной
208
простоте, а может быть, в том, что при анализе его значения обычно побольше, а значит, результаты выглядят убедительнее...
Типичные ошибки при корреляционном анализе
Простота использования коэффициента корреляции Пирсона пленила многих. Как всегда, ясность обманчива. Разберемся с некоторыми подводными камнями, которые встречаются при использовании корреляционного анализа.
Предостережение 1.
Коэффициент корреляции не работает при любой зависимости переменных, а только в случае линейной зависимости. И в случае зависимости, которая хорошо приближается линейной функцией.
Рассмотрим пример. Парабола (рис. 156) - знакомый график, подробно изученный в школе. Но даже такую квадратичную зависимость коэффициент корреляции может не заметить!
На рис. 156 ясно видно, что все точки (они соответствуют наблюдениям) лежат на параболе. Другими словами, между пе
ременными имеется функциональная зависимость, которая имеет вид У = (х - З)2. Однако коэффициент корреляции равен нулю, что на первый взгляд выглядит как ошибка: наверняка имеется функциональная зависимость, а коэффициент корреляции указывает на отсутствие зависимости переменных. Да, ошибка есть, но
Рис 156 Квадратичная зависимость. Версия 1
209
ошибся не коэффициент корреляции, а аналитик, который неверно его использовал! Дело в том, что коэффициент корреляции измеряет степень линейной зависимости, для измерения нелинейных зависимостей он не предназначен.
Тем не менее,
Рис. 157. Квадратичная зависимость. Версия 2
если зависимость не очень сильно отличается от линейной, коэффициент корреляции ее обнаружит. Рассмотрим ту же самую параболу, но на другой области определения, вместо интервала [0,6] зададим интервал [3,9]. График параболы приведен на рис. 157.
На новом интер-
вале парабола хорошо приближается прямой линией, коэффициент корреляции равен уже 0,97, что по Бююлю и Цефелю интерпретируется как «очень сильная зависимость».
Итак, изучая коэффициент корреляции, надо иметь в виду,
что он укажет на присутствие зависимости, если зависимость хорошо приближается к линейной, и «обманет», не обнаружит зависимость, если та существенно нелинейная.
Предостережение 2.
Коэффициент корреляции Пирсона чувствителен к выбросам. Если в данных присутствует несколько выбросов (достаточно одного), то значение коэффициента корреляции будет определяться этими выбросами. Рассмотрим пример. Данные без выброса приведены на рис. 158.
Коэффициент корреляции для этих данных равен — 0,81. Теперь добавим выброс, точку с координатами (10, 10), диа
210
грамма рассеяния приведена на рис. 159, выброс расположен в правом верхнем углу. Остальные данные не менялись, обратите внимание на изменение масштаба на осях координат.
Коэффициент корреляции упал до — 0,55. Теперь отодвинем выброс еще дальше, в точку (18,5, 18,5). Теперь для данных на рис. 160 оказалось, что корреляция стала равной нулю. Получается, что один лишь выброс скрыл от аналитика зависи
Рис. 158. Данные без выброса
мость, присутствующую в данных.
И завершающий аккорд, если переместить выброс еще дальше, в точку (53, 53), получаем Диаграмму рассеяния на Рис. 161.
На этот раз корреляция равна +0,81, т.е. такая Же> как и раньше, но с противоположным знаком. Аналитик, «просто посчитавший корреляции» и не озаботившийся проверкой данных на присутствие выбросов,
улучит обратный ре- уменьшается у» он заклЮ'
Ультат. Вместо вывода «с ростом .
Пт, что «с ростом у уменьшается х
211
Рис. 160. Данные с выбросом в точке (18,5, 18,5)
Рис. 161. Данные с выбросом в точке (53, 53)
Не думайте, что такое случается лишь в учебных примерах. Нам приходилось обнаруживать подобные ошибки. Представьте себе данные о каких-то показателях уровня жизни для городов России, когда в список городов включена Москва и когда нет... Точка, соответствующая Москве, будет выбросом.
Конечно, данные с выбросами не могут считаться нормально распределенными. Применение коэффициента корреляции Спирмана или Кендалла решит проблему с выбросами — эти коэффициенты устойчивы к подобным отклонениям в данных.
Предостережение 3.
Аналитик всегда должен помнить, что корреляцию нельзя рассматривать как причинную обусловленность. Корреляция характеризует связь между числами, но не объясняет ее. Например, высокая корреляция между х и у может суще-
ствовать потому, что на обе переменные влияет третий, скрытый фактор. В этом случае говорят о «ложной» корреляции.
212
Контрольные вопросы
1,Что характеризует коэффициент корреляции?
2. Что показывает диаграмма рассеяния?
3. В каком случае используется коэффициент корреляции Спирмана?
4. Какие выводы делают из равенства коэффициента корреляции нулю?
5. Приведите примеры «ложной» корреляции переменных.
Простая линейная регрессия
Изучение простой линейной регрессии начнем со случая двух переменных хну, после этого легче будет рассматривать случай большего числа переменных.
Если коэффициент корреляции измеряет выраженность линейной связи между переменными, то в регрессионном анализе строится линейное уравнение, описывающее статистическую зависимость переменной у от переменной х. В результате аналитик может прогнозировать значение переменной у, более того, если он способен изменять значение переменной х, то может в некоторой степени управлять переменной у. Подробнее об этом рекомендуем прочитать в гл. 10 книги Айвазяна, Мхитаряна. Например, если у — уровень продаж, а т — затраты на Рекламу, то можно управлять уровнем продаж, подбирая оптимальное значение переменной х. Понятно, что способность Управлять ограничена, поскольку на уровень продаж влияют не только затраты на рекламу, но и многие другие показатели, которыми труднее управлять, достаточно упомянуть цену! Кроме того, необходимо, чтобы была справедлива исходная гипотеза о виде зависимости переменных, а это часто не так.
В результате линейного регрессионного анализа получают-Ся опенки коэффициентов а и b уравнения регрессии: у = а + + Ьх. Уравнение определяет прямую, наиболее близко прохо-Дящую ко всем точкам с координатами yv Эти точки, как и Ранее, соответствуют анализируемым наблюдениям.
213
30000
20000
10000-
О ST
°
X О
а
1000 2000
3000 Advertis
4000
5000
О
О
0
О
Рис. 162. Прямая, определяемая уравнением регрессии
В учебниках используются разные термины для переменных х и у. Нам придется пользоваться самым неудачным вариантом: переменная х будет называться независимой, а переменная у — зависимой, поскольку таков был выбор разработчиков SPSS. Эти термины создают путаницу, так как часто приходится изучать зависимость независимых переменных, будьте к этому готовы...
Коэффициент а определяет смещение прямой, определяемой уравнением регрессии, по вертикальной оси (рис. 162), коэффициент Ь определяет угол наклона прямой b = tg(a), где а — угол между линией регрессии и горизонтальной осью.
Коэффициент регрессии b определяет силу связи между переменными л и у, поскольку он показывает, на сколько единиц в среднем изменится отклик у, если предиктор х изменится ровно на единицу. Чем больше Ь, тем связь сильнее. Однако имейте в виду, что значение h зависит от единиц, в которых измерены переменные. Например, уменьшение х в 1000 раз (раньше х измеряли в руб., а потом в тыс. руб.) увеличит b в 1000 раз, хотя сила связи останется той же самой.
214
Величина параметра а называется константой регрессии (свободным членом). Значения анЬ рассчитываются по методу наименьших квадратов, т.е. чтобы величина
£(У, - (а - tx,))2
J = 1
была минимальной:
где .г,, Pj — значения переменных х и у для его наблюдения;
п — число наблюдений.
Пример 15. Рассмотрим данные о продажах фирмы XX,
приведенные в табл. 28.
Таблица 28
Данные по продажам фирмы XX
—
Month Advertis (затраты Price Sales
(месяц) на рекламу) (цена товара) (объем продаж)
• - . -.
1 1200 470 12 000
2 1400 470 10 700
3 1780 450 9200 р__
4 2100 440 10 400
5 2000 410 12 300
17 800
400 _____
6 2800
19 200
3300 400
7 23 000
___ 8 3400 370
24 000 23 900
___ 9 3800 __ 330
32°
_ _J0 4100 27 200 24 500
^___11 3900 зю
3900 300 ______
215
Найдем уравнение регрессии, определяющее зависимость объема продаж от затрат компании на рекламу. Для осуществления регрессионного анализа выполним команду: Analyze\ Regression\Linear (Анализ\Регрессия\Линейная). В появившемся диалоговом окне (рис. 163) укажите переменную «затраты на рекламу» (advertis) как независимую (Independent) переменную, а переменную «продажи» (sales) как зависимую (Dependent). Нажмите кнопку ОК.
ф month Ф advertis ф price
Dependent
Previous | Block 1 of Next |
4
Independent(s): I ф advertis
&
Method: | Enter
Case Labels:
И I---------------
Selection Variable:
I I
¥-
Statistics,,. | Plots.,, | Save.. | Options... |
Рис. 163. Диалоговое окно Linear Regression (линейная регрессия)
Результаты регрессионного анализа помещены в несколько таблиц (рис. 164 и 165).
В таблице коэффициентов (рис. 165) приведены коэффициенты уравнения регрессии. В соответствии с ними уравнение регрессии выглядит следующим образом:
Sales = 5,901 • Advertis + 1288,453. (3)
216
Model Summary
Model R R Square | Adjusted R Square 1 Std. Error of the Estimate
1 ,948 ,899 ,888 2208,779
a Predictors: (Constant), ADVERTIS
Рис. 164. Фрагмент отчета по регрессионному анализу
Coefficients
1 Unstandardized Coefficients Standardized Coefficients t Sig. |
Model В Std. Error Beta
1 (Constant) 1288,453 1871,738 ,688 ,507
ADVERTIS 5, 901 ,627 ,948 9,411 1 ,000 ; i
Рис. 165. Таблица коэффициентов регрессии
Рассмотрим, как можно проинтерпретировать полученные коэффициенты.
Увеличение на одну единицу затрат на рекламу (advertis) Увеличивает объем продаж на 5,901 единицы. При нулевых закатах на рекламу объем продаж будет равен 1288,45 \
Интерпретация коэффициентов регрессионного уравнения обязательна. При этом надо сравнивать полученные выводы с •——________________________
Заметим, что не всегда возможно проинтерпретировать свободой член уравнения регрессии.
217
априорными представлениями о предмете исследования. Допустим, в примере коэффициент оказался отрицательным, это означало бы, что увеличение затрат на рекламу уменьшает продажи. Это не соответствует интуитивным априорным представлениям, надо искать ошибку и объяснять нестыковки. Один вариант — в процедуре SPSS неправильно заданы зависимая и независимая переменные, такое часто встречается у начинающих. Другой вариант — что-то не так с данными. В этом случае надо строить графики и описательные статистики, искать выбросы и особенности данных, проводить анализ по подгруппам товаров или регионов до тех пор, пока не станет ясно, за счет чего появилась аномалия. Третий вариант самый сложный. В этом случае все сделано правильно, но задача поставлена неудачно. В модель не вошли одна или несколько скрытых переменных, влияние которых привело к аномалии. Иногда при анализе данных за несколько лет данные не были дефлированы, не была учтена инфляция. Иногда повлиял рост конкуренции. Четвертый вариант предполагает, что реклама действительно была неудачной или уступала рекламным действиям оппонентов. То есть регрессионный анализ все-таки дал правильный результат. Всего вариантов намного больше четырех, надо думать и разбираться в ситуации...
В таблице Model Summary (рис. 164) величина коэффициента R Square характеризует качество регрессионной прямой. Он называется коэффициентом детерминации, обычно обозначается г2. Его интерпретация такая же, как и у коэффициента корреляции Пирсона, который обсуждался ранее. Чем ближе эта величина к 1, тем выше качество регрессионной прямой.
В простом линейном регрессионном анализе величина г просто равна корреляционному коэффициенту Пирсона между переменными х и у.
В задачах регрессионного анализа интерпретацию коэффи-циента детерминации можно расширить. В нашем примере величина г2 = 0,899, это означает, что 89,9% вариации (изменчивости) ежемесячных объемов продаж объясняются затратами на рекламу. Оставшиеся 10,1% вариации объемов продаж определяются другими факторами.
218
Для того чтобы добавить регрессионную прямую на диаграмму рассеяния, необходимо дважды щелкнуть на ней и в появившемся окне выбрать команду Charts\Options (Диаграм-ма\Настройки).
В диалоговом окне Scatterplot Options (Опции диаграммы рассеяния) (рис. 166) поставьте флажок Total в поле Fit line. Нажав кнопку Fit options, проконтролируйте выбор линейной регрессии. Нажмите кнопку ОК.
Scatterplot Options . ...

“Display Options---
1“ Show subgroups
Case Labels: Ю Source of Labels: С Ю vanable
Case number
^P^Iotal/ Г Subgroups Fit Options... |
ОК
Cancel
------------------------- Help
“Mean of Y Reference Line* ———
C Total П Srabgroups^ F Display spil$es^?ibe$""
L
- S unflowers-------------
P Show sunflowers
Sunflower Options... |
Г* ysecasefreqirfengilweights
Рис. 166. Окно «Опции диаграммы рассеяния»

Уравнение регрессии часто используется для расчета значений зависимой переменной у для новых значений независимой переменной х.
Программа SPSS позволяет автоматически осуществлять прогноз значения переменной у для переменной г. Для этого новые значения х должны быть добавлены в столбец таблицы с исходными данными. На рис. 171 новыми значениями затрат на рекламу являются значения 4000 и 4100 для 13 и 14 месяцев. Затем следует выполнить команду Analyze\Regression\ Linear (Анализ\Регрессия\Линейная) и в появившемся окне после указания зависимой и независимой переменных нажать кнопку Save.
219
В появившемся диалоговом окне Linear Regression: Save (рис. 167) нужно поставить флажок Unstandardized в группе опций Predicted Values (Прогнозируемые значения\Нестан-
Linear Regression: Save
^ynstaridardzej^/
« Г" Standardized
\ Г Adjusted
' F S. Е. of mean predictions
- Residuals-----
Г Unstandardized
Г Standardized
Г Studentized
F Deleted
1“ Studentized deleted
I- Mahalanobis
Г Cook's
F Leverage values
-Prediction Intervals-—
F Mean F Individual
Confidence Interval: ] 35 X
-Influence Statistics——
F DfBetafs)
-Г* Standardized DfBeta(s)
Г DfFit
;F Standardized DfFit
F Covariance ratio
-Save to New File—
F Coefficient statistics
Export model information to XML file--------------------
|| .1 I a—-I- ...... . . .
*J Fj Browse
Ф -/* V /xX', ~ , ---
Рис. 167. Окно Linear regression: Save
дартизированные). После нажатия кнопки Continue (Продолжить) нужно нажать кнопку ОК. В результате этих действий к таблице исходных данных добавится новый столбец с именем рге_1, содержащий значения переменной у, рассчитанной с помощью уравнения регрессии. Такое название получено как комбинация сокращения «рте» (от слова predicted — предсказанный) и числа «1», номера прогноза. (На практике часто строится несколько прогнозов, чтобы выбрать лучшую модель
220
из нескольких различных). Полученные результаты можно просмотреть в окне редактора данных.
В окне, представленном на рис. 168, значению затрат на рекламу в 4000 руб. соответствует прогнозное значение объема продаж 24 891,61, а значению затрат на рекламу в 4100 руб. соответствует прогнозное значение объема продаж 25 481,69.
|т^ regr2 - SPSS Data Editor
.л1П! xj
gle Edit yiew Rata Transform Analyze graphs jjjlittes Window Help
-МН М Ы&| м|i
.1 : month J1
month advertis price sales pre_1
1 1 1200 470 12000 8369,400
2 2 1400 470 10700 9549,557
3 3 1780 450 9200 11791,86
4 4 2100 440 10400 13680,11
5 5 2000 410 12300 13090,03
6 6 2800 400 17800 17810,66
7 7 3300 400 19200 20761,06
8 8 3400 370 23000 21351,13
9 9 3800 330 24000 23711,45
10 10 4100 320 23900 25481,69
11 11 3900 310 27200 24301,53
12 12 3900 300 24500 24301,53
13 13 4000 220 1 24891,61
14 14 4100 500 25481,69
15 ▼ j
l_Ltj\Data View X Variable View / IL1L
fSPSS Processor is ready j £
Рис. 168. Окно данных SPSS с результатами прогнозирования
Дальнейшее изложение предполагает, что выполнено следующее требование: регрессионные остатки должны иметь н°рмальное распределение. Под остатком понимается разница ^еЖдУ исходным значением и значением, рассчитанным с по-
Щыо уравнения регрессии. Для проверки нормальности растления остатков можно проделать следующие действия:
221
1. При задании параметров линейной регрессии в окне Linear Regression нажать кнопку Save и в появившемся диалоговом окне (рис. 169) поставить флажок Studentized в группе опций Residuals. После нажатия кнопок Continue и ОК в редакторе данных появится новый столбец с рассчитанными значениями остатков.
Linear Regression: Save Л , . < ' |Х |
|- Predicted Values---------
Г ^standardized
i Г Standardized
! Adjusted
F S. E. of mean predictions
p Distances—-------
i Г Mahalanobis
*F Cook’s
; Г Leverage values
-Residuals-----------------;
F Unstandardized
Г Standardized !
F7 Studentized
F Deleted i
F Studentized deleted i
Continue
Cancel
Help
i Confidence Interval:
Г________________
-1 nfluence S tatistics-----
1“ DfBeta(s)
F Standardized DfBeta(s)
Г DfFit
F Standardized DfFit
F Covariance ratio
Prediction Intervals------
I
I F Mean Г Individual
Рис. 169. Окно Linear regression: Save
2. На следующем шаге рекомендуется построить гистограмму для значений остатков и наложить на нее колоколообразную линию (плотность нормально распределенной случайной величины). В случае существенных отклонений от нормальности выводы о параметрах модели недостоверны. В некоторых учебниках рекомендуют более жесткую процедуру — тест на нормальность для столбца с остатками.
222
Заметим, что полная процедура проверки соответствия регрессионной модели и данных включает в себя много шагов, проверка нормальности распределения остатков — лишь один этап. При этом многие отклонения/нарушения от требований к модели «лечатся» за счет корректировки созданной модели. Систематическое изложение таких приемов выходит за границы данного пособия. Некорректные модели применяются сплошь и рядом, в том числе и профессиональными статистиками — незачем отказываться от эвристического метода, если он дает приемлемый результат. Полезно понимать, что в этом случае модель применяется аналитиком на свой страх и риск, а выводы из нее могут основываться лишь на здравом смысле. Такие эвристические модели часто проверяют кросс-валидацией, идея метода описана в совете ниже.
Совет: В регрессионном анализе часто используют сле-
дующий прием: наблюдения делят на две части: «обучающую» и «контрольную» выборки. Тогда уравнение регрессии строится по данным из обучающей выборки, а качество этого уравнения проверяют на данных из контрольной выборки. Для использования такого приема требуется достаточно большая выборка.
Множественная регрессия
Для прогнозирования значений переменной у на основании Двух или нескольких переменных используется модель множественной регрессии.
Метод линейной множественной регрессии позволяет:
• описывать взаимосвязь между зависимой переменной у и
несколькими независимыми переменными х2, ..., хп в виде уравнения у = b + ах xt+ а2 • х2 +... + апхп',
• прогнозировать значения отклика (зависимой переменной), отсутствующего в анализируемой выборке по значениям предикторов (независимых переменных).
223
Пример 16. В табл. 29 приведены данные об объемах сбыта автомобилей ( у), различающихся по цене в тыс. долларов (х}), затратам на рекламу (х3), ценам на такой же товар конкурентов в тыс. долл, (х2) и ценам на бензин (х4). Требуется составить модель зависимости объемов сбыта от остальных переменных, оценить качество модели, спрогнозировать объем сбыта при различных значениях независимых переменных.
Таблица 29
Данные о продажах автомобилей
Объем сбыта Цена товара ! Цена конку- ' у | х, ! рента х2 Реклама x3 Цена на бензин x4
197 280 : 20 21,1 । 1,2 1,58
! 160 300 20,2 ! 21 и. 1 j L 1,1 1,57
167 400 i 20,6 i 21,5 1 1,6
1,62
155 000 20,8 1 21,6 1
Г ! 153 200 * 20,8 21,5 1,2 1,64
178 000 20,6 21,5 1,2 1,62
180 000 20,6 £ 21,6 ' 1 1,65
162 200 20.5 21,4 0,9 1,65
170 000 \ 20,4 21,4 0,8 1,64
157 000 20,3 i 21,4 0,8 1,65
169 200 20,2 21,2 0,8 1,65
157 000 20.3 21,2 [ 0,8 1,64
Для нахождения коэффициентов уравнения регрессии выполните команду Analyz.e\RegressionLinear (Анализ\Регрес-сия\Линейная). В появившемся диалоговом окне укажите в качестве зависимой (Dependent ) переменной у, а в качестве независимых (Independent) переменных — xv х2, х3, х4.
224
При построении регрессионной модели с несколькими переменными рекомендуется оставлять метод включения всех переменных (Enter), установленный по умолчанию, но можно использовать один из пошаговых методов. Применим метод обратного шага1. Для его выбора в окошке Method (рис. 170) укажите метод Backward2. Нажмите кнопку ОК.
Рис. 170. Выбор метода обратного шага (Backward) в окне Linear Regression
Этот метод строит несколько регрессионных моделей, начиная с модели, в которой используются все независимые переменные. На каждом шаге исключаются переменные, чье влияние на зависимую переменную минимально. Наименее влиятельными считаются те переменные, для которых минимален частичный корреляционный коэффициент с зависимой переменной.
’В настоящее время методы прямого и обратного шага теряют своих приверженцев.
2Можно поочередно применить каждый из пошаговых методов и сравнить полученные результаты.
S - 1471
225
В окне отчетов появится таблица, представленная в табл. 28.
Coefficients
I I i Unstan-1 dardized Coeffi-! cients ! Standardized Coefficients T Sig.
1 . Model в Std. Error Beta
1 1 : (Constant) 76294,986 257704,921 ,296 ,776
1 1 X1 ' -92081,775 i ; 20651,414 -1,791 -4,459 ,003
1 —I j X2 : 90846,885 27362,977 1,390 3,320 ,013
i X, ' 53158,700 3 : 20569,867 ,678 2,584 ,036
I ! ' X4 ; -12389,246 ! —1 i I 130666,151 -,027 -,095 ,927
2 -к- (Constant) 74504,446 240567,114 ,310 ,765
X, 1 -92095,395 19329,563 -1,791 -4,764 ,001
i X2 1 89939,648 23995,201 1,376 3,748 ,006
X3 | 54491,635 14055,460 ,695 J 3,877 ,005
Рис. 171. Таблица с коэффициентами множественной регрессии
В этой таблице мы выделили коэффициенты уравнения регрессии. Таким образом, уравнение регрессии будет выглядеть следующим образом:
у = 74504,446 + -92095,395 • xt +
+ 89939,648 • х2+ • 54491,635 • х3.
226
Слагаемое с множителем х4 было исключено из модели после первого шага, так как переменная у зависит от него незначительно: «Величина Sig. (р-значение)» равна 0,927, т.е. больше 0,05. Это дает основание полагать, что цена на бензин не оказывает значимого влияния на объем продаж автомобилей.
Коэффициенты регрессии интерпретируются как влияние каждой из переменных на объем продаж, если остальные переменные остаются неизменными. Например, при прочих равных условиях увеличение цены автомобиля на 1 тыс. долл, уменьшит объем продаж на 92 095 шт., а увеличение конкурентами цены на 1 тыс. долл, увеличит объем продаж на 89 939 штук.
Коэффициент детерминации г2 (R Square) указывает, какой процент вариации у объясняется влиянием всех независимых переменных. Величина коэффициента детерминации указана в таблице Model Summary, представленной на рис. 172. В нашем примере 78,2% изменений переменной у объясняются изменением независимых переменных. Отметим еще один аргумент в пользу отбрасывания переменной х4: после исключения коэффициент детерминации практически не уменьшился.
Model Summary
Model R R Square 1 —J Adjusted R Square 1 ! Std. Error of the Estimate I
1 ,884 ,782 ,657 I 7535,20225 s J !
2 ,884 1 ,782 ,700 1 ! , 7053,06105 : [ j
Рис. 172. Таблица Model Summary
Заметим, что программа SPSS предоставляет возможность составить уравнение регрессии без свободного члена. Для этого в диалоговом окне Linear Regression (оно вызывается командой Analyze\Regression\Linear) после задания зависимой
227
ANOVA
Model j ' Sum of Squares df Mean Square F Sig.
i ! 1 Regres- । i sion 1425238788,88 4 356309697,22 6,275 ,018
1 Residual 397454911,117 7 56779273,017
i r Total 1822693700,00 11
r-r Regression 1424728338,71 3 474909446,23 9,547 ,005
Residual 397965361,285 8 49745670,161
i Total 1822693700,00 11
Рис. 173. Таблица ANOVA для множественной регрессии
(Dependent) и независимых (Independent) переменных нужно нажать кнопку Options и в появившемся диалоговом окне снять флажок Include constant in equation (рис. 174). Затем нужно последовательно нажать кнопки Continue и ОК.
Однако мы не рекомендуем исключать свободный член, разве что у вас есть полная уверенность в правильности сокращенной модели. Дело в том, что для моделей без свободного члена несправедливы многие интерпретации, указанные в тексте.
Упражнение. Для данных примера 16 постройте модель зависимости объема продаж от двух переменных — цены товара и затрат на рекламу.
При проведении анализа данных с помощью множественной регрессии аналитиков часто волнует вопрос, какая из переменных оказывает наиболее сильное влияние на отклик.
Поскольку все коэффициенты регрессии могут быть выражены в разных единицах измерения, сравнивать их часто ока-
228
Linear Regression: Options
X
p Stepping Method Criteria-------------;
<* Use probability of F ;
Entry: [Eg Removal: [jo :
C Use F value
Entry. |J 84 Removal: [271 <
Г Include constant in equation
-Missing Values------------------------
<• Exclude cases listwise
C Exclude cases pairwise
C Replace with mean
Continue
Cancel
Help
Рис. 174. Окно Linear Regression Options
зывается сложно. В этом случае сравнивают стандартизированные коэффициенты регрессии, которые могут быть вычислены с помощью программы SPSS. На рис. 171 стандартизированные коэффициенты регрессии находятся в столбце Standardized Coefficients.
Стандартизированные коэффициенты регрессии рассчитываются по формуле Р, = bSx /Sy , где 5V. — стандартное отклонение каждой из переменных; - стандартное отклонение зависимой переменной у.
Стандартизированные коэффициенты регрессии позволяют сравнить степень влияния каждой из переменных, такое сравнение достаточно часто оказывается очень полезным.
229
Определенные проблемы при проведении множественной регрессии могут возникнуть, если две или более переменных схожи между собой, т.е. между ними существует явно выраженная линейная зависимость (корреляция между ними близка к 1). В этом случае говорят о коллинеарности переменных. Тогда, с одной стороны, трудно определить степень влияния каждой из независимых переменных на зависимую; с другой стороны, может возникнуть рост стандартных ошибок некоторых или всех коэффициентов регрессии.
Чтобы получить представление о последствиях коллинеарности, рассмотрим линейную регрессионную модель:
у = 5 + 8 • х{ + 3 • х2,
где X! и х2 — независимые переменные; у — зависимая переменная; 5, 8 и 3 — оценки параметров. Пусть линейная зависимость между предикторами имеет вид 2 • xt = х2. С учетом такой зависимости исходное уравнение можно переписать в эквивалентном виде бесконечным числом способов. Например, в виде г/ = 5 + б • xt + 4 • х2, или у = 5 + 0 • xt + 7 • х2, или у = 5 -- 8 • Xj + 12 • х2.
Интерпретация коэффициентов становится бессодержательной, ведь любой коэффициент может равняться любому числу... На практике, конечно, пакет SPSS выдаст ровно один ответ, но от этого еще хуже... Если аналитик не заметил коллинеарности, он серьезно отнесется к полученным оценкам, начнет делать далеко идущие выводы... Нет, коллинеарность лучше выявлять!
Заметим, что пакет SPSS содержит специальные средства обнаружения коллинеарности, они заказываются опцией Collinearity diagnostics (диагностика коллинеарности). Изучение этих инструментов выходит за пределы данной книги.
Для того чтобы определить, существует ли зависимость между переменными, можно рассчитать коэффициент корреляции для каждой пары переменных. Для этого нужно выполнить команду Analyze\Correlate\Bivariate (Анализ\Корреляция\ Попарная). В появившемся диалоговом окне (рис. 175) нужно выделить все (или «подозрительные») независимые перемен-
230
I Bivariate Correlations

ф продажи [у] ф цена [xl ] ф цена конкурента [х2] ф| реклама [хЗ] \ ф цена на бензин [х4]
Variable:
Reset
Cancel
Help
- Correlation Coefficients—---------------
р Pearson Г" Kendall's tau-b Г Spearman - Тest of Significance------— - ----------
(• Two-tailed C One-tailed
P Flag significant correlations
Options... |
Рис. 175. Окно Bivariate Correlations (Попарная Корреляция)
ные и нажать стрелку направо. Затем следует нажать кнопку ОК.
В ответ на эти действия появится матрица попарных корреляций независимых переменных. Если между некоторыми переменными обнаружится сильная корреляция, то можно попробовать исключить одну из них и провести регрессионный анализ еще раз.
Анализ качества уравнения регрессии включает содержательную и статистические компоненты. Проверка статистического качества включает:
проверку статистической значимости каждого коэффициента уравнения;
проверку общего качества уравнения регрессии;
проверку свойств данных, выполнение которых предполагалось при оценивании уравнения.
Под содержательной составляющей анализа понимают проверку соответствия интерпретации уравнения регрессии рассматриваемой экономической модели.
231
Для анализа общего качества уравнения регрессии обычно используют коэффициент детерминации г2. Этот материал нами уже рассмотрен, но очень рекомендуем дополнительно прочитать параграф 3.1 книги Носко, в которой рассматриваются классические примеры Анскомба. В этих примерах наглядно демонстрируется, когда и по какой причине нельзя применять коэффициент детерминации.
Результаты регрессионного анализа считаются корректными, если ошибки регрессионной модели не коррелируют между собой. В противном случае говорят об автокорреляции. Если наблюдения упорядочены во времени (например, данные регистрируются ежемесячно), то проверка автокорреляции может быть сделана с помощью теста Дурбина — Ватсона (Durbin — Watson). Для проведения этого теста в окне Linear Regression нужно нажать кнопку Statistics и выставить флажок Durbin — Watson. Результат теста должен быть близок к 2. (Подробнее о тестах Дурбина — Ватсона можно прочитать в книге [Носко]).
В табл. 30 приведены возможные сложности при проведении регрессионного анализа. В первом столбце указывается проблема, во втором столбце — ее последствия.
Таблица 30
Проблемы, возникающие при проведении регрессионного анализа
Проблема Возможные последствия
Остатки не подчиняются нормальному закону распределения ) Незначимость результатов F- и Т-тестов
Мультиколлинеарность: неза-1 висимые переменные коррелируют между собой Неэффективность метода
Автокорреляция: остатки коррелируют между собой Неэффективность метода |
Упражнение. По данным, приведенным в приложении (файл реклама-sav), составьте модель зависимости объема про-
232
даж товаров, рекламируемых на бортах автобусов, от затрат на рекламу и цены на билеты в автобусе.
Какая переменная больше влияет на объем продаж?
Пример 17. Построение регрессионной модели.
Вернемся к анализу данных из файла Альбукерк.зау (фрагмент таблицы представлен на рис. 176). Цель исследования: построить модель, позволяющую по имеющимся параметрам спрогнозировать цену дома.
[^Альбукерк!.sav - SPSS Data Editor
. sqrt
0е Transform Analyze graphs lOMes Window Help
sort
j g 2580
2050 2080
2150 2150 1999
1900 1800
2650
2600
2664
2921
2580
2580
2774
.teats ',
________7
________4
5 6
north e северо-вос северо-вос северо-вос северо-вос северо-вос северо-вос северо-вос
cost обычная з обычная з обычная з обычная з обычная з не обычна не обычна
cor не угловое не угловое не угловое не угловое не угловое не угловое не угловое[
13
none ~VWSf
6
3
тахуы 1639
1088
1193
1635
1732
1534
17651
2
5
6
4
(SPSS Processor is ready
a
Рис. 176. Фрагмент таблицы с данными из файла Альбукерк.зау
Мы рассматриваем этот пример, чтобы показать, как может проводиться отбор переменных для модели. Начиная анализ, аналитик не знает, какие переменные важны, несут существенную информацию, а какие малоинформативны. Первые переменные надо включить в модель, вторые — исключить из анализа. Иногда решение очевидно, например несущественной переменной будет цвет дома, а площадь дома — существенной. Иногда решение затруднительно, ни здравый смысл, ни опыт не могут однозначно определить решение. Все переменные, Рассматриваемые в задаче, могут быть включены в модель. Каждая переменная, кроме площади дома, может быть исключена из модели. Исключение несущественных переменных — часть построения модели.
233
Первый этап анализа — «разведка боем». На этом этапе в модель включим все переменные. Цель такого действия — прикинуть, разумно ли строить регрессионную модель, оценить возможные варианты дальнейших действий. Для построения уравнения регрессии выполните команду Analyze\ Regression\Linear. В появившемся диалоговом окне рис. 177 в
Linear Regression
ф площадь [sqf t] ф удобства [feats] ф район [north_e] ф тип застройки [oust] £> угол [сот] £> возраст [аде] -ф налоги [taxyw]
Dependent:
[ | | -ф цена [price]
Block 1 of 1 —— ---------------—-— ----------
Previous | Next |
Independent(s):
_____ <Ф площадь [sqft] *1
| > I ф удобства [feats] ф район [north_e] Method: | Enter ~л!
| ОК | Paste | fieset | Cancel I
—ssr} Help I
Selection Variable. - ' s
И ।
Case Labels. „
Statistics... | Plots... - | Save... | Qptions..
Рис. 177 Диалоговое окно Linear Regression
поле Dependent (Зависимая переменная) укажите переменную price. В качестве независимых переменных в поле Independent (Независимые переменные) укажите все остальные переменные. Проконтролируйте выбор метода Enter (Все независимые переменные включены в модель). Заметим, что, выбрав метод Enter, мы отказались от услуг пакета SPSS при ответе на вопрос, отбрасывать переменную или оставлять ее, мы отвечаем на вопрос самостоятельно.
234
В отчете SPSS появилось сразу несколько таблиц с результатами. Начнем анализ с таблицы Model Summary (табл. 31). В ней мы видим величину коэффициента детерминации, равную 0,862. Это хороший показатель.
Таблица 31
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,929(a) ,862 ,846 158,881
a Predictors: (Constant), налоги, угол, район, удобства, возраст, тип застройки, площадь.
Рассмотрим теперь значения коэффициентов уравнения регрессии, приведенные в табл. 32. (Заметим, что вместо слова «значения» правильнее говорить «оценки», так как истинные коэффициенты регрессии мы абсолютно точно никогда не узнаем, а только оцениваем эти значения, опираясь на имеющиеся данные.)
Из результатов первого этапа можно сделать только предварительные выводы. Главный из них — регрессионная модель может применяться, поскольку значение коэффициента детерминации близко к единице. Далее модель будет упрощаться и уточняться, при этом значение коэффициента будет падать, надо лишь, чтобы уменьшение было не слишком сильным. В учебных Целях (так как анализ только начался) проинтерпретируем коэффициенты модели, для этого рассмотрим столбец В табл. 32. Возможная интерпретация коэффициентов регрессии приведена в табл. 33. Напомним, что цены измерены в сотнях долларов.
Второй этап — отбор переменных для модели.
В последнем столбце табл. 32 (Sig.) приведены р-значения. (Возможно, вам стоит освежить в памяти раздел о проверке статистических гипотез.) Каждое из них относится к той переменной, имя которой указано в той же строке во втором столбце; P-значения получены в результате проверки гипотезы ра-венства нулю множителя/коэффициента при переменной в Уравнении регрессии. Имея в виду, что уровень значимости 1как и везде в книге) равен 0,05, отмечаем случаи, когда гипо-
235
Таблица 32
236
Coefficients (a)
Model Unstandardized Coefficients Standardized Coefficients t Sig.
В Std. Error Beta
1 (Constant) 92,7448 101,607 0,912779 0,365137
Площадь 0,352218 0,095748 0,446294 3,678614 0,000515
Удобства 4,389607 18,55499 0,013927 0,236573 0,813822
Район -17,3853 47,27462 -0,02102 -0,36775 0,714397
Тип застройки 174,9411 53,72371 0,18682 3,256311 0,001887
Угол -73,5823 49,13007 -0,07684 -1,4977 0,139633
Возраст -0,56508 2,002529 -0,01789 -0,28218 0,778807
Налоги 0,49887 0,158485 0,390394 3,147738 0,002598
a Dependent Variable: цена.
теза отвергнута. Это коэффициенты при переменных «площадь», «тип застройки» и «налоги», поскольку р-значение меньше уровня значимости. Итак, в этих случаях коэффициент при переменной значимо отличается от нуля. Для остальных переменных гипотеза равенства коэффициента нулю не отвергается.
Таблица 33
Интерпретация коэффициентов уравнения регрессии
в Интерпретация коэффициента
Constant 92,7448 Накладные расходы при сделке составляют 9274 долл.
Площадь 0,352218 Цена квадратного фута 35 долл.
Удобства 4,389607 Каждое удобство добавляет к цене 439 долл.
Район -17,3853 Дома в престижном районе на 1739 долл, дороже
Тип застройки 174,9411 Дома индивидуальной постройки на 17 494 долл, дороже
Угол -73,5823 Если дом расположен на углу, он на 7358 долл, дешевле
Возраст -0,56508 Каждый год уменьшает цену дома на 57 долл.
Налоги 0,49887
Дальнейшие рассуждения содержат некоторую логическую натяжку, но они весьма правдоподобны. Рассмотрим эти рассуждения в общем виде. Имеется регрессионное линейное уравнение, часть регрессионной модели
у = aQ + аА • + а2 • х2,
гДе и х2 — независимые переменные;
У — зависимая переменная;
237
п0, аА и а2 — оцениваемые параметры.
Если в ходе анализа выяснится, что гипотеза Н : а2 = 0 не отвергается, полагаем, что а2 = 0, уравнение приобретает вид
у = а0 + • xi + 0 • х2.
Что представляет собой слагаемое 0 • х2? Это выражение тождественно равно нулю, его можно выбросить из уравнения, получаем упрощенную модель
У = + а{ -Хр
Эти незатейливые выкладки проводились, чтобы убедить вас в правдоподобности следующего умозаключения: если не отвергнута гипотеза, что множитель при переменной равен нулю, то такую переменную можно исключить из модели.
Вернемся к задаче. Получаем, что переменные «площадь», «тип застройки» и «налоги» остаются в модели, Так как для них гипотеза о равенстве коэффициента нулю отвергнута. Далее имеем, что переменными «удобства», «район», «угол», «возраст» можно пренебречь, для них гипотеза о равенстве коэффициента нулю не отвергнута.
Остановимся, чтобы осмыслить, что произошло. Мы построили регрессионную модель, использовав все предикторы, и сделали заключение, что некоторые переменные можно исключить из модели.
Третий этап — строим сокращенную линейную регрессионную модель.
Выполним команду Analyze\Regression\Linear, оставив в поле Independent только переменные «площадь», «тип застройки», «налоги». Проанализируем отчет. Коэффициент детерминации (табл. 34) уменьшился незначительно, на 4,2%.
Таблица 34
Model Summary
। Model i R R Square 1 Adjusted R Square | Std. Error of the Estimate
1 ' 1 ,906(a) ,821 ,816 ' 164,934
a Predictors: (Constant), налоги, тип застройки, площадь.
238
Коэффициенты уравнения регрессии оказываются значимыми (табл. 35).
Таблица 35
Coefficients (а)
Model Unstandardized Coefficients Standardized Coefficients t Sig. 1
В Std. Error 1 Beta i
1 (Constant) 164,7319 56,98877 2,890603 0,00469 1
Площадь 0,188136 0,061296 0,260329 3,069323 0,002743
Тип застройки 162,0664 45,13632 0,176877 3,590597 0,000507
Налоги 0,70901 0,101446 0,569032 6,989027 2,83E-10
a Dependent Variable: цена.
Проинтерпретируем коэффициенты уравнения регрессии.
Коэффициент 0,188 при переменной «площадь» — стоимость 1 квадратного фута. Действительно, увеличение площади дома на 1 квадратный фут повышает цену дома на 18 долл. Дом обычной застройки при прочих равных условиях стоит на 162 сотни долларов больше, чем перестроенный дом. Переменная «налоги» входит в уравнение с положительным коэффициентом. Следовательно, увеличение налогов за владение домом Увеличивает его цену. А вот это странно! Не так много людей любит платить налоги... Хотя, чем лучше дом, тем больше Должны быть налоги.
Как начисляются налоги? Величина налогов в первую оче-РеДь определяется по площади дома. Верно ли это для города Альбукерка? Чтобы ответить на данный вопрос, надо посмотреть на корреляции между этими переменными.
Четвертый этап — проверяем, нет ли коллинеарности.
239
Для этого выполним команду Analyze\Correlate\Bivariate В появившемся диалоговом окне (рис. 178) в поле Variables укажите переменные «площадь» и «налоги». Нажмите кнопку ОК
Bivariate Correlations
иена [price] даобства [feats] район [north.e]
Variables____________
площадь [sqrt] • £> налоги [taxybi]
возраст[age]
* Careiahon Coefficients—:-----------------
Р Pearsog Г Kendal's lau-b Г Spearman
*г Test of Signhcance-t (* Two-tated И----------------------
flag agnficant correlations k_______________________________
l
Options...
С One-tated
Рис. 178. Диалоговое окно Bivariate Correlations
В отчете SPSS появится таблица попарных корреляций переменных (табл. 36). Наше предположение о линейной зависимости переменных «площадь» и «налоги» подтвердилось. Вспоминаем, что линейная зависимость между несколькими независимыми переменными носит специальное название «коллинеарность», ее надо всячески избегать. Иначе будут получены неустойчивые результаты: добавление или исключение одного наблюдения может заметно изменить модель, такую нестабильную модель опасно использовать.
На самом деле правильнее было начать с вычислений попарных корреляций между предикторами и сразу обнаружить высокую корреляцию между переменными. Мы нарушили Ре комендуемый порядок действий ради выразительности.
240
Таблица 36
Correlations
! Площадь
Площадь Pearson | 1
Correlation j
I + — I
Sig. (2-tailed)
____ ___| n ; и?
Налоги Pearson ,859**
i Correlation
I------- ' .....
Sig. (2-tailed) ,000
Налоги
,859**
,000
107
1
107
**Correlation is significant at the 0,01 level (2-tailed),
Снова осмыслим, что произошло. Интерпретируя опенки коэффициентов, мы обнаружили сначала логическое несоответствие, а затем, посчитав корреляции, коллинеарность Практический вывод: с самого начала вкралась ошибка. Переменную «налоги» надо было изначально исключить из модели, так как другой вариант, исключить переменную площадь, кажется менее привлекательным Ничего страшного, сделаем это сейчас. Итак, строим линейную регрессионную модель заново, без переменной «налоги».
Пятый этап заново строим линейную регрессионную модель.
Снова запустим процедуру регрес с ионного анализа, исключив переменную «налоги» и вернув все ранее исключенные переменные.
Коэффициент детерминации на этот раз равен 0.83, снова коэффициент детерминации ухудшился незначительно. Незначимыми оказались коэффициенты при переменных «удобст-
«район», «угол» (табл. 37) На следующем шаге эти переменные будут исключены из анализа.
241
Таблица 37
Coefficients (а)
Model 1 Unstandardized Coefficients Standardized Coefficients t Sig.
В Std. Error Beta
1 (Constant) 83,14037 102,7357 0,809264 0,421508
Площадь 0,637186 0,05119 0,801893 12,44757 2Д5Е-18
Тип застройки 148,4795 54,4059 0,163746 2,729107 0,008287
Удобства 3,257143 18,93246 0,010446 0,17204 0,863975
Район -14,3289 49,23057 -0,01741 -0,29106 0,771995
Угол -83,3986 51,26812 -0,08843 -1,62671 0,108953
Возраст -3,72095 1,805399 -0,11697 -2,06101 0,043572
a Dependent Variable: цена.
Зато коэффициент «возраст» на этот раз оказывается значимым и участвует в модели со знаком «минус»: увеличение возраста дома на 1 год уменьшает его цену на 372 долл.
Шестой этап — снова строим сокращенную линейную регрессионную модель.
Проведем регрессионный анализ, оставив только независимые переменные «площадь», «тип застройки», «возраст».
Коэффициент детерминации теперь равен 0,82 (табл. 38). Это на 4,2% меньше, чем значение, полученное на первом шаге.
Коэффициенты новой регрессионной модели приведены в табл. 39.
242
Таблица 38
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,906 (а) ,822 । ,813 174,192
a Predictors: (Constant), возраст, тип застройки, площадь
Таблица 39
Coefficients (а)
Model Unstandardized Coefficients Standardized Coefficients t Sig.
В Std. Error Beta
1 Constant 72,48077 84,52629 0,857494 0,394372
Площадь 0,639136 0,047115 0,804346 13,56541 1,71 E-20
Тип застройки 149,3146 53,72717 0,164667 2,779127 0,007147
Возраст -4,28913 1,681115 -0,13483 -2,55136 0,013131
a Dependent Variable: цена.
Итак, окончательная модель для определения цены имеет вид
Цена = 72,48 + 0,63 • площадь + 149,3 • тип застройки -
— 4,3 • возраст.
То, что анализ проводился несколько раз, не должно нас пУгать, надо быть готовым к тому, что путь к окончательной
243
модели извилист. На каждом этапе аналитик замечает новые особенности данных, выдвигает новые гипотезы, затем проверяет их.
Контрольные вопросы
1. Что показывает коэффициент детерминации?
2. Что показывает коэффициент корреляции, равный 1?
3. Как интерпретируются коэффициенты уравнения регрессии?
4. Что характеризует качество уравнения регрессии?
5. В чем заключается проблема коллинеарности?
6. Приведите примеры применения регрессионного анализа.
7. Что показывают стандартизированные коэффициенты регрессии?
8. Что включает проверка статистического качества уравнения регрессии?
7. ДИСПЕРСИОННЫЙ АНАЛИЗ
Целью дисперсионного анализа является исследование влияния нескольких номинальных переменных на количественные переменные.
Примеры вопросов, на которые дает ответ дисперсионный анализ, приведены в табл. 40.
Таблица 40
Примеры проблем, решаемых с помощью дисперсионного анализа
1 Владелец кинотеатра предлагает несколько форм знакомства зрителей с кинопрограммой. Какое влияние имеют они на i число посетителей кинотеатра?।
2 Какое влияние оказывают два разных маркетинговых инструмента изолированно и вместе на зависимую переменную? Производитель конфитюра предполагает, что важное влияние | на сбыт оказывают марка конфитюра и канал сбыта j
3__Влияет ли на восприятие потребителей форма упаковки мы-ла? Испытуемых просили указать на трех шкалах рейтинг привлекательности упаковки, общую оценку и их готовность ___купить мыло _____________________________(
4 Зависят ли наблюдаемые различия в объемах продаж кожгалантереи от бригады продавцов?
Дисперсионный анализ применяется, когда независимыми переменными являются номинальные переменные, зависимой переменной — количественная переменная. Независимые переменные обозначаются как факторы, их единичное выражение как уровень фактора.
Типы дисперсионного анализа отличают по числу факторов. Таблица 41 дает представление об этих типах.
245
Таблица 41
Типы вариационного анализа
Число зависимых переменных Число независимых переменных Обозначение метода
1 1 Однофакторный дисперсионный анализ
1 2 ! Двухфакторный дисперсионный анализ
Г"1 1 : . 1 Трехфакторный дисперсионный анализ
Минимум 2 Один или более 1 Многомерный дисперсионный анализ
В нашей книге будет рассмотрен только однофакторный дисперсионный анализ.
Однофакторный дисперсионный анализ
Однофакторный дисперсионный анализ устанавливает, значимо ли различаются средние значения нескольких независимых выборок.
Заметим, что дисперсионный анализ проводится при следующих допущениях:
1 Набор данных состоит из к случайных выборок из к генеральных совокупностей.
2 . Все генеральные совокупности имеют нормальное распределение и одинаковые стандартные отклонения.
Пример 18. Рассмотрим данные файла Maprapnn.sav. В нем приведены данные об обьемах продаж маргарина.
Директор сети супермаркетов хочет знать, влияет ли на сбыт маргарина различное размещение продукта в супермаркете. В одном из супермаркетов маргарин расположен на так называемых «нормальных полках*, в другом — в варианте «пар-
246
ного размещения», в третьем - в ♦ холодильнике». Предполагается, что все три супермаркета находятся в одинаковых условиях (расположение, близость конкурентов и т.д.).
Можно предположить, что если размещение товара не влияет на объем сбыта, то средние значения объемов сбыта маргарина для каждого из вариантов размещений будут приблизительно равны. В табл. 42 приведены результаты трех выборок. В каждом случае эксперимент продолжался одно и то же время, в течение 10ОО кассовых операций.
Таблица 42
Сбыт маргарина за 1000 кассовых операций в трех супермаркетах в зависимости от размещения (в кг)
Супермаркет । День 1 I ! День 2 _I ! ДеньЗ | 1 День 4 День 5
Супермаркет 1 «нормальные полки» ! 47 I I 39 40 I ' 46 45
Супермаркет 2 «парное размещение» i сс об 65 —1-— I 63 : 59 ! 67
Супермаркет 3 «холодильник» | 59 i— i 50 i 51 j ? 48 -L : 53
I
i !
Рассчитаем средние значения объемов соыта для каждого супермаркета (табл. 43).
Величина рассеивания для каждого супермаркета объясняется не размещением продукта, а другими влияющими факторами. Будем предполагать, что внешние влияющие факторы в супермаркетах одинаковы.
Дисперсионный анализ определяет, является ли различие в рассчитанных средних значениях случайным или нет. Другими словами, он определяет, объясняется ли разница в средних значениях размещением товара или какими-то случайными внеш-ними факторами.
247
Таблица 43
Средние значения сбыта маргарина в трех супермаркетах
1 Супермаркет Среднее значение сбыта маргарина для супермаркета
; Супермаркет 1 1 «нормальные полки» У1 = 43,4
i | Супермаркет 2 ; «парное размещение» у2 = 64,4
Супермаркет 3 «холодильник» Уз = 52,2
Общее среднее значение у = 53,3
При однофакторном дисперсионном анализе выбирается одна из двух гипотез.
Нулевая гипотеза Но утверждает, что к генеральных совокупностей имеют одно и то же среднее значение. В свою очередь из этого будет следовать, что выборки однородны. (В нашем примере это можно трактовать следующим образом: расположение товара не влияет на его объем сбыта.)
Альтернативная гипотеза утверждает, что средние значения не все равны между собой, т.е. по крайней мере у двух совокупностей они различаются. (В нашем примере альтернативная гипотеза утверждает, что средние значения объемов продаж различаются неслучайно, из чего следует, что расположение товара влияет на его объем сбыта.)
Для проверки гипотезы Но обычно используют F-тест Фишера.
Рассмотрим сначала процедуру программы SPSS по проведению дисперсионного анализа. Заметим, что введенные данные должны быть оформлены по образцу, приведенному в табл. 441.
'Набор данных в однофакторном дисперсионном анализе состоит из нескольких независимых одномерных выборок, элементы которых измерены в одинаковых единицах. Допустимы различные размеры выборок.
248
1 обозначено размещение на «нормальных полках», «парное размещение», цифрой 3 — «холодильник».
ЦифР0Й цифрой 2 -
Таблица 44
Образец оформления таблицы с данными по сбыту маргарина в программе SPSS
Sales Туре
47,00 1
39,00 1
40,00 1
46,00 1
45,00 1
68,00 2
65,00 2
63,00 2
59,00 2
67,00 2
59,00 3
50,00 3
51,00 3
48,00 3
53,00 3 □
Выполните команду Analyse\Compare means\One way ANOVA... (Анализ\Сравнение средних\Однофакторный дисперсионный анализ). В появившемся диалоговом окне (рис.
у укажите переменную sales в качестве зависимой перемен-
(°На должна появиться в окне Dependent List), а переменит 10 type как влияющий фактор (она должна появиться в окне act°r). Нажмите кнопку ОК.
249
Рис. 179. Диалоговое окно One-way ANOVA
В окне отчетов Output появится таблица ANOVA, представленная на рис. 180.
ANOVA
SALES
Sum of Squares df Mean Square F Sig.
Between I Groups I 1112,133 I 2 556,067 38,087 ,000
J Within । Groups 175,200 12 14,600
Total 1287,333 14
Рис. 180. Таблица ANOVA, содержащая результаты однофакторного дисперсионного анализа
Программа SPSS рассчитывает несколько показателей, ср?' ди них F-статистику и величину Sig. — значимость получение го результата. Эта величина позволяет сделать вывод о т°м’ случайно ли расхождение в средних для разных групп данный
250
Если величина Sig. меньше величины 0,05, то делается вывод о том, что гипотеза о равенстве средних значений отвергнута, т.е. различия в средних значениях для разных групп неслучайны. В нашем случае это означает, что именно расположение товара влияет на объем сбыта маргарина.
Можно ожидать, что полученный результат повлечет за собой следующий вопрос: какой же вариант размещения маргарина предпочтительней? Для того чтобы ответить на этот вопрос, в диалоговом окне One-Way ANOVA следует нажать кнопку Options и в появившемся диалоговом окне поставить флажок Descriptives (рис. 181). Затем нажмите кнопку Continue.
One-Way ANOVA: Options (x
! P iDescriSlivd and random effects
! Г Homogeneity of variance test Г~ Brown-Forsythe
| П Welch
Continue
Cancel
Help
П Means plot
- Missing Values----------------------“
(* Exclude cases analysis by analysis
C Exclude cases listwise
Рис. 181. Диалоговое окно One-Way ANOVA: Options
Фрагмент отчета с описательными статистиками для рассматриваемого примера представлен на рис. 182.
251
Descriptives
SALES
N Mean Std. Deviation Std. Error 1 Minimum | Maximum
I «Нормальная j полка» 5 43,40 3,6469 1,6309 39,00 47,00
! «Парное размещение» 5 64,40 3,5777 1,6000 59,00 68,00
«Холодильник» 5 52,20 4,2071 1,881 48,00 59,00
1 Total 15 53,33 9,5892 2,4759 39,00 68,00
Рис. 182. Фрагмент отчета с описательными статистиками для примера 19
По данным этого отчета, можно сделать вывод, что наиболее удачным является «парное размещение», поскольку у такого размещения — наибольшее среднее значение и наименьшее стандартное отклонение1.
Контрольные вопросы
1. Приведите примеры проблем, решаемых с помощью дисперсионного анализа.
'В классической прикладной статистике интерес представляет величина F-статистики, равная в рассматриваемом примере 38,087. Эту величину сравнивают со значением из специальной таблицы. Если значение F-статистики больше соответствующего значения из специальной F-таблицы, то делается вывод о го, что различия в средних значениях не случайны, если F-статистики меньше соответствующего значения из таблицы, то делается вывод о том, что различия в средних значениях случайны. Это сравнение в современной статистике заменено на сравнение величины Sig с 0,05.
252
2. Какой тип должны иметь независимые переменные в дисперсионном анализе?
3, Какой тип должны иметь зависимые переменные в дисперсионном анализе?
4 Что является результатом однофакторного дисперсионного анализа?
5. Как формулируется нулевая гипотеза в однофакторном дисперсионном анализе? Как формулируется альтернативная гипотеза в однофакторном дисперсионном анализе?
6. Что такое необъясненная дисперсия?
7, Что такое объясненная дисперсия?
Упражнение. Компания провела анализ объемов продаж нового сорта пельменей в пяти различных районах Северо-Запада файл (пельмени.зау). Определить, являются ли наблюдаемые различия случайными. В каком районе наиболее активно продаются пельмени?
8. ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АНАЛИЗ
Иерархический кластерный анализ1 используется для классификации набора объектов, когда заранее не известно число групп, на которые этот набор нужно разбить. Группы, на которые разбита выборка, называются кластерами (от англ, cluster - сгусток, гроздь (винограда), скопление (звезд) и т.п.).
Термин «кластерный анализ» пришел на смену ранее использовавшимся терминам, таким, как «распознавание образов без учителя», «стратификация», «таксономия», «автоматическая классификация».
Отличием кластерного анализа от метода к средних является то, что при кластерном анализе НЕ задается заранее число групп, на которые разбивается набор объектов.
Отметим, что дискриминантный анализ и деревья классификации решают задачу распознавания образов с учителем. В этом случае производится анализ наблюдений, для которых известно, к какому кластеру каждое из них принадлежит, другими словами, среди переменных присутствует так называемая группирующая переменная.
Приведем примеры задач, решаемых с помощью кластерного анализа.
1. Определение групп потребителей. Вариантами этой задачи являются следующие проблемы:
по результатам опроса потенциальных покупателей найти и описать различные рыночные сегменты;
прежде чем фирма определится, какие сегменты рынка создают для нее наибольшие возможности, надо решить, какие сегменты уже существуют;
Поскольку обычно термин «иерархический» опускают, мы в дальнейшем будем следовать этой традиции.
254
для разбиения потребителей на группы можно выбирать разные наборы характеристик объектов, например возраст, образование, место жительства, тип личности и т.д. Несложно разделить покупателей на сегменты по одной (или по каждой) характеристике. Кластерный анализ может помочь выявить уже сложившееся разбиение потребителей на «группы со схожими потребностями в отношении конкретного товара или услуги, достаточными ресурсами, а также готовностью и возможностью покупать» , учитывая все выбранные показатели одновременно.
2. На рынке присутствует большой выбор товаров одного назначения под разными торговыми марками. Надо разбить товары на группы схожих товаров.
Иногда такое разбиение известно и получается без применения статистической техники. Например, компьютеры бывают «для дома», «для офиса», «серверы» и «специализированные». Кластерный анализ применяется, если нет классификации, признанной всеми. (Но результат будет зависеть от выбора набора показателей.)
3. Страховая компания может интересоваться тем, на какие группы разделяются потенциальные покупатели. Результаты классификации используются, чтобы для разных групп определять оптимальные цены на услуги, оптимальные тарифы.
Этапы кластерного анализа
Перед применением процедуры кластерного анализа необходимо ответить на четыре вопроса:
1. Какие переменные будут использоваться при анализе?
2. Как вычислять расстояние между объектами? (Схожесть объектов определяется расстоянием между ними. Если расстояние мало, считаем, что объекты похожи.)
3. Как задать расстояние между кластерами? (Если расстояние мало, считаем, что кластеры похожи или даже объединяются в новый кластер.)
4. Надо ли стандартизировать переменные?
хЭванс Дж. М., Берман Б. Маркетинг. М.: Экономика. 1993.
255
Обсудим ответ на первый вопрос: «Какие переменные будут использоваться при анализе?»
Начинающий аналитик ответит: «Конечно, все! Исключая какие-то переменные, мы отбрасываем информацию!» Ответ кажется логичным, но оказывается неверным. При таком подходе сохраняются помехи, т.е. информация, ненужная для решения конкретной задачи.
Настраивая радиоприемник на частоту, мы отсекаем лишнее, хотя, слушая два канала одновременно, получили бы больше информации.
Как влияет цвет глаз покупателя на средний объем выпиваемого пива? Как бы ни влиял, этим при анализе потребления пива можно пренебречь. Переменную «цвет глаз» из анализа исключаем. Она создает помехи и несущественна при анализе потребления пива. Так нам говорят опыт и интуиция.
При отбрасывании нужна осторожность, если нам неизвестны зарплаты/доходы покупателей, но известны профессия, образование и стаж работы каждого из них, исключение этих трех переменных влечет за собой исключение из рассмотрения платежеспособности покупателей. Если классифицируются школы и не включены ни переменная «число школьников», ни переменная «число учителей», то кластеры будут формироваться без учета размера школ.
Вкус и качество пива трудно измерять. Но если пытаться сравнивать сорта пива, без таких переменных не обойтись. Иначе для анализа данных останутся лишь химические характеристики, характеристики упаковки и цена.
Важно! Правильный выбор переменных очень важен для успеха применения кластерного анализа. Критери-Qg, ем при отборе переменных для анализа является в первую очередь ясность интерпретации полученного результата, во вторую — интуиция исследователя.
Второй вопрос: как задать расстояние между объектами (наблюдениями)? Мы будем считать, что если расстояние мало, то такие объекты являются похожими.
256
В кластерном анализе нужно уметь измерять сходство объектов. Критерием сходства объектов является расстояние между ними. Каждое наблюдение - набор чисел (строка таблицы). Набору чисел соответствует точка в n-мерном пространстве. Когда говорят о расстоянии между наблюдениями, имеют в виду расстояние между точками. Если расстояние маленькое, то объекты схожи, и наоборот. Например, каждый объект абсолютно схож сам с собой, поэтому расстояние от объекта до него же самого равно нулю.
Расстояние между объектами зависит от анализируемых характеристик объектов. Производитель обуви может изучать покупателей с точки зрения их физических характеристик (с точки зрения технолога): рост, вес, размер ноги, высота подъема и т.д. Возможен другой взгляд, когда изучаются возраст, образование, профессия, семейное положение (точка зрения маркетолога). Понятно, что покупатели, совпадающие по первому набору показателей, очень различны по второму набору, и наоборот.
Расстояние между объектами определяется формулой, с помощью которой оно вычисляется. Описание наиболее популярных формул приведено в разделе «Расстояния между объектами и меры близости». Если у вас нет времени разбираться с математикой, то используйте расстояние City-Block (в литературе его называют также Манхэттен или линейным), евклидово расстояние или квадрат евклидова расстояния. Попробуйте все три варианта по очереди, выберите тот, который дает наиболее понятный результат. Евклидово расстояние — это то обычное расстояние, которым мы пользовались в школьной геометрии, расстояние Block — это то расстояние от пункта А до пункта В, которое проедет таксист в городе с прямоугольными кварталами.
На третьем шаге нужно решить, как задать расстояние между кластерами? Если расстояние между кластерами мало, считаем, что кластеры похожи или даже объединяются в один кластер.
Существуют несколько различающихся между собой методов. При анализе одного и того же набора данных могут быть
ч- 1471
257
получены разные кластеризации. Это может случиться в результате применения разных алгоритмов расчета расстояний между кластерами даже при использовании одного и того же способа расчета расстояний между объектами.
При проведении кластерного анализа присутствует элемент субъективизма, который проявляется в выборе способов вычислений расстояний между объектами и кластерами. После того, как этот выбор сделан, дальнейшая процедура происходит автоматически, объективно.
При проведении кластерного анализа чаще всего используется пять алгоритмов:
среднее невзвешенное расстояние (Average linkage clustering);
центроидный метод (Centroid Method);
метод дальнего соседа, максимального расстояния (Complete linkage clustering);
метод ближайшего соседа (Single linkage clustering);
метод Варда (Ward’s method).
Начинающим аналитикам мы рекомендуем использовать: метод Варда;
метод дальнего соседа, максимального расстояния (Complete linkage clustering);
среднее невзвешенное расстояние (Average linkage clustering).
При этом надо иметь в виду, что метод Варда требует, чтобы в качестве расстояния между объектами был выбран квадрат евклидова расстояния. Заметим, что иногда этот метод долго работает. Пока вы не разобрались с различиями между формулами расстояний между кластерами, избегайте метода ближайшего соседа, а также центроидного метода.
Более подробно особенности указанных методов рассмотрены ниже.
На четвертом шаге решается вопрос о том, надо ли стандартизировать переменные.
Правило для новичка звучит так: если вы не знаете, стандартизировать или нет, стандартизируйте.
258
Если не произвести стандартизацию переменных, то чаще всего оказывается, что результаты кластерного анализа будут зависеть от того, в каких величинах измерены переменные. Например, цены могут быть измерены в долларах, евро или рублях. Скорее всего в каждом случае вы получите свою, отличную от других классификацию. Если вы не хотите оказаться в такой ситуации — стандартизуйте переменные.
Стандартизация переменных автоматически проводится процедурой «Кластерный анализ».
Проблема интерпретации результатов
Решения, принятые на каждом из предыдущих шагов, приводят к различным результатам классификации, и эти различия тем сильнее, чем менее явно изучаемый набор объектов разбивается на кластеры. Кроме того, в вашей задаче разбиения может и не быть, но процедура кластерного анализа все равно как-то разобьет данные на группы.
Поэтому саму классификацию, полученную с помощью кластерного анализа, надо рассматривать критически, как один из возможных вариантов, но не как гарантированно верный ответ. Кластерный анализ исходит из геометрических соображений, из близости объектов в пространстве признаков. Это один из возможных подходов. Не больше. Но и не меньше.
Результаты кластерного анализа нуждаются в интерпретации. Необходимо понять, чем отличаются объекты, попавшие в различные кластеры, и чем схожи объекты, попавшие в один кластер. Кластерный анализ не дает никакой информации, насколько полученное разбиение соответствует вашим целям.
Как заранее выяснить, какой вариант кластеризации даст лучшие результаты? Никак. Мы рекомендуем действовать методом проб и ошибок, опираясь на интуицию и опыт. Хотя, если различные варианты процедуры дают близкие результаты, можно полагать, что полученная классификация выявила что-то существенное.
Лучшим будет тот результат, который вы смогли понять и проинтерпретировать.
259
При проведении кластерного анализа часто заранее не известно число кластеров. Для определения числа кластеров используется так называемая дендрограмма — графическое представление процедуры кластеризации. Дендрограмма делает процедуру принятия решения о количестве кластеров наглядной и гибкой.
Для применения кластерного анализа важно понимать, во-первых, как конструируется дендрограмма, во-вторых, как можно интерпретировать дендрограмму.
Рассмотрим, как осуществляется процедура кластерного анализа и построение дендрограммы на простом и наглядном примере, в котором исключены (важные) детали, затрудняющие понимание. К учету таких деталей можно будет перейти позже.
Пример 19. Кластеризация наблюдений без использования SPSS.
Рассмотрим данные опроса пяти респондентов, ответивших на вопрос: «Сколько раз вы смотрели новости по каналу XXX и каналу YYY». То есть у нас есть пять наблюдений и две переменные:
Vj — сколько раз за неделю смотрел новости по каналу XXX;
V2 — сколько раз за неделю смотрел новости по каналу YYY.
Результаты опроса приведены в табл. 45.
Для данных табл. 45 построим диаграмму рассеяния (рис. 183).
Будем использовать евклидово расстояние между объектами, а расстояние между кластерами будем вычислять по алгоритму «центроид».
Важно! Приведенные вычисления и построенная на их основе дендрограмма будут иными, если использо-вать другие расстояния между объектами и кластерами.
260
Для каждой пары наблюдений вычислим евклидово расстояние между ними. Из полученных результатов составим матрицу расстояний. В табл. 46 приведены результаты вычислений, при этом приведены только значения из нижнего треугольника: поскольку матрица симметричная, расстояние между наблюдениями номер 2 и номер 4 точно такое же, как и расстояние между наблюдениями номер 4 и номер 2.
Таблица 46
Таблица расстояний между объектами для данных примера 14
№ наблюдения 1 1 2 3 I 4 5 !
1 2 0,0 1,0 i ’ д
0,0 I 1 i
3 5,0 4,5 _ ' 0.0 , Г Г ~~ '
___ 4 _ 5 8,5 7,2 7.8 6.7 3,6 ' 0,0 1 2,2 l 2,0 ' 0,0
261
Иерархический кластерный анализ выполняется посредством нескольких шагов. (Число шагов равно числу наблюдений минус один.)
В полученной матрице находим пару различных кластеров, расстояние между которыми минимально. В данном случае в начале анализа каждый кластер состоит из одного объекта, поэтому расстояния между кластерами и объектами совпадают.
Оказалось, что наиболее похожи между собой объекты (наблюдения) номер 1 и 2. (Соответствующая ячейка табл. 47 выделена серым цветом.) Напомним, мы предположили, что близость расстояний интерпретируется (понимается) как схожесть наблюдений.
Таблица 47
Таблица с выделенным минимальным расстоянием между кластерами 1 и 2
Кластеры j 1 2 3 4 5
i 1 0,0
1 2 I 1,0 0,0
i 3 5,0 4,5 0,0
4 8,5 7,8 3,6 0,0
5 7,2 6,7 2,2 2,0 0,0
На следующем шаге объединим кластеры 1 и 2 в кластер, который будет обозначаться «А». Теперь рассчитаем расстояния от этого нового кластера (состоящего из объектов номер 1 и 2) до остальных трех кластеров, имеющих номера 3, 4 и 5.
Применим алгоритм «центроид», в соответствии с которым для нового кластера надо найти координаты центра тяжести. Напомним, что координаты точки — центра тяжести равны среднему арифметическому соответствующих координат точек, входящих в кластер. Координаты центра тяжести кластера А равны 1,5 и 1,0. Точка с вычисленными координатами интерпретируется как центр кластера и используется далее как представитель нового кластера.
262
Ла следующем шаге необходимо рассчитать евклидово расстояние от полученного центра кластера А до центров остальных кластеров. На этом этапе анализа все остальные кластеры (3, 4 и 5) все еще состоят из единственного объекта (из самого себя), а значит, каждый кластер совпадает со своим центром.
Модифицируем матрицу расстояний. В новой матрице кластеров 1 и 2 уже нет, вместо них появляется кластер А.
В новой матрице (табл. 48) минимальным расстоянием является 2,0 — расстояние между кластерами-наблюдениями 4 и 5. Эти два кластера объединяются в новый, который будет обозначаться В. Координаты его центра Vt = 6, V2 = 7.
Таблица 48
Таблица расстояний между четырьмя кластерами для примера 19
Кластеры А 3 4 5
А 0,0 , 1
3 4,7 0,0
4 8,1 3,6 | 0,0 1
5 6,9 2,2 | 2,0 j 0,0 ,
Затем необходимо снова модифицировать матрицу расстояний. При этом удаляются кластеры 4 и 5, вместо них появляется их объединение, т.е. кластер В (см. табл. 49).
Таблица 49
Модифицированная таблица расстояний (третий шаг)
Кластеры А в з |
А 0,0 1
В 7,5 0,0 1
3 4,7 2,8 1 °'0 1
263
Теперь ближайшими кластерами будут В и 3, так как расстояние между ними равно 2,8. Эти кластеры объединяются, новый кластер снова будет называться В. Координаты его центра Vt = (4 + 5 + 7)/3 = 5,3 и V2 = (5 + 7 + 7)/3 = 6,3.
Теперь осталось всего два кластера (см. табл. 50), они объединяются, при этом расстояние между ними равно 6,4.
Таблица 50
Модифицированная таблица расстояний (четвертый шаг)
Кластеры А в
А 0,0
в 6,4 0,0
Весь проделанный выше процесс отражается теперь на дендрограмме (рис. 184).
Дендрограмму можно рисовать снизу вверх или слева направо. Оба варианта рисуются одинаково, здесь будет использоваться первый из них, хотя в случае большого числа наблюдений предпочтительнее второй.
Каждому кластеру на дендрограмме соответствует вертикальная линия. Исключение — последний кластер, в который вошли все наблюдения. Например, линия 1-а соответствует кластеру, содержащему только объект 1, линия b-d соответствует кластеру, состоящему из объектов 1 и 2.
Будем считать, что вертикальные линии идут снизу вверх. Рано или поздно всякая вертикальная линия заканчивается, упираясь в горизонтальную линию (которая выглядит как перекладина). Это соответствует слиянию двух (изредка большего числа) кластеров. Каждому объединению соответствует своя горизонтальная линия. Например, линия a-b-с соответствует объединению кластера 1 и кластера 2.
Высота горизонтальной линии над горизонтальной осью равна расстоянию между кластерами в момент объединения. Например, линия a-b-с проходит на высоте 1,0, так как расстояние между кластерами 1 и 2 равно единице. Линия e-f-g прохо-
264
Рис. 184. Дендрограмма
дит на высоте 3,8, так как расстояние между кластерами 3 и В равно 3,8.
После объединения из перекладины вверх уходит одна новая линия, она обозначает кластер, полученный в результате объединения. Линия b-d, повторимая, соответствует кластеру, состоящему из объектов 1 и 2.
Дендрограмму рисуют так, чтобы линии не пересекались.
Обсудим вопросы, на которые обычно отвечают при анализе дендрограмм.
Если горизонтальная линия расположена низко, то расстояние между кластерами маленькое, а значит в кластер вошли похожие объекты. Если перекладина проходит высоко, то объединяются далекие кластеры, значит произошло объединение сильно различающихся объектов. Это нехорошо, такое объединение надо отменить. Таким образом, мы отменяем (стираем) те горизонтальные линии и те кластеры, которые получились на большой высоте.
В нашем примере заметен скачок при объединении кластеров А и В — с 3,8 до 6,4. Наш вывод: наблюдения распадаются На два кластера А и В.
265
Сложнее определять число кластеров в других, более сложных задачах с большим числом наблюдений. Более того, определение оптимального числа кластеров — одна из основных проблем при использовании кластерного анализа. Хотя полностью избежать субъективизма невозможно, при принятии решения может помочь отслеживание расстояния между кластерами в момент их объединения. По мере реализации процесса объединения, особенно на последних шагах, объединяются все менее похожие друг на друга кластеры, объединение становится все более и более искусственным, все более и более «насильственным». Часто это отражается в заметном скачке расстояний между объединяемыми кластерами: объединяются разнородные кластеры и расстояние между ними большое.
«Поймать», локализовать момент скачка в расстояниях можно на специальном графике (рис. 185).
Рис. 185. Номер шага объединения
На горизонтальной оси указывается номер шага объединения. На вертикальной оси указывается расстояние между объединяемыми кластерами в момент объединения.
Для тех, кто знаком с факторным анализом и анализом главных компонент, заметим, что идея применения такого графика и критерия «каменистой осыпи» одна и та же...
266
j3 рассматриваемом примере скачок в расстоянии произвел на последнем шаге объединения, это подтверждает гипоте-что в данных присутствуют именно две группы объектов.
3j >
Упражнение.
Ниже (рис. 186) приведены три диаграммы рассеивания и три дендрограммы. Разбейте рисунки на пары, соответствующие кластерному анализу одного и того же набора данных.
В следующем примере рассмотрим, как применяется SPSS
для проведения кластерного анализа.
Similarity
Similarity
Рис. 186. Упражнение
267
Пример 20. Сегментация потребителей безалкогольных напитков.
Некоторая компания провела опрос с целью выявить, какие напитки предпочитают респонденты. Опрошенные указывали, какие напитки из предложенного списка они пьют регулярно. В списке присутствовали Coca-Cola, диетическая Coca-Cola, Pepsi-Cola, диетическая Pepsi-Cola, 7-Up и диетический 7-Up, «Спрайт» и минеральная вода. Было опрошено 34 человека, каждый мог отметить как все 8 позиций («регулярно пью все напитки из списка»), так и ни одной («не пыо ни одного напитка из списка»).
Результаты опроса приведены в табл. 51.
Таблица 51
Данные опроса потребителей безалкогольных напитков
Номер Coca Cola r Диетическая Coca Cola Диетическая Pepsi Диетическая 7-Up Pepsi Sprite Минеральная вода 7-Up
‘ 1 ' 1 ' 0 ! 0 0 1 1 0 1
2 н 1 0 0 1 0 0 0
з । 1_ 1 1 0 0 0 1 0 0 0
4 0 1 0 1 0 0 1 0
5 । 1 1 0 -i 0 0 1 0 0 0
6 1 1 0 0 0 1 1 0 0
7 0 1 1 1 1~ 0 0 1 0
_ 8 1 1 0 0 1 г 1 0 1
9 ' 1 1 ’ 0 ° 0 1 1 1
10 ' 1 . 0 0 г i о 1—- 1 1 0 0 1
11 i l_ 1 0 0 ’ 0 1 1 0 0
268
Разобьем респондентов на группы с помощью кластерного анализа и попытаемся проинтерпретировать полученные группы.
Запустим процедуру кластерного анализа.
Последовательно выберем пункты меню Analyze\Classify\ Hierarchical Cluster... Появится диалоговое окно, представленное на рис. 187.
Далее выберем анализируемые переменные и перенесем их в окно переменных (Variable(s)). В данной задаче используем все переменные (все напитки из списка). Не используем только номер опрошенного: он не относится к делу.
Убедимся, что в группе Cluster выбран пункт Cases (наблюдения). Мы классифицируем покупателей (наблюдения), а не напитки (переменные). Вообще говоря, мы можем классифицировать и напитки, но это будет уже другая задача.
Теперь рассмотрим некоторые возможности SPSS, активизируемые кнопками Statistics..., Plots..., Method... и Save...
Начинающий может не нажимать кнопку Statistics...
: Hierarchical Cluster Analysis
номер
Variablefsj:
фсоке ф d_coke $>d_pepsi 4> d_7up <£• pepsi ф sprite £>tab r£> sevenup
Statistics .
I
C Variables ] ________________I
- Display-------------------
P Statistics P Plots
PlQts.. Method., | Save |
Рис. 187. Диалоговое окно Hierarchical Cluster Analysis
270
Мы рекомендуем активизировать окно Hierarchical Cluster Analysis: Plots, вызываемое кнопкой Plots... (рис. 188).
Hierarchical Cluster Analysis: Plots

xl
dendrogram
-1 cide--------------—------------
(♦ All clusters
C Specified range ol clusters 4'7”1 " f r- _
В?: Г
Continue}.:
Cancel
Help fl
C None
- Orientation-.<• Vertical
C. Horizontal

Рис. 188. Диалоговое окно Hierarchical Cluster Analysis: Plots
В этом окне мы советуем выбрать опцию Dendrogram (Дендрограмма) и отключить опцию Icicle (Сосульчатый график). Дендрограмма — основное средство графического представления результатов кластерного анализа, сосульчатый график служит тем же целям, но в настоящее время используется редко.
Нажмите кнопку Continue (Продолжить).
Далее нажатием кнопки Method... в диалоговом окне, представленном на рис. 187, активизируйте окно Hierarchical Cluster Analysis: Method (рис. 189). В раскрывающемся списке Cluster Method (Расстояние между кластерами) выберите Ward’s method (Метод Варда).
В раскрывающемся списке Measure (расстояние между объектами) выберите Squared Euclidean distance (Квадрат евклидова расстояния) (рис. 190). Нажмите кнопку Continue.
В раскрывающемся списке Transform Values Standardize (Преобразование переменных: стандартизировать) ничего не Делайте. Это противоречит ранее данным указаниям «стандартизировать». Данный пример — редкое исключение. Дело в том, что все переменные измерены в одной шкале («пил» — «не пил»), а значит, сопоставимы.
271
Hierarchical Cluster Analysis: Method
Cluster Method.
Measure —-
(* Interval'
C Counts.
C Binary
greseriL p ' Absent: |fi I
Between-groups linkage
Within-groups linkage Nearest neighbor Furthest neighbor Centroid clustering Median clustering______
Ward's method
.1 ~ tp d; tarter '~"rl
2£1
Continue J j Cancel | । Help [ I
г Transform Values / - ----------? Transform Measures - ,
( Standardize: |None jJ ’ Г Absolute values i
4* Syiati^hle । । Г Change sign I
C By case ' Г* Rescale to 0-1 range 1
i—_____________L----------------------’ . • '------------------ - - J ‘
______________________________________J
Рис. 189. Диалоговое окно Hierarchical Cluster Analysis: Method. Список Cluster method
Hierarchical Cluster Analysis: Method

Cluster Method ] Ward's method
Measure !7-- -jp Interval
Counts
Squared Euclidean distance
Cosine
Pearson correlation
Chebychev
Block
Minkowski
Customized -w
Transform Values
ardrze (None
fiinary
[ Continue~| Cancel | Help I
Transform Measures
Г Absolute values
Г Change sign
Кгй--
Pgscale to 0-1 range

Рис. 190. Диалоговое окно Hierarchical Cluster Analysis: Method. Список Measure
272
Для других ситуаций укажем два рекомендуемых варианта стандартизации: z-scores и Range 0 to 1 (рис. 191). В первом случае из каждого наблюдения будет вычтено среднее, а разность поделена на стандартное отклонение; среднее и стандартное отклонения считаются по столбцу. Во втором случае преобразование линейное и проводится так, чтобы минимальное наблюдение стало равным нулю, а максимальное - единице. Напоминаем, что в рассматриваемом примере стандартизация не нужна. Действительно, если использовать вариант Range О to 1, в результате стандартизации получим те же самые значения.
В SPSS имеется возможность сохранить результаты кластерного анализа. Результаты имеют вид новой переменной, которая будет создана процедурой и добавлена к исходным данным. Окно, в котором задаются параметры сохранения новой переменной, активизируется кнопкой Save в диалоговом окне, представленном на рис. 187.
Обсудим значения новой переменной. Каждому наблюдению будет сопоставлено число - номер кластера, к которому было отнесено наблюдение. Например, для всех наблюдений, попавших в кластер номер 3, значение новой переменной равно 3.
Что значит кластер номер три? Требуя сохранить результаты кластерного анализа, аналитик указывает, сколько кластеров он хочет получить. Пусть, например, было «заказано» 5 кластеров. После этого SPSS произвольно нумерует кластеры и для всех объектов, попавших в кластер номер 1 , значение новой переменной будет равно 1, для всех объектов, попавших в кластер номер 2 , значение новой переменной будет равно 2 и т.д.
Вернемся к рассмотрению опций окна Hierarchical Cluster Analysis: Save New Variables (рис. 192).
Если аналитик не желает сохранять информацию о принадлежности к кластерам, он оставляет опцию None (не создавать новых переменных). Так поступают, когда проводят прикидку, предварительный анализ.
Если аналитик желает сохранить, например, 5 кластеров, он выбирает опцию Single solution (Одно решение) и ставит в ставшее активным поле число 5 — число кластеров.
273
Hierarchical Cluster Analysis: Method
Xj
Duster Method
Measure (* Interval
C Counts
C Binary
jBetween-groups linkage
Continue
Cancel
f Squared Euclidean distance H Pok*: | ▼ j Pont1
|sniiare measure
| S qvi-g-ed Euc i.c-an dH«nce
Present. |l ~ Absent’ [g
Help
r T ransform Values------
. f Standardize jz scores
i. scores
Range -1 to 1
Range 0 to 1
Maximum magnitude of 1
J Mean of 1
- T ransform Measures---
Г” Absolute values
Г* Change sign
Г Rescale to 0-1 range
Рис 191. Диалоговое окно Hierarchical Cluster Analysis: Method. Список Standardize
Hierarchical Cluster Analysis: Save New Variables
Рис. 192 Диалоговое окно Hierarchical Cluster Analysis: Save New Variables
Часто аналитик не знает, сколько кластеров ему надо. Например, он колеблется, то ли имеется три, то ли четыре, то ли пять кластеров. Тогда он заказывает три решения с разным
274

I From p
Continue 4_ ’
- Cluster Membership Hone
'C Single solution
a?=<
v- Ran9e of solutions
- .J
РИС. 193. Диалоговое окно Hierarchical Cluster Analysis: Save New Variables
Г5*
числом кластеров. На рис. 193 выбрана последняя опция Range of solutions (Несколько решений).
При таком выборе будет сохранено три решения с числом кластеров From 3 through 5 clusters (от 3 до 5 кластеров).
В том примере, который мы рассматриваем, сразу зададим «правильное» число кластеров, а именно три. Почему слово «правильное» заключено в кавычки? Вообще говоря, при проведении кластерного анализа нет правильного решения. Есть решения, которые понятны аналитику, решения, для которых удалось понять, проинтерпретировать состав кластеров. Есть решения, в которых разделение объектов на кластеры непонятно. В последнем случае считаем, что кластерный анализ не дат результата. То ли разделения объектов на кластеры просто нет, то ли аналитик оказался недостаточно опытен или сметлив. Посмотрите на рис. 194. Возможно, что кластеров очень много, скорее всего их просто нет, выборка однородна. При этом кластерный анализ даст какое-то решение (он всегда дает какое-то Решение), только оно будет бессодержательным.
Итак, в нашем примере был выбран вариант с единственным решением, содержащим три кластера: Single solution (одно Решение), число кластеров равно 3 (т.е. в окошечке, ставшем активным, поставлено число 3). Нажмите кнопку Continue, нтобы вернуться в основное окно процедуры кластерного анализа.
275
Рис. 194. Пример диаграммы рассеяния
Рассмотрим теперь опции окна Statistics... (Статистики), которое вызывается одноименной кнопкой в окне, представленном на рис. 187.
В окне Hierarchical Cluster Analysis: Statistics (рис. 195) выделите опции Aglomeration schedule (История процесса объединения кластеров) и Cluster membership: Single = 3 (число кластеров, определенных с помощью процедуры: единственное решение с тремя кластерами).
Hierarchical Cluster Analysis: Statistics
p Agglomeration schedule]
Continue
I" Proximity matrix
Cluster Membership - I Г None
Рис. 195. Диалоговое окно Hierarchical Cluster Analysis: Statistics
Объяснение опции Aglomeration schedule (История процесса объединения кластеров) будет приведено ниже, когда будут получены результаты кластерного анализа.
Опция Cluster membership: Single = 3 (число кластеров, определенных с помощью процедуры: единственное решение с тремя кластерами) обсуждалась выше. Но некоторая разница
276
все же есть. Если ранее заказывалось создание новой переменной, которая добавляется к исходным данным, то теперь значения новой переменной будут выведены среди результатов анализа в окне Output.
Теперь нажмите кнопку Continue, чтобы вернуться в основное окно процедуры кластерного анализа (рис. 195.)
Мы обсудили все настройки процедуры кластерного анализа (в той степени, которая нужна новичку). Нажмите кнопку ОК, запуская выполнение процедуры.
Теперь переходим к результатам анализа. Они появятся в окне Output.
Первая таблица результатов Case Processing Summary (Сводка информации о наблюдениях, участвовавших в анализе) малоинформативна. Она скорее напоминает, что именно вы делали. Данная таблица появляется при любом варианте проведения кластерного анализа независимо от набора опций.
Таблица 52
Case Processing Summary
Cases
Valid Missing j Total i |
N Percent N ! i Percent ! i N 1 Percent _ i
34 100,0 0 1 1 ,0 34 100,0
a Squared Euclidean Distance used, b Ward Linkage.
Рассмотрим результаты табл. 52.
Valid (число наблюдений, не содержащих пропусков) — 34.
Missing (пропущено наблюдений) - 0.
Total (всего наблюдений) — 34.
a Squared Euclidean Distance used.
Нам напоминают, что мы делали: расстояние между ооъек-тами считалось по формуле «квадрат евклидова расстояния».
b Ward Linkage.
Нам напоминают, что мы делали: расстояние между кластерами считалось по формуле Варда.
277
Таблица 53 содержит историю процесса кластеризации. Она появилась, так как в подменю Statistics... (Статистики) была выбрана опция Aglomeration Schedule (история процесса объединения кластеров). Хотя новичками данная таблица не используется, объясним ее содержание.
Чтобы разобраться в ней, рассмотрим, например, стр. 19.
19 J 18 | 20 2,333 9 | 0 26
Номер стр. 19 указывает шаг объединения.
Следующие два числа (18 и 20) обозначают номера объединяемых кластеров. Кластер, полученный в результате объединения, будет обозначен числом 18. Процедура использует следующее правило: для обозначения нового кластера выбирают наименьшее из чисел, стоящих во втором и третьем столбцах.
Число, стоящее в четвертом кластере (2,333), — расстояние между кластерами в момент объединения.
Следующие два числа (9 и 0) сообщают, когда именно объекты, входящие в объединяемые кластеры, уже участвовали в объединении. Мы видим, что первый из кластеров (кластер номер 18) был получен на шаге 9. Посмотрев на строку номер 9, видим, что тогда объединялись кластеры номер 18 и 24, результату объединения присвоен номер 18. Далее мы видим, что второй кластер был получен на шаге номер ноль. В SPSS это означает, что ранее этот кластер в процедуре объединения кластеров не участвовал. Таким образом, это кластер, состоящий из единственного объекта номер 20.
Последнее число (26) указывает, на каком следующем шаге используется полученный в результате объединения кластер. Посмотрев строку номер 26, видим, что кластер номер 18 будет объединяться с кластером номер 2.
В окне Statistics... (статистика) с помощью опции Cluster membership: Single = 3 (число кластеров, определенных с помощью процедуры: единственное решение с тремя кластерами) заказывались результаты классификации. Эти результаты приводятся в таблице Cluster membership (принадлежность наблюдений к кластерам) (табл. 54).
278
Таблица
Stage 1 ^2 3 4 5 6 Cluster C Cluster 1 7 31 30 10 15 14 combined _ Cluster 2 34 33 32 31 30 29 абли«а 53 nts , ; k___Appears Next , Saw 7 --^Cluster 2 o , 18 0 о !— —-—JL о 1 , L 0 n I : 1 .о о iо r :— ~J—-- ^JLi^i —-—— 22 0 ! n , '1 '
7 12 27
8 23 26 ZZj 1 0 ! 0 1 21 10
9 18 24 0 r~ о ; о 19
10 4 23 0 0 8 25
И 21 22 0 0 0 12 ।
12 2 21 0 0 ' 11 15
13 6 11 0 0 ' 0 20
14 3 5 0 0 0 15
15 2 3 0 12 । 14 26
16 19 28 0,5 0 0 22
17 1 8 _1 24
18 7 25 1,667 ! L । 0 j 26 29 30 27
18 20 2,333 3 __ 0__ ZHZjZj’— 7^ 5
20 6 16
22 12 14 15 19 5,4£ j
279
Продолжение табл. 53
Stage Cluster Combined j Coefficie nts Stage Cluster First Appears Next Stage
। Cluster 1 Cluster 2 Cluster 1 Cluster 2
23 । 9 17 6,95 0 0 27
24 1 10 8,45 17 4 31
25 4 7 10,117 10 18 30
' 26 t ' t i 2„J 18 12,2 15 19 29
I 27 i s j 14 14,283 23 22 28
28 г I 9 ; 13 16,95 27 0 32
; 29 2 ; 6 19,715 26 20 31
30 “Г : 4 l 1 12 22,545 25 21 33
31 J 1 i 2 26,114 24 29 32
32 1 ' 9 33,233 31 28 33
33 1 4 58,382 32 30 0
В первом столбце приводятся номера объектов (номера респондентов при опросе). Во втором столбце указываются номера кластеров, к которым были отнесены наблюдения.
Заметим сразу же, что второй столбец таблицы и новый столбец, добавленный к данным, в точности совпадают. Напомним, что создание нового столбца в таблице данных заказывалось в окне Save... (Сохранить новые переменные) с помощью опции Cluster membership: Single = 3 (число кластеров, определенных с помощью процедуры: единственное решение с тремя кластерами). Обратим внимание на название этого столбца clu3_l. Оно было составлено следующим образом. Начало названия «с!и» происходит от слова cluster, цифра 3 указывает, что заказывалось три кластера, цифра 1 является «версией» процедуры. Обычно кластерный анализ проводится много раз подряд, при этом выбирается оптимальное число кластеров, лучшие варианты задания расстояний. Все эти версии нумеруются. Поскольку проведенный анализ первый, то номер его 1.
280
Таблица 54
Таблица принадлежности к кластерам
Cluster membership
Case 3 Clusters ' Case . 3 Clusters {
1 1 is | i j
2 1 19 | 3 "l 1 1
3 1 20 ! 1 J
4 2 21 i 1
5 1 1 1 22 j i : i 1
6
1 23 2 I
7 2 24 1
8 1 25 2 • J
9 3 26 2 1 — 1
10 1 27. i 2
И 1 28
12 2 29 3 Л
13 3 30 2
14 3 31 1 I
15 2 32 L- 2 :
16 1 i 33 1
17 3 34 2 !
Последний из результатов — дендрограмма (рис. 196). Она появилась, так как в подменю Plots... (Графики) была выбрана опция Dendrogram (Дендрограмма). Рассмотрим ее.
Анализ дендрограммы позволяет предположить присутст-Вие Двух или трех кластеров.
281
Рис. 196. Дендрограмма
Опуская объяснение, почему вариант с двумя кластерами хуже, рассмотрим вариант решения с тремя кластерами.
В верхний кластер войдут, перечисляя сверху вниз на дендрограмме, респонденты с номерами с 7-го по 27-й, в средней группе — с 14-го по 13-й, в нижней — с 31-го до 20-й. При этом пакет SPSS нумерует кластеры иначе, не сверху вниз. Нижний кластер имеет номер 1, верхний кластер — 2, средний — 3.
Кластеры получены, но каков их смысл, т.е. как мы их проинтерпретируем? В данной задаче срабатывает следующая идея. Попробуем сравнить структуры потребления прохладительных напитков в разных кластерах. Для этого в каждом кластере подсчитаем, сколько человек пьет данный напиток. В терминах SPSS нам надо подсчитать описательные статистики в каждом кластере. Поскольку проводится одно и то же действие в трех группах, надо воспользоваться расщеплением данных на
282
руппы. В нашей задаче группы наблюдений отличаются друг от ДРУга номеРом гетера.
Итак, разобьем данные на группы. Для этого выполним ко-манДУ Data\Split File\Organize output by groups (Данные\ разДеЛИТЬ Файл на группы наблюдений\Организовать вывод результатов по группам). Далее переносим ту переменную, по значениям которой определяются группы, в окно Groups Based on (Группы определяются по значениям переменной/ых). В нашем случае это переменная Ward Method.
Заметим, что переменная называется Ward Method, а не clu3_l- Дело в том, что в окнах пакета SPSS приводятся не имена переменных, а их метки. Воспользуйтесь режимом окна Variable View, в нем в строке 10 описывается переменная clu3_l, метка у этой переменной - Ward Method.
Итак, вывод результатов по кластерам организован, нажмите кнопку ОК.
Переходим к анализу данных. Последовательно двигаясь по меню Analyze\Descriptive Statistics\Descriptives... (Анализ\ Описательные Статистики\Описательные), открываем нужное нам окно. Переменные, соответствующие напиткам, переносим в окно Variable(s) (переменные). В окне Options (Опции) выделяем только опцию Sum (сумма значений переменной). Нажав кнопку Continue, возвращаемся в меню. Все подготовлено для анализа, запускаем его кнопкой ОК.
Результаты анализа — три таблицы (табл. 55) - появляются в окне Output (Выводы). В первой таблице приведены итоги Для первого кластера. На это указывает подпись Waro Method = 1, т.е. приведены результаты только для тех наблюдений, для которых переменная clu3_l равна единице. Точно так же следующие таблицы содержат результаты для наблюдений из второго и третьего кластеров.
Итак, в этих таблицах для каждого кластера указано, сколько человек в этом кластере пьют каждый из напитков.
Проще всего интерпретировать второй кластер. В него попаяй люди, пьющие минералку и диетические напитки.
Сегмент, соответствующий первому кластеру, составляют кто пьет лишь «классические» напитки: Pepsi-Cola и
С°са-Со1а.
283
Таблица 55
Таблицы с описательными статистиками для трех кластеров
Descriptive Statistics
1 N I Sum
COKE 16 15
D_COKE 16 4
DJPEPSI 16 1
D7UP 16 0
PEPSI 16 16
SPRITE 16 5
TAB 16 0
SEVENUP 16 5
Valid N (listwise) 16
a Ward Method = 1.
Descriptive Statistics
N Sum
COKE 11 0
| D_COKE 11 11
i D PEPSI 1 — 11 6
l-PJTJP 11 6
PEPSI 11 0
SPRITE 11 0
। TAB 11 10
SEVENUP 11 0
Valid N (listwise) 11
a Ward Method = 2.
284
Descriptive Statistics
N Sum

СОКЕ 7 5 i
D-COKE 7 2 j
D-PEPSI 7 1
D_7UP 7 1
PEPSI 7 0
SPRITE 7 6
TAB 7 1
SEVENUP 7 4
Valid N (listwise) 7
a Ward Method = 3.
Лица из третьего кластера пьют все.
Если в учебных целях предположить, что выборка была репрезентативна (что сомнительно, учитывая размер выборки и чересчур удачное разбиение), то мы имеем основу для сегментации рынка. Заметим, что стоит попробовать еще дополнительно разбить третий кластер на меньшие части — кластер выглядит не особенно четким, да и на дендрограмме видно, как он распадается на две части.
Для продолжения анализа в этом направлении необходимо увеличить количество наблюдений, проведя дополнительный опрос.
В данном примере интерпретация кластеров основывалась на анализе специально сконструированных переменных. Этих новых переменных столько же, сколько было анализируемых переменных, их можно назвать, например, «процент лиц в клакере, покупавших данный продукт». Значения новых переменных описывали не опрошенных, а кластеры. Во многих задачах Различия между кластерами не так очевидны и приходится использовать специальные статистические подходы, например сравнивать средние значения переменной в разных кластерах.
285
В примере интуиция и опыт исследователя проявились в том, что он «догадался» ввести эти новые переменные.
Расстояние между объектами и меры близости1
Хотя между расстоянием и мерой схожести существуют важные отличия, в данном разделе оба понятия будут называться расстоянием. Основываться будем на следующих соображениях. Интуитивно ясно, что малое расстояние соответствует большому сходству. Это утверждение можно формализовать посредством формул пересчета расстояния в сходство, и наоборот. Например, если — расстояние между объектами с номерами i и /, то сходство между этими объектами можно определить с помощью формулы
Bij = - dij-
J k,l J
Расстояние необязательно измеряет длину. Оно может измерять и сходство. Действительно, географически расстояние от Петербурга до Москвы больше, чем расстояние от Петербурга до Выборга. Но если эти три города интересуют нас как рынки, то Москва и Петербург более похожи друг на друга, чем Петербург и Выборг. Следовательно, в ходе анализа мы ожидаем, что с точки зрения рыночных характеристик расстояние от Москвы до Петербурга должно быть меньше.
Расстояние между объектами может быть вычислено разными способами. Разберемся с некоторыми из них, полезными при проведении кластерного анализа.
Начнем с самого привычного определения — с евклидова расстояния. Это то расстояние, которое использовалось в школе на уроках геометрии, длина отрезка, соединяющего точки.
Если мы подсчитываем расстояние между двумя числами xt и х2 (т.е. в одномерном случае), то формула для подсчета евклидова расстояния выглядит так:
Данный раздел носит вспомогательный характер.
286
g трехмерном случае приходится применять теорему Пифагора. Рассмотрим две точки с координатами (хр х2, х3) и (ур у2' У^' Расстояние Евклида между этими точками вычисляет-СЯ ПО формуле
^ху ~ ~ У\> + (х2 ~ У2) + (-^3 “ •
Заметим, что расстояние от Петербурга до Владивостока, как оно указано на географических картах, не евклидово... Оно было бы евклидовым, если бы Земля была плоской и стояла на трех слонах. Но Земля шарообразная, в справочниках учитывается ее кривизна.
Расстояние Block (Manhatten, таксиста). В городе невозможно двигаться по прямой, соединяющей две точки. Приходится следовать дорогам. Отсюда происходит название данного способа вычисления расстояний. Если посмотрим на рис. 197, то расстояние Block будет равно сумме длин отрезков, соединяющих точки А
Рис. 197. Расстояние Block между двумя точками
и В.
Если два объекта X и Y описываются наборами чисел (векторами)
и
X =(хр х2,..., х^
V = (г/р #2-
соответственно, то расстояние Block между ними вычисляется по формуле
dXY "1ХГ J/,I + кг ".V2I + - + 1-4 "Ук\-
Квадрат евклидова расстояния (SEuclid). В данном случае вычисляется евклидово расстояние, затем полученная величина возводится в квадрат.
Сравним указанные методы.
Квадрат евклидова расстояния нужно применять при использовании методов Варда и метода «центроид». В случае метода Варда это вызвано математическими аргументами, для метода «центроид» — особенностями программной реализации. Данный текст не предполагает обсуждение такого материала.
В остальных случаях современная тенденция — отдавать предпочтение расстоянию Block перед евклидовым.
Выбор между евклидовым и Block расстояниями определяется, исходя из конкретной решаемой задачи, и зависит от того, как относится аналитик к большим различиям по одной координате.
Для примера рассмотрим две пары точек. Первая пара: точки (7, 3, 9) и (7, 24, 9). Вторая пара: точки (7, 3, 9) и (14, 10, 16). Расстояние Block между ними одинаково и равно 21. Евклидовы расстояния равны 21 и 12,12 соответственно. Получается, что евклидово расстояние гораздо более чувствительно к большим отличиям между координатами.
Если в конкретной задаче вторая пара наблюдений более схожа между собой, чем первая, то используется евклидово расстояние, если же степень сходства между ними примерно одинакова, то выбирается расстояние Block.
Выбор, таким образом, за вами, и этот выбор делается, исходя из конкретной решаемой задачи.
Важным частным случаем является ситуация, когда переменные измерены в бинарной шкале, т.е. когда возможны лишь два значения переменной. Например, при ответе на вопросы: «Вы пили лимонад “Буратино” в течение двух предыдущих недель?», «Вы знаете о существовании продукта XXX?», «У вас есть автомобиль?» возможны лишь ответы «да» или «нет». (В маркетинге особенно часто приходится анализировать ответы на такие вопросы.)
В этом случае действуем так же, только отказываемся от евклидова расстояния. Дело в том, что расстояние Block и «квадрат расстояния Евклида» могут быть сведены к мерам
288
близости Хаммана (Hamann Similarity Measure) или Simple patching Similarity Measure, наиболее популярным при анализе бинарных переменных.
Расстояние между кластерами1
В этом разделе мы опишем методы определения расстояния между кластерами.
Среднее невзвешенное расстояние (Average Linkage between Groups). При применении этого метода расстояние (различие) между кластерами из-
меряется как среднее значение.
При этом сначала считаются попарные расстояния между объектами, в пару входит по одному объекту из каждого кластера. Когда все попарные расстояния подсчитаны, берется их среднее арифметическое. Оно и объявляется расстоянием между кластерами по
Рис. 198. Иллюстрация метода среднего невзвешенного расстояния
методу среднего не-
взвешенного расстояния (Average Linkage between Groups) (рис. 198). Знак «+» обозначает центр соответствующего кла
стера.
Существует много вариаций этого метода. Могут учитываться попарные расстояния между объектами внутри кластеров, вместо среднего арифметического может браться медиана расстояний и т.д.
Цептроидный метод (Centroid Method) (рис. 199). Центроидом называют центр облака точек. Это точка, координаты кото-
*Этот раздел предназначен для дополнительного чтения. ю-1471 289
Рис. 199. Иллюстрация центроидного метода
Рис. 200. Иллюстрация метода дальнего соседа
Знак «+» на рис. 199 обозначает
рои вычисляют по специальному правилу. Чаще всего каждая координата равна среднему арифметическому соответствующих координат точек, входящих в кластер. Такую точку называют центром тяжести набора наблюдений. Иногда вместо среднего арифметического находят медиану соответствующих координат.
В настоящее время этот метод теряет свою популярность. Его основное достоинство — вычислительная простота. Метод можно реализовать, даже не имея компьютера. Когда компьютер все-таки имеется, вы
числительная простота теряет свое значение.
центр соответствующего
кластера.
Метод дальнего соседа, максимального расстояния (Complete linkage clustering) (рис. 200). При использовании этого метода сначала считаются попарные расстояния между объектами, в пару входит по одному объекту из каждого кластера. За рас
стояние между кластерами принимается максимальное из расстояний. При использовании этого метода получаются очень плотные кластеры, состоящие из схожих объектов. В списке
290
Рис. 201. Иллюстрация метода ближайшего соседа
методов, особо рекомендуемых к использованию, данный метод стоит вторым после алгоритма Варда.
Метод ближайшего соседа, минимального расстояния (Single linkage clustering) (рис. 201). В соответствии с этим методом сначала считаются попарные расстояния между объектами, причем в пару входит по одному объекту из каждого кластера. За расстояние между кластерами принимается минимальное из расстояний. В некоторых ситуациях этот метод очень полезен, потому что обнаруживает вытянутые узкие кластеры. Если же аналитика интересуют плотные кластеры, метод малопригоден. Поэтому он исключен из списка методов, рекомендуемых к исполь
зованию.
Метод Варда (WARD). Метод Варда отличается от рассмотренных выше. При его использовании отслеживается рост суммы квадратов евклидовых расстояний по мере уменьшения числа кластеров. Увеличение суммы и называется расстоянием Варда, поэтому данная величина не является обычным расстоянием. Тем не менее метод Варда часто порождает наиболее плотные кластеры. Новичкам рекомендуется начинать выбор оптимального способа вычисления расстояния между объектами именно с метода Варда.
Рекомендации. Применение кластерного анализа чаще всего включает этап подбора метода подсчета расстояний между кластерами и между объектами. Мы рекомендуем начинать перебор вариантов с методов Варда и метода дальнего соседа. И наоборот, мы рекомендуем избегать любой модификации Центроидного метода.
291
Как сочетаются способы вычисления расстояний между кластерами и объектами? Данный вопрос исследовался и оказалось, что практически все способы расстояний совместимы. Имеются два исключения. Если объединение кластеров производится по методу Варда или по центроидному методу, расстояние между кластерами должно быть равно КВАДРАТУ евклидовых расстояний. Это важно, поскольку метод Варда — наиболее рекомендуемый нами.
Контрольные вопросы
1. Каково назначение кластерного анализа?
2. Почему на главной диагонали матрицы в табл. 47 стоят нули?
3. Расстояние между кластерами измеряет схожесть кластеров или различие между ними?
4. В кластерном анализе могут ли равняться число шагов объединения и число наблюдений?
ДИСКРИМИНАНТНЫЙ АНАЛИЗ
go избежание путаницы отметим, что термин «дискриминант» (от. англ, discriminate — различать, распознавать и т.п.) практически не имеет отношения к дискриминанту, используемому в школе.
Дискриминантный анализ остался в наследство с докомпьютерных времен, когда можно было применять только методы, требующие простых вычислений. В настоящее время он вытесняется другими, более современными компьютерно ориентированными методами вроде нейронных сетей, метода к-го ближайшего соседа и т.д. Спад интереса был усилен публикацией примеров, в которых дискриминантный анализ ошибается при классификации практически половины всех наблюдений, хотя в этих примерах существует линейное разделение на подгруппы. Естественно, распределения переменных в этих примерах сильно отличаются от смеси нормальных распределений, для которых, в первую очередь, создавался дискриминантный анализ.
Дискриминантный анализ используется для классификации наблюдений в тех случаях, когда:
заранее известно (или задано анадитиком) число групп, на которые нужно разбить набор объектов:
имеется набор объектов, для которых известно, к каким группам они принадлежат (эти объекты уже расклассифицированы).
Часто такие группы заранее известны просто из постановки задачи. Иногда распределение по группам может быть результатом других видов анализа, например кластерного анализа. Заметим, что количество групп не должно быть больше, чем количество переменных-признаков.
Другими словами, исходные данные состоят только из таких наблюдений, для которых разбиение на группы уже извест-Но- Этот набор наблюдений называется обучающей выборкой.
293
Она используется для того, чтобы настроить, обучить процедуру. г.е. подобрать параметры дискриминантного анализа гак. чтобы он сам ^научился» классифицировать НОВЫЕ наблюдения.
Для реализации дискриминантного анализа необходимо, чтобы средн переменных была одна, особенная переменная, указывающая, к какой группе относится данное наблюдение. Именно эта переменная классифицирует все наблюдения. Среди остальных переменных выбираются те, но которым в будущем будет проводиться классификация новых наблюдений. Эти переменные называются независимыми. (Здесь имеется вызывающая сожаление путаница в терминологии. С точки зрения определения из теории вероятностей эти переменные почти всегда являются зависимыми.) Если какая-то переменная не является классифицирующей и не выбрана для будущей классификации, то она игнорируется на всех этапах использования дискриминантного анализа.
Классифицирующая переменная измеряется в номинальной или ранговой шкале. На практике она чаще всего принимает лишь два различных значения, что соответствует разбиению на две группы.
Математическая теория дискриминантного анализа строилась для случая, когда каждая подгруппа имеет нормальное распределение. На практике дискриминантный анализ используется и для данных, распределения которых значительно отклоняются от нормального. Тем не менее для независимых переменных недопустимо использовать ранговую или номинальную шкалу.
В табл. 56 приведены примеры задач, решаемых с помощью дискриминантного анализа.
классифи
Пример 21. Компания «X» хочет вывести на рынок новый товар. В 150 городах было проведено специальное обследование. Результатом обследования стали прогнозы, какой объем продаж этого товара: высокий, средний или низкий, ожидается в каждом из городов. Результаты заносились в таблицу данных в закодированном виде, высокий уровень продаж обозначался цифрой 1, средний — 2, а низкий — 3. Кроме того, имеются дан-
294
Т а б л и ц а 56
Примеры применения дискриминантного анализа
Проблема Группировка Переменные величины признака :
Проверка кредитоспособности клиентов 1 Класс риска: высокий, низкий Социодемографиче-ские признаки (воз-‘ раст, доход и т.д.), количество кредитов, стаж
Отбор претендентов на должность меиед-। жера в зарубежном 1 представительстве фирмы Предсказание ре-; зультата деятельности менеджера: вы-। сокий объем продаж, низкий j Образование, возраст, признаки личности, физические । признаки
^Анализ выбора клиентом марки автомобиля Марка автомобиля: , «мерседес», «БМВ», «ауди» и т.д. 1 Отношение к характеристикам машин: вид, скорость, эко-, НОМ1ГЧНОСТЬ и тд.
Прогноз результатов продвижения ! нового продукта 1 1 Характеристики 1 продаж: прибыль, j убыток Знания рынка предприятия. технологическое ноу-хау. цена и Т.Д.
ные о продажах в этих городах четырех других продуктов фирмы. Такие же данные о текущих продажах имеются для других городов, в частности для г. Петрозаводска, в которых обследование не проводилось. Фрагмент файла с результатами обследования приведен на рис. 202.
Проведение обследования — достаточно дорогая процедура, поэтому компания поставила вопрос о нахождении правила, по которому по данным продаж четырех давно продаваемых продуктов можно было бы прогнозировать уровень продаж нового продукта в городах, где обследование проводиться не будет.
295
в *scrim.sav - SPSS Data Editor
EJte £cfit View gate Transform Analyze Graphs Utilities Window Help
-=lai2£f
gjgjal p, |I'4tj 1ДMstelBl l¥
,5 продукт2 • —II • |28
Р0СПОН&2 I ПРОДУКТ2 | продукта продукт4 уровень
1 1 50 33 14 2 1
I 2 2 64 28 56 22 3
| 3, 3 65 28 46 15 2
I 4 4 67 31 56 24 3
5 5 63 28 51 15 3
6 6 46 34 14 3 1
7 7 69 31 51 23 3
8 8 62 22 45 15 2
9 ita View / V 591, 32 ariable View / ISI 48 ^55 Processor 18 11LK is ready 2
Рис. 202. Фрагмент таблицы с данными для дискриминантного анализа
Далее используем правило, чтобы сделать прогноз результатов продаж нового продукта в г. Петрозаводске.
Для запуска модуля дискриминантного анализа необходимо выполнить команду Analyze\Classify\Discriminant... (Ана-лиз\Классифицировать\Дискриминантный) (см. рис. 203).
В данной задаче классифицирующей переменной является переменная «Уровень» — именно уровень продаж нового пятого продукта и надо спрогнозировать. Поместите переменную «Уровень» в поле Grouping Variable. Одного перемещения переменной — недостаточно. Пока переменная выделена, активна и кнопка Define Range. Нажмите кнопку Define Range. В появившемся диалоговом окне надо указать максимальное и минимальные значения классифицирующей переменной. В рассматриваемой задаче возможны три значения, так как рассматривается три уровня продаж, высокий средний и низкий. Наименьший из используемых кодов равен единице (высокий уровень продаж), наибольший код равен трем (низкий уровень продаж). Поэтому укажите Minimum — 1. Maximum — 3. Нажмите кнопку Continue.
296
*0 Discriminant Analysis
респснд J
ф продукт1 ф прадукт2 ф прадуктЗ ф прадукт4 ф Предсказанная груш
4 ► I

Enter independents together С Use stepwise method
Рис. 203. Диалоговое окно Discriminant Analysis (Дискриминантный анализ)
Только что рассмотренная кнопка служит причиной многих недоразумений. Пока диапазон значений не задан, процедуру не выполнить, так как кнопка ОК не активна, не нажимается, ее
цвет — светло-серый. В свою очередь не всегда легко нажать кнопку Define Range. Она не активна, пока не выделена клас
сифицирующая переменная! Наконец, то, что диапазон не задан, можно распознать по знакам вопроса в окне Grouping Variable.
В поле Independents поместите те переменные, на основании значений которых строится прогноз, в этой задаче
Рис. 204. Диалоговое окно Discriminant Analysis: Define Range...
297
это данные о продажах четырех продуктов: продукт!, продукт2, продуктЗ, продукт4.
Проконтролируйте, что выбрана опция Enter independents together.
Нажмите кнопку Statistics. В появившемся окне (рис. 205) установите флажок Univariate ANOVAs Descriptives и флажок Fisher's в группе опций Function Coefficients. Нажмите кнопку Continue.
Discriminant Analysis: Statistics
-Descriptives —
_____________ VAs
Г Box's M
-Function Coefficients—
PFisher'$2~^^
Г Unstandardized
r-Matrices----------------------------1
I
I Within-groups correlation j
Г Within-groups covariance j
Г Separate-groups covariance ;
П Total covariance i
Continue I Cancel Help
Рис 205. Диалоговое окно Discriminant Analysis: Statistics
Для того чтобы была возможность оценить качество результата, в диалоговом окне Discriminant Analysis (рис. 203) нажмите кнопку Classify. В появившемся окне (рис. 206) установите флажки Summary Table и Leave-one-out classification — эти опции позволят оценить качество классификации, точнее, процент ошибок, сделанных при классификации.
В группе опций Plots: поставьте флажок Combined Groups для отображения графика (рис. 206).
Нажмите кнопку Continue.
В появившемся окне Discriminant Analysis нажмите кнопку Save.
298
^criminant Analysis; Classification
Г r prior Probabilities--------
(7 All groups equal
, C Compute from group sizes
- 0 isplay —
f" Casewise results
F-Limit cases tofet
✓ Summary t
|П Leave-one-out classification
• “Use Covariance Matrix ~
• (* V/ithtn-groups
.1.Г Sepaiate-groups
Separate-groups Г Territorial map
Continue p . , Cancel |~ * zzz .H*. I
ЧП Replace missing values with mean
Рис. 206. Диалоговое окно Discriminant Analysis: Classification
Поставьте флажок Predicted group membership. Эта опция предписывает добавление нового столбца в таблицу данных. Значения, стоящие в этом столбце, - коды принадлежности к группе. Для каждого наблюдения процедурой дискриминантного анализа предсказывается принадлежность к группе. Это делается как для старых (т.е. заранее классифицированных наблюдений), так и для новых наблюдений, для классификации которых и разрабатывался дискриминантный анализ.
Итак, все настройки сделаны, нажмите кнопку ОК в окне Discriminant Analysis. Появляются две группы результатов. Одна часть приведена в окне вывода, вторая часть добавляется к анализируемым данным в виде нового столбца с названием Dis_l.
Рассмотрим, как интерпретируются полученные результаты.
Среди результатов работы процедуры дискриминантного анализа выделим одну из таблиц (табл. 56).
Как ее использовать? Пусть для г. Петрозаводска, в котором обследование не проводилось, данные о продажах имеют следующий вид (табл. 57).
К какому типу по результатам проведенного дискриминантного анализа будет отнесен г. Петрозаводск?
299
Таблица 57
Classification Function Coefficients (коэффициенты классифицирующей функции)
1 — УРОВЕНЬ
' 1 ? 3
ПРОДУКТ 1 2,354 1,570 1,245
ПРОДУКТ 2 2,359 ,707 ,369
ПРОДУКТ 3 . -1,643 ,521 1,277
ПРОДУКТ 4 -1,740 ,643 2,108
1- (Constant) -86,308 -72,853 -104,368

Fisher’s linear discriminant functions.
Таблица 58
1 Объем продаж
ПРОДУКТ 1 61
ПРОДУКТ 2 26
ПРОДУКТ 3 53
( ПРОДУКТ 4 14
В соответствии с классической процедурой надо сосчитать три значения, соответствующие трем вариантам классификации — высокому, среднему или низкому.
Хх = -86,308 + 2,354 • 61 + 2,359 • 26 - 1,643 • 53 - 1,74 • 14 =
= 7,1810;
300
-72,853 + 1,57 • 61 + 0,707 • 26 + 0,521 • 53 + 0,643 • 14 -= 77,9140;
уз = -104,368 + 1,245 • 61 + 0,369 • 26 + 1,277 • 53 + + 2,108 • 14 = 78,3640.
Значения Xv Х2, Х3 вычислены по правилу. В табл. 57 мы взяли значения из столбца с тем же номером, что и индекс у попарно умножили на соответствующие значения из второй таблицы и сложили их друг с другом, а также с константой из последней строки столбца.
На следующем шаге нужно сравнить вычисленные значения. Максимальное значение равно 78,3640 и соответствует Х3. Поэтому в г. Петрозаводске можно ожидать уровень продаж, закодированный числом 3, т.е. низкий.
Заметим, что совсем не надо для каждого нового наблюдения проводить такого рода вычисления, так как SPSS позволяет не вычислять значения этих функций. Достаточно добавить новые наблюдения в исходную таблицу данных. При этом значение переменной «уровень» не добавляется, а будет пропущено, так как оно неизвестно. Более того, с помощью дискриминантного анализа мы его и ищем.
Добавим в таблицу значения: номер наблюдения — 151, продукт 1 — 61, продукт 2 — 26, продукт 3 - 53, продукт 4 - 14.
Для прогнозирования уровня продаж нового продукта в г. Петрозаводске заново запускаем процедуру дискриминантного анализа. Допустим, эта процедура запускается уже в N-й раз. В результате работы процедуры появится новый столбец результатов, обозначаемый dis_N. При этом N - номер попытки, предпринятой вами при использовании процедуры дискриминантного анализа. Числа, стоящие в новом столбце, - коды, номера группы/класса, к которому принадлежит объект (по версии дискриминантного анализа). В нашем примере прогнозируемый уровень продаж в г. Петрозаводске имеет код 3, что соответствует низкому уровню продаж.
Зачем тогда обсуждать таблицу коэффициентов классифицирующей функции (табл. 57)? Если аналитик работает над
301
своей собственной задачей и владеет инструментами SPSS, то ему эта таблица не нужна. Гораздо чаще задача решается для коллеги, часто из другого подразделения компании. Если коллега владеет только инструментом Microsoft Excel, то, используя именно эту таблицу, можно написать макрос, реализующий соответствующие вычисления с тем, чтобы далее конечный пользователь самостоятельно применял процедуру классификации рутинным образом, не обращаясь к аналитику и к пакету SPSS.
Посмотрим, как визуально разделились данные на графике. Этот график был заказан, когда отметили опцию Classify^ Plots\Combined Groups (см. рис. 206).
Видно, что получено почти идеальное разделение данных. Напомним, что в разделении использовались только данные по городам, в которых проводилось обследование (только обучающая выборка).
На графике выделяются три квадратика — центроиды. Центроидами называются те точки, которые являются центрами (тяжести) своей группы.
Рис. 207. Диаграмма Canonical Discriminant Functions (Канонические дискриминантные функции)
302
Сам по себе график не нужен. Его роль вспомогательная. Хорошее разделение групп на картинке повышает нашу веру в работу метода. Напомним, заранее никто не гарантирует нам, ц^о метод хорошо разделит данные. Возможны ситуации, когда хорошего метода просто нет, возможны ситуации, когда хороший результат может быть получен с помощью какого-то другого метода, а не дискриминантным анализом.
Теперь по существу графика.
Отметим, что классифицирующие и дискриминантные функции — не одно и то же, хотя они и выражаются друг через друга. Назначение классифицирующих функций — предоставить простой способ вычислений, дискриминантные функции выбираются так, чтобы при проецировании данных на прямую, определенную такой функцией, проекции точек-наблюдений наиболее точно разделялись.
Как видно из табл. 59, на 150 наблюдений имеются лишь три ошибки классификации. Результат очень хороший.
Таблица 59
Classification Result
Результаты классификации
УРОВЕНЬ Предсказанная принадлежность к группе Итого j
1 2 j 3
Встречаемость 1 50 0 0 50 ,
2 0 i 48 2 , 50 J 1
3 0 1 49 ' 50
% 1 100,0 ,0 ,0 1 100.0 .
2 ,0 96,0 | 4,0 100,0 I
3 ,0 2,0 i 98,0 । 100.0 ! j 1
а 98,0% исходных сгруппированных наблюдений классифицировано правильно.
303
Все ли использованные данные способствуют классификации? Может, информация о каком-то продукте лишняя и только вносит помехи?
Рассмотрим один из способов проверки этого.
В разных группах городов средние значения продаж товаров оказались разными или одинаковыми? Если они одинаковы. возможно, такая переменная только мешает классификации и ее стоит отбросить.
Для сравнения средних значений независимых переменных в разных группах используем таблицу «Критерий равенства групповых средних», присутствующую в отчете (табл. 60).
Таблица 60
Tests of Equality of Group Means
Wilks’ Lambda ! F | dfl df2 Sig.
Продукт 1 ,381 1 119,265 ! 2 147 ,000
Продукт 2 .599 | 49,160 2 147 ,000
Продукт 3 ,059 1 L. 1180,161 2 147 ,000
Продукт 4 ’ ,071 960,007 2 147 ,000
Оказывается, что отличие сильно значимо для каждого продукта: каждая значимость р < 0,01 указывает на различие средних.
На первом этапе обучения мы не будем использовать другие таблицы, предоставляемые процедурой дискриминантного анализа. Коротко говоря, в них приведены результаты проверки того, насколько выполнены условия применимости дискриминантного анализа и другие методы проверки качества классификации.
Завершая разбор примера, заметим, что на практике в набор переменных, по которым проводится обследование, желательно включить демографические и географические данные о городах, а также переменные, характеризующие присутствие фирмы в этом городе.
304
rr имер 22- Фирма, реализующая автомобили двух марок В), проводила опрос клиентов, купивших автомобили. еНТам задавались вопросы об их отношении к характери-тикам автомобиля, которое нужно было выразить в оценках от । д0 8 баллов. Фирма хочет выяснить, можно ли, исходя из изустного отношения потенциальных клиентов к характеристикам автомобиля, предсказать их будущий выбор.
Данные приведены в табл. 61. Выбор марки А закодирован цифрой 1, выбор марки В закодирован цифрой 2.
Таблица 61
Данные о клиентах, выбравших автомобили марок А и В
Регистрационный номер клиента(case) Отношение , к популярности । марки ! (spreading) | Отношение к долговечности автомобиля (longevit) Выбор клиента (choice)
1 2 . 3 1
_ 2 3 i 4 1
3 6 1 5 1
4 4 4 1
— 1
5 3 ; 2 1
4 । 7 1_
3 5 : 1 1 •
___8^^ 2 4 j 1
5 6 1
^__10^ 3 i 6 1
--^_ii 3 3 1
^^42 4 1 5 1

5 1 * L 2 1
и 1 _ 4 j 3 I 2 _ 5
7 5 ! 2 ;
4 r\ ~ — J
3_ 3 ; 2 1
4 4 ; 2 ;

305
Продолжение тпабл. 61
' Регистрацион-, ный номер клиента (case) Отношение к популярности марки (spreading) 1 Отношение к долговечности ; автомобиля ; (longevit) Выбор клиента (choice)
18 5 ; 2 2
19 4 ! 2 2
20 L 5 5 2
21 i V - 7 2

_22 5 3 2
23 6 4 2
i 24 1 1 J 6 6 2
В этом примере уже существуют две группы покупателей. Принадлежность к группе определяется купленной ими маркой автомобиля.
Для выполнения процедуры дискриминантного анализа нужно выполнить команду Analyze\Classify\Discriminant.
В нашем примере группирующая переменная — это переменная choice.
Независимые переменные — spreading (распространение) и longevity (долговечность). Интервал значений группирующей переменной I : 2. Проконтролируйте выбор опций, таких же, как и в предыдущем примере.
В результате работы процедуры дискриминантного анализа 11 из 12 покупателей автомобиля марки А правильно были отнесены к этой группе. 10 из 12 покупателей автомобиля марки В были отнесены к своей группе. Программа автоматически определяет процент корректной группировки данных. В нашем примере этот процент равен 87,5%. Такое качество классификации вполне приемлемо. Это означает, что, зная отношение потенциального клиента к характеристикам автомобиля, с большой вероятностью 87,5% можно предсказать его выбор.
Для предсказания выбора марки потенциальным покупателем нужно ввести его отношение в баллах к характеристикам автомобиля в таблицу SPSS, а затем выполнить команду
306
Таблица 62
Classification Results(a)
1 Выбор ' Predicted Group Membership I Total i
покупатель марки А покупатель марки В ’
Original Count Покупатель марки A i И ' 1 I 1 12 1
Покупатель марки В ' 2 10 I 12 '
0/ /0 Покупатель марки А 91,7 .1 8.3 100,0 j
Покупатель марки В : 16,7 1 83,3 100,0 ’ 1
Analyze\Classify\Discriminant. Проверьте наличие границ группирующей переменной (в окне Grouping Variable должно быть установлено: choice( 1 2)). Далее нажмите кнопку Save. В появившемся диалоговом окне (рис. 208) поставьте флажок
Discriminant Analysis: Save
P predicted group membership
Г Discriminant scores
Г Probabilities of group membership
Continue
Cancel
Help i
I Export model information to XML file
Elrowse. |
рис. 208. Диалоговое окно Discriminant Analysis: Save
307
Predicted group membership и нажмите кнопку Continue. В основном диалоговом окне нажмите кнопку ОК. В результате этих действий программа SPSS вставит столбец dis_ 1, содержащий предсказание выбора покупателем марки автомобиля.
На рис. 209 приведены результаты предсказания программой SPSS выбора покупателей. Предсказание проводилось для случаев 25, 26, 27.

О discriminantjcruger - SPSS Data Editor
r.e pit vet Oata Transform Analyze graphs Utilities Window Help
| ). ?l Mft| М; «||Н|
29 case — .
case | spreadin 1 longest [choice | dis. _1 1 ± var
16 16; 3; 3 _ 2 1
17 17i 4 4i 2 I 1 1
18 13_ 51 2' 2I 2 1 j
19 19 4 21 2i 2 1
20 _20! 5 __ 5! 2 2
21_ 21 ~ 6_ 7 2! 2 Г
22 22Г 5 3| 2 2
23 23! 6 4 2 2
24 ' ’ 24' 6, б! 2 2
25 ” “25': 3: 31 1 1
26 26* б! 6; 2
27 27 4 5' 1 1
' 7 : : i ! 1 i
< I»t\ Data View/ Variable /1ел < J | zaz
SPSS Processor ,s ready
Рис. 209. Результаты предсказания выбора покупателем марки автомобиля с помощью дискриминантного анализа
Контрольные вопросы
1. Приведите примеры применения дискриминантного анализа.
2. Как определяются классы анализируемых данных?
3. Как проанализировать качество классификации данных?
4. Для чего используются коэффициенты дискриминантной функции?
5. Что такое центроид?
щ. ФАКТОРНЫЙ АНАЛИЗ
Практическое применение факторного анализа
факторный анализ применяют, когда надо добиться одного из следующих результатов:
сокращения числа переменных (редукции данных);
выявления структуры взаимных связей между переменными, в частности выявления групп взаимозависимых переменных;
построения новых обобщенных показателей;
наглядного представления (визуализации) многомерных наблюдений. Такое действие часто описывается как проецирование данных.
Прокомментируем утверждения предыдущего списка.
Факторный анализ как метод сокращения размерности массива данных
Исследователь изучает набор данных с большим числом переменных. Чтобы сократить число переменных без существенной потери информации, он заменяет часть исходных переменных на меньшее число новых искусственных переменных. Эти новые переменные называются факторами, далее аналитик работает с ними, а не с исходными показателями.
Заметим, что лишь формулировка проолемы является новой. Такой подход известен довольно давно. Например, при массовом пошиве одежды портные используют всего три характеристики — размер, полноту и рост. Эти характеристики вычисляются по исходным измерениям. Например, по одной Из формул полнота определяется как разность между длиной окружности груди и длиной окружности талии, деленной на Два. Конечно, к использованию этих характеристик пришлось
309
привыкать, они искусственные, до сих пор ведутся споры о наилучшем виде формул для каждой из них. Главное же то, что эти показатели удобны и очень полезны. Без них работа портного была бы намного сложнее, ему надо добиться того, чтобы «костюмчик сидел» на покупателе, чье тело — сложный геометрический объект. С помощью факторов существенно упрощается очень сложная задача, изначально требовавшая огромного числа измерений и примерок.
Итак, размер, полнота и рост — факторы, искусственные переменные. Они были найдены эмпирически, методом проб и ошибок. Применить методы портных для решения задачи о вероятности банкротства фирмы сложно, проще придумать метод заново. Применение факторного анализа формализует, организовывает и упрощает решение задач такого рода. Факторный анализ — универсальное средство, его можно применять для решения разнообразных задач.
При проведении факторного анализа делается акцент на исключении из данных дублирующей информации. Проиллюстрируем это положение. Предположим, что вы проводите исследование влияния различных пищевых добавок на рост. Для этого были получены значения двух переменных: измерен рост 100 человек в дюймах и сантиметрах. Ясно, что использовать обе переменные бессмысленно, рост является одной и той же характеристикой человека независимо от того, в каких единицах он измерен. Присутствует дублирование информации. Вы отбрасываете одну переменную и оставляете другую. Это и есть простейший пример сокращения данных. Конечно, на практике такая ситуация не возникнет, дублирование слишком очевидно, но нашей целью было обсудить ясный выразительный пример.
В чем заключалось дублирование с математической точки зрения? В том, что значения одной переменной могут быть вычислены по значениям другой с помощью линейного преобразования. Для будущих рассуждений будет полезно заметить, что из наличия линейной зависимости между переменными следует, что коэффициент корреляции между ними равен единице.
Как поступать, если наличие линейной связи не самоочевидно, как в рассмотренном примере? Можно рассуждать в об-
310
эатном направлении. Если коэффициент корреляции равен 1 или '1, т0 межДУ переменными имеется линейная зависимость, одна из них выражается через другую и любую переменную в паре можно отбросить.
разовьем предыдущие рассуждения. Допустим, у нескольких
временных зафиксированы большие парные значения коэффициентов корреляции. Факторный анализ основывается на пред-
положении, что переменные измеряют «практически» одно и то же. При наивном подходе из такого набора можно удалить все переменные, кроме одного «представителя». Но такая операция слишком радикальна, при этом можем потерять важную информацию. Вместо этого процедура факторного анализа строит новую переменную, которая служит «представителем», будет измерять то общее, что содержится в исходных переменных.
Факторный анализ разработан для вычисления таких новых
переменных, они называются факторами или главными компонентами. Фактор, представляющий группу коррелирующих переменных, будет иметь с этими переменными высокие корре-
ляции.
Факторный анализ завершается интерпретацией полученных результатов, т.е. заключением, что именно измеряет каждый фактор. При этом, с одной стороны, основываются на статистических соображениях, в первую очередь на интерпретации корреляций факторов с исходными переменными. С другой стороны, опираются на здравый смысл и опыт в предметной области, в той отрасли науки, технологии или бизнеса, в которой проводилось исследование. Например, ответы на шесть или семь вопросов, сильно коррелирующие с интерпретируемым фактором и объединенные в одну группу, могут выражать степень удовлетворенности респондента данным продуктом.
Факторный анализ как метод выявления структуры зависимости в данных
Исследователь изучает набор данных с большим числом переменных. Хотя все в этом мире взаимозависимо, он желает выявить наиболее выраженные взаимосвязи переменных. Наив-Нь1й подход предлагает перебирать все пары переменных и
311
изучать их взаимозависимость, он реализован, например, в методе корреляционных плеяд. С одной стороны, такие процедуры просты, наглядны, их легко объяснить заказчику или начальнику. С другой стороны, надо изучить много пар переменных и сделать очень жесткие предположения, например, что из попарной независимости следует независимость в совокупности. Из курса теории вероятности известно, что, вообще говоря, это не так. На сегодняшний день методы непосредственного изучения корреляций вытеснены факторным анализом, который обычно предоставляет аналитику более краткую, выразительную и точную модель структуры зависимостей между переменными. Заметим, впрочем, что применение факторного анализа тоже не гарантирует успех, например, если зависимость отсутствует или существенно не линейна.
Факторный анализ при описании характеристик, не поддающихся непосредственному измерению
Очень часто надо измерить то, что нельзя наблюдать непосредственно. Как измерить любовь? Отношение пациента к своему доктору? Удовлетворенность сортом кофе? Как определить степень депрессии человека? Степень приверженности курению? Лояльность торговой марке? Вероятность разорения фирмы в течение следующего года? Часто факторный анализ является единственным способом ответить на подобные вопросы. Как именно? Анализ главных компонент и факторный анализ строят искусственные переменные. Может оказаться, что эти новые переменные измеряют исследуемую характеристику, поскольку анализируемые переменные были отобраны так, чтобы косвенно, частично, но отражать разные аспекты неизме-ряемой величины. Они отбираются так, чтобы то общее, что они измеряют, и было целевой неизмеряемой характеристикой.
Проведение факторного анализа
Процедура факторного анализа состоит из четырех шагов. Перечислим их, определения новых терминов будут приведены ниже.
312
Вычисление корреляционной или ковариационной матрицы. q технической точки зрения это важно: факторный анализ заключается в преобразовании корреляционной или ковариационной матрицы. Кроме того, если одна из переменных слабо коррелирует со ВСЕМИ остальными, в ней содержится особая, уникальная информация, которая не дублируется в других переменных. Такая переменная - скорее всего сама по себе фактор- Поэтому следует подумать об исключении ее из факторного анализа, но не из массива данных. Не забудьте только посмотреть на ее общность и нагрузки.
Оценка нагрузки факторов. На этом этапе вы решаете, использовать ли для выделения факторов метод главных компонент или один из методов факторного анализа.
С математической точки зрения метод главных компонент и факторный анализ являются разными методами. В прикладной литературе принято считать, что метод главных компонент -частный случай факторного анализа. Строго говоря, это неверно, но удобно. В первую очередь потому, что они решают схожие задачи, их можно применять к одним и тем же данным, и, как правило, получаются схожие результаты. Поскольку разработчики пакета SPSS выбрали прикладной подход, приходится следовать за ними. Чтобы не запутаться в терминах, договоримся о терминах и сокращениях. В тех случаях, когда имеется в виду «факторный анализ или анализ главных компонент» (именно в этом смысле термин «факторный анализ» использовался выше), будем писать факторный анатаз +АГК и использовать сокращение ФА+АГК. В остальных случаях, когда имеется в виду «факторный анализ, не включая в него метод главных компонент», будем использовать термин «факторный анализ» и использовать сокращение ФА.
В данном разделе будут применяться две самые распространенные процедуры — метод главных компонент и факторный анализ с оценкой параметров методом максимального правдоподобия. Это два наиболее известных варианта. Каждый из них хорошо описан в русскоязычной литературе [Кендалл - Стю-аРт, Харман], и ни один из них еще не устарел.
Мы советуем сначала применить метод главных компонент, Далее продолжить, используя факторный анализ. Метод глав-
313
пых компонент позволяет понять, насколько целесообразно применять факторный анализ+АГК и оценить число факторов. Результаты факторного анализа легче интерпретировать и к ним можно применять вращение.
Вращение факторного пространства производится, чтобы облегчить интерпретацию факторов. Вращение увеличивает или уменьшает нагрузки на каждый фактор. Если надо выбрать один метод вращения из нескольких, советуем начать с метода варимакс. Просмотрев результаты, вы можете запросить меньше факторов, чем выбирается по умолчанию.
Для каждого наблюдения можно вычислять веса (scores) каждого фактора и сохранить их в качестве новых переменных. Потом их можно будет использовать в других процедурах, а также для идентификации выбросов.
Пример 23. Рассматриваемая выборка — 47 франкоговорящих провинций Швейцарии в 1888 г. В набор данных вошли показатели социального и экономического развития, а именно:
Fertility — показатель рождаемости;
Agriculture — процент мужчин в провинции, работающих в сельском хозяйстве;
Examination — процент призывников провинции, получивших высшие оценки на экзамене при поступлении в армию;
Education — процент призывников провинции, чье образование превышает уровень начальной (primary) школы;
Catholic — процент католиков;
Infant_Mortality — детская смертность, процент проживших меньше одного года.
Имеются 47 наблюдений и 6 переменных. Все переменные, кроме Fertility измеряют процент населения.
Мостеллер и Тьюки следующим образом комментируют данные.
Швейцария в 1888 г. находилась в том периоде своего развития, который называется демографическим переходом (demographic transition). Этот период характеризуется, в частности, резким снижением уровня рождаемости с высокого уровня, типичного для неразвитых стран.
314
В книге Мосте л лера и Тьюки указано, что данные используются с разрешения Franice van de Walle. Office of Population Research, Princeton University, 1976. Данные были собраны, но не опубликованы при работе над грантом NICHD, кодовый но-мер No 1-HD-O-2077.
Расширенный набор данных для всех 182 районов (districts) Швейцарии за 1888 и другие годы доступен но адресам:
http://opr.princeton.edu/archive/eufert/switz.html или http://opr.princeton.edu/archive/pefp/switz.asp.
Значения переменных Examination и Education являются средними значениями за 1887, 1888 и 1889 гг.
В данном наборе все переменные принимают значения в интервале [0, 100].
Задачей анализа является конструирование обобщенных характеристик, описывающих различия в социально-экономической ситуации в провинциях Швейцарии.
Данные находятся в файле Swiss Fertility.sav.
Общая постановка задачи. Попробуем выяснить, сколькими факторами можно описать социально-экономическую ситуацию на исследуемый момент времени, описать факторы и сопоставить их влияние.
На рис. 210 приведено окно редактора данных с описанием переменных.
Не ЕЛ View Data Transform Analyze Graphs LMtles Window Help
gial^i
I_____Name
I ___Д Province
______2 Fertility
L_____3 Agriculture
i, 4 Examinatio
______5 Education
______6 Catholic
1. 7 Infant Mort
a—-=—

String _ Numeric
Numeric Numeric Numeric Numeric
ТДО; I Width IO
12
Decimals
0
Labe,
Провинция _____________________________________________________|
Рождаемость _______________________________________
Процент мужчин, работающих в сельском хозяйстве _______j
Процент призывников, получивших высшую оценку на экзамене при пост Процент п~ризывнигоё:~чьё образование превышает уровень начальной ш Процент католиков _____________________
Numeric
Детская смертность
Рис. 210. Описание данных файла Swiss Fertility.sav
Из-за ограничений на объем книги опустим описание предварительного изучения данных. На этом этапе вычисляются описательные статистики, матрица корреляций, строятся гра
315
фики: гистограммы, ящиковые диаграммы, матрица диаграмм рассеяния. Технология работы обсуждалась выше, основное назначение анализа: ознакомиться с данными, прикинуть, какие другие методы, кроме факторного анализа, могут привести к решению.
Цель таких внешне банальных и рутинных операций — увеличить понимание данных, наработать интуицию о том, что возможно при анализе, а что — нет. Когда аналитик понимает данные, он заметит результат, противоречащий его интуитивным представлениям, и увидит, что в анализ вкралась ошибка. Бывает и так, что верный результат противоречит априорным представлениям. В таком случае данные рассказали аналитику что-то новое о явлении, и факторный анализ помог в этом. .Анализ данных проводится ради выявления закономерностей, неизвестных ранее.
Просматривая результаты, надо проверить правильность занесения данных, разобраться с выбросами среди наблюдений. Если пропустить подобные отклонения, результаты могут быть серьезно искажены, а значит, неверны. Влияние нескольких анормальных наблюдений может серьезно деформировать модель, т.е. результаты в их присутствии и без них будут серьезно отличаться. Еще стоит прикинуть, какова доля пропущенных значений, как распределены пропуски.
Вооруженные представлениями о характере данных (надеемся. читатель провел необходимые изыскания самостоятельно), переходим к процедуре факторного анализа.
Рекомендуем сначала использовать метод главных компонент и заказать подсчет всех факторов (главных компонент). На этом этапе выявляются перспективы применения процедуры факторного анализа, число факторов, определяются уникальные переменные, которые позднее будут исключены из факторного анализа. Чтобы запустить процедуру факторного анализа, выполните команду: Analyze\Data Reduction\Factor... (Анализ\Снижение размерности\Факторный анализ). Окно процедуры приведено на рис. 211.
Поместим в поле Variables все анализируемые переменные. Отметим, что пакет SPSS исключил переменную «провинция» из списка, так как она текстовая.
316
pl Factor Analysis
*1
Variables
$> Рождаемость. [Fertility Процент мужчин, pa£ $> Процент призывнике £> Процент призывнике ф Процент католиков [I '$> Детская смертность
Reset
Cancel
Help ।
!----j Selection Variable
Ldi
Descriptives... | Extraction .. | Rotation. | Scores | Optons [
Рис. 211. Диалоговое окно Factor Analysis
Заметим, что, вообще говоря, совсем не обязательно использовать все переменные (и все наблюдения), некоторые переменные можно и нужно исключить из анализа. Например, при анкетном опросе случайно отобранных людей не важен номер опрошенного, он отбрасывается практически всегда. Если какая-то переменная слабо коррелирует с остальными, ее гоже лучше исключить из анализа. Такие переменные называются уникальными.
Поле Selection Variable используется, когда аналитик желает изучать лишь часть выборки. Мы не используем эту опцию, поскольку в книге описан универсальный способ отбора наблюдений с помощью команды Data\Select Cases... (Данные\ Отбор наблюдений). Кроме того, в данном примере нет оснований исключать наблюдения.
Подробно опишем рекомендуемые действия по настройке процедуры факторного анализа. В окне Factor Analysis (Рис. 211) нажмите кнопку Descriptives (Описательные). В Диалоговом окне Factor Analysis: Descriptives (рис. 212) в разделе Correlation Matrix (Корреляционная матрица) отметим Флажки: Coefficients (Коэффициенты), Reproduced (Воспроиз-Веденная корреляционная матрица).
317
Factor Analysis: Descriptives
*1
Г Statutes - j Continue
ki Г Un* *arete descriptives ш Cancel
/ы Г" Imbai sokibon ------------
--------------------------------- Help
» ----------------------------------------------------
I t|- Coneiabon Matrix-----------
tj|7 Coefficients Г Inverse
Г Significance levels |7 Reproduced
f 'r Determinant Г Anti-image
Я Г KMO and Bartlett's test of sphericity
Рис. 212. Диалоговое окно Factor Analysis: Descriptives
Вернемся в главное окно, нажав кнопку Continue (Продолжить). Нажав кнопку Extraction (Извлечение) в окне Factor Analysis (рис. 211), откроем диалоговое окно Factor Analysis: Extraction. Выберем метод анализа: Method — Principal components (Метод главных компонент) (см. рис. 213).
Далее поставим
следующие флажки: в группе опций Display (Показать):
• Unrotated factor solution (Неповернутое решение);
• Scree plot (График собственных значений); в группе опций Analyze (Анализировать);
• Correlation matrix (Матрица корреляций);
в группе опций Extract (Выделить);
• Number of factors: (Количество факторов) на этом этане задаем равным 6, т.е. заказываем столько же факторов,
сколько имеется анализируемых переменных;
• Maximum Iterations for Convergence (Максимум итераций до сходимости): оставляем значение 25.
Почему у нас число факторов равно числу анализируемых переменных? Дело в том, что мы еще не знаем, сколько факторов будем оставлять. На первом этапе заказываем максимально возможное число факторов (т.е. 6) именно с целью выяснить, сколько факторов можно использовать. Сокращение числа факторов будет произведено после этого шага.
Продолжим настройку процедуры факторного анализа. Нажмем кнопку Rotation (Вращение) в окне Factor Analysis (рис. 211). В появившемся диалоговом окне Factor Analysis: Rotation (рис. 214) укажем:
318
Facto1* Analysis: Extraction
Method'
Г Analy ze — - q ------------------------------
г,- <* Correlation matrix p Unrotated factor solution
- Г Covariance matrix p Scree plot
Continue
Cancel
Help
- Extract-------------
I C Eigenvalues over:
(♦ Number of factors: |б
I Maximum Iterations for Convergence.
Рис. 213. Диалоговое окно Factor Analysts: Extraction
Factor Analysis: Rotation
r Method----------
None
Varimax
Direct Oblimin
C Quartimax C Equamax Promax
C
а. /' .....____________
r Display—------------------------------
J P Rotated sdlatiprft P Loading plot(s)

Рис. 214. Диалоговое окно Factor Analysis: Rotation
Method (Метод) - None (He надо применять вращение факторов);
Display (Вывести)- Loading plot(s) (График нагрузок).
Отметим, что позднее будем вращать факторы, но только после того, как определимся с их числом.
319
Процедура настройки факторного анализа еще не закончена. В основном окне факторного анализа (см. рис. 211) нажмите кнопку Factor Scores (Значения факторов). В окне Factor Analysis: Factor Scores (рис. 215) поставьте флажки:
• Save as variables (Сохранить как переменные);
• Anderson — Rubin (Использовать метод Андерсона — Ру-
бина);
• Display factor score coefficient matrix (Вывести матрицу коэффициентов факторных меток).
Вернемся в ос-
Factor Analysis: Factor Scores f ,-.;лаН
17 Save as variables
-Method------------
C Regression
C Bartlett Anderson-Rubin
Continue
Cancel
Help
новное окно факторного анализа (рис. 211) и нажмем кнопку Options. В ответ появится окно Factor Analysis: Options (Параметры), в котором ус-
=. |7 Display factor score coefficient matrix
Рис. 215. Диалоговое окно Factor
Analysis: Factor Scores
тановим флажок Supress absolute values less than (He выводить, если модуль меньше) (рис. 216).
Последовательно нажмем кнопки Continue и ОК, ждем по-
явления результатов в окне вывода и начнем изучать результаты анализа.
I этап. Начнем анализ с корреляционной матрицы1, приведенной в окне вывода под заголовком Correlation Matrix.
Построение корреляционной матрицы было заказано в диалоговом окне Factor Analysis: Descriptives, когда в группе опций Correlation Matrix был установлен флажок Coefficients.
!В данном тексте изучается факторный анализ именно корреляционной матрицы. Возможен другой вариант, когда анализируется ковариационная матрица. Этот вариант не рассматривается в пособии. Чтобы научиться делать выбор между ними, вам придется воспользоваться другими книгами, например, [Харман].
320
- Missing Values—-----------—
<• Exclude cases listwise C Exclude cases pair wise C Replace with mean
Continue
Cancel
Help

p Coefficient Display Format----------------
Г Sorted by size
Suppress absolute values less than: По"
Рис. 216. Диалоговое окно Factor Analysis: Options
Корреляционная матрица выглядит существенно проще той, которая получается с помощью процедуры «Корреляции», в ней приведены только коэффициенты Пирсона. Зато она более обозрима, ее проще редактировать, а проверка гипотезы о независимости переменных в данный момент не нужна.
Итак, проанализируем таблицу корреляций (табл. 63). Для экономии места таблица отредактирована, но значения коэффициентов корреляции сохранены. Напомним, на главной диагонали корреляционной матрицы всегда стоят единицы, они не в счет.
При анализе корреляционной матрицы рекомендуем задать себе два вопроса.
Вопрос 1. Какую долю составляют большие значения коэффициентов корреляции?
Корреляционная таблица строится для того, чтобы посмотреть на значения коэффициентов. Если абсолютные значения всех недиагональных элементов малы, можно прогнозировать, что факторный анализ будет бессодержательным. Малые значения недиагональных элементов указали бы на слабую зависимость переменных, а следовательно, на отсутствие избыточности данных.
Что значит малы? Строгих правил нет, например, если они меньше, чем 0,3. В данном примере большинство корреляций
больше порогового значения.
!| - 1471
321
Таблица 63
Корреляционная матрица
Fertility Agriculture Examination Education Catholic Infant^ Mortality
, Fertility 1 0,35 -0,65 -0,66 0,46 0,42
1 Agriculture 0,35 1 -0,69 -0,64 0,40 -0,06
J Examination -0,65 -0,69 1 0,70 -0,57 -0,11
' Education -0,66 -0,64 0,70 1 -0,15 -0,10
Catholic 0,46 0,40 -0,57 -0,15 1 0,18
. Infant_ Mortality J 0,42 -0,06 -0,11 -0,10 0,18 1
Вопрос 2. Есть ли отдельные переменные, которые не коррелируют со всеми остальными?
Если такие переменные присутствуют, можно ожидать, что каждой из них будет соответствовать свой отдельный фактор. Если в ходе анализа гипотеза подтвердится, придется проводить анализ заново, исключив «уникальные» переменные.
Действительно, если переменной соответствует отдельный фактор, зачем такой фактор нужен? Лучше оставить переменную, не преобразуя ее. (В очередной раз заметим, что ничего страшного в повторении процедуры нет: статистический анализ проводится как последовательность процедур, уточняющих друг друга.) Такая переменная называется уникальной, ее не отбрасывают, а как бы откладывают в сторону. Она измеряет что-то особое, не проявляющееся в других переменных. Сокращать размерность данных за счет таких переменных неразумно. Выделение уникальных переменных — часть процедуры факторного анализа. Уже сейчас можно предположить, что переменная «детская смертность» окажется уникальной — она коррелирует лишь с «показателем рождаемости».
322
Если факторы будут использоваться позднее, например, в регрессионном анализе, то уникальные переменные добавляют к выделенным факторам.
Часто при проведении факторного анализа такие переменные появляются по невнимательности: в список переменных включаются переменные, заведомо не относящиеся к изучаемому предмету. Естественно, они оказываются уникальными. Например, в число анализируемых переменных включают номер наблюдения... Если номер наблюдения определялся случайным образом, его надо исключить из факторного анализа.
В рассматриваемой корреляционной матрице выделяется блок, содержащий относительно большие значения. В него входят корреляции между тремя переменными «показатель рождаемости», «процент призывников, получивших высшие оценки на экзамене при поступлении в армию» и «процент призывников провинции, чье образование превышает уровень начальной школы».
Это очень хороший знак: есть дублирование информации, факторный анализ может получиться. Ожидаем, что эти переменные избыточны, и может появиться фактор, описывающий то общее, что они все измеряют.
Ответив на вопросы по корреляционной матрице, вернемся к задаче. Напомним, что пока применяется метод главных компонент, хотя далее планируется использовать факторный анализ.
Метод главных компонент был заказан в диалоговом окне Factor Analysis: Extraction, когда в группе опций Method было выбрано Principal components.
II этап. Рассмотрим дисперсии полученных факторов. Для этого обратимся к таблице Total Variance Explained (Объясненная полная дисперсия) в окне вывода.
Эта таблица была заказана, когда в диалоговом окне Factor Analysis: Extraction в группе опций Display был отмечен флажок Unrotated factor solution. Она помогает принять решение, сколько факторов будет строиться на более поздних этапах анализа.
323
Таблица 64
Объясненная полная дисперсия
Total Variance Explained
Component Extraction Sums of Squared Loadings
Total % of Variance Cumulative %
1 3,200 53,329 53,329
2 1,188 19,805 73,134
3 ,848 14,127 87,261
4 ,439 7,315 94,577
5 ,205 3,409 97,986
6 ,121 2,014 100,000
Extraction Method: Principal Component Analysis.
Отметим, что первый столбец назван Component (Главные компоненты), так в методе главных компонент называются факторы.
Способы анализа таблицы Total Variance Explained описаны ниже. Эти способы имеют математическое обоснование, лишь когда применяется метод главных компонент. Если же исследователь применяет факторный анализ и анализирует таблицу, никто и ничто не гарантирует успех. Он может обосновать свои выводы только героическим принципом: «Если нельзя, но очень хочется, то можно».
В первом столбце (Component) приведены номера факто-ров/главных компонент. Напомним, что было заказано вычисление шести факторов, столько же, сколько анализируемых переменных. Это было сделано в диалоговом окне Factor Analysis: Extraction, когда мы присвоили опции Number of factors значение 6. Логика проста. Оптимальное число факторов неизвестно, это число надо еще определить, как раз сейчас мы этим и занимаемся. Пока решение о числе факторов не принято, ана-
324
дитик осторожно заказывает избыточный результат, лишние факторы он отбросит позднее.
Невозможно, чтобы факторов было больше, чем переменных. Почти всегда их меньше: с помощью факторов мы хотим сократить размерность, сократить число переменных, не так ди?
Наша следующая задача — выбрать оптимальное число факторов. Начнем с вводных соображений.
Полная информация анализируемого набора переменных равна числу переменных и называется полной дисперсией. Поясним это понятие.
Понятие информации многолико, в разных науках и разных задачах оно может определяться по-своему. Если мы используем метод главных компонент и анализируем корреляционную матрицу, то количество информации по определению равно полной дисперсии. При этом каждая переменная добавляет в общий объем информации по единице информации, и полная дисперсия оказывается равной числу переменных. В нашем примере 6 переменных, и общая информация равна 6 единицам.
Полная информация, содержащаяся в переменных, распределяется между факторами неравномерно. Чем больше информации вобрал в себя фактор, тем более он информативен.
Теперь вернемся к таблице Total Variance Explained и ознакомимся со столбцами Total и % of Variance. В первом из них указано, сколько информации вобрал в себя каждый фактор, во втором столбце подсчитано, сколько процентов это составляет от общей дисперсии (от общей информации).
Так, например, на первый фактор приходится 3,2 единицы информации, что составляет 53,3% общей информации, т.е. от 6. На третий фактор приходится 0,848 единицы информации, или 14,127% общей информации. С математической точки зрения эти единицы информации являются дисперсиями факторов.
Последний столбец называется Cumulative % и содержит так называемый накопленный процент. Поясним на примере. На первые два фактора приходится 73,134% всей информации, на первые три фактора приходится 87,261% и т.д., причем проценты получены суммированием чисел из третьего столбца.
И*- 1471
325
Факторы, как мы видим, пронумерованы по убыванию информативности. Первый — самый информативный, последний - наименее информативный.
Обсудим три способа определения числа факторов.
Первый способ — метод Кайзера (Kaiser, 1958).
Оставляем те факторы, которые содержат больше единицы информации (у которых дисперсия больше единицы). В нашем примере метод Кайзера предписывает оставить первые два фактора. Информация, содержащаяся в третьем факторе, равна 0,848, т.е. меньше единицы, у остальных факторов она еще меньше.
Идея метода Кайзера проста. Если фактор является некоторым обобщением переменных, то в нем должно быть больше информации, чем в переменных. Каждая переменная содержит единицу информации, значит, фактор должен нести больше единицы информации. Наоборот, если в факторе содержится меньше информации, чем в каждой из исходных переменных, то он не нужен, малоинформативен.
Чтобы использовать метод Кайзера для определения числа факторов в диалоговом окне Factor Analysis: Extraction, в группе опций Extract отмечают флажок Eigenvalues over (Собственные числа больше...). По умолчанию в окне уже выставлена единица. Использование термина «собственные числа» объясняется тем, что информация, содержащаяся в факторе и равная дисперсии фактора, вычисляется как одно из собственных чисел матрицы корреляций.
Заметим, что в работе [Jolliffe, 1972] изучался метод Кайзера и было предложено в качестве порогового значения вместо единицы использовать 0,7.
Второй метод — графический. Число факторов определяется по графику Scree Plot (Каменистая осыпь), который в примере выглядит следующим образом (рис. 217).
Построение графика было заказано в диалоговом окне Factor Analysis: Extraction, когда был поставлен флажок Scree Plot в группе опций Display.
На графике присутствует столько же точек, сколько исходных переменных, в нашем примере их шесть. На оси ОХ откла-
326
Scree Plot
дываются их номера, на оси OY — значения из столбца Total таблицы Total Variance Explained (табл. 62).
Горизонтальная ось подписана Component number (номер главной компоненты). Более последовательно было бы использовать термин «номер фактора». Как и ранее, это объясняется тем, что применяется метод главных компонент, в нем аналоги факторов традиционно называются главными компонентами. Вертикальная ось подписана Eigenvalue (Собственное число), этот термин обсуждался выше, интерпретируем его как информацию, содержащуюся в факторе.
Наконец, почему график называется Scree Plot (Каменистая осыпь)? Изобретателю метода [Cattel, 1965] привиделся обрыв, с которого столетие за столетием скатываются маленькие камешки, чтобы образовать галечный пляж у подножия обрыва... Потренируем свое воображение. Смотрим на график и представляем себе, как первая и вторая точки образуют обрыв, а точки со второй по шестую — галечный пляж.
В соответствии с рекомендациями номер той точки, в которой смыкаются обрыв и пляж, дает нам искомое число факторов. В нашем примере это вторая точка, значит, надо брать два фактора.
327
Третий метод самый лучший, он предписывает оставлять столько факторов, сколько удастся объяснить. Формулировка не особенно конструктивна, но идея метода важна. Полезны те факторы, которые понятны. Если не удалось объяснить фактор, то он является математическим артефактом, который мало добавляет к пониманию явления.
Начиная факторный анализ, нельзя предсказать, какие факторы будут понятны, доступны для интерпретации, а какие — нет. Поэтому иногда заказывается вычисление большего числа факторов, чем надо, чтобы попробовать, а вдруг дополнительные факторы будут понятны, вдруг их удастся проинтерпретировать! Обычно не удается. Но когда удача улыбнулась, получается очень интересный результат.
Итак, если применить в рассматриваемом примере первые два метода, то критерии Кайзера и каменистой осыпи предписывают остановиться на двух факторах. Критерий Джоли и третий метод рекомендуют рассмотреть три фактора.
Промежуточный вывод. Из анализа главных компонент следует, что далее можно рассматривать два фактора, но стоит дополнительно рассмотреть случай трех факторов, он тоже допустим. Забегая вперед, отметим, что мы остановимся на двух факторах, так как не сможем проинтерпретировать третий фактор.
Все остальные результаты процедуры на данном этапе не нужны.
III этап. Повторяем факторный анализ — АГК, учитывая выводы, сделанные выше. Основное изменение: вместо анализа главных компонент проводим факторный анализ.
Командой Analyze\Data Reduction\Factor... запустим процедуру факторного анализа. В главном окне процедуры в основном выполняются те же действия, что и ранее, обсудим изменения в опциях.
В окне Factor Analysis (рис. 211) нажмем кнопку Descriptives (описательные). В диалоговом окне Factor Analysis: Descriptives в разделе Correlation Matrix (Корреляционная матрица) можно убрать флажок Coefficients (Коэффициенты), чтобы отменить вывод корреляционной матрицы: она
328
будет выглядеть точно так же, как и ранее и уже рассмотренная.
Вернемся в главное окно, нажав кнопку Continue (Продолжить). Нажав кнопку Extraction (Извлечение) в окне Factor Analysis (рис. 211), откроем диалоговое окно Factor Analysis: Extraction. Во-первых, изменим метод анализа: Method — Maximum Likilihood (Факторный анализ, параметры оцениваются методом максимального правдоподобия). Во-вторых, Number of factors (Количество факторов) теперь будет равняться двум, как было решено на предыдущем этапе (рис. 218).
Factor Analysis: Extraction
ilMaximum likelihood
Method:
-Analyse
\ <* Correlation matrix
C Covariance matrix.
Continue
1 CanceT
Unrelated factor solution —
1 I " Help
P Scree plot j .......—
, V E xtract-----—--------
» C Eigenvalues over
(* Number of factors:
M aximum I terations for Convergence |25
Рис. 218. Диалоговое окно Factor Analysis: Extraction
Продолжим настройку процедуры факторного анализа. Нажмем кнопку Rotation (Вращение) в окне Factor Analysis (рис. 211). В появившемся диалоговом окне Factor Analysis: Rotation (рис. 219) укажем:
Method (Метод) - Varimax (Вращение факторов выбирается по методу Варимакс);
Display (вывести)- Loading plot(s) (График нагрузок), как и раньше;
Display (вывести)- Rotated solution (Решение, полученное после вращения).
329
I Factor Analysts: Rotation
p Method.
| C None C Quartimax
। <• Varimax Equamax
1 C Direct OMmwi
*]:VD^a.|c
** Display-----—
s ; P Rotated solution
<" Promax
P Loading piot(s)
Maximum Iterations for Convergence
Рис. 219. Диалоговое окно Factor Analysis: Rotation
В результате окно должно выглядеть, как на рис. 219.
Процедура настройки факторного анализа закончена. В основном окне факторного анализа (рис. 211) можно еще нажать кнопки Factor Scores (Значения факторов) и Options (Параметры). но в окнах, соответствующих этим кнопкам, надо воспроизвести те же настройки, что и раньше.
В главном окне факторного анализа нажимаем кнопку ОК.
Надо иметь в виду, что среди новых результатов присутствуют три решения, с учетом результатов предыдущего анализа их получается даже четыре.
Результаты предыдущего этапа (метод главных компонент, 6 факторов) будем называть старым решением. Начальное (Initial) решение факторного анализа совпадает со старым решением, но только вычисляются лишь первые два фактора, как и было заказано. Это решение будем называть начальным. Термином Extraction называется решение, полученное в результате факторного анализа, его будем далее называть новым. Это новое решение не является окончательным, оно далее преобразуется посредством специально подобранного вращения. Назначение этого поворота - получить результат, который легче интерпретировать. Преобразованное решение (Rotation) будем
330
называть повернутым, именно оно чаще всего выбирайся в качестве окончательного.
Начнем интерпретацию результатов с таблицы Total Variance Explained (Объясненная полная дисперсия). Поскольку мы (упрощая) считаем, что дисперсия измеряет информацию, содержащуюся в данных, перетолковываем это название как «Процент информации, объясненной посредством факторов». Таблица состоит из трех частей, не влезает на страницу, поэтому здесь она разбита на три части. Первая часть описывает начальное решение и приведена в табл. 65.
Таблица 65
Объясненная полная дисперсия, первая часть таблицы
Factor Initial Eigenvalues
Total % of Variance Cumulative i 4
1 3,199 53,3 i ! 53,3
2 1,188 19,8 73,1 '
3 ! 0,847 14,1 87,2 i
4 0,438 j 7,3 94.5 I
5 0,204 ( 3,4 97,9
DC 0,120 ' 2.0 100
Эта часть таблицы совпадает с табл. 64. Так и должно быть, поскольку факторный анализ в пакете SPSS реализуется как итеративная процедура, последовательно изменяющая начальное решение, а это начальное решение как раз то, которое было получено с помощью метода главных компонент. Так как было заказано два фактора, то, как видно из второй строки таблицы, они объяснят 73.1% информации, содержащейся в исходном наборе данных.
Во второй части таблицы (табл. 66) приведены данные об информации, объясненной новым решением.
331
Таблица 66
Объясненная полная дисперсия, вторая часть таблицы
Factor Extraction Sums of Squared Loadings
Total % of Variance Cumulative / %
1 1 2,37 39,65 39,65
1 2 1,40 23,48 63,14
Объяснено 63,14% полной информации, на 10% меньше, чем при применении начального решения. Вообще говоря, ухудшение неизбежно, поскольку метод главных компонент был разработан, чтобы максимизировать процент объясненной информации. Факторный анализ предназначен для решения другой задачи, он максимизирует схожесть двух корреляционных матриц. Первая из них исходная, она была приведена в табл. 62, вторая получается, если использовать лишь ту часть каждой переменной, которая описывается факторами.
В третьей части таблицы (табл. 67) приведены данные об информации, объясненной повернутым решением.
Таблица 67
Объясненная полная дисперсия, третья часть таблицы
Factor Rotation Sums of Squared Loadings
Total % of Variance Cumulative %
1 2,31 38,51 38,51
2 1,47 24,63 63,14
Объяснено 63,14% полной информации, как и при использовании нового решения. Объясненная полная дисперсия не меняется при переходе от нового решения к повернутому, происходит лишь перераспределение дисперсии между факторами.
332
Промежуточный вывод. Если взять критерий качества, применяемый в методе главных компонент, и измерить с его помощью качество факторной модели, то получим, что последняя объясняет 63,14% полной информации, содержащейся в денных. Это приемлемый, но не отличный результат.
Далее рассмотрим таблицу Communalities (общности) (табл. 68). Ее интерпретируем примерно так же, как множественный коэффициент детерминации в регрессионном анализе. Вульгарный, неточный, ио выразительный метод понимания полученных значений состоит в следующем. Приведенные в таблице числа (их называют общности) измеряют, насколько хорошо факторы описывают изменчивость исходных переменных. Поскольку в данном случае вариабельность измеряется дисперсией, а в данном разделе дисперсия интерпретируется как информация, содержащаяся в переменной, можно сказать и так: «Полученные числа описывают, насколько хорошо факторы описывают информацию, которая содержится в каждой переменной».
Например, число 0,581, стоящее в первой строке, можно понимать так: информация, содержащаяся в переменной «рождаемость», описана факторами нового решения на 0,581-100% = = 58,1%.
Таблица 68
Общности
Communalities
_2Z Initial Extraction _
Рождаемость р. __Ж- ( .581 '
Процент мужчин, работающих в сельском j ,618 , ,508
хозяйстве ,730
Процент призывников, получивших высшую оценку на экзамене при поступле- | ,735
Дфи в армию ,768 ,999
Процент призывников, чье образование
Превышает уровень начальной школы
Лроцент католиков ,574 ' ^\040
.^фдская смертность , ,24£ —- -
333
В таблице отсутствуют общности для повернутого решения, так как они совпадают со значениями для нового решения.
Сравниваем общности со значением общей объясненной дисперсии, равной 63,14%. Некоторые переменные объяснены хорошо, например образование (общность равна 0,999) и процент католиков (общность равна 0,931). Одна переменная — детская смертность — практически не объяснена (общность равна 0,04).
Промежуточный вывод. Среди данных присутствует уникальная переменная «детская смертность». Позднее ее надо исключать из факторного анализа (но не из данных!), так как двухфакторная модель ее не объясняет. Остальные переменные описываются моделью удовлетворительно, на уровне общей объясненной дисперсии.
Теперь займемся самым интересным, самым трудным и самым непредсказуемым — интерпретацией факторов. Рабочим инструментом при этом будет Component Matrix (табл. 69).
Эта таблица всегда присутствует в окне вывода среди результатов факторного анализа.
Таблица 69
Таблица факторных нагрузок
Rotated Factor Matrix(a)
Factor
1 2
Рождаемость -,652 ,394
Процент мужчин, работающих в сельском хозяйстве -,630 ,334
Процент призывников, получивших высшую оценку на экзамене при поступлении в армию ,683 -,513
Процент призывников, чье образование превышает уровень начальной школы ,999
Процент католиков -,124 ,957
Детская смертность ,176
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
334
Элементы этой таблицы называют факторными нагрузками. Они являются корреляциями между факторами и исходными переменными.
Пропущенные значения коэффициента корреляции можно считать равными нулю. В данном случае исключены значения коэффициента корреляции, не превосходящие порогового значения 0,1. Такой порог был установлен в окне Factor Analysis: Options (параметры), когда задавалось значение опции Supress absolute values less than: (He выводить, если модуль меньше). Таким образом, пороговое значение задается аналитиком и может быть произвольным по его усмотрению. Если отключить опцию, будут присутствовать все значения, но таблица станет менее удобной для просмотра.
Первый фактор имеет большие положительные корреляции (0,683 и 0,999) с показателями образования, отрицательные значения (-0,652 и -0,630) с рождаемостью и процентом занятости в сельском хозяйстве. Все дальнейшие рассуждения будут интерпретацией корреляций, т.е. попыткой объяснить полученные значения, но не точными математическими утверждениями.
Проверим гипотезу, что первый фактор измеряет уровень промышленного развития провинции, другими словами, провинции с высоким значением фактора наиболее развиты, с низким значением - наименее развиты. Действительно, высокий уровень образования востребован в промышленном производстве и не нужен в сельском хозяйстве. Значит, можно ожидать высокой корреляции уровня развития промышленности (т.е. первого фактора) и показателей образования, в нашем случае так и есть, гипотеза подтвердилась. Отрицательная корреляция с процентом занятости в сельском хозяйстве очевидна. Может быть, и не очевидно, что рождаемость выше в провинциях с преобладающим сельскохозяйственным производством, но это и не противоречит здравому смыслу. Малое по абсолютной величине, но отрицательное значение коэффициента корреляции первого фактора и процента католиков отражает давно замеченное обстоятельство: в протестантских странах уровень промышленного производства
335
выше. Таким образом, значения коэффициентов корреляции говорят в пользу предложенной интерпретации первого фактора.
Проверим, что вы разобрались с интерпретацией. Какое значение первого фактора будет у провинции, в экономике которой доминирует промышленность? Большое. Если, наоборот. преобладает сельское хозяйство, то значение будет отрицательным и большим по абсолютной величине. Если обе отрасли сильно развиты, значение фактора будет близким к нулю, если обе отрасли слабо развиты, то снова значение фактора будет близким к нулю. Заметим, что термины «сильно развиты» и «слабо развиты» относительны, имеется в виду «сильно развиты по сравнению с другими провинциями из выборки».
Обсудим второй фактор. Сразу отметим, что его интерпретация затруднена, так как хотя корреляции в двух столбцах отличаются, но имеют противоположный знак. Получается, что второй фактор в целом ведет себя как противоположность первому. Если искать различия, то следует обратить внимание, что второй фактор имеет максимальное значение коэффициента корреляции с переменной «процент католиков». Остальные корреляции можно интерпретировать как производные от этой зависимости. Можно интерпретировать второй фактор как религиозные предпочтения, но назвать такой вывод однозначным нельзя.
Отметим, что знаки факторных нагрузок имеют значение лишь для того, чтобы показать, что переменные с противоположными нагрузками на один и тот же фактор взаимодействуют с этим фактором противоположным образом. При этом можно умножить все нагрузки в столбце на -1, т.е. сменить знаки на противоположные. Подумайте сами, как смена знака повлияет на интерпретации, предложенные выше.
Итак, удалось проинтерпретировать факторы, но были получены недостаточно четкие выводы, интерпретации двух факторов близки. Близость факторов является недостатком, так как желательно, чтобы факторы измеряли разные характеристики анализируемой выборки.
336
контрольные вопросы
! Приведите примеры из практики шью факторного анализа.
задач, решаемых с помо-
2. Как устанавливается оптимальное 3 цто такое полная дисперсия?
количество факторов?
11. CONJOINT (совместный анализ)
Совместный анализ (conjoint analysis) — это специальная технология сбора и анализа данных, используемая, как правило, в маркетинговых исследованиях. При помощи совместного анализа маркетологи определяют наилучшую конфигурацию новых или уже существующих продуктов (или услуг).
Самой важной целью совместного анализа является измерение степени предпочтения потребителем одного из конкурирующих продуктов (услуг) в условиях предположения о комплексной оценке всех атрибутов, составляющих продукт.
Название «совместный» (conjoint) происходит как раз от слов consider jointly — рассматривать совместно.
Процедура совместного анализа может применяться при решении следующих задач1:
• Прогноз прибыльности и /или доли рынка для новой концепции продукта, исходя из текущего предложения конкурентов.
• Прогноз влияния новых продуктов конкурента на доход или долю рынка, если не делать никаких изменений в конкурентной позиции фирмы.
• Прогноз уровня переключения покупателей на наши новые продукты как с наших текущих продуктов (каннибализм), так и с продуктов наших конкурентов (вовлечение).
• Прогноз различий для первых трех пунктов по ключевым — сегментам рынка.
• Прогноз реакции на стратегию ввода нового продукта. Должен ли вводиться новый продукт, если да, то какова
1 Черенков А. Применение метода совместного анализа в маркетинговых исследованиях//Маркетинг и маркетинговые исследования в России. 1999. № 4.
338
оптимальная конфигурация для этого нового продукта? Кроме того, должны ли цена и другие атрибуты текущих продуктов быть изменены в ответ на новые условия конкуренции?
• Прогноз влияния ситуационных переменных на предпочтения потребителя.
• Прогноз различий в отклике на альтернативные рекламные стратегии и/или рекламные темы.
• Прогноз отклика потребителя на альтернативные ценовые стратегии, специфические уровни цены и предполагаемые изменения цены.
• Прогноз отклика на стратегии распределения, включая такие вопросы, как определение оптимальных каналов распространения, количество и тип торговых точек, выбор поставщика и т.д.
Для различных форм совместного анализа в литературе могут использоваться такие термины, как Discrete Choice (дискретный выбор), Choice Modeling (моделирование выбора), Hierarchical Choice (иерархический выбор), Card Sorts (сортировка карточек), Tradeoff Matrices (матрицы обмена), Preference Based Conjoint (совместный анализ, основанный на предпочтениях) и Pairwise Comparisons (парные сравнения).
Совместный анализ — это наиболее популярный, простой и точный метод для определения самого лучшего набора атрибутов, составляющих продукт или услугу, предлагаемые на рынке.
Изучается набор из нескольких конкурирующих продуктов (товар, тариф или услуга). Эти продукты обладают полезными свойствами, характеристиками. При применении совместного анализа для изучения выделяют несколько таких характеристик, в SPSS они называются факторами (Factor). Считается, что по остальным характеристикам продукты не отличаются, или что таким различием можно пренебречь.
Например, при выборе наилучшего варианта тюбика для зубной пасты аналитик может ограничиться рассмотрением следующих факторов:
размер тюбика;
размер колпачка;
339
материал, из которого изготовлен тюбик;
рисунок на тюбике.
Далее, на каждую из характеристик накладывают ограничение. Вместо рассмотрения всех теоретически возможных вариантов для каждого фактора составляют короткий список из нескольких возможных значений фактора. В SPSS эти значения называют значениями факторов (Factor Values). Совместный анализ не подскажет, какими могут быть значения фактора, эти значения должны быть известны на момент начала анализа. Зато в результате будут получены средства для выбора одного из заранее определенных значений.
В рассматриваемом примере для каждого фактора определим набор его значений (табл. 70).
Таблица 70
Название фактора Значение фактора
Размер тюбика Большой
Маленький
Размер колпачка Большой
Маленький
Материал, из которого изготовлен тюбик Алюминий
Пластик
Окраска тюбика Белый, синий и красный цвета
Белый и синий цвета
Рисунок
Подсчитаем, сколько может быть различных модификаций тюбика. Первый фактор (размер тюбика) имеет два варианта значений, второй и третий тоже два, третий профиль имеет три варианта значений. Итого возможно 2 • 2 • 2 • 3 = 24 различных вариантов тюбика. Каждый из этих вариантов называется профилем, т.е. профиль — это набор конкретных значений факто-
340
ров, например «большой тюбик с маленьким колпачком, изготовленный из пластика, окрашенный в белый и синий цвета» — один из возможных профилей.
Следующий вопрос очевиден. К какому профилю покупатели наиболее благосклонны? Чаще встречается вариант вопроса, когда изучается, какой профиль наиболее перспективен, будет наиболее благоприятно встречен потенциальными покупателями.
Совместный анализ позволяет ответить на этот вопрос и дает аналитику еще дополнительную информацию. Как это происходит рассмотрим на следующем примере.
Пример 24. Наша задача — определение наилучшего варианта тюбика для зубной пасты, которую будет выпускать фирма «X».
Этап I. Уточнение задачи. Определение факторов и уровней факторов.
Чтобы применить совместный анализ, задачу необходимо уточнить, сделать более определенной. Сначала надо составить список изучаемых переменных. Какие характеристики объекта нуждаются в изучении, должно быть определено заранее, до начала совместного анализа.
В рассматриваемом примере предварительный качественный анализ показал, что наиболее важными характеристиками тюбика являются:
размер тюбика;
размер колпачка тюбика;
материал, из которого изготовлен тюбик;
окраска тюбика.
Элементы предыдущего списка в пакете SPSS называются факторами. Далее, для каждого фактора надо точно определить список значений. Элементы этого списка в пакете SPSS называются значениями фактора. В нашей задаче будут рассматриваться следующие значения факторов (табл. 70).
Такой список также необходимо составить до начала совместного анализа. Элементы этого списка являются исходной, вводной информацией для совместного анализа.
341
Данный этап критически важен для успеха работы, на нем определяется предмет изучения.
Этап II. Подготовка к опросу потенциальных покупателей. Получение списка профилей.
Подготовительный этап завершен, теперь начнем первый шаг совместного анализа. На этом этапе готовится информация для опроса покупателей. Опрашиваемым будет предложено несколько вариантов тюбика, они будут выбирать тот из них, который понравился больше всего. В пакете SPSS любой вариант тюбика называется карточкой тюбика. Для термина «карточка» возможен синоним «комплектация». Короткий и информативный список карточек и будет тем результатом совместного анализа, который получают на этом этапе.
Определимся с кодировками, т.е. с теми кодами, которые будут использоваться вместо текстовых описаний уровней факторов. Тот вариант кодировки, который будет использоваться в примере, приведен в табл. 71.
Таблица 71
Название фактора Значения фактора Код для значения фактора
Размер тюбика Большой 1
Маленький 2
Размер колпачка Большой 1
Маленький 2
Материал, из кото-рого изготовлен тюбик Алюминий 1
Пластик 2
Окраска тюбика Белый, синий и красный цвета 1
Белый и синий цвета 2
Рисунок 3

342
Желаемый набор профилей с математической точки зрения является ортогональным планом эксперимента. Дальнейшая работа использует пакет SPSS. Заметьте, что не надо открывать никакой файл с данными, в результате работы процедуры будет создан файл с планом эксперимента или, другими словами, файл с набором карточек, которые будут использоваться в ходе опроса.
Открываем процедуру, создающую ортогональный план. Последовательно выбираем Data\Orthogonal Design\ Generate... (Данные\Ортогональный план\Создать).
Открывается окно Generate Orthogonal Design (Создать ортогональный план). В двух словах мы делаем следующее. Сообщаем пакету обо всех факторах, а для каждого фактора перечисляем его значения вместе с кодами значений.
Детально отследим, как это делается. Задаем имя первого фактора «размер тюбика». В пакете SPSS пробелы в именах переменных запрещены, поэтому пробел заменен на знак подчеркивания. Дополнительно, чтобы результаты были удобнее для чтения, зададим метку переменной «размер тюбика». Напомним, в окне вывода меткой переменной заменяется имя переменной. Метка переменной может содержать любые символы. Теперь рабочая область выглядит следующим образом (рис. 220).
Нажимаем кнопку Add (Добавить в список факторов) и щелкаем на имени фактора в рабочем окне. Этот щелчок нужен, чтобы сделать активной кнопку Define Values... (Определить значения) (рис. 221).
Итак, кнопка стала активной, нажимаем на нее. Открывается окно Generate Design: Define Values (Создать План: Определить Значения Факторов).
В первом столбце задаем коды значений факторов, во втором — метки, соответствующие кодам, т.е. текстовые описания. После заполнения (напомним, сейчас мы работаем с фактором «размер тюбика») окно будет выглядеть следующим образом (рис. 222).
Нажимаем на кнопку Continue (Продолжить). В окне Generate Orthogonal Design (Создать Ортогональный План) видим полностью определенный первый фактор. Совершенно
343
Generate Orthogonal Design
Facta Name: |размер_тюбика
Facta Label [размер тюбика
Add |
’Change
, Remove
:0K
Paste
React
Cancel
Help
"' " ‘ Define'values.. |
rftfeW»—- ------^-
^ Create new data fife Як- | CA.ASPSS/ORTHO.SAV
Replace wotting dda He
Г* Rbset random number seedto | Options...
Рис. 220. Диалоговое окно Generate Orthogonal Design
Generate Orthogonal Design
Facta Name: 1ЯИЯНЯЯ8ИМЕ
Facta Label | размер тюбика
Add
Change
Remove
OK
Paste
Reset
Cancel
Hefe
U1________________:_______I 2J
Define Values... | -DataRte----------------------——------------1--------
Create new data fie Як. | C:V ASPSS/0RTH0.W
Replace waking data He
i~ Reset random nunfeerie&f to | Options...
Рис. 221. Диалоговое окно Generate Orthogonal Design
344
Generate Design: Define Values
Рис. 222. Диалоговое окно Generate Orthogonal Design: Define Values
аналогично опишем второй фактор, начиная с имени фактора. Переменную назовем «размер колпачка», в качестве метки переменной запишем «размер колпачка» (рис. 223).
Снова нажимаем кнопку Add (Добавить в список факторов) и щелкаем на новый фактор в рабочем окне. Этот щелчок нужен, чтобы сделать активной кнопку Define Values... (Определить Значения).
Кнопка стала активной (рис. 224), нажимаем на нее. Открывается окно Generate Design: Define Values (Создать План: Определить значения факторов). Заполняем окно кодами для значений фактора «размер колпачка» и метками (текстовыми расшифровками этих кодов). Если вы подумали, зачем и кому нужны эти коды, напоминаем, что вы работаете с компьютером и со статистическим пакетом. Им проще и удобнее работать с кодами и числами, чем с текстом. Итак, заполненное окно выглядит следующим образом (рис. 225).
:-7: 345
Generate Orthogonal Design
FfetorNdffle:, |размер_колпачка
Facto Labet Iразмер колпачка
Add
Change.
.Remove
размер_тюбика 'размер тюбика' (1 'боль
1J_______________I 21
DefineValues... |
OataFSe-------::—
& Create new data fife Fte | CV ASPSS/ORTHO.SAV
C Replace working data fie
Г" Reset random number seed to | » Opfem...
Рис. 223. Диалоговое окно Generate Orthogonal Design
Заметим, что ранее приводилось точно такое же окно. Вид окон совпал, так как два фактора («размер тюбика» и «размер колпачка») имеют одинаковые уровни. Нажимаем на кнопку Continue (продолжить). В окне Generate Orthogonal Design (Создать Ортогональный План) видим результат описания второго фактора (рис. 226).
Описание третьего фактора «материал, из которого изготовлен тюбик» аналогично предыдущим. Покажем, как выглядят промежуточные окна после их заполнения (рис. 227*235).
Все факторы и значения этих факторов заданы. Теперь надо сообщить пакету SPSS, в какую папку поместить результат вычислений. Проверяем, что отмечена опция Create new data file (создать новый файл с данными), и щелкаем на кнопку File (Файл). Не перепутайте, в данный момент на экране присутствуют две кнопки с названием File. Надо выбрать ту из них, которая присутствует на рис. 235. Открывается обычное для Window's диалоговое окно.
346
Generate Orthogonal Design
"I размер_ко лпачка
Fador Label fразмер колпачка
I размер, тюбика 'размер тюбика' (1 'боль
Add ' ^Change Remove
?азмер_колп.эчка 'размер колпачка' [?.|
OK
Paste
Reset
Cancel
Help
±L_____________I 2J
Define Values... | -ftatoFite'-—---------:-----------------—~—
. 4? Pedtonew datafile Fite- I CA..ASPSS/ORTHO.SAV
;
’’CResetrandam number seed to | Options... j
Рис. 224. Диалоговое окно Generate Orthogonal Design
Оно имеет длинное название Generate Orthogonal Design: Output File Specification (Создать Ортогональный План: Описание Файла с Результатами). В этом окне надо указать, в какой папке создать файл с результатами, с тем набором карточек, которые будут показываться опрашиваемым. В нашем случае используется заранее созданная папка «зубная паста», пакету было предписано сохранить в ней файл под именем «зубная_паста_плаи.8ау» (рис. 236). Нажимаем кнопку Continue «сохранить», возвращаемся в предыдущее окно и завершаем работу с процедурой Orthoplan, нажимая кнопку ОК. Иногда пакет SPSS пугает пользователя сообщением о внутренней ошибке «Internal Error: Cannot find control о in Procvec.».
Авторам не известна причина ее появления. Это сообщение можно игнорировать, можно продолжать работу и при этой ошибке. Нажимаем кнопку ОК
347
Generate Design: Define Values
Values and Labels for размер_коллачка Value
г |г
* Г
5f
af
Continue
Cancel
Help |
rAuto-Fil
Fill |
Рис. 225. Диалоговое окно Generate Orthogonal Design
Generate Orthogonal Design
Factor Name: |
Factor Labet |
Add размер_тюбика 'размер тюбика' (1 'боль . . размер_колпачка 'размер колпачка' (1 'С
Change
Remove
OK
Paste
Reset
Cancel
Help
....— J 2J
^^etire^/alue^^J
-Data Fie—-----------------—------------------------------
Create new data file File... | CA...
C Replace working data fte
Г" Reset random number seed to | Options...
Рис 226 Диалоговое окно Generate Orthogonal Design
348
Generate Orthogonal Design

Fedor Name: {материал
Factor Labet |
размер_тюбика 'размер тюбика' (1 'боль
размер_колпачка 'размер колпачка' (1 'С
/ Change
: Remove
ОК
Paste
Reset
Cancel
Help
Ш__________________I
Define Values... | -Dita Fie--------7—---------------------
<• Create new data He File... | CA... C Replace working data He______________
Г* Пою! random number seed to |
Options...
Рис. 227. Создание ортогонального плана. Шаг 3
Generate Orthogonal Design
Factor Name: {материал Factor Label; |
ОК.
Paste
Add
размер_тюбика 'размер тюбика' [1 'боль размер, колпачка 'размер колпачка' [1 V
Change
Remove
материал I ?|
Reset
Cancel
Help
Ш__________________I
Define Values... | -Data Ate-------------------------------
<• Create new data He File... | CA... C Replace working data He
Г Reset random number seed to |
Options...
Рис. 228. Создание ортогонального плана. Шаг 4
349
Generate Design: Define Values
Vabjes and Labels for материал
Label
Рис. 229. Создание ортогонального плана. Шаг 5
Generate Orthogonal Design
Factor Name: |Г
FactorLabet f

ОК
Рай»
Add
Change
размер_тюбика 'размер тюбика' (1 'боль размер_колпачка 'размер колпачка' (1 '( материал (1 'алюминий' 2 'пластик')
Reset
Remove
Cancel
Нф
LJ_______________I 2J
Define Values... |
. —-------------------:-------------------------------
.₽'fWл**<М«я» |ел... т
workingdatafito ; - ______
to ...|Г" . Cpfer».. |
Рис. 230. Создание ортогонального плана. Шаг 6
350
I Generate Orthogonal Design
Factor Кавк (окраска QK
Fbdttytabel: |окраска тюбика Райе
размер_тюбика 'размер тюбика' (1 'боль ”””””” размер_колпачка 'размер колпачка' (1 ‘t Reset материал (1 'алюминий' 2 'пластик') '
Cancel
Help
Define Values...
-patefite . - " ~ '
Deate new data fife Rfe- | Hjspfeoeworlcing data fife
Г.Г RfaMundom rente seed to | Options...
Рис. 231. Создание ортогонального плана. Шаг 7
Generate Orthogonal Design
TjKtorNamK [i OK
J,Add
' Change
• Remove
размер_тюбика 'размер тюбика' (1 'боль размер_колпачка 'размер колпачка' (1 'б Reset материал [1 'алюминий' 2 'пластик') " ..V
окраска 'окраска тюбика' (?) Cancel
Ss new data fie Rte. | GV.
^w^tjfy.tfetafife , .. ’’ ______
’ГW^SRsioi»'nur*ereeed.to J ' '' ; Odtfens... |
Рис. 232. Создание ортогонального плана. Шаг 8
351
! Generate Orthogonal Design
Factor Name:
Factor Label: (окраска тюбика
Add
Chance
Remove
размер_тюбикя 'размер тюбика' (1 'боль размер_колпачка 'размер колпачка' (1 '( материал (1 'алюминий' 2 'пластик'] _
окраска 'окраска тюбика' Г
.11_________________I
Define Values... |
- Data File------------------------------
(• Create new data file File... | CA...
C Replace working data fie
Г Reset random number seed to |
Options...
Рис. 233. Создание ортогонального плана. Шаг 9
Generate Design: Define Values
Values and Labels for окраска
Label
|ний и красный цвета | бе лый и синий цвета
- Auto-Fill------
From 1 to |
Ftil
Рис 234 Создание ортогонального плана. Шаг 10
352
Generate Orthogonal Design
Factor Name: |i FactorLabet |
ОК
Paste
размер_тюбика 'размер тюбика' (1 'боль размер_колпачка 'размер колпачка' (1 '( материал (1 'алюминий' 2 'пластик') окраска 'окраска тюбика' (1 'белый, синг
Reset
Cancel
Help
/J.....— J
Data File--------------------------
(* Create new data file Fie... [ CA...
C Replace working data fie
Г* Reset random number seed to
Options...
Рис. 235. Создание ортогонального плана. Шаг 11
Generate Orthogonal Design: Output File Specification
Папка: t__} зубная_паста
№
j Недавние
; документы
е
Рабочий стол
а Мои документы
*г.
Мой компьютер
Сетевое окружение
Имя Файла: |зу6_п.эста_пла^
Т ип Файла: |sps"s7’?^v]
Сохранить
Рис 236. Сохранение ортогонального плана
353
Если аккуратно придерживаться предложенной последовательности шагов, в окне вывода результатов появится сообщение о результате работы. Оно выглядит следующим образом:
Orthoplan
A plan was successfully generated with 8 cards.
Количество карточек зависит от числа факторов и числа значений факторов, поэтому в других задачах оно может быть другим, например 32. В таком случае сообщение примет вид:
Orthoplan
A plan was successfully generated with 32 cards.
Итак, такое сообщение указывает на благоприятный конец первого этапа. Как результат аналитик получил набор карточек.
Чтобы посмотреть на полученный набор карточек, откроем файл «зубная_паста_план.5ау» в редакторе данных пакета SPSS. Этот файл должен лежать по адресу С:/зубная пас-та/зубная_паста_план.зау
Почему файл надо искать именно по этому адресу? Потому что пакету был сообщен этот адрес в тот момент, когда мы работали в окне Generate Orthogonal Design: Output File Specification (Создать Ортогональный План: Описание Файла с Результатами).
Файл может выглядеть, как на рис. 237.
Если включить опцию Value Labels, чтобы заменить коды метками, результат будет выглядеть выразительнее (рис. 238).
Заметим, что результат мог быть и другим, в рассматриваемой задаче может быть много разных правильных ответов. Невозможны только такие ответы, в которых совпадают разные строки.
Разберемся, что означают значения, приведенные в таблице. Имеется восемь карточек, т.е. восемь разных «комплектаций» тюбика. Варианты комплектации описываются в первых четырех столбцах. Номера карточек указаны в последнем столбце CARD. Рассмотрим, например, третью строчку, т.е. карточку
354
губная .пасла плаилау SPSS Data Fditor
fj» Mt Wew Date Transform Arwlya Graphs unties Window Hep
tfiHlal si dd Mil Ml S№l Wi
[ 1 : размер-Тюбика ' 1
размер тюбика размер колпачка I материал I окраска I STATUS г CARD |
1 1.00 2.00' 1.001 2,001 О' 1 !
2 1,00 1.00 2.00 3.00 0 2;
3 1,00 1,00. 1.00 1.00 О' 3;
4 2,00 1,00 2.00 2.00 0 4i
& 2.00 2,00 2.00, 1.00 0 5'
6 2.00 2.00 1 ,00: 3,00 о! б'
1 2,00 1 .оо: 1,00' 1.00 0! 7
8 1,00 2,00 2,00 1,00 о: 8;
q
Рис. 237. Окно co значениями карточек
{'1 зубная паста план.sav - SPSS Data Editor
Ffc M: Mew data TranrfoiTn Arxte» -CMplw Utlbw Wndow .Hab 1 '
glsi^i si niffj мы mi aiaiBJ ifai i
11: р«вм4р_тюбика П
оюмер тюбика размер колпачка| материал окраска 1 STATUS 1 CARD
1 большой * маленький: алюминий белый и синий цвета, Design 1
2 большой большой пластик рисунок Design: 2
3 большой большой алюминий белый, синий и красн Design 3
4 маленький большой 4_ пластик белый и синий цвета < Design' 4
.-.5 S маленький маленький. пластик белый,синий и краснi Design^ Design; 5
В маленький маленький! алюминий рисунок: 6
7 маленький большой алюминий белый, синий и красн Design ‘ 7
8 большой маленький пластик белый, синий и красн Design 8
О
Рис. 238. Окно co значениями карточек с включенной кнопкой Labels
номер три. В ней описан тюбик большого размера, с большим колпачком, изготовленный из алюминия и окрашенный в белый, синий и красный цвета.
Иногда бывает, что кто-то из заказчиков проявляет сильное желание включить в набор карточек еще одну, добавить тот вариант комплектации, который заранее кажется ему наиболее многообещающим. Другими словами, к набору из восьми карточек добавляются дополнительные. Это можно сделать, достаточно добавить к данным еще строку. В столбце «Статус» ста
355
вите ноль, в столбце CARD — следующий по порядку номер. Только не увлекайтесь добавлениями, они усложнят работу тем, кто будет проводить опрос.
Подведем итоги. На втором этапе работы был получен набор карточек, теперь надо провести опрос потенциальных потребителей.
Этап III. Определение выборки.
Кто составит выборку, кого именно будут опрашивать? Ответы на этот вопрос зависят от характера исследования, от того, как будет определена генеральная совокупность. Кроме того, данная часть анализа не входит в процедуру совместного анализа. В процедуре предполагается, что выборка уже сформирована.
Этап IV. Создание макетов продукта.
Иногда карточки, полученные на втором этапе исследования, вполне материальны, например это тюбики, как в нашей задаче. Иногда сравниваются наборы услуг или тарифы (например, тарифы операторов мобильной связи). Во втором случае опрашиваемые сравнивают описания тарифов, т.е. тексты. В первом случае рекомендуется создать макет, муляж объекта. В нашей задаче — муляжи тюбиков. Если создание муляжей слишком дорого, их заменяют рисунками. Опрашиваемые получают представление о сравниваемых объектах, разглядывая карточки с рисунками. От карточки с рисунком произошел термин «карточка» как комплектация товара, как набор характеристик товара.
Этап V. Проведение опроса.
Традиционно опрос проводится по следующей схеме. Опрашиваемому предъявляют набор карточек (лучше муляжей) и просят выбрать тот продукт, который кажется ему наиболее привлекательным, который он приобрел бы в первую очередь. Когда выбор сделан, отмеченная карточка убирается из набора, в протоколе опроса отмечают, какой образец оказался на первом месте. Теперь опрашиваемый решает ту же самую задачу заново. Отличие лишь в том, что набор вариантов у него сокра
356
тился на одну карточку. Карточка, выбранная на этом шаге, будет на втором месте и т.д. На последнем шаге (в нашем примере 8 карточек, значит, на седьмом шаге) опрашиваемый сравнивает две оставшиеся карточки, два худших (с его точки зрения) варианта продукта.
Этап VI. Формирование файла с результатами опроса.
Чтобы понять, как результаты опроса заносятся в файл данных, посмотрим, что мы хотим получить в итоге: часть такого файла приведена на рис. 239.
zub pasta.sav SPSS Data Fditor
LbWMl ... П
ttud
1,00
prefaOl I ~pa»t«02 T pwtaQ3T restMM I pastaOB | ротйОб [ piwtaOZ Г WHHOB ; ~ ' * 21' ~
8,
J В я
JS 11
12
2,00 3,00' J°°I 5.00-e.oot Aoo’ "ада* 9,qo_ 10,00: 11 .OCT 12'03"
61
8'
7-
5-
2’
3i
2|
2:
5: X 8!
3-
3
9 4 -
6;
3^
4i 67
AJ_______JI
3!______
5T 7
4
7j
3
2:
5
8” g'
8;
6~
2|
2i
5r
6:
5'
h 4.
6T зГ
1 Г 2: 4 6 г ~зГ
7\ 3 5! 2 4; 6 1
4Т В зГ- 5 2' 6 1 :
2! 4 BL. 1 i 7 _ 3^ 5 8
Рис. 239. Окно с данными опроса
2
3
» s
• в
4:
Опишем, как заносить данные в файл. Первый столбец содержит информацию об опрашиваемом. В примере указывался лишь номер респондента. Столбцы pastaOl — pasta08 содержат результаты опроса. Каждый столбец соответствует карточке, в столбце указываются места, на которые опрошенные поставили карточку.
Например, рассмотрим первую строку. В столбце stud стоит «1,00», т.е. указывается, что приводятся данные о первом опрошенном. В столбце pastaOl стоит «4», означающий, что первый опрошенный поставил карточку номер 1 на четвертое место. Другими словами, выбрал первую карточку на четвертом шаге
357
опроса, после того, как уже были выбраны три другие карточки (какие именно?). В столбце pasta02 стоит «8», это означает, что первый опрошенный поставил карточку номер 2 на последнее восьмое место. Остановимся в перечислении столбцов, вместо этого найдем, какая карточка понравилась первому опрошенному больше Bcei о, какую карточку он выбрал первой. Это карточка номер 7, так как в столбце pasta07 стоит единица. Второй была выбрана карточка помер 5, третьей — карточка номер 8.
Этап VII. Совместный анализ результатов опроса.
В отличие от процедур, рассмотренных ранее, для выполнения совместного (conjoint) анализа пишут программу, так как в SPSS отсутствует соответствующее меню. Пусть вас это не смущает. Это непривычно, но не так трудно, тем более что вам не придется писать программу заново. Вся работа ограничится модификацией той программы, которая приведена ниже. Но обо всем по порядку.
Для проведения анализа надо открыть окно редактора скриптов (рис. 240).
Выполните команду File\New\Syntax.
Ff |s₽5s Processor isreafc
Рис. 240. Окно скриптов
358
Открывается окно редактора скриптов. Если вы раньше не встречали термин «скрипт», считайте его еще одним синонимом к слову «программа».
В этом окне надо набрать (можно скопировать) следующий текст:
CONJOINT
PLAN = ‘путь к файлу с планом эксперимента\имя файла плана эксперимента’;
/DATA = ‘путь к файлу с данными\имя файла с данными’; /SUBJECT = имя переменной с информацией об опрошенном;
/RANK = имя первой карточки to имя последней карточки;
/PLOT - all;
/PRINT = all;
/UTIL = ‘путь к файлу с результатами\имя файла с результатами’.
Этот текст и есть программа, надо только адаптировать ее к вашей ситуации.
Заметим, что набрать такую короткую программу несложно, но можно сэкономить усилия, если подобная программа писалась раньше. Во-первых, можно открыть текст ранее использовавшейся программы в каком-либо другом редакторе и скопировать текст оттуда. Во-вторых, если такая программа писалась раньше (и была предусмотрительно сохранена!), то ее можно открыть в окне редактора скриптов. Открывается она двойным щелчком на названии файла, которое должно иметь расширение .SPS.
Разбираемся с программой.
CONJOINT
— название процедуры;
PLAN = ‘путь к файлу с планом эксперимента\имя файла плана эксперимента’
— адрес файла с планом исследования. Выражение в кавычках вы будете менять, оставляя кавычки;
/DATA = ‘путь к файлу с данными\имя файла с данными’
359
— адрес файла с данными, с результатами опроса. Выражение в кавычках вы будете менять, оставляя кавычки;
/SUBJECT = имя переменной с информацией об опрошенном
— вместо переменной Respond вы вставляете имя переменной, в которой хранится информация об опрошенных;
/RANK - имя первой карточки to имя последней карточки
— имена переменных, в которых содержится информация об ответах опрошенных. Найдите их в файле с данными. В вашем опросе названия переменных могут быть другими;
/PLOT - all
/PRINT - all
— пока вы не изучите совместный анализ подробнее, эти строчки не меняются. На самом деле здесь программе поручено построить все графики (plots=all), а также ничего не утаивать, вывести все результаты в окно вывода результатов (print-all). /UTIL - ‘путь к файлу с результатами\имя файла с результатами’.
— в кавычках название того файла, в котором будут храниться результаты анализа и путь к нему. Меняете выражение внутри кавычек, сами кавычки сохраняете.
В конце последней строчки скрипта ОБЯЗАТЕЛЬНО поставьте точку.
В рассматриваемом примере после адаптации программа приобретает следующий вид:
CONJOINT
PLAN = ‘С\ААА\зубная_паста\зубная_паста_план.зау’;
/DATA = ‘C:\AAA\3y6HaH_nacTa\zub_pasta.sav’;
/SUBJECT = stud;
/RANK = pastaOl to pasta08;
/PLOT - all;
/PRINT - all;
/UTIL - ‘С:\ААА\зубная_паста/зубная_паста_рез.8ау’.
Чаще всего при редактировании делают следующие ошибки:
360
• забывают поставить кавычки вокруг пути к файлу;
• забывают поставить точку в конце текста;
• забывают поставить расширение .sav в имени файла;
• невнимательно набирают или копируют путь к файлу.
Сохраним программу для будущего использования. Обычно проще редактировать старую программу, чем писать новую. В окне редактора скриптов выбираем File\Save As... и набираем то имя, под которым будет сохранена программа (рис. 241).
Save As
- • л-. -
.паста
л-
ж-
Недавние до» уменгы
Мои документы
Мой компьютер
Сетевое ок руление
ИиМЦЙМЕ 1 ' jt3y(5_nacTa_tSPS
Т<4ИЙМ«' . JsPSS Syntax Files I'.sps)

Рис. 241. Окно для сохранения скрипта
Обратите внимание на нестандартное расширение файла — .sps. Это расширение применяется для файлов, содержащих программы SPSS.
Итак, программа написана, проверена и сохранена. Запускаем ее на выполнение. Для этого в окне редактора скриптов последовательно нажимаем Run\Ali (рис. 242).
361
g, 3y6_nacra_l.SPS - SPSS Syntax Editor
Ffe Edit View Data Transform Analyze Graphs Utfetes [ruq~ Wiyiow
g|Q]g| sl N Iklil йЫ Ф Й
CONJOINT
PLAN = ‘С:икАА.\зубная^аста\зубная_паста_1и
/DATA = 'С:кААА\зубная_паста\гиЬ_рагТа.за7'
/SUBJECT = stud
/LANK = pastaOl to pastaOS
/PLOT = all
/PRINT = all
/UTIL = 'С:\ААА\зу6ная_паста\зу6ная_паста_рез.5ау'
I
Рис. 242. Окно с командой Run
Этап VIII. Интерпретация результатов совместного анализа. Полезности факторов и значений факторов.
Сначала посмотрим на сравнительные полезности факторов. Позднее рассмотрим количественные результаты, а начнем с качественного анализа. Прежде всего смотрим на столбиковую диаграмму, расположенную последней в окне вывода (рис. 243).
Оказалось, что для опрошенных наиболее важна окраска тюбика, наименее важен размер колпачка. Визуально видно, что полезность фактора «окраска» в 2 раза важнее фактора «размер колпачка». Здесь приведены значения полезностей, усредненные по всей выборке. Точные значения полезностей — чуть позднее.
Чуть выше в окне вывода приведены аналогичные столбиковые диаграммы для каждого фактора в отдельности (рис. 244). На них сравниваются разные значения одного фактора.
362
Importance summary
Рис. 243. Результаты анализа. Диаграмма 1.
На диаграммах видны фавориты, опрошенные в среднем, предпочитают большой тюбик, большой колпачок, пластиковый корпус, кроме того, они предпочитают рисунок. При анализе надо обращать внимание на числа, стоящие на вертикальной оси, так как масштаб разный, нельзя напрямую сопоставлять высоты столбцов, взятых из разных картинок. Например, средняя полезность размера колпачка меньше, чем 0,004, а средняя полезность пластикового тюбика больше, чем 0,5. Различие больше, чем в 100 раз. Возможный вывод состоит в том, что вариант материала существенно влияет на предпочтения покупателей, а колпачок нет.
Обсудим отрицательные значения полезностей. Они носят условный характер. Процедура совместного анализа настроена так, чтобы полезности уровней одного фактора в сумме были равны нулю.
Перейдем к количественным результатам. На большой таблице найдем то место, где она оканчивается и начинаются диаграммы. Отметим, что таблица прерывается довольно неожиданно, в нашем случае на четвертом опрошенном, что видно из подзаголовка Subject name: 4,00. Как вы помните, мы записывали не фамилии опрошенных, а их номер в опросном листе.
363
Utility Utility
Окраска тюбика
Рис. 244. Результаты анализа. Диаграммы 2-5
На самом деле таблица не оборвана, она показана не полностью. На это указывает красная стрелка. Чтобы просмотреть всю таблицу, надо дважды щелкнуть в произвольном месте
364
внутри таблицы. То есть действовать так же, как и при редактировании графиков.
Если все сделано правильно, то внутри окна вывода появится окно с таблицей (рис. 245). Чтобы перемещаться по таблице,
Kendall's tau “ ,815
Significance ,0029
SUBJECT NAME: 4,00
Importance Utility(s.e.) Factor
Таблица с результатами для отдельных опрошенных
2,3333( ,7817) |---
4,6661( ,5270) CONSTANT
:Pearson's R * ,951
Significance * ,0001
iKendall's tau *
,886
Significance ,0019
^SUBJECT NIK:
3,00
Importance Utilityfs.e.) Factor
15,38
5000( ,6124)
5000( /6124)
Рис. 245. Таблица с результатами для отдельных опрошенных
365
(SUBFILE • SUMMARY® 5
Averaged® Importance-®
Utility
Factor®
23,34-
,3074
-,3074
razmer-tubika®
••bolshoi®
•*malenkii5
I®
16,24
,0034
-,0034
razme r•kolpachkal
•bolshoi®
•-malenkii®
26, 82-•
-,7601-
,7601-
I®
material®
-aluminii®
^'ААЛАЛЛАЛЛАА-'^У'ЛААЛ
•‘plastik®
-,1396
-,2072 ,3468
okraska®
bel,sin,krasnl
•bel,sin®
• • risunok®
33, 61- •

®
...............4,5450..........CONSTANT®
4L. . ..SO,. ------------------ - ...........:—-lai—
возможно, придется совмещать работу с двумя полосами прокрутки.
Снова перейдем к последней таблице. В ней содержатся средние значения полезностей как для факторов, так и для уровней факторов.
Прямоугольники слева дублируют первую столбиковую диаграмму, в них указаны усредненные полезности, они же — высоты столбиков. Диаграммы, расположенные под словом «Factor», дублируют остальные четыре столбиковые диаграммы, слева от этих условных диаграмм средние полезности уровней факторов, а наименования факторов справа от диаграмм. й «ммыиМ .
SUBJECT NAME:
20Д&
Importance Utility(s.e.) Factor
,00
,0000 ( , 4146)
,0000( ,4146)
razmer tubika bolshoi malenkii
57,14
-2,0000^,4146)------
2,0000J_, 4146)
7,14
-,2500 ( , 4146)
,2500 ( , 4146)
razmer kolpachka bolshoi VVMVVVVMVVVVv'VVWV malenkii
material aluminii plastj.k
35,71
-,3333J_, 5528)
-1,0833^, 6482)
1, 4167£ 6482)
okraska
bgl , s£n, X yg gp bel,sin risunok
4,5833^, 4370) CONSTANT
Напрашиваются несколько выводов. Размер колпачка несуществен для опрошенных из нашей выборки, т.е. его можно брать любым, на общей полезности это почти не скажется. Полезность пластикового материала перевешивает полезности всех остальных характеристик. Таким образом, алюминиевый тюбик исключается из рассмотрения. Полезность бело-си-не-красной окраски и бело-синей окраски практически одинаково низки. Преимущество третьего варианта (рисунок) несомненно.
Отметим присутствие константы (CONSTANT). Она необходима из математических соображений и прибавляется к суммарной полезности каждой карточки. Интерпретация ее, как правило, затруднена, да и не особенно нужна.
Выше, чем рассмотренная таблица, приведены результаты анализа для каждого из опрошенных. Рассмотрим, например, опрошенного номер 20. Его выбрали, так как он в некотором
367
смысле «особый», полезность в его случае заметно отличается от полезности у остальных опрошенных. Для него, в частности, очень важен размер колпачка и совершенно не важен размер тюбика.
Как видим из последней таблицы, усреднение может сглаживать существенные различия. Поэтому результаты совместного анализа могут быть предметом дальнейшего изучения, например для сегментирования покупателей. К ним можно попробовать применить процедуру кластерного анализа.
Этап IX. Интерпретация результатов совместного анализа. Полезности карточек.
При анализе результатов совместного анализа необходимо изучить файл с результатами. Обычно файл с результатами дублирует данные из окна вывода результатов. В этом же случае он содержит дополнительные сведения. Чтобы вспомнить, где хранится файл с результатами, обратимся к последней строке программы.
/UTIL = ‘С:\ААА\зубная_паста\зубная_паста_рез.5ау’.
Она напоминает имя файла и его адрес. В ваших примерах имя и адрес могут быть другими.
Откроем этот файл и разберемся, что означает каждая из переменных. Каждому из опрошенных соответствует строка, в ней приведены результаты анализа ответов (ранжировок) этого человека.
Первая переменная (stud) характеризует опрошенного, она совпадает с одноименной переменной из файла данных. В следующем наборе переменных содержится информация о полезностях, вычисленных для данного человека. Это переменные CONSTANT, размер_тюбика1, размер_тюбика2, раз-мерколпачка!, размер_колпачка2, материал!, материал2, окраска!, окраска2, окраскаЗ. Например, значение переменной окраска2 есть полезность второго варианта окраски тюбика (т.е. окраски в белый и синий цвета). У опрошенного номер 20 это значение равно -1,0833. Таким образом, эти переменные содержат ту же информацию, что и таблицы в окне вывода результатов.
368
Второй набор переменных имеет имена SCORE 1 — SCORES. Этих переменных столько же, сколько и карточек. Каждая из этих переменных соответствует карточке с таким же номером. Значение такой переменной — полезность карточки, это значение свое для каждого опрошенного.
На примере разберемся, как вычисляется полезность карточки. Рассмотрим первого опрошенного (т.е. первую строку файла результатов) и карточку номер пять. Значение полезности находим в столбце SCORE5, оно равно 7,25. Чтобы вспомнить, какой тюбик описывался карточкой номер пять, откроем файл с планом эксперимента, в нашем примере он назывался зубная_паста_план.зау. В пятой строке найдем искомое описание: пятая карточка — это маленький тюбик с маленьким колпачком, тюбик сделан из пластика и патриотично окрашен в белый, синий и красный цвета.
Теперь снова откроем файл с результатами анализа и в первой строке найдем значения нужных нам полезностей (табл. 72).
Таблица 72
Фактор Значение фактора Столбец файла результатов Значение полезности
Размер тюбика Маленький Размер_ тюбика2 0,75
Размер колпачка Маленький Размер_ колпачка2 1,00
Материал Пластик Материал2 -0,50
Окраска тюбика Белый, синий и красный цвета Окраска! 2,00
Константа CONSTANT 4,00
369
Суммируя полезности (включая в сумму константу), получаем то же значение общей полезности карточки, что и раньше т.е. 7,25.
Все остальные полезности вычисляются по этой же схеме.
Контрольные вопросы
1. Приведите свои примеры, в которых применим анализ.
2. Что такое фактор?
3. Что такое значение фактора?
4. Что такое полезность фактора?
ГЛОССАРИЙ
F-статистика 157
OLAP 68
Вероятность 123
Внутригрупповая вариация 157
Гистограмма 74
Группирующая переменная 72
Дендрограмма 164
Диаграммы рассеяния 126
Дискриминантный анализ 185
Дисперсионный анализ 152
Дисперсия 77
Зависимые переменные 5
Значимость 96
Иерархический кластерный анализ 161
Категоризация 42
Кластер 161
Кодирование 8
Количественная шкала 9
Корреляционный анализ 125
Коэффициент детерминации 141
Коэффициент корреляции Пирсона 130
Критерий Вилкоксона 100, 104
Критерий Манна — Уитни 100
Критерий Манна-Уитни 104
Критерий Стьюдента 100
Критерий Хи-квадрат 116
Круговая диаграмма 55
Медиана 76
Межгрупповая вариация 157
Метод Варда 163
Множественная регрессия 139
Мода 76
Независимые выборки 101
Независимые переменные 5
Номинальная шкала 8
Нулевая гипотеза 122
Обучающая выборка 185
Однофакторный дисперсионный анализ 153
Ожидаемая 122
Описательные статистики 71
Ошибка первого рода 90
Парные выборки 101
Переменные 5
Порядковая шкала 8
Простая столбиковая диаграмма 47
Размах 77
Ранг 9
Расстояние между кластерами 163
371
Расстояние между объектами 162, 163
Регрессионный анализ 125
Р-значение 96
Совместный анализ 217
Стандартное отклонение 76
Стандартные диаграммы 47
Статистика «Хи-квадрат» 123
Статистика Хи-квадрат 122
Статистическая проверка гипотез 89
Столбиковая диаграмма 79
Типы переменных. 16
Центр распределения 100
Центроиды 191
Частотный анализ 71
ЛИТЕРАТУРА
Основная литература
1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998.
2. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Киев: DiaSoft, 2002.
Дополнительная литература
1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных: Справочное издание. М.: Финансы и статистика, 1983.
2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей: Справочное издание. М.: Финансы и статистика, 1985.
3. Ллойд Э., Ледерман У. Справочник по прикладной статистике. В 2-х т. М.: Финансы и статистика, 1990.
4. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988.
5. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-х т. М.: Финансы и статистика, 1987.
6. Черенков А. Применение метода совместного анализа в маркетинговых исследованиях//Маркетинг и маркетинговые исследования в России. 1999. № 4.
7. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1975.
8. Харман Г. Современный факторный анализ. М.: Статистика, 1972.
9. Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия. Т. 1~2. 1982.
373
10. Носко В.П. Эконометрика для начинающих. Основные понятия. элементарные методы, границы применимости, интерпретация результатов. М.: ИЭПП, 2000.
И. Cattel R.B. Factor analysis: an introduction to essentials. Biometrics, 1965, 21, 190-215.
12. Kaiser H.F. The varimax criterion for analytic rotation in factor analysis. Psychometrika, 1958, 23, 187-200.
13. Joilife LT. Discarding variables in a principal component analysis, I: Artifical data. Applied Statistics, 1972, 21, 160-173.
Учебник
Аббакумов Вадим Леонардович, Лёзина Татьяна Андреевна
БИЗНЕС-АНАЛИЗ ИНФОРМАЦИИ. СТАТИСТИЧЕСКИЕ МЕТОДЫ
Главный редактор Е.В. Полиевктова
Ведущий редактор Е.А. Киселева
Редактор И.М. Волкова
Художественное оформление И. Жеребцова
Графика В. Л. Ардашникова
Компьютерная верстка Т.В. Дмитриенко
ИД № 03627 от 25.12.2000.
Подписано в печать с оригинал-макета 29.05.2009. Формат 60 х 90^g. Бумага офсетная. Гарнитура ♦Петербург».
Печл. 23,5. Тираж 2000 экз. Изд. № 8409.
Заказ № 1471
ЗАО ♦Издательство «Экономика» 123995, Москва, Бережковская наб., 6.
Отпечатано в полном соответствии с качеством предоставленного оригинал-макета в ОАО «Издательско-полиграфическое предприятие ♦Правда Севера». 163002, г. Архангельск, пр. Новгородский, 32.
Телефакс (8182) 64-14-54, тел.: (8182) 65-37-65,65-38-78,29-20-81 www.ippps.ru, e-mail: zakaz@ippps.ru