Введение
Вступительное эссе: приглашение к анализу данных на компьютере
Глава 1. Краткая экскурсия по системе STATTSTICA
Кнопки автозадач
Взгляд в будущее
Первые шаги в системе STATISTICA
Графический анализ таблиц сопряженности
Глава 2. Элементарные понятия анализа данных
Простейшие описательные статистики
Свойства описательных статистик
Шкалы измерений
Какие статистики выбирать?
Распределение переменной
Зависимости между переменными
Исследование связей между наблюдаемыми переменными в сравнении с экспериментальными исследованиями
Корреляции
Почему зависимости между переменными являются важными
Зависимые и независимые переменные
Как измерить величину зависимости между переменными
Две черты зависимости между переменными
Как определить, является ли результат действительно значимым
Статистическая значимость и количество выполненных анализов
Величина зависимости между переменными в сравнении с надежностью зависимости
Почему более сильные зависимости между переменными являются более значимыми
Почему объем выборки влияет на значимость зависимости
Почему слабые зависимости могут быть значимо доказаны только на больших выборках
Можно ли рассматривать отсутствие связей как значимый результат?
Общая конструкция статистических тестов
Как вычисляется статистическая значимость
Значимость коэффициента корреляции
Как определить, являются ли два коэффициента корреляции значимо различными
Почему важно нормальное распределение
Иллюстрация того, как нормальное распределение используется в статистических рассуждениях
Как проверить нормальность наблюдаемых величин
Всели статистики критериев нормально распределены?
Как узнать последствия нарушений предположений нормальности?
Оценка объема выборки
Визуальный подход к анализу мощности
Понижение размерности данных
Глава 3. Вероятностные распределения и их свойства
Нормальное распределение
Равномерное распределение
Экспоненциальное распределение ;
Распределение Эрланга
Распределение Лапласа
Гамма-распределение
Логнормальное распределение
Хи-квадрат-распределение
Биномиальное распределение
Распределение арксинуса
Отрицательное биномиальное распределение
Распределение Пуассона
Геометрическое распределение
Гипергеометрическое распределение ,....
Полиномиальное распределение
Бета-распределение
Распределение экстремальных значений
Распределения Релея
Распределение Вейбулла
Распределение Парето
Логистическое распределение
Хотеллинга Т2-распределение
Распределение Максвелла
Распределение Коши
Распределение Стьюдента
F-распределение
Глава 4. Подгонка вероятностных распределений к реальным данным
Пример 2. Подгонка распределения к данным: посещение популярного сайта
Пример 3. Скачки вверх и вниз курса акций
Пример 4. Количество покупок в магазине
Пример 5. Подгонка распределения Вейбулла к данным об отказах
Глава 5. Двумерный визуальный анализ данных
Гистограммы и описательные статистики
Группировка
Подгонка теоретических распределений к наблюдаемым распределениям
Пересекающиеся категории
Диаграммы рассеяния
Выбросы
Диаграммы рассеяния с гистограммами
Диаграммы рассеяния с диаграммами размаха
Нормальные вероятностные графики
Графики вероятность — вероятность
Диаграммы диапазонов
Диаграммы размаха
Столбчатые диаграммы ,
Последовательные/наложенные графики
Круговые диаграммы
Диаграммы пропущенных значений и интервалов
Графики функций пользователя
Глава 6. Трехмерный визуальный анализ данных
ЗМ диаграммы диапазонов
ЗМ диаграммы размаха
Трехмерные диаграммы рассеяния
Графики поверхности
Карты линий уровня
Трассировочные графики
Тернарные графики
Трехмерные категоризованные графики
Категоризованные тернарные графики
Графики пользовательских функций
Матричные графики
Глава 7. Визуальный анализ категоризованных данных
Категоризованные графики и матричные графики
Гистограммы и описательные статистики
Категоризация значений в каждой гистограмме
Категоризация значений в составных графиках
Категоризованные гистограммы и диаграммы рассеяния
Подгонка теоретических распределений к наблюдаемым распределениям
Подгонка распределений к множественным гистограммам
Категоризованные диаграммы рассеяния
Нелинейная зависимость
Категоризованные вероятностные графики
Категоризованные графики квантиль — квантиль
Категоризованные графики вероятность — вероятность
Категоризованные линейные графики
Методы сглаживания
Категоризованные прямоугольные диаграммы
Связанные графики
Категоризованные круговые диаграммы
Круговые диаграммы рассеяния
Категоризованные диаграммы пропущенных данных и диаграммы диапазонов
Категоризованные трехмерные графики
Категоризованные тернарные графики
Глава 8. Пиктографики
Классификация пиктографиков
Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA ....
Настройка трехмерных графиков
Пример 2. Подгонка функций, увеличение и закрашивание
Приближение полиномами
Увеличение
Рисование пользовательской функции
Добавление зависимости
Файл данных
Построение матричного графика
Закрашивание в редакторе данных графика
Пример 4. Связывание и внедрение
Собственный графический формат системы STATISTICA
Копирование и вставка графических объектов
Вставка в виде текста
Вставка в виде растрового изображения
Вставка в виде собственного графического объекта системы STATISTICA
Сетка
Функции клиента и сервера в OLE
Создание трехмерной гистограммы
Внедрение диаграммы рассеяния
Редактирование внедренного графика
Внедрение или связывание графиков из файлов
Автоматическое обновление связанных графиков
Управление несколькими графическими объектами
Изменение очередности изображения графических объектов
Управление графиками системы STATISTICA в других приложениях Windows средствами OLE
Связывание графика системы STATISTICA
Редактирование связанного графика
Пример 5. Добавление заданных пользователем статистических графиков в окно Галерея графиков и в меню Графика
Определение параметров графика
Создание нового графика пользователя
Выбор заданного пользователем графика
Просмотр и редактирование списка графиков пользователя
Глава 10. Описательные статистики
Вычисление описательных статистик для группированных данных
Внутригрупповые корреляции
Глава 11. Построение и анализ таблиц
Таблицы частот
Таблицы сопряженности и таблицы флагов и заголовков
Статистики таблиц сопряженности
Статистики, основанные на рангах
Многомерные отклики и дихотомии
Многомерные отклики
Многомерные дихотомии
Кросстабуляция многомерных откликов и дихотомий
Парная кросстабуляция переменных с многомерными откликами
Средства построения таблиц системы STATISTICA
Таблицы сопряженности и таблицы флагов и заголовков
Многомерные отклики и дихотомии
Примеры
Пример 2. Таблицы флагов и заголовков
Пример 3. Таблицы сопряженности
Пример 4. Табулирование многомерных откликов и дихотомий
Глава 12. Г-критерий сравнения средних в двух группах данных
Формальное определение t-критерия
Г-критерий для зависимых выборок
Пример 1
Пример 2
Однофакторный дисперсионный анализ и апостериорные сравнения средних
Глава 13. Непараметрическая статистика
Описание непараметрических процедур на примерах
Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнемара, точный критерий Фишера
Матричная диаграмма
Критерий серий Вальда—Вольфовица
Двухвыборочный критерий Колмогорова—Смирнова
Пример. Критерий серий Вальда—Вольфовица, Манна—Уитни U-критерий, двухвыборочный критерий Колмогорова—Смирнова
ANOVA Краскела—Уоллиса и медианный тест
Критерий знаков
Критерий Вилкоксона
ANOVA Фридмана и коэффициент конкордации, или согласия, Кендалла
Q-критерий Кохрена
Описательные статистики
Медиана
Мода
Геометрическое среднее
Гармоническое среднее
Дисперсия и стандартное отклонение
Размах
Квартильный размах
Асимметрия
Эксцесс
Глава 14. Анализ выживаемости
Оценки Каплана—Мейера
Сравнение выживаемости в группах
Регрессионные модели в анализе выживаемости
Экспоненциальная регрессия
Нормальная и логнормальная регрессия ,..
Обзор системы
Пример 1. Таблицы времен жизни
Пример 2. Регрессионная модель Кокса
Оценивание параметров
Результаты
Глава 15. Анализ соответствий
Глава 16. Примеры анализа данных в системе STATISTICA
Задание имени и сохранение экспериментального плана
Анализ экспериментальных данных
Глава 17. Нейронные сети
Диалог в модуле Нейронные сети STATISTICA
Заключительные комментарии
Структура языка STATISTICA Visual Basic
Запись макросов
Запись макроса анализа
Создание графика
Мастер-макрос
Среда программирования
Основные соглашения STATISTICA Visual Basic
Операторы управления порядком выполнения команд
Глобальные переменные, передача аргументов по значению и по ссылке
Примеры программ с комментариями
Создание таблицы данных и заполнение ее случайными числами
Вывод индикатора состояния
Построение гистограммы с подгонкой нормального распределения
Создание пользовательских диалогов
Просмотр объектов и функций
Приложение 1
Приложение 2
Приложение 3
Функции активации, реализованные в SNN
Функции ошибок, доступные в SNN
PSP-функции
Алфавитный указатель
Текст
                    СЕРИЯ
ЖЖЛ Ш 11 шгшЗ UJ кАмЩ^ I 11 О Iff ЛЛ 1
Е^пптер


f * 9 m * V\ # 4 "• 9
Владимир Боровиков ДЛЯ ПРОФЕССИОНАЛОВ STXnSTICA ИСКУССТВО АНАЛИЗА ДАННЫХ НА КОМПЬЮТЕРЕ 2-Е ИЗДАНИЕ [^ПИТЕР Москва - Санкт-Петербург - Нижний Новгород - Воронеж Ростов-на-Дону - Екатеринбург - Самара Киев - Харьков - Минск 2003
В. Боровиков STATISTICA. Искусство анализа данных на компьютере: Для профессионалов 2-е издание Главный редактор Е. Строганова Заведующий редакцией //. Корнесв Художник //. Биржаков Корректор С. Беляева Верстка Р. Гришанов ББК 32.973.233 УДК 681.3.01 Боровиков В. Б83 STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. (+CD). — СПб.: Питер, 2003. — 688 с: ил. ISBN 5-272-00078-1 Во втором, исправленном и дополненном, издании книги, написанной известным специалистом, научным директором компании StatSoft Russia, изложена концепция и технология современного анализа данных на компьютере. На основе элементарных понятий описываются углубленные методы анализа в системе STATISTICA (StatSoft) с многочисленными примерами из экономики, маркетинга, рекламы, бизнеса, медицины, промышленности и других областей. Второе издание дополнено описанием языка STATISTICA VISUAL BASIC. Книга адресована самому широкому кругу читателей, желающих стать профессионалами в компьютерном анализе данных. К книге прилагается компакт-диск, включающий учебник StatSoft по анализу данных, учебник по промышленной статистике, материалы обучающих курсов, демо-версии STATISTICA и SNN (нейронные сети) и большое количество данных для обучения и проведения самостоятельных исследований в STATISTICA и SNN © ЗАО Издательский дом «Питер», 2003 Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав. Информация, содержащаяся в данной книге, получена из источников, рассматриваемых издательством как надежные. Тем не менее, имея в виду возможные человеческие или технические ошибки, издательство не может гарантировать абсолютную точность и полноту приводимых сведений и не несет ответственности за возможные ошибки, связанные с использованием книги. ISBN 5-272-00078-1 ООО «Питер Принт». 196105, Санкт-Петербург, ул. Благодатная, д. 67в. Лицензия ИД № 05784 от 07.09.01. Налоговая льгота - общероссийский классификатор продукции ОК 005-93, том 2; 953005 - литература учебная. Подписано в печать 11.08.03. Формат 70X100/16. Усл. п. л. 55,47. Доп. тираж 3000 экз. Заказ № 389. Отпечатано с фотоформ в ФГУП «Печатный двор» им. А. М. Горького Министерства РФ по делам печати, телерадиовещания и средств массовых коммуникаций. 197110, Санкт-Петербург, Чкаловский пр., 15.
Краткое содержание Введение 13 Вступительное эссе: приглашение к анализу данных на компьютере 14 Глава 1. Краткая экскурсия по системе STATISTICA 44 Глава 2. Элементарные понятия анализа данных 105 Глава 3. Вероятностные распределения и их свойства 146 Глава 4. Подгонка вероятностных распределений к реальным данным 185 Глава 5. Двумерный визуальный анализ данных 210 Глава б. Трехмерный визуальный анализ данных 251 Глава 7. Визуальный анализ категоризованных данных 307 Глава 8. Пиктографики 333 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA.... 341 Глава 10. Описательные статистики 409 Глава 11. Построение и анализ таблиц 429 Глава 12. Т-критерий сравнения средних в двух группах данных 487 Глава 13. Непараметрическая статистика 504 Глава 14. Анализ выживаемости 533 Глава 15. Анализ соответствий 561 Глава 16. Примеры анализа данных в системе STATISTICA 577 Глава 17. Нейронные сети 611 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) 641 Приложение 1 667 Приложение 2 669 Приложение 3 677 Алфавитный указатель 687
Содержание Введение 13 Вступительное эссе: приглашение к анализу данных на компьютере 14 Для кого эта книга? 40 Глава 1. Краткая экскурсия по системе STATTSTICA 44 Вступление 44 Командный язык STATISTICA (SCL) 76 Кнопки автозадач 80 Взгляд в будущее 84 Первые шаги в системе STATISTICA 85 Графический анализ таблиц сопряженности 97 Глава 2. Элементарные понятия анализа данных 105 Что такое переменная? 105 Простейшие описательные статистики 105 Свойства описательных статистик 107 Шкалы измерений ПО Какие статистики выбирать? 111 Распределение переменной 112 Зависимости между переменными 112 Исследование связей между наблюдаемыми переменными в сравнении с экспериментальными исследованиями 113 Корреляции 114 Почему зависимости между переменными являются важными 120 Зависимые и независимые переменные 121 Как измерить величину зависимости между переменными 122 Две черты зависимости между переменными 123 Что такое статистическая значимость (р-уровень)? 123 Как определить, является ли результат действительно значимым 124 Статистическая значимость и количество выполненных анализов 124 Величина зависимости между переменными в сравнении с надежностью зависимости 125 Почему более сильные зависимости между переменными являются более значимыми 125 Почему объем выборки влияет на значимость зависимости 125 Почему слабые зависимости могут быть значимо доказаны только на больших выборках 126 Можно ли рассматривать отсутствие связей как значимый результат? 127 Общая конструкция статистических тестов 127 Как вычисляется статистическая значимость 127
Содержание 7 Значимость коэффициента корреляции 128 Как определить, являются ли два коэффициента корреляции значимо различными 128 Почему важно нормальное распределение 129 Иллюстрация того, как нормальное распределение используется в статистических рассуждениях 131 Как проверить нормальность наблюдаемых величин 131 Всели статистики критериев нормально распределены? 136 Как узнать последствия нарушений предположений нормальности? 137 Оценка объема выборки 137 Визуальный подход к анализу мощности 141 Понижение размерности данных 144 Глава 3. Вероятностные распределения и их свойства 146 В чем состоит идея вероятностных рассуждений? 146 Нормальное распределение 147 Равномерное распределение 151 Экспоненциальное распределение ; 152 Распределение Эрланга 153 Распределение Лапласа 154 Гамма-распределение 155 Логнормальное распределение 157 Хи-квадрат-распределение 159 Биномиальное распределение 160 Распределение арксинуса 165 Отрицательное биномиальное распределение 166 Распределение Пуассона 167 Геометрическое распределение 170 Гипергеометрическое распределение ,.... 170 Полиномиальное распределение 171 Бета-распределение 171 Распределение экстремальных значений 172 Распределения Релея 172 Распределение Вейбулла 173 Распределение Парето 177 Логистическое распределение 178 Хотеллинга Т2-распределение 179 Распределение Максвелла 180 Распределение Коши 181 Распределение Стьюдента 182 F-распределение 183 Глава 4. Подгонка вероятностных распределений к реальным данным 185 Пример 1. Подгонка распределения к данным: посещение непопулярного сайта 187 Пример 2. Подгонка распределения к данным: посещение популярного сайта 193 Пример 3. Скачки вверх и вниз курса акций 197 Пример 4. Количество покупок в магазине 197 Пример 5. Подгонка распределения Вейбулла к данным об отказах 200 Глава 5. Двумерный визуальный анализ данных 210 Гистограммы 210 Гистограммы и описательные статистики 212 Группировка 213
8 Содержание Подгонка теоретических распределений к наблюдаемым распределениям 216 Пересекающиеся категории 219 Диаграммы рассеяния 219 Однородность распределений двух переменных (формы зависимостей) 221 Выбросы 222 Диаграммы рассеяния с гистограммами 226 Диаграммы рассеяния с диаграммами размаха 226 Нормальные вероятностные графики 227 Графики вероятность — вероятность 230 Диаграммы диапазонов 231 Диаграммы размаха 232 Столбчатые диаграммы , 234 Линейные графики (для переменных) 236 Линейные графики (профили наблюдений) 241 Последовательные/наложенные графики 242 Круговые диаграммы 247 Диаграммы пропущенных значений и интервалов 248 Графики функций пользователя 249 Глава 6. Трехмерный визуальный анализ данных 251 Гистограммы двух переменных 256 ЗМ диаграммы диапазонов 260 ЗМ диаграммы размаха 264 Трехмерные диаграммы рассеяния 269 Графики поверхности 276 Карты линий уровня 280 Трассировочные графики 281 Тернарные графики 283 Трехмерные категоризованные графики 289 Категоризованные тернарные графики 293 Графики пользовательских функций 298 Матричные графики 299 Глава 7. Визуальный анализ категоризованных данных 307 Что такое категоризованные графики? 307 Категоризованные графики и матричные графики 309 Гистограммы и описательные статистики 311 Категоризация значений в каждой гистограмме 312 Категоризация значений в составных графиках 312 Категоризованные гистограммы и диаграммы рассеяния 315 Подгонка теоретических распределений к наблюдаемым распределениям 316 Подгонка распределений к множественным гистограммам 317 Категоризованные диаграммы рассеяния 318 Нелинейная зависимость 319 Категоризованные вероятностные графики 320 Категоризованные графики квантиль — квантиль 321 Категоризованные графики вероятность — вероятность 322 Категоризованные линейные графики 322 Методы сглаживания 323 Категоризованные прямоугольные диаграммы 323
Содержание 9 Связанные графики 325 Категоризованные круговые диаграммы 327 Круговые диаграммы рассеяния 328 Категоризованные диаграммы пропущенных данных и диаграммы диапазонов 329 Категоризованные трехмерные графики 329 Категоризованные тернарные графики 331 Глава 8. Пиктографики 333 Анализ пиктографиков 333 Классификация пиктографиков 334 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA .... 341 Пример 1. Настройка двумерных и трехмерных графиков 341 Настройка двумерных графиков 341 Настройка трехмерных графиков 361 Пример 2. Подгонка функций, увеличение и закрашивание 374 Построение диаграммы рассеяния .- 374 Приближение полиномами 375 Интерактивное удаление выбросов (Закрашивание) 377 Увеличение 379 Рисование пользовательской функции 381 Добавление зависимости 382 Пример 3. Динамическое закрашивание (Кисть) 384 Файл данных 384 Построение матричного графика 384 Закрашивание в редакторе данных графика 386 Пример 4. Связывание и внедрение 387 Растровые изображения 387 Метафайлы Windows («картинки») 387 Собственный графический формат системы STATISTICA 388 Копирование и вставка графических объектов 388 Вставка в виде текста 391 Вставка в виде растрового изображения 391 Вставка в виде собственного графического объекта системы STATISTICA 393 Сетка 394 Функции клиента и сервера в OLE 395 Создание трехмерной гистограммы 395 Внедрение диаграммы рассеяния 395 Редактирование внедренного графика 397 Внедрение или связывание графиков из файлов 397 Автоматическое обновление связанных графиков 398 Управление несколькими графическими объектами 398 Изменение очередности изображения графических объектов 399 Управление графиками системы STATISTICA в других приложениях Windows средствами OLE 400 Связывание графика системы STATISTICA 401 Редактирование связанного графика 402 Пример 5. Добавление заданных пользователем статистических графиков в окно Галерея графиков и в меню Графика 403 Файл данных 404 Определение параметров графика 404
10 Содержание Создание нового графика пользователя 405 Выбор заданного пользователем графика 406 Просмотр и редактирование списка графиков пользователя 407 Глава 10. Описательные статистики 409 Корреляции 414 Вычисление описательных статистик для группированных данных 420 Внутригрупповые корреляции 424 Глава 11. Построение и анализ таблиц 429 Вводный обзор 429 Таблицы частот 434 Таблицы сопряженности и таблицы флагов и заголовков 436 Таблицы флагов и заголовков 440 Статистики таблиц сопряженности 442 Статистики, основанные на рангах 445 Многомерные отклики и дихотомии 445 Многомерные отклики 445 Многомерные дихотомии 447 Кросстабуляция многомерных откликов и дихотомий 447 Парная кросстабуляция переменных с многомерными откликами 448 Средства построения таблиц системы STATISTICA 449 Таблицы частот 449 Таблицы сопряженности и таблицы флагов и заголовков 450 Многомерные отклики и дихотомии 451 Примеры 452 Пример 1. Таблицы частот 452 Пример 2. Таблицы флагов и заголовков 456 Пример 3. Таблицы сопряженности 461 Пример 4. Табулирование многомерных откликов и дихотомий 463 Пример (анализ продаж) 474 Глава 12. Г-критерий сравнения средних в двух группах данных 487 Г-критерий для независимых выборок 489 Формальное определение t-критерия 491 Г-критерий для зависимых выборок 492 Пример 1 493 Пример 2 495 Множественные сравнения 498 Однофакторный дисперсионный анализ и апостериорные сравнения средних 500 Глава 13. Непараметрическая статистика 504 Краткий обзор непараметрических процедур 504 Описание непараметрических процедур на примерах 507 Стартовая панель модуля Непараметрические статистики 507 Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнемара, точный критерий Фишера 508 Наблюдаемые частоты в сравнении с ожидаемыми 511 Корреляции (Спирмена R, тау Кендалла, Гамма) 512 Матричная диаграмма 515 Критерий серий Вальда—Вольфовица 516 U-критерий Манна—Уитни 516
Содержание 11 Двухвыборочный критерий Колмогорова—Смирнова 517 Пример. Критерий серий Вальда—Вольфовица, Манна—Уитни U-критерий, двухвыборочный критерий Колмогорова—Смирнова 517 ANOVA Краскела—Уоллиса и медианный тест 522 Критерий знаков 526 Критерий Вилкоксона 527 ANOVA Фридмана и коэффициент конкордации, или согласия, Кендалла 528 Q-критерий Кохрена 529 Описательные статистики 530 Медиана 530 Мода 530 Геометрическое среднее 531 Гармоническое среднее 531 Дисперсия и стандартное отклонение 531 Размах 531 Квартильный размах 531 Асимметрия 532 Эксцесс 532 Глава 14. Анализ выживаемости 533 Введение в анализ выживаемости 533 Таблицы времен жизни 534 Оценки Каплана—Мейера 538 Сравнение выживаемости в группах 541 Регрессионные модели в анализе выживаемости 543 Модель Кокса 544 Экспоненциальная регрессия 546 Нормальная и логнормальная регрессия ,.. 547 Обзор системы 548 Альтернативные процедуры 549 Пример 1. Таблицы времен жизни 550 Задание параметров анализа 550 Пример 2. Регрессионная модель Кокса 554 Задание параметров анализа 555 Оценивание параметров 556 Результаты 558 Глава 15. Анализ соответствий 561 Пример 1 (анализ курильщиков) 571 Пример 2 (анализ продаж) 574 Глава 16. Примеры анализа данных в системе STATISTICA 577 Построение плана 589 Задание имени и сохранение экспериментального плана 591 Анализ экспериментальных данных 591 Глава 17. Нейронные сети 611 Пре/постпроцессирование 625 Оценка качества работы сети 627 Диалог в модуле Нейронные сети STATISTICA 627 Заключительные комментарии 636
12 Содержание Глава 18. Язык STATISTICA VISUAL BASIC (SVB) 641 Структура языка STATISTICA Visual Basic 641 Запись макросов 642 Макрос анализа 642 Запись макроса анализа 643 Создание графика 646 Мастер-макрос 648 Клавиатурные макросы 649 Среда программирования 649 Основные соглашения STATISTICA Visual Basic 650 Типы данных, массивы, функции 652 Операторы управления порядком выполнения команд 655 Глобальные переменные, передача аргументов по значению и по ссылке 656 Примеры программ с комментариями 658 Пример: формирование коллекции таблиц данных 658 Создание таблицы данных и заполнение ее случайными числами 659 Вывод индикатора состояния 659 Построение гистограммы с подгонкой нормального распределения 660 Создание пользовательских диалогов 662 Просмотр объектов и функций 663 Приложение 1 667 Приложение 2 669 Приложение 3 677 Словарь терминов пакета SNN (версия 4.0) 677 Функции активации, реализованные в SNN 683 Функции ошибок, доступные в SNN 685 PSP-функции 686 Алфавитный указатель 687
Введение В книге, написанной научным директором компании StatSoft Russia, изложена концепция и технология современного анализа данных на компьютере. На основе элементарных понятий описываются углубленные методы анализа в системе STATISTICA (StatSoft), иллюстрированные многочисленными примерами из экономики, маркетинга, рекламы, бизнеса, медицины, промышленности и других областей. Большое внимание уделяется основным понятиям анализа данных, разведочному анализу данных, группировке, анализу и построению таблиц — важным этапам анализа данных, на которых формируются и проверяются гипотезы о структуре данных и связях между ними. В книге изложены классические и современные методы анализа данных, позволяющие получить всестороннее описание данных (например, в задачах массового обследования и мониторинга), провести классификацию, найти закономерности и зависимости между переменными, — иными словами, ответить на важные вопросы, которые задает исследователь, впервые столкнувшийся с огромным массивом информации. Подробно описан визуальный анализ как первый этап сложного исследования, — сотни типов графиков в STATISTICA, включая двумерные, трехмерные, категори- зованные графики и пиктографики подробно рассмотрены с описанием опций и настроек. Все это делает книгу настольной для многочисленных пользователей STATISTICA. Предлагаемая книга адресована самому широкому кругу читателей, желающих стать профессионалами в анализе данных на STATISTICA в бизнесе, маркетинге, финансах, управлении, экономике, промышленности, страховании, медицине и других приложениях. Книга дополнена компакт-диском, включающим последнюю версию знаменитого учебника StatSoft по анализу данных, а также учебник по промышленной статистике, материалы обучающих курсов, демо-версии STATISTICA и SNN (нейронные сети), огромое количество данных для обучения и проведения самостоятельных исследований в STATISTICA и SNN. Во второе издание книги добавлены новые материалы, исправлены ошибки первого издания, а также написана новая глава о языке STATISTICA VISUAL BASIC (SVB), появившемся в 6-й версии STATISTICA. Кроме того, произведено обновление диска с добавлением некоторых программ на SVB, снабженных комментариями на русском языке.
Вступительное эссе: приглашение к анализу данных на компьютере Окружающий нас мир насыщен информацией — разнообразные потоки данных окружают нас, захватывая в поле своего действия, лишая правильного восприятия действительности. Не будет преувеличением сказать, что информация становится частью действительности и нашего сознания. Без адекватных технологий анализа данных человек оказывается беспомощным в жестокой информационной среде и скорее напоминает броуновскую частицу, испытывающую жестокие удары со стороны и не имеющую возможности рационально принять решение. Статистика позволяет компактно описать данные, понять их структуру, провести классификацию, увидеть закономерности в хаосе случайных явлений. Удивительно, что даже простейшие методы визуального и разведочного анализа данных позволяют существенно прояснить сложную ситуацию, первоначально поражающую нагромождением цифр. Особенность этой книги заключается в том, что в ней всесторонне, с подробными примерами описано применение разнообразных методов анализа данных. Вообще, наша идея состояла в том, чтобы вывалить из мешка различные методы, написав своего рода популярную энциклопедию всевозможных методов анализа данных, и позволить пользователю, применяя систему STATISTIC А, свободно экспериментировать с этими методами, работая как с собственными данными, так и с предлагаемыми нами. Мы дополнили книгу компакт-диском, на котором записаны демо-версии системы STATISTICA, файлы данных, материалы курсов и многое другое. Запустите диск и одновременно читайте книгу — это позволит всесторонне освоить технологии анализа данных. Мы описываем как классические методы анализа, так и современные, включая нейронные сети, в частности, чрезвычайно интересный анализ соответствий, позволяющий исследовать сложные многомерные таблицы, возникающие в экономике, маркетинге, медицине и других областях. Даже традиционные методы мы стараемся рассмотреть под новым углом зрения, акцентируя внимание на нестандартных приложениях. Визуальные методы анализа данных чрезвычайно важны, и мы посвящаем им несколько глав. Многие явления, остающиеся за кадром, становятся отчетливыми, если найти подходящее графическое представление.
Вступительное эссе: приглашение к анализу данных на компьютере 15 Например, на графике, приведенном ниже, мы видим два временных ряда: цены на нефть в долларах за баррель и курс доллара по отношению к рублю за несколько лет. Рассматривая график, вы видите, какие тенденции имеются в данных. Конечно, это простейший вариант графического представления! Далее вы можете перейти к построению более сложных моделей, однако первые закономерности, найденные визуально, сохранятся и в углубленных моделях. Именно поэтому мы уделяем визуализации столь большое внимание. Множество практических примеров рассмотрено в данной книге. Чтобы сделать изложение систематическим, мы начинаем с простейших понятий — которых, к счастью, не так и много — и учимся говорить на языке анализа данных, рассматривая простые и понятные всем примеры, постепенно развивая их до сложных задач. Мы не следим тщательно за строгим обоснованием методов, а просто говорим: имеются такие-то методы и там-то их применение принесло успех. Если вы желаете, попробуйте применить эти методы для анализа собственных данных и, быть может, получите обнадеживающий результат. Деты (и$ переменном: DATE ) - * * ЦЕНА Д.РУБЛЬ Рис. 1. Динамика цены 1-го барреля нефти (в долларах) и реального курса доллара (покупательной способности доллара, выраженной в рублях) Но что значит обнадеживающий результат? Если из множества возможных вариантов действий вы с большей вероятностью, чем ваш противник, выбираете правильный вариант или добиваетесь более ясного понимания действительности, «снимая» случайность, то, очевидно, вы находитесь в лучшей ситуации, чем ранее, когда полагались на волю случая и отдавали себя во власть неопределенности. Итак, разнообразие методов и обилие примеров — вот основная идея книги, которая по этой причине может быть названа энциклопедией методов анализа и областей их применения. Строгое обоснование методов — не наша цель, так как многие интуитивно понятные методы и родились из решения практических задач и лишь позднее получили строгое математическое обоснование, что никак не уменьшает их прагматической ценности. Для широкого круга пользователей полезно знать, где и какие методы применялись на практике и когда привели к успеху, и мы хотим максимально развить интуитивное представление пользователя об анализе данных, не предполагая наличия
16 Вступительное эссе: приглашение к анализу данных на компьютере у него специальной подготовки. Таким образом, мы хотим познакомить читателя с культурой анализа данных. В качестве источника данных мы используем, например, Интернет и иллюстрируем применение методов анализа на этих данных. Популярность Интернета общеизвестна, но что нового может дать анализ данных в этой области? Вот один из примеров. Вы производите поиск по различным ключевым словам в некоторых поисковых системах и отмечаете количество ссылок; спрашивается, различаются системы поиска или нет? Именно с такого рода примерами мы будем иметь дело. Ниже приведены графики количества посетителей сайта. Спрашивается, как строго доказать, что реклама имела успех? Правило 3-сигма позволяет оценить эффективность рекламной кампании и, следовательно, работу менеджера по рекламе. CTSITEGRF6STG ЛинеАмыв грв«мв Число заходов иа сайт Чмсяо н«6ямдеимм: 346 Среднее: 21.155 Максимум: Ж.— Оамд. отклонение: 3«.4fS ° М Пиния среднего [ ж а ' Л " „ а т ' п 1 9 ГС 71 7Г 53 » * «I Я «3 «в ДНИ Рис. 2. Оценка эффективности рекламы График спектральной плотности показывает, что в данных имеется отчетливая периодичность с лагом 7, так как пик спектральной плотности приходится на 7 дней. nSPECTRI STG: Спектр аиалиэ: HOST Спектр, анализ: HOST Число набл.: 72 ВесаХемминга: .0357 .2411 .4464 .2411 .0357 Рис. 3. График спектральной плотности
Вступительное эссе: приглашение к анализу данных на компьютере 17 График недельной составляющей позволяет увидеть, как изменяется (в процентах) число посещений сайта в зависимости от дня недели. Исследуя разность нагрузки Интернета в рабочие и выходные дни, можно оценить долю «домашних» подключений к сети. Подобного рода закономерности возникают в самых различных областях: в торговле, бизнесе, промышленности, — важно уметь находить их и использовать в своих целях. flseasonl.STG: Гра+ переменны* HOST Недельная составляющая посещений сайта компании Сеаон. составл. (се*он * 7); Понедельник Среда Пятница Воскресенье Вторник Четверг Суббота Рис. 4. Зависмость заходов на сайт от дней недели Прогнозирование: представьте, что вы имеете данные ежемесячных продаж. Вам нужно спрогнозировать продажи на текущий месяц. Как вам поступить? Вполне разумный подход состоит в том, чтобы взять в качестве прогноза продажи предыдущего месяца. Далее вы можете развить этот подход, использовать для прогноза продажи нескольких предыдущих месяцев, усреднить их, например, с разными весами. Как крайний случай, вы усредняете все продажи. Так из вполне естественных рассуждений возникает метод скользящего среднего. Если вы хотите учесть сезонный фактор, например прогнозировать продажи в январе текущего года, используя информацию о продажах в январе предыдущего года, то следует использовать сезонное скользящее среднее. Если вы хотите учесть все продажи, но с разными весами, то используется экспоненциальное сглаживание (exponential smoothing) с очевидными вариациями: сезонное или несезонное, с трендом (отчетливо выраженной тенденцией) или без тренда. Обобщение модели скользящего среднего приводит к моделям АРПСС — авторегрессии и проинтегрированного скользящего среднего, или, в английской терминологии, ARIMA (Autoregressive Integrated Moving Average). Какую из этих моделей выбрать? Ответ: запустите STATISTICA и поэкспериментируйте с различными моделями. Разбейте данные на две группы — используйте данные второй группы для проверки качества прогноза (для проверки можно оставить, например, пятую часть ряда). STATISTICA позволяет экспериментировать с методами анализа, а это огромное достижение! В тех ситуациях, когда классические методы не работают, можно испытать нейронные сети. Мы рассматриваем их как полезный инструмент анализа, имеющий свои достоинства и ограничения (см. главу 17).
18 Вступительное эссе: приглашение к анализу данных на компьютере Вот типичный пример. Рассмотрим данные о розничных продажах бензина в США (данные доступны на сайте www.economagJc.com в разделе Census Bureau: Retail Sales by Kind of Business). В численном виде данные приведены в приложении 1. Прогнозирование тех же данных с помощью нейронных сетей описано в приложении 2. На графике данные имеют вид: Gagii'iii.-ir.i.i'f-ii'-.iii-.ii'iti^y-i'i1 Объем продаж автозаправочных станций 24000 | S 12000 £ 8000 4006 Можно выделить два временных интервала, на которых динамика показателя различается ' ,^ vyvs ./W\<W VI лл/^W Ш: ! гЛ г^ СО ^-СЭ «- Гч гп «» ю 1Л-»«-' » W О ^- гм о *» ц-> ю Рис. 5. Розничные продажи бензина в США С помощью графика можно выделить два временных интервала, на которых поведение ряда существенно различается. Технологии прогнозирования, описанные в книге: Боровиков В. П., Ивченко Г. И. «Прогнозирование в системе STATISTICA в среде Windows», M.: Финансы и статистика, 2000, позволяют построить прогноз продаж бензина с помощью моделей ARIMA — АРПСС (авторегрессии и проинтегрированного скользящего среднего). ffetftM квпиИ и» порвммтуо &>*tf j1 ° АРПСС (Бокс и Джмжмис) » ютокоиин В «М«*«НДЛЯ ЙИМА0М4ОЙ парвмвм* [р*лА < »егмздЛл«р««ггмрам^*«»«пе0ем»««*, | дауэдм щвжнит» по нам» Чтобы защитит» перв*и>му> 1<г^»1Ш1»1г<»мпрс«адюш1вгпрао6р«ао»*нмяу,дмж»м щелкните и» соагмггстяуошеА строке в столбце Блок. Рис. 6. Модуль анализ временных рядов в STATISTICA
Вступительное эссе: приглашение к анализу данных на компьютере 19 Г М«. лопфн+ц Г ipmmetmвегочикр Щ I & <:р«Э £|1;Кач«ооЛр . уточит*» д| Р Р**«кя» 3, lUr.fi Щ По»«»о*:П 3 ;Г 2:|:: fcj < •••>-'••■•■ < •'•■• =:=-■ ^J Vl Друтпрвибрстмашиигра&нц» I ; f 4:[ С ТотиыД (Мм*»*) Odawwm nn»wwr. fo"~ | У НМММММ.Ч1 ;rs:F ,r*F Рис. 7. Построение прогноза продаж с помощью моделей АРПСС UIJ.li.■ЦЩ.1М Я I.MJ 11.Ш НИШМ. ■■■■■ ВИ Г^югьо>ы. Моде* IO.t 0 »1.0 1Ке «►•«>•■ члг i Ис«од ПРОДАЖИ Нечего исходны» 1ЭЗ комецмсходи 409 Прогмо) сотасмо полученной мидепи к WV-Av^/' vAvvVv' лМУ 120 140 160 190 200 220 240 260 280 300 320 340 360 360 400 420 440 маОпюдаемь* • Пролом J 90 0000% Рис. 8. Прогноз продаж бензина с помощью моделей АРПСС В качестве альтернативы можно использовать экспоненциальное сглаживание. На следующих рисунках показан прогноз, построенный с помощью экспоненциального сглаживания, который сравнивается с прогнозом на основе модели ARIMA — АРПСС. Мы использовали часть данных для построения модели, а на оставшихся данных сравнивали прогнозы. inn mill hi ii in \\шшшшшшшшшшшшшшсшш Рис. 9. Прогноз с помощью экспоненциального сглаживания
20 Вступительное эссе: приглашение к анализу данных на компьютере ■ ..101x1 График прогнозов экспоненциального сглажиеамия и с помощью АР'МА модели '. гншинп.м» ЛН1МЛ модем» У ^ ■V'/" И|Ю1НПЗ Наблюдаемые :>ьспо»к>»<ииим,1 1.ГП»ЖИР 1МИРИ Рис. 10. Сравнение прогнозов Хотя в книге мы обращаем внимание на тонкие моменты исследования, более важная наша задача — показать читателям, на какие результаты вообще можно рассчитывать, применяя данный метод, и как избежать явных ошибок. Итак, нам хотелось бы донести до читателя клише анализа данных: от визуального анализа данных, описания данных с помощью простейших дескриптивных статистик до сложных продвинутых методов, позволяющих понять структуру данных, классифицировать данные и оценить связи между ними. Ранее, до появления персональных компьютеров, анализ реальных данных был чрезвычайно сложным, требующим больших интеллектуальных усилий делом, и ни о каких технологиях не могло быть и речи. Это было дело небольшого круга посвященных. Благодаря таким системам, как STATISTICA, открылся путь к новым технологиям анализа данных, максимально сокращающий рутинные процедуры и делающий анализ максимально доступным для широкого круга пользователей. На следующих рисунках показан типичный диалог в STATISTICA. 2«А* fjp*»*-* tm 4"*"* С*>*»« С«*ис 0»м* I адшявге гт *«.-11П«Ч.я.,ятг, Д |П»р»| наги и]НЫЦ| 7:оо 7:оо 7 400 ■ЗКН за^г П 118 о не 'JAW< '-bOlj'SV tOJ-tfc-' 15716 00 033 0 000 С*1-' •.о Ч «0 :isn щвг I Отие«« ] Ш»(— «л.*.: [Г"| д.*. в.м. (о~~| Q j»fw. ] 1.1 p»ft" {bw^&>$ |К£блй Рис. 11. Рабочее окно STATISTICA с файлом данных о проблемных банках
Вступительное эссе: приглашение к анализу данных на компьютере 21 STATISTIC* ■з! .;. л*.-|.»-.»м ;/W *?.* ~*'rj:.<»< ouii, •г1>;чи:»Н1«.н i-i no i>.;umi.m4mi»(m Г~| Qfc Лотт porpocom робкт регрессия f-l' ' I ' 1 |L2» Отмсч* Ш i,J»t»t!Vtt^<««*«M<Vt* } ' Рис. 12. Логит-регрессия в STATISTICA — выбор метода оценивания Задание начальных знамений Конст.ВО ID BANK 000001 f PR0TJ*P ] 0001 EQ_PERF jl j OVJJQ p02 Ш ok j Отмена 0£щее значение : 0 1 ±H l Применить га Модель: Логит регрессия (bank.sta) НЕЛИН. ОЦЕНИВ. N = 182 шш Зав.перем: BAD Потери: Макс правд Ок.потери: 75.688258305 Хи2( 4)=52.208 р= 00000 Ко*к&:во BANK -2 6 '=» 2 О Б | 0000007 4 59557 0677422 1 000001 99 04430 1059 .151 95 94308 PROTLCAP 1 ECLPERF 1 OV^IIQ Олн.несогл.-eg.иэм. Оты.несогл.-размах ы — 25 5 6 6 0 5 3 9 00026 1 0554 00301 103 8087 :.Г Рис. 13. Задание начальных приближений и оценки параметров модели
22 Вступительное эссе: приглашение к анализу данных на компьютере j£j График 11 Нормальный вероятностный график остатков НйЕЗ НорЯМЛЬНЫИ |#рОЯТМОСТИЫИ ф1+ИС ОСТ1ТГ01 Рис. 14. График остатков показывает адекватность построенной модели Если раньше каждый шаг исследований: представление данных, перевод их в нужный формат, проверка, группировка, сортировка, сжатие, графическая интерпретация, запуск программы обработки, задание параметров анализа, просмотр результатов, был трудной задачей, то теперь достаточно двух-трех щелчков мыши, чтобы огромные объемы данных чрезвычайно быстро преобразовались, обработались и появились на экране в виде графиков, диаграмм, таблиц, статистик критериев. Наша точка зрения состоит в том, что при современном развитии компьютерных технологий начальные этапы анализа данных, визуальный и описательный анализ, а также пробное применение сложных методов вполне могут проводить специалисты из конкретных областей — те, кому результаты анализа в первую очередь нужны и кто располагает реальными данными, «вжился» в них. Представьте, вы анализируете некоторый рынок, то есть множество товаров, цен, продавцов, покупателей и т. д. Прежде всего, ваша задача состоит в том, чтобы разумно описать рынок, например рынок недвижимости, — ввести данные, провести визуальный анализ, сгруппировать данные и найти некоторые первые устойчивые закономерности в организации рынка. Уже первые шаги такого анализа показывают, что на цены, в основном, влияет тип квартиры и район. Остальные характеристики менее значимы. Так, первый этаж снижает стоимость квартиры примерно на 1/10, последний — в 2-3 раза меньше. Отсутствие балкона или лоджии также снижает стоимость (примерно на ту же величину, что последний этаж). Наличие или отсутствие телефона практически не влияет на цену, но продать телефонизированную квартиру значительно проще. В общем, разница цен между кирпичными и панельными домами невелика, скажем, процентов 5, — имейте в виду, что данный пример во многом искусственный, — но ближе к центру больше ценятся кирпичные дома и т. д. Проведение такого рода описательного анализа, построение понятных графиков и ответы на разнообразные простые вопросы типа: «А что у нас по пятницам?» и т. д. — это первый естественный шаг всякого исследования. При этом используются самые простые описательные статистики, графики, группировка данных...
Вступительное эссе: приглашение к анализу данных на компьютере 23 Далее, после разбиения жилья на однородные группы, возникают более сложные аналитические вопросы, например, как влияет на стоимость типового жилья появление элитных квартир? Или как повлияют большие продажи муниципального жилья на цены? Как зависит спрос от сезонной составляющей? Как зависят продажи от текущего строительства в городе? Мы рассмотрели рынок недвижимости, но точно такие же методы применяются при исследовании других рынков: финансового, фондовых, товарных, сырьевых... Здесь нужно перейти от описательного анализа к более сложным статистическим моделям, например регрессионным. Любой рынок по существу своему многомерен, то есть описывается многими параметрами, поэтому необходимо применять многомерные методы, например факторный анализ, чтобы понять, какие факторы в основном влияют на цену квартиры, многомерное шкалирование, деревья классификации и т. д. Для анализа динамики цен и прогнозирования изменения цен в зависимости от времени применяются методы анализа временных рядов. Очень многие сложные задачи успешно решаются довольно простыми статистическими методами. Например, известно, что краткосрочная финансовая политика США строится на основе модели линейной регрессии с учетом сезонной информации о финансах. Однако применение даже простых методов приносит эффект. В бурно развивающейся отрасли средств телекоммуникации важно решать следующие задачи: О прогнозировать пиковые нагрузки в сети, О оценивать недельные колебания нагрузки, О рационально выбирать место строительства новой станции для эффективного развития сети. В принципе, задача рационального выбора места строительства станции может быть решена с помощью методов множественной (многомерной)'регрессии. Она вполне аналогична разбираемой нами задачи о строительстве атомной станции. Оценка колебаний нагрузки сети в зависимости от дней недели решается с помощью метода сезонной декомпозиции. Для прогнозирования нагрузки в сети можно использовать модели авторегрессии и проинтегрированного скользящего среднего. Регрессионные модели также используются для процентного выражения прибыли магазина определенного типа в текущем году. В качестве регрессоров используются величина спроса, качество товаров, рост доходов и др. (см. например, статью Thurik A. R. A985). Retail margins during recession and growth, Econ. Lett., 17, № 3, p. 281-284, где даются расчеты по данным реальных наблюдений и финансово-экономический анализ результатов). Регрессия эффективно применяется для анализа экономической активности в различных регионах. Такая модель, например, с успехом применялась для анализа реальных данных в Швеции. Степень вариации или изменчивости параметров модели для различных муниципалитетов интерпретировалась как пространственная изменчивость, а для эффективного оценивания неизвестных параметров принимались некоторые априорные допущения о величине их изменения, см. например, работу Westlund Anders H. A986) On econometric analysis of regional structural variability, Adv. Modell. And Simul., 5, № 3, p. 25-44.
24 Вступительное эссе: приглашение к анализу данных на компьютере Интересные результаты регрессии для прогнозирования доходов телевизионных компаний в зависимости от трех факторов: числа продаваемых телевизоров, общего числа рекламных объявлений и правительственных мер, ограничивающих некоторую рекламу (например, рекламу сигарет), можно также получить с помощью регрессионных моделей и т. д. Мы употребили слово «регрессия», которое в анализе данных имеет почти магическое значение и, возможно, отпугивает своей странностью многих. Но что такое регрессия? В действительности, регрессия — это очень просто, и если отбросить статистический жаргон, включающий такое малопонятное слово, как «регрессия», то вы легко поймете, в чем здесь дело. Представьте, вы изучаете годовой доход телевизионных компаний. «От чего он может зависеть?» — спрашиваете вы себя и перечисляете следующие факторы, от которых зависит доход: число зрителей, смотрящих ТВ, затраты на рекламу в год и некоторые другие. Тогда регрессия — это просто уравнение, в котором в левой части стоит интересующая вас переменная, например годовой доход, а в правой число зрителей, умноженное на некоторый коэффициент, плюс затраты на рекламу, умноженные на другой коэффициент, плюс другие параметры. То есть вы имеете уравнение: ДОХОД = А1 х ЧИСЛО_ЗРИТЕЛЕЙ + А2 х РЕКЛАМА+... Итак, у вас есть просто зависимость одной переменной от других. Замечательно, что все параметры (коэффициенты уравнения в правой части) рассчитываются по реальным данным, а не назначаются умозрительно. «А для чего мне нужна эта зависимость, выраженная в явном виде?» — спросите вы. Предположим, вы расширили сеть кабельного телевидения, то есть увеличили число зрителей, тогда вы можете спрогнозировать свой доход. Именно так и поступал R. Sassone в исследовании, выполненном в 1978 году в США (данные были получены частично от McCann-Erickson, Inc., частично от Television Bureau of Advertising). Аналогично вы можете спросить себя, каким образом изменятся внутренние цены на нефть при изменении цен на международном рынке, и попытаться ответить на этот вопрос с помощью регрессионного анализа. Типичная задача анализа качества: вы имеете группы поставщиков сырья и показатели качества продукции. Как зависит качество продукции от качества сырья? Слово «регрессия» мы часто будем заменять словом «зависимость» и надеемся, нас правильно поймут. Вообще, мы будем стараться максимально уходить от статистического жаргона и выражаться доступным для каждого здравомыслящего человека языком. Потому что наэтом языке изначально формулируются задачи анализа данных. Известны сотни эффективных применений статистических методов и регрессии, в том числе в экономике, маркетинге, финансах, медицине, промышленности и т. д. Результаты выглядят очень простыми, естественными и впечатляющими. Невозможно проведение актуарных расчетов без анализа конкретных данных — клиента интересует реальный риск, а не виртуальный, так как от оценки риска зависит конкретная процентная ставка и реальный платеж. Важным полем применения статистических методов являются современные системы электронной торговли. Успешные действия систем онлайновой торговли требуют от фирм предсказания поведения индивидуальных покупателей.
Вступительное эссе: приглашение к анализу данных на компьютере 25 Крупнейшие фирмы, занимаясь электронной коммерцией, несут ежегодно огромные убытки из-за того, что 5-10% покупателей меняют фирму или переходят в пассивное состояние (см. Greg M. Allenby, Robert P. Leone and Lichung Jen A999). A dynamic model of purchase timing with application to direct marketing, J. American Statistical Association, v. 94, № 446, p. 365-374). Системы регистрации электронной торговли позволяют зафиксировать моменты прихода каждого покупателя в магазин, сумму сделки, количество товаров и другие параметры. Здесь уже все готово для проведения статистического анализа. Важно спланировать его и провести анализ системно. Одна из возможных задач состоит, например, в том, чтобы оценить периоды между покупками и изменить стратегию воздействия на покупателя — например, провести более активную рекламную кампанию, если покупатель не обращается на фирму в течение чрезмерно долгого времени. Для описания интервалов времени между приходами посетителей в электронный магазин можно использовать, например, гамма-распределение. На модельных данных, отражающих реальную ситуацию, нами подробно разбирается пример СУПЕРМАРКЕТ: от первичного, описательного анализа данных о покупках в течение дня до углубленного анализа и получения неочевидных выводов. Мы начинаем с корреляционной матрицы продаж: [ф Данные coiil STA 6п * 6и мясо РЫБА СПИРТНЫЕ НАЛИТКИ ЧАР) " ГОФЕ К 1 коп эасы.И 1 00[ lb 1 ми 1.' Н JM P'U&A (СПИРТНЫЕ 1 16 i: 1 ЛП IF, 14 1Г 1 00 .... ЧАИ J 11 1 00 1 ? И 6 КОФЕ \Г.\ х| т 07 10 1Ь 11 I7 0A » ч Рис. 15. Корреляции между покупками различных товаров Затем рассматриваются графики, исследуется вариабельность покупок в зависимости от дней недели, применяется многомерный анализ, анализируется потребительская корзина для различных категорий пользователей, различных дней недели и т. д. СПИРТНЫЕ НАШ ТКИ Срд Ч1В П1И Сб1 ДЕНЬ НЕДЕ ПИ Т~ *Ci. они!. СЗ iCi.oui. " Среднее Рис. 16. Продажа спиртного в зависимости от дней недели
26 Вступительное эссе: приглашение к анализу данных на компьютере 1.Ц.1!|1|Д,|1Ш1Ц|.ШИ1Ш1.и11.Ы.1 Диаграмма размаха: КОЛЬАСА Т" ■rU 1" ! ''"" ~т~ ПЖ2 Пид Bip Срд Чт Ши СО! Век ДЕНЬ ~Г~ iCi. 01кл. I'Z'J *Ci. ош. г- Среднее Рис. 17. Продажа колбас в различные дни недели hlMli;i^'""ill 'll'r" "IJI'II'I Диа! рамма размаха суммарных покупок Рис. 18. Зависимость суммарных покупок от дней недели Как уже говорилось, много примеров связано с Интернетом. Имея файл с частотами посещений различных страниц сайта, можно изучить структуру посещений различных страниц. \ти* число* 1 2 3 4 б 6 7 6 9 Я иные sile99STA11 Частота 1 НОМЕ п- 100м посещения различных страниц сайта I 2 шаг ^новостижгдд: 5 2 1 1 3 1 1 1 2 1 1 2 1 1 2 I • i 1 1 1 2 1 —I 4 ПРОДУКТЫ 2 2 1 1 5 б ЛЕКЦИИ 1 2 1 1 1 6 ПОДДЕ РЖ 2 1 2 3 7 нн УЧЕБНИК 8 ВАКАНСИИ 3 1 2 2 1 3 1 1 б 1 \ Рис. 19. Посещение страниц сайта пользователями
Вступительное эссе: приглашение к анализу данных на компьютере 27 В частности, можно получить выводы типа: из 100 человек, посетивших страницу 0_ФИРМЕ, 70 человек посетили страницу ПРОДУКТЫ, 50 человек посетили страницу ПОДДЕРЖКА, 20 человек посетили страницу ВАКАНСИИ. Все это делается в модуле Основные статистики и таблицы системы STATISTICA. Нетрудно также оценить вероятность того, что пользователь с определенной страницы сайта, например страницы А, перейдет на страницу В. Блуждание пользователя по сайту вполне описывается вероятностной моделью. Имея исходные данные, можно оценить параметры этой модели и рассчитать типичный «путь». В отдельной главе нами всесторонне описываются различные распределения вероятностей и их применение на практике. Зная вероятные распределения, можно описать многие реальные явления, например спрогнозировать число покупателей в определенные промежутки времени. 22 20 18 8 16 i и | 12 S ю с о 8 х « т 4 2 0 С ПЗЕЗШЯ S ) 20 График прихода покупателей • магазин электронной торговли Данные: torgl .8ТА 10п * 20н I _Н 40 60 80 100 120 Время (мин.) 140 ■ ЛР1х1 1С Ю Рис. 20. Приход покупателей в магазин электронной торговли ФуНМЦИЯ ПЛ01НОС1И У«пт«<х,2) 1.1 Рис. 21. Гамма-распределение может быть использовано для моделирования моментов посещения электронного магазина
28 Вступительное эссе: приглашение к анализу данных на компьютере Общеизвестно применение статистики в медицине и фармакологии. Оценка эффективности лекарств, классификация больных по степени тяжести заболевания, исследование кардиограмм, самые разнообразные тесты, позволяющие диагностировать пациентов на раннем этапе заболевания, и многие другие задачи хорошо известны. Только математика открывает путь к доказательной медицине. В знаменитом фрэмингхемском исследовании, выполненном в США (см. Truett, J., Cornfield, J., and Kendall, W. A967). A Multivariate Analysis of the Risk of Coronary Heart Disease in Framingham, Journal of Chronic Disease 20, p. 511-524), статистический анализ применялся для оценивания зависимости риска развития ишемической болезни сердца от семи факторов. В этом исследовании в течение 12 лет были собраны данные о проявлениях ишемической болезни у 1929 мужчин и 2540 женщин в возрасте от 30 до 62 лет. В начале обследования все пациенты были здоровы. Факторами риска служили: возраст, количество холестерина в крови, систолическое давление, вес, количество гемоглобина в крови, количество выкуриваемых в день сигарет @ — для некурящих, 1 — для выкуривающих меньше одной пачки, 2 — одну пачку, 3 — больше одной пачки), электрокардиограмма @ — нормальная, 1 — ненормальная или неясная). Проведенный анализ позволил изучить влияние факторов риска на развитие ишемической болезни сердца и стимулировал целый ряд подобных примеров в самых различных медицинских приложениях. Рассмотрим классические данные Гринвуда и Юла о влиянии прививки на заболеваемость холерой (данные относятся к началу XX века, см., например, Справочник по прикладной статистике, т. 1, М.: 1989, с. 245). В приведенной ниже таблице показаны 2663 пациента, части из которых были сделаны прививки против холеры (привитые пациенты), а части нет (непривитые пациенты). Привитые Не привитые Сумма Не заболевшие 1625 1022 2 647 Заболевшие 5 11 16 Сумма 1630 1033 2 663 Что можно сказать, глядя на эту таблицу? Прежде всего, видно, что среди тех, кто сделал прививку, число заболевших меньше, чем среди тех, кто не сделал прививку (второй столбец таблицы, первая и вторая строка). Кроме того, число не заболевших среди привитых пациентов больше, чем не заболевших среди не привитых (первый столбец таблицы). Это делает правдоподобным заключение об эффективности прививки. Но как перевести эти рассуждения на рациональный язык? Имеется ли вообще такой язык? Представьте, нашелся критик результатов (нового метода лечения, нового лекарства), который, заняв крайнюю позицию, резонно замечает, что и в том и в другом случае, то есть и среди привитых пациентов, и среди не привитых, были отмечены случаи заболевания, иными словами, полученные результаты носят чисто случайный характер, и утверждение об эффективности прививки весьма сомнительно. Как рационально ответить на подобную критику?
Вступительное эссе: приглашение к анализу данных на компьютере 29 Лучше всего воспользоваться вероятностными рассуждениями и подходящим статистическим критерием. Для такого рода таблиц, называемых таблицами сопряженности, имеются специально разработанные критерии, например критерий хн- квадрат и критерий Фишера, названный по имени знаменитого английского статистика Р. А. Фишера. Эти критерии измеряют силу связи между признаками (переменными) таблицы, в данном примере между признаком прививка и признаком болезнь. Для представленной выше таблицы величина статистики хи-квадрат равна 6,08, что значимо на уровне 0,0136 (чтобы получить эти цифры, мы сделали два щелчка мыши в системе STATISTICA). Следовательно, с небольшой вероятностью ошибки (меньше 0,0136) вы можете утверждать, что среди привитых пациентов количество заболевших существенно меньше, чем среди непривитых. Поэтому вероятность того, что суждение критика о неэффективности вакцины справедливо, равна всего 0,0136 (примерно один шанс из 70). Ваша же оценка достоверности результатов существенно выше. Весьма полезным визуальным методом изучения зависимостей между признаками таблицы являются графики взаимодействий: Гр«фим в 17М 1SM 13М 11М ! - 1 '» SM зм 1U •1М к вэаимо* ПРИВИВКА к БОЛЕЗНЬ ЯИЕЗ »*имод.: ПРИВИВКА х БОЛЕЗНЬ \ \ \ \ °V \ >W Ч ^v ч Л.Ч ^у. _ Не »«6олеяи Заболели БОЛЕЗНЬ -«- ПРИВИВКИ НЕТ ♦ г, ПРИВИВКА ЕСТЬ Рис. 22. График зависимости БОЛЕЗНЬ — ПРИВИВКА Здесь показаны две прямые, сооткетствующие категориям больных: привитые — не привитые. Если прямые пересекаются, то говорят, что признаки взаимодействуют, влияют друг на друга. Если прямые параллельны, то говорят, что взаимодействия или зависимости между признаками нет. Это визуальный подход, точные результаты дают статистические критерии. Первые применения статистики в медицине, по-видимому, относятся к XVIII веку, когда в Англии было замечено, что относительная частота смертности мужчин и женщин одного возраста, живущих примерно в одинаковых условиях, из года в год колеблется, но колеблется в весьма узких пределах. Самым интересным здесь является замечание: «колеблется в узких пределах», — всем известно, что колебания происходят, — неожиданным фактом являются узкие границы колебания, что позволяет с большой точностью предсказать долю умерших в той или иной категории населения и служит основой актуарных расчетов. Итак, в случайном явлении — смертности или, наоборот, выживаемости людей — была открыта устойчивая закономерность: относительная частота или доля для
30 Вступительное эссе: приглашение к анализу данных на компьютере людей одного пола и близкого возраста примерно постоянна. А это удивительное открытие, повлекшее за собой множество событий, в частности современное страхование. В современной медицине накопились огромные архивы данных, и их исследование с помощью новых технологий чрезвычайно важная задача. STATISTICA позволяет реализовать системный подход к анализу данных. У каждого врача имеется собственный архив данных, отражающий многолетний опыт его работы, — огромный массив знаний, имеющий большую познавательную ценность. Ценность этой ш1формации может быть многократно увеличена, если воспользоваться методами анализа данных. И в этот момент на помощь врачу приходит система STATISTICA, позволяющая перевести клинический опыт на язык количественных оценок (подробнее о применении статистики в медицине см.: Ст. Гланц. Медико-биологическая статистика. М, 1999). В STATISTICA реализованы множество методов, чрезвычайно полезных врачам для анализа их данных, в частности описательные статистики и таблицы, анализ выживаемости, непараметрическая статистика, дискриминантиый анализ и др. Щ Анализ выживаемости и времен отказов |ЕШ Таблицы и распределения времен жизни |гг|/" Метод множительных оценок Каплана-Мейера j!|1j Сравнение двух выборок ||Л Сравнение нескольких выборок ■ ВД Регрессионные модели 1 ИЕЗ а ак Отмена (^? Данные «ист и сязи я. & а Рис. 23. Анализ выживаемости в системе STATISTICA Анализ выживаемости позволяет проанализировать неполные или цензуриро- ваниые данные, например, о выживаемости больных после операции (рис. 24). к h i 2 3 А 5 6 7 1« Данные: HEART STA 11 Heort transplant data trc ■ци JANUARY MAY AUG'JST AUGUST SEPTEMBR OCTOBER OCTOBER .1 DAY n " 65m m Crowlev and Hu. stratitied 3 YEARJ Г e 2 31 22 9 5 26 4 MONTHJ 68 JANUARY 68 MAY 68 MAY 68 OCTOBER 68 JANUARY 68 DECEMBER 68 JULY 5 DAY 21 5 17 i 14 8 7 6 YHARJ 7 :ensor£c 68:ensored 68:ensored 70 COMPLETE 68 COMPLETE 69:ensored 68 COMPLETE 72 COMPLETE 8 AGE 54 40 51 42 48 54 54 9 ANTI 0 0 0 0 0 0 0 10 MJ5MA 1 11 1 66 1 32 61 36 1 89 87 и ran I ~ и HOSPITAL HILLVIEW HILLV1EW | HILLVIEW ! ST_AND | ST AND ST.AND BINER Г Рис. 24. Данные по трансплантации сердца Одной из важных характеристик является функция выживаемости (вероятности того, что пациент проживет t дней после операции. Для оценки функции выживаемости по неполным данным используют так называемую оценку Каплана—Мей- ера, которая может быть легко получена в STATISTICA (рис. 25).
Вступительное эссе: приглашение к анализу данных на компьютере 31 UIJII.NIII.MJII1II|I|I|.II||I|J.IJIUJI1 Функция выживаемости о Завершен. + Цеизурироваииые 500 1000 Время жизни (дни) 2000 Рис. 25. Функция выживаемости после операции Этот график легко «читается»: вы легко видите, например, что доля пациентов, проживших больше 1000 дней, равна 0,4. Можно сравнить функции выживаемости в разных больницах, для разных возрастных групп (рис. 26). iTid-r1, ,'м дл,',', .г Л", 11-1; 11И1 г' mi. -i,f м/1;, I in1 ij-iih^ к j -i Кумулятивная доля выживших о Завершен. + Цеизуририроваииые 0 400 800 1200 1600 2000 200 600 1000 1400 1800 Время (дни) — HILLVIEW ■- ST_AND •• BINER Рис. 26. Сравнение выживаемости в разных группах \ лштшттштт <•* Неоараметрнчаоше тшшпт» С Подсоика р^уфтагтшт Цепаремотрмчаоциа статистики: "' В о* Таблицы 2 я 2: хи/V/e*. Мекиемара. точный Фмиера Ш0 Наблюдаемые частоты ■ сравнении с ожидаемыми Коррелядии (Спирмема, та*. К вид а л да. гамма) И8 Критерий серий Вальда-Вояьфовида метод для нес* щЩ Леу»еыборочный критерий Колиогороее-Смирнова J5J AN OVA Краскела-Уоллиса и медианный тест Критерия знаков ДЗЛ Критерий Вилкоксома (Jjjjj] AN0VA Фридмана и коикордадиа Кеидалла Q критерий Кохрена СЛ Обычные описательные статистики (медиана, мода...) & Рис. 27. Модуль Непараметрические статистики в системе STATISTICA
32 Вступительное эссе: приглашение к анализу данных на компьютере Опишем еще одну важную область применения статистических методов — современное высокотехнологичное производство. Традиционную область применения статистического анализа данных составляет промышленность. Обычно любая машина или станок, используемые на производстве, позволяют операторам производить настройки, чтобы воздействовать на качество производимого продукта. Изменяя настройки, инженер стремится добиться максимального эффекта, а также выяснить, какие факторы играют наиболее важную роль в улучшении качества продукции. Использование этой информации позволяет достигнуть оптимального качества в условиях данного производства. Например, на производстве (см. например, книгу: Box, Draper A990), Empirical model-building and response surfaces, New York: Wiley, 115) проводился эксперимент по нахождению оптимальных условий для изготовления красителя ткани. Качество красителя описывается насыщенностью, яркостью и стойкостью. Другими словами, в этом эксперименте нам хотелось бы выявить факторы, наиболее заметно (значимо) влияющие на яркость, насыщенность и стойкость производимого красителя. В примере Бокса и Дрейпера рассматривается 6 различных факторов, влияние которых оценивается с помощью так называемого плана2F0). В данном плане первоначально рассматривались 6 факторов, принимающих 2 значения, то есть всего имелось 26 = 32 различных вариантов установок. Результаты эксперимента выявили три наиболее важных фактора: Polysulfide (Полисульфид), Time (Время) и Temperature (Температура). Можно представить ожидаемое воздействие на интересующую нас переменную (например, светостойкость окраски) в виде так называемой кубической диаграммы, которая показывает ожидаемую (предсказываемую) среднюю стойкость краски, нанесенной на ткань, на верхних и нижних уровнях каждого из трех факторов, и определить те значения факторов, которые обеспечивают максимальное качество продукции (рис. 28). Рис. 28. Кубическая диаграмма показывает значимость факторов, установленных на разных уровнях
Вступительное эссе: приглашение к анализу данных на компьютере 33 Глядя на эту диаграмму, легко можно понять, что наилучшее расположение факторов для максимизации качества красителя следующее: Polysulfide установлен на верхнем уровне HIGH, Time — на верхнем уровне LONG, Temperature — на верхнем уровне HIGH. Таким образом, оптимум достигается на дальней вершине куба (см. рис. 28). В описанном эксперименте присутствовало 6 факторов, нередки, однако, случаи, когда очень много (до 100) различных факторов являются потенциально важными на производстве, однако заранее вы не знаете, какие факторы важны, а какие нет. • Специальные планы, например план Плакетта—Бермана или планы с матрицей Адамара, позволяют эффективно «просеять» или, как говорят на статистическом сленге, проскринировать большое число факторов, используя минимальное число наблюдений. Например, вы можете спланировать и проанализировать эксперимент со 127 факторами, используя всего 128 опытов, а затем оценить главный эффект каждого фактора, определив, какие факторы играют доминирующую роль, а какие нет. Выход продукта многих химических реакций является функцией времени и температуры. К сожалению, эти переменные влияют на выход не линейно. Другими словами, нельзя сказать: «чем больше продолжительность реакции, тем больше выход» и «чем выше температура, тем больше выход». Цель экспериментатора заключается в определении оптимального выхода или экстремальной точки поверхности выхода, образованной двумя переменными: временем и температурой. При проведении таких экспериментов используют так называемые центральные композиционные планы, позволяющие инженерам-технологам оценить поверхность регрессии (рис. 29 и 30) и найти экстремумы этой поверхности, или точки, отвечающие заданному значению зависимой переменной. Подобные планы применялись, например, для исследования ракетного топлива, в состав которого входили три компоненты: связывающее вещество, окислитель и горючее, а характеристикой качества являлась эластичность продукта (см. также планы для смесей в модуле Планирование эксперимента в системе STATISTIC А). Требовалось найти такие пропорции (доли) компонент, чтобы эластичность достигала заданного значения (см. Kurotori I. S. A966). Experiment with mixtures of components having lower bounds, Industrial Quality Control, № 2, p. 592-596). ■156 000 ■I 60 000 ■164 000 Ш 68 000 CU 72 000 CD 76 000 ■I 80 000 ■184 000 ■I 86 000 ■I 92 000 ■I «bow Fitted Surface. Variable YIELD 2 factors, 1 Blocks, 12 Runs, MS Re$idu«l=4 014637 DV YIELD Vield of process in grams Рис. 29. Поверхность регрессии
34 Вступительное эссе: приглашение к анализу данных на компьютере fti Г|*йфми I > Хъ*% Гркафш ИЮ01Г1Графм*4 XYZ графи* &ЩкШ& :Ц№¥&фМ$ WF113 i &Т№№&Ш£ЩржШ* ■Л -юго ■Л -OTfti ■■ о из Вй -0 30) О ооет СП от I 1 0 403 I ом? Рис. 30. Визуальные методы STATISTICA при планировании экспериментов Это типичные задачи планирования эксперимента, возникающие на производстве, и система STATISTICA предоставляет эффективные методы их решения. Ниже показаны методы планирования эксперимента, доступные в системе. iMiiimiJi'iiiwHW-iiiuii j£A Планы 2"|кр) (Бокса, Хаит ера и Хантера) '0г в а* 2-х уровневые отсеивающие Максимально несмешанные (П лакетта-Бермана) порядка 2"(к-р) Отмена с Планы 3""(к-р) и пианы Бокса Бенкена Е Смешанные 2-х и 3-х «ровиевые 1^/ Центр, составные, нефакториые. поверхности отклика ;Ц| Латинские и греко-латинские квадраты \£$\ Робастные планы Тагами /§>, Планы для смесей и триангул.поверхности Дли 4НвлИЗ* ПОЛНЫХ Факторных планов/ иерархически вложенных и с несЯа/чисированным вложением, смешанных моделей {со случайными мх^ктами! см. также модули Компонвитм дисперсии и Дисперсионный анализ № Планы для поверхностей с ограничениями и смесей D- и А- (Т-) оптимальные планы е- Данные & а Рис. 31. Модуль планирования экспериментов в STATISTICA Не менее важны в промышленности задачи контроля качества. Для всех производственных процессов возникает необходимость установить пределы характеристик изделия, в рамках которых произведенная продукция удовлетворяет своему предназначению. Вообще говоря, существует два «врага» качества продукции: 1. Уклонения от значений плановых спецификаций изделия. 2. Слишком высокая изменчивость реальных характеристик изделий относительно значений плановых спецификаций, что говорит о несбалансированности процесса.
Вступительное эссе: приглашение к анализу данных на компьютере 35 На более ранних стадиях отладки производственного процесса для оптимизации этих двух показателей качества производства часто используются описанные выше методы планирования эксперимента. Методы контроля качества предназначены для построения процедур контроля качества продукции в процессе ее производства, то есть текущего контроля качества. Детальное описание принципов построения контрольных карт и подробные примеры можно найти в работах: Buffa A972) Operation management: Problems and models Crd ed), New York:Wiley, Duncan A974) Quality control and industrial statistics, Homewood, IL: Richard D. Irwin, Grant and Leavenworth A980) Statistical quality control Eth ed.) New York: McGraw-Hill, Juran and Gryna A988) Quality planning and analysis Bnd ed.) New York: McGraw-Hill, Montgomery A985) Statistical quality control New York: Wiley, Montgomery A991) Design and analysis of experiment Crd ed.) New York: Wiley, Shirland A993) или Vaughn A974). В качестве превосходного вводного курса, построенного на основе подхода «как — чтобы», можно указать монографию Hart and Hart A989) Quantitative methods for quality improvement. Milwaukee, WI: ASQC Quality Press. Особенно интенсивно методы контроля качества используются в США, Германии, Японии. Общий подход к текущему контролю качества заключается в следующем. В процессе производства из произведенной продукции или поступающего сырья проводится отбор выборок изделий заданного объема. После этого на специально разлинованной бумаге строятся диаграммы средних значений и изменчивости выборочных значений плановых спецификаций в этих выборках и рассматривается степень их близости к плановым значениям. Если диаграммы обнаруживают наличие тренда выборочных значений или выборочные значения оказываются вне заданных пределов, то считается, что процесс вышел из-под контроля, и предпринимаются необходимые действия для того, чтобы найти причину разладки. Такие специальные карты называются контрольными картами Шухарта (названные в честь W. A. Shewhart, который общепризнанно считается первым, применившим их на практике в начале 30-х годов XX века). Один из примеров карты Шухарта показан на рис. 33. Смысл этой карты ясен. В последовательно поступающих партиях нефтепродуктов измерялась примесь вредных веществ. Строятся два линейных графика: для средних и размахов (разностей между максимальными и минимальными значениями выборки, что характеризует изменчивость характеристик производственного процесса). Вначале посмотрим на график средних. Если средние выходят за определенные границы, то мы говорим о неудовлетворительном качестве сырья. На графике средних значений партии неудовлетворительного качества имеют специальную метку. Далее рассматриваем график размахов. Размах — это разность между максимальным и минимальным значением выборки. Прагматическая ценность этой характеристики в том, что она служит мерой изменчивости. По расположению точек на графике размахов принимают решение о случайности или систематичности отклонения в качестве продукции. Ниже показаны карты контроля качества, доступные в системе:
36 Вступительное эссе: приглашение к анализу данных на компьютере ^^С-ларта по альтариашамом) лрмамак) £л^ U-парта по альтернативному признак) j£23 Np-карта по ааьтарнапммощ признак) [«. Р-карт а по а 5S Н 1<5> I fc^l Карта Т2 Хотаялммга гасивим-ларта**» 1> МА-карта дня £3 EWMA-карта »м Ь'Я Раграссмоииая контры IZT1 Карта Парато вывврип w карты. Друи»пртищ)ы . «литот» кчаст»» •- Рис. 32. Контрольные карты системы STATISTICA На практике могут возникнуть трудности при выборе наилучшей контрольной карты. Чтобы сделать выбор осознанно, нужно учитывать специфику производства, например, если исследуется концентрация определенных веществ в химическом процессе в режиме реального времени, то сложно провести группировку данных и следует применять карты для индивидуальных наблюдений. В отличие от этого, в машиностроении при измерении параметров продукции, например диаметров поршневых колец, легко разбить партию данных на подгруппы и применить соответствующие Х- и R-карты (рис. 33). Еще одной типичной проблемой, с которой сталкиваются инженеры по контролю качества на производстве, является следующая: определить, сколько именно изделий из партии (например, полученной от поставщика) необходимо исследовать, чтобы с высокой степенью уверенности утверждать, что изделия всей партии обладают приемлемым качеством. Допустим, что у вашей автомобильной компании есть поставщик поршневых колец для небольших двигателей, и ваша цель — разработать процедуру выборочного контроля поршневых колец в присылаемых партиях, обеспечивающую требуемое качество. Процедуры выборочного контроля применяются в том случае, когда нужно решить, удовлетворяет ли определенным спецификациям партия изделий, не изучая при этом все изделия. Ш11. LB1IIIH. Гистограмма средних Г4Л16 | Срад-74.0012 G4.0012) Сигма проц.-.009786 (.009754; f^w^^^T\: Эти продукты не удовлетворяют требуемому качеству! Выборки Р*~«хо1 ,мах Сред- 022760 (.0227*0) Сигма-.008466 (.008455) г Рис. 33. Х- и R-карты Шухарта для группированных данных
Вступительное эссе: приглашение к анализу данных на компьютере 37 В силу природы проблемы — принимать или не принимать партию изделий — эти методы иногда называют статистическим приемочным контролем (acceptance sampling). Очевидное преимущество выборочного контроля над полным, или сплошным, контролем продукции состоит в том, что изучение только выборки (а не всей партии целиком) требует меньше времени и финансовых затрат. В некоторых случаях исследование изделия является разрушающим (например, испытание стали на предельную прочность), и сплошной контроль уничтожил бы всю партию. Наконец, с точки зрения управления производством отбраковка всей партии или поставки от данного поставщика (на основании выборочного контроля) вместо браковки лишь определенного процента дефектных изделий (на основании сплошного контроля) часто заставляет поставщиков строже придерживаться стандартов качества. Если взять повторные выборки определенного объема из совокупности, скажем, поршневых колец и вычислить их средние диаметры, то распределение этих средних значений будет приближаться к нормальному распределению с определенным средним значением и стандартным отклонением (или стандартной ошибкой; для выборочных распределений термин «стандартная ошибка» предпочтительнее, чтобы отличать изменчивость средних значений от изменчивости изделий в генеральной совокупности). К счастью, нет необходимости брать повторные выборки из совокупности, чтобы оценить среднее значение и изменчивость (стандартную ошибку) выборочного распределения. Располагая хорошей оценкой того, какова изменчивость (стандартное отклонение, или сигма) в данной совокупности, можно вывести выборочное распределение среднего значения. В принципе этой информации достаточно, чтобы оценить объем выборки, необходимый для обнаружения некоторого изменения качества (по сравнению с заданными спецификациями). Обычно технические условия задают некий диапазон допустимых значений. Например, считается приемлемым, если значения диаметров поршневых колец лежат в пределах 74,0 мм ± 0,02 мм. Таким образом, нижняя граница допуска для данного процесса равна 73,98; верхняя граница допуска — 74,02. Разность между верхней границей допуска (ВГД) и нижней границей допуска (НГД) называется размахом допуска. Простейшим и самым естественным показателем пригодности производственного процесса служит потенциальная пригодность. Она определяется как отношение размаха допуска к размаху процесса; при использовании правила 3 сигма данный показатель можно выразить в виде Ср = (ВГД - НГД)/F х сигма). Данное отношение выражает долю размаха кривой нормального распределения, попадающую в границы допуска (при условии, что среднее значение распределения является номинальным, то есть процесс центрирован). В книге Bhote A988) World class quality, New York: AM A Membership Publications отмечается, что до повсеместного внедрения методов статистического контроля качества (до 1980 г.) обычное качество производственных процессов в США составляло примерно Ср = 0,67. Иными словами, два хвоста кривой нормального распре-
38 Вступительное эссе: приглашение к анализу данных на компьютере деления, каждый из которых содержал 33/2% общего количества изделий, попадали за границы допуска. В конце 80-х годов лишь около 30% производств в США находились на этом или еще худшем уровне качества (см. Bhote, 1988, стр. 51). В идеале, конечно, было бы хорошо, если бы этот показатель превышал 1, то есть хотелось бы достигнуть такого уровня пригодности процесса, чтобы никакое (или почти никакое) изделие не выходило за границы допуска. Любопытно, что в начале 80-х годов японская промышленность приняла в качестве стандарта Ср = 1,33! Пригодность процесса, требуемая для изготовления высокотехнологичных изделий, еще выше; компания Minolta установила показатель Ср = 2,0 как минимальный стандарт для себя (Bhote, 1988, с. 53) и как общий стандарт для своих поставщиков. Заметим, что высокая пригодность процесса обычно приводит к более низкой, а не к более высокой себестоимости, если учесть затраты на рекламацию, связанную с низким качеством производимой продукции. Как правило, более высокое качество обычно приводит к снижению общей себестоимости. Хотя издержки производства при этом увеличиваются, но убытки, вызванные плохим качеством, например из-за рекламаций потребителей, потери доли рынка и т. п., обычно намного превышают затраты на контроль качества. На практике два или три хорошо спланированных эксперимента, проведенных в течение нескольких недель, часто позволяют достичь высокого показателя Ср. В качестве одного из интересных примеров применения статистики в промышленности отметим задачу классификации сортов бензина, решаемую с помощью дискриминантного анализа. Важная роль статистики в управлении экономикой США отмечена в статье: Moynihan D. Р. A999) Data and dogma in public policy, J. American Statistical Association, v. 94, № 446, p. 359-364: «статистика, — по словам автора, — помогает понять силы, воздействующие на экономику». Без статистики трудно выделить основные факторы, влияющие на экономику, и предпринимать шаги, позволяющие минимизировать неблагоприятные флуктуации рынка. Разнообразные задачи могут быть решены с помощью статистики на региональном уровне, начиная с задач описательной статистики, например цен на потребительском рынке продуктов питания, зависимости внутрирегиональных цен от цен в соседних регионах, ввоза товаров из других регионов в пределах экономической территории региона, доходов населения, описания рынка труда, уровня жизни, экологической ситуации, здравоохранения и т. д. Также могут быть решены задачи оценки технического состояния транспортных средств города, расчет налоговых льгот для осуществления инвестиций в транспортную систему, классификация объектов незавершенного строительства, классификация должников, классификация источников выбросов загрязняющих веществ и множество других, где до сих пор применяются эмпирические правила. Методы множественной регрессии позволяют исследовать рынок сельскохозяйственной продукции. В качестве примера укажем статью Honma Masayoshi, Hayami Yujioro A986) Structure of agricultural protection in industrial countries, J. Int. Econ., 20, №1-2, p. 115-129, в которой исследована система протекции 10 индустриально развитых стран и дан социально-экономический анализ коэффициентов регрессии. Известно, что сельскохозяйственная политика индустриально развитых стран ха-
Вступительное эссе: приглашение к анализу данных на компьютере 39 рактеризуется сильными протекционистскими (защитными) мерами в отношении собственных производителей, иными словами, создаются такие торговые ограничения и система управления ценами, которые позволяют собственным производителям находиться в заведомо выгодном положении. Система протекции включает, в частности, экспортные налоги и завышенные обменные курсы валют. Следствие такой политики — дискриминационное положение сельскохозяйственных производителей развивающихся стран и неравномерное распределение продовольствия в мире. Подобные методы можно, конечно, применить и к изучению российского рынка. Как и все математические науки, статистика родилась из практики. Подобно тому как древние египтяне после разливов Нила вынуждены были заново измерять свои участки и для этого разработали начала геометрии, так и современные люди, вовлеченные в стремительно меняющиеся потоки данных (Интернет, газеты, ТВ, слухи, сплетни, мнения экспертов и т. д.), вынуждены анализировать их. Для этого попросту нет ничего иного, кроме статистики и анализа данных. Классическая математика имеет дело с детерминированными величинами и принципиально не приспособлена для работы со случайными данными. Конечно, мы стремимся интуитивно сузить пределы случайности, максимально уменьшить неопределенность, но сделать это полностью не удается. По-видимому, случайность является важным элементом мироздания: выброшенные в открытый хаотически меняющийся мир, мы вынуждены либо приспосабливаться к нему и побеждать, либо погибнуть или влачить жалкое существование, не понимая ни сущности вещей, ни событий, происходящих в нем. Ни у кого не вызывает сомнения, что при строительстве дома следует использовать начальные знания геометрии. Попробуйте точно начертить прямоугольник на участке земли, и вы увидите, что сделать это не так просто. Как проверить, что начерченный четырехугольник действительно является прямоугольником? Если вы не знаете, что диагонали прямоугольника равны, то столкнетесь с непростой задачей. Точно так же при исследовании сложных систем, хаотических явлений и потоков информации вы применяете статистику, в которой для измерения случайностей разработаны как простейшие, но очень полезные инструменты, подобные циркулю и транспортиру, так и весьма тонкие и совершенные методы. Интересен следующий пример, приведенный Ж. Бертраном в его курсе «Исчисление вероятностей»: Некто, прогуливаясь в Неаполе, увидел человека из Базили- каты, который держал пари, что теперь же выбросит 3 шестерки, бросив 3 игральные кости... Удивительный человек из Базиликаты на глазах изумленной публики сделал это, а затем повторил фокус 2, 3, 4 и 5 раз подряд... «Черт побери, — воскликнул Некто, — кости же, конечно, налиты свинцом!» — и был прав, потому что наблюдаемое событие, бросить 3 кости 5 раз подряд и каждый раз получать 3 шестерки, имеет ничтожно малую вероятность, равную (A/6) х A/6 х A/6))А5 = 4,71 х 101. Другими словами, он имел лишь 471 шанс из 10 х 1012 ошибиться в своем заключении. Заметим, что склонность использовать случай в свою пользу была свойственна еще египетским фараонам, в гробнице которых обнаружены игральные кости со смещенными центрами тяжести. Классическим, и вместе с тем забавным, является пример шевалье де Мере, когда ставший известным в веках благодаря своей любознательности, азартный
40 Вступительное эссе: приглашение к анализу данных на компьютере игрок спросил себя: стоит ли ему ставить на выпадение двух шестерок одновременно при бросании двух костей 24 раза или нет? Его собственные вычисления показали, что стоит, так как вероятность данного события при 24 бросках костей больше 1/2. Как же он удивился, когда с течением времени обнаружил, что постоянно оказывается в проигрыше! Оскорбленный игрок во всем обвинил статистику. И только знаменитый Паскаль нашел, в чем состоит ошибка игрока: оказывается, вероятность данного события 0,49 (меньше 0,5!), следовательно, в длинной серии игр, состоящих в 24 подбрасываниях двух костей, выигрыш происходит лишь в 49%, а не в более 50% игр, как ожидал де Мере. В STATISTIC А эта задача, то есть вычисление вероятности выпадения двух шестерок, решается несколькими щелчками мыши. Интересно, что не стоит делать ставку на выпадение двух шестерок при 24 бросках пары костей, но стоит это делать при 25 бросках, так как вероятность выпадения хотя бы раз пары костей при 25 бросках больше 1/2, следовательно, в длинной серии игр игрок, поставивший на две шестерки, будет в выигрыше чаще, чем в проигрыше. Если бы правила игры были изменены и проводилось 25 бросков, то в длинной серии игр де Мере оказался бы в выигрыше. Конечно, теперь этот пример кажется забавным. Современное взаимодействие статистики с практикой много изощреннее, но суть остается той же: применяя статистические методы, вы должны найти устойчивые закономерности в случайных данных и воспользоваться ими с пользой для себя. Применение даже простых статистических методов позволяет добиться эффектов там, где непосвященные опускают руки. Одной из таких задач является пересчет голосов при голосовании. Предположим, что в ходе выборов один из кандидатов уступил другому несколько десятых процентов голосов. Так как разница очень небольшая, то потерпевший неудачу может усомниться в правильности подсчета и поставить вопрос о пересчете. Если пересчет подтвердит результаты голосования, то, по закону, ему нужно будет оплатить расходы, связанные с пересчетом. В противном случае он окажется победителем. Формально, на языке статистики, эта задача сводится к проверке гипотезы о неравенстве математических ожиданий двух биномиальных величин, см. например, работу, Harris Bernard A988) Election recounting, Amer. Statis., 42, № 1, p. 66-68. Для кого эта книга? Книга рассчитана на самый широкий круг читателей, для которых важен анализ данных: статистиков, экономистов, маркетологов, аналитиков, актуариев, бизнесменов, инженеров, лиц, принимающих решения, и многих других. Иными словами, она полезна тем, кто интуитивно понимает, что из анализа данных можно извлечь реальную пользу. Всех их мы хотим научить искусству анализа данных на компьютере. Она также чрезвычайно полезна врачам, инженерам, научным работникам, преподавателям и студентам. Разбираемые нами примеры охватывают самый широкий спектр приложений. Предлагаемая книга является синтезом двух частей: описания разнообразных статистических методов — от элементарных понятий и принципов до возможных
Вступительное эссе: приглашение к анализу данных на компьютере 41 конкретных приложении, и описание анализа данных с помощью этих методов в системе STATISTIC А в среде Windows и отражает многолетний опыт автора в этой области. Система STATISTICA включает в себя все известные методы статистического анализа данных и позволяет сделать процесс анализа высокотехнологичным. Методы, известные ранее по учебникам и научным публикациям, теперь доступны всем. В книге содержится подробное описание основных возможностей системы STATISTICA, описаны основные диалоговые окна и команды системы. Особое внимание уделено новой технологии компьютерной обработки данных, максимально совмещенной со стандартами Windows. STATISTICA позволяет реализовать системный подход к анализу данных, в частности, средствами STATISTICA можно создать свои модули анализа данных (см. рис. 34). Дополненные методами визуального программирования, эти средства открывают захватывающие перспективы. Каждая глава книги наряду с примерами содержит большой справочный материал. Книга написана в двух срезах — для неподготовленного пользователя, впервые знакомящегося с методами анализа, и для тех, кто имеет специальную математическую подготовку и опыт работы на компьютере. Начнем мы с изложения элементарных понятий. Вообще эти понятия следует разделить на два класса: понятия, относящиеся собственно к статистике, и понятия, относящиеся к анализу данных. И здесь есть некоторая тонкость. В статистических исследованиях, например в эконометрике (приложении методов статистики в экономике), мы исходим из априорной экономической модели и пытаемся оценить ее параметры. Это так называемый дедуктивный подход, в котором первична модель, а данные используются для оценки неизвестных параметров и проверки различных гипотез относительно модели. Здесь возникают понятия качества.оце- нок, уровня значимости и т. д. ЕЗЗШ ^я^явичшшвшмя. Панели инструментов КНОПКИ АВТОЗАДАЧ Панелям инструментов КНОПКИ АВТОЗАДАЧ можно присваивать различные задачи, от простых, таких, как выбор переменных или добавление комментариев, до самых сложных, например, длинные последовательности | многозадачных процедур... ррррш Рис. 34. Настройка STATISTICA на конкретный проект
42 Вступительное эссе: приглашение к анализу данных на компьютере В анализе данных мы желаем исходить из данных как таковых, имея минимум априорных идей относительно их структуры. Далее мы стремимся понять, как организованы данные, какие переменные или группы переменных связаны (коррелируют) между собой, иными словами, стремимся понять структуру данных, исходя из них самих. Наиболее известная крайняя точка зрения этого подхода выражена в лозунге Бензекри (Benzecri), одного из создателей анализа соответствий: «Модель должна соответствовать данным, а не наоборот!» Насколько правомерен такой подход, судить философам, но он существует и его нельзя отвергать. Приверженцы анализа данных зачастую критикуют эконометрику, утверждая, что она имеет дело с абстрактными гипотезами, которые никогда не работают на практике. В действительности, между этими направлениями нет бездонной пропасти — известно, что анализ данных черпает свои идеи из классической статистики и наоборот. Типичный пример — анализ соответствий, чисто индуктивный метод, корни которого «тем не менее» лежат в математической статистике и свойствах знаменитого критерия хи-квадрат, открытого Карлом Пирсоном. Рис. 35. Рабочие окна STATISTICA Пример индуктивного подхода можно найти в интересной статье F.-X. Micheloud, бывшей долгое время доступной на сайте http://www.micheloud.eom/FXM/cor/e/genera.htm,
Вступительное эссе: приглашение к анализу данных на компьютере 43 где разведочный анализ данных (анализ соответствий) применяется к исследованию уровня образования жителей Лозанны (Швейцария). Автор, не используя прямо статистические рассуждения, работаете выборкой из 169 836 человек. Спрашивается, а почему не с выборкой, состоящей из 100 человек? Очевидно, что для него интерес представляют перманентные, или устойчивые, выводы. Но понять, с какой выборкой нужно иметь дело, можно лишь с помощью теоретико-вероятностных и статистических рассуждений. В данной книге мы стремились синтезировать классические методы статистики с методами анализа данных и таким образом открыть новые возможности для исследователей. Лейтмотивом нашей книги является утверждение, что невозможно умозрительно научиться анализу данных. Если вы хотите овладеть анализом данных, вам следует совместить основные принципы анализа данных с работой в системе STATISTIC А. Ключевым является понятие технологии, совмещение идей (коуос,) с действием (xexvaco), иными словами, вы не просто мыслите, но и производите с помощью компьютера действия, которые усиливают и развивают ваши мысли. Мы трактуем нейронные сети как развитие классических методов анализа. Основное отличие состоит в том, что в нейронных сетях используется специальный базис исходных функций, и собираются сложные многомерные зависимости из элементарных одномерных функций, реализуемых нейронами. Таким образом, вы можете использовать нейронные сети для построения сложных нелинейных зависимостей или нелинейных классификаций, которые недоступны другим методам. Формально нейронные сети могут быть изложены чисто математически, без привлечения понятия нейрон, однако биологический язык и нейронная интерпретация создают новую реальность, открывающую массу возможностей для исследователя. Математическим основанием нейронных сетей является знаменитая теорема Колмогорова, утверждающая, что сложные нелинейные функции могут быть собраны на двухслойных или трехслойных сетях персептронов. В частности, если нужно приблизить непрерывную /2-мерную функцию, то достаточно сети с одним скрытым слоем, содержащим 2п + 1 нейрона. Никто не утверждает, что вам удастся быстро построить нужную сеть, которая хорошо приближает сложную зависимость на имеющихся реальных данных, однако заведомо невозможно сделать это чисто умозрительно. Используя компьютерные технологии, вы можете испытать как классические методы анализа, так и нейронные сети. В нашем изложении мы опирались на фундаментальные тексты Кендалла М. Дж. и Стьюарта А., особенно на их замечательную книгу Статистические выводы и связи. М.: Наука, 1973. Для описания функций распределения мы использовали фундаментальное издание: Вероятность и математическая статистика, М.: Большая российская энциклопедия, 1999. В ряде случаев нам оказались полезными справочники: Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. Справочник по прикладной статистике под редакцией Э. Ллойда и У. Ледерма- на, т. 1,2. М.: Финансы и статистика, 1989. На этом позвольте закончить наш, возможно, слишком продолжительный экскурс в анализ данных и перейти к систематическому изложению материала.
1 Краткая экскурсия по системе STATISTICA Вступление STATISTICA — это интегрированная система анализа и управления данными. STATISTICA — это инструмент разработки пользовательских приложений в бизнесе, экономике, финансах, промышленности, медицине, страховании и других областях. STATISTICA легка в освоении и использовании. Все аналитические инструменты, имеющиеся в системе, доступны пользователю и могут быть выбраны с помощью альтернативного пользовательского интерфейса. Пользователь может всесторонне автоматизировать свою работу, начиная с применения простых макросов для автоматизации рутинных действий вплоть до углубленных проектов, включающих, в том числе, интеграцию системы с другими приложениями или Интернетом. Технология автоматизации позволяет даже неопытному пользователю настроить систему на свой проект. Процедуры системы STATISTICA имеют высокую скорость и точность вычислений. Гибкая и мощная технология доступа к данным позволяет эффективно работать как с таблицами данных на локальном диске, так и с удаленными хранилищами данных. Система обладает следующими общепризнанными достоинствами: О содержит полный набор классических методов анализа данных: от основных методов статистики до продвинутых методов, что позволяет гибко организовать анализ; О является средством построения приложений в конкретных областях; О в комплект поставки входят специально подобранные примеры, позволяющие систематически осваивать методы анализа; О отвечает всем стандартам Windows, что позволяет сделать анализ высокоинтерактивным; О система может быть интегрирована в Интернет; О поддерживает web-форматы: HTML, JPEG, PNG; О легка в освоении, и как показывает опыт, пользователи из всех областей применения быстро осваивают систему; О данные системы STATISTICA легко конвертировать в различные базы данных и электронные таблицы; О поддерживает высококачественную графику, позволяющую эффектно визуализировать данные и проводить графический анализ;
Вступление 45 О является открытой системой: содержит языки программирования, которые позволяют расширять систему, запускать ее из других Windows-приложений, например, из Excel. STATISTICA состоит из набора модулей, в каждом из которых собраны тематически связные группы процедур. При переключении модулей можно либо оставлять открытым только одно окно приложения STATISTICA, либо все вызванные ранее модули, поскольку каждый из них может выполняться в отдельном окне (как самостоятельное приложение Windows). При исполнении модулей STATISTICA как самостоятельных приложений в любой момент времени в любом модуле имеется прямой доступ к «общим» ресурсам (таблицам данных, языкам BASIChSCL, графическим процедурам). ш % ш © ш Алели» Н«чр*м*гри*скм/ Wnptt/WHMt Ф«*тор»»* К/чстч»»* МШИМвМОСТМ Р*СЛр*0*Л*НИЙ ДЫМНЫМИ «И«ЛИЭ «И4/МЭ При инсталляции системы программа установки (Setup) создает на рабочем столе группу приложений под названием STATISTICA и помещает туда значки окна Переключатель модулей (пиктограмма STATISTICA — первая в группе, см. рис.), модуля Основные статистики и таблицы и некоторых других программ (Help, Setup). Пользователю может показаться более удобным запускать модули, щелкая по их значкам на рабочем столе (вместо того чтобы пользоваться окном Переключатель модулей); поэтому он, вероятно, захочет создать дополнительные пиктограммы для модулей помимо тех, которые будут автоматически созданы программой установки (Setup). Для того чтобы создать еще один значок в данной группе, следуйте стандартной процедуре Windows (выберите пункт Новый в меню Файл в окне Диспетчер программ (Program Manager) и создайте новый программный элемент). Настройка системы STATISTICA. В системе предусмотрена возможность настройки множества характеристик и интерфейса программы в соответствии с пред-
46 Глава 1. Краткая экскурсия по системе STATISTICA почтениями пользователя. Можно изменить, например, процесс запуска, а именно — отменить установленный по умолчанию полноэкранный режим, изменить вид стартовой панели, панели инструментов, таблиц с данными и другие параметры. Настройка общих параметров системы. Настройку общих параметров системы можно изменить в любой момент работы с программой. Эти параметры определяют: О общие аспекты поведения программы (максимизация окна STATISTICA при запуске, Рабочие книги, инструмент Перетащить и отпустить — Drag-and- Drop, автоматические связи между графиками и данными, многозадачный режим и т. д.); О режим вывода (например, автоматическая распечатка таблиц или графиков, форматы отчетов, буферизация и т. д.); О общий вид окна приложения (значки, панели инструментов и т. д.); О вид окон документов (цвета, шрифты). Каждый из этих параметров можно настроить в соответствующем окне, доступ к которому осуществляется через меню Сервис. На следующих рисунках показаны два примера таких окон. ШгЩ 3 jTafeP***^!5 'Сядем доимы* пмймяиь (мм Ог«г. гр9тшМ:\Авгго : Поль* грщ*тшг.\Аягго Щ Л Гр»»н*мШЦАато ш$г$ '!ШМшШШ^ \ V Отмечяг» Рцйшри щтг%. "**ШМ \ Г" Соцттгь нашили* ^льпуооь^Щ. Помцить сойм* яау 8 | -•?'f*;"""' :,-А • -• - (^Л «ТЯГ « . ^*Ж* Йс]Эмпмр. ФР со срсмимм "- ,-,frfift>t Г,-,л,„-„ Vftrt^.i, И
Вступление 47 Все общие параметры могут быть настроены независимо от типа окна документа (например, таблица или график), которое активно в данный момент. Настройка пользовательского интерфейса. При работе с системой STATISTICA имеется возможность настройки пользовательского интерфейса программы таким образом, чтобы он стал более «продуманным» с точки зрения потребностей конкретного пользователя. В зависимости от требований задачи и личных предпочтений (а также эстетических соображений) можно использовать разнообразные «режимы» и условия работы программы.
48 Глава 1. Краткая экскурсия по системе STATISTICA Поддержка нескольких различных конфигураций системы STATISTICA. До внесения специальных изменений STATISTICA будет хранить все текущие настройки и параметры по умолчанию. То обстоятельство, что сведения о конфигурации системы хранятся в той же папке, из которой вызывается программа STATISTICA, позволяет иметь в своем распоряжении различные варианты конфигурации программы для разных проектов или видов работ. Например, можно вызывать программу из разных папок на диске, каждая из которых содержит определенный связный набор документов, и для каждой из этих папок система может быть сконфигурирована со своими настройками вывода, параметрами графиков по умолчанию и т. д. Можно создать несколько значков STATISTICA в разных группах приложений на рабочем столе Windows (каждая из которых соответствует определенному проекту или виду работ) и задать для них различные значения в поле Рабочая директория {Working Directory) (с помощью диалогового окна системы Windows Свойства программного элемента {Program Item Properties)). Многозадачность. STATISTICA поддерживает режим многозадачности (между своими модулями или другими приложениями). При обработке очень больших объемов информации или выполнении сложных процедур анализа можно переключиться в другой модуль STATISTICA (или другое приложение Windows), используя возможность вести процесс обработки данных в фоновом режиме. Работа в одном окне приложения STATISTICA (вместо многооконного режима). Один из вариантов глобальной системной настройки пакета STATISTICA позволяет пользователю задать режим, в котором по умолчанию будет работать про-
Вступление 49 грамма — в одном окне приложения или же как набор приложений (каждое в своем окне). Одним из непосредственных следствий этого выбора будет то, в каком режиме будет работать окно Переключатель модулей: при двойном щелчке на имени модуля в этом окне выбранный модуль будет открываться либо вместо уже открытого, либо для него будет открываться новое окно приложения, причем предыдущее окно останется открытым. Выбор того или другого режима работы производится в поле Переключение модулей: режим одного приложения в диалоговом окне Параметры по умолчанию: общие настройки (вызывается из меню Сервис). Если это поле отмечено, STATISTICA будет работать в режиме одного приложения. Режим одного приложения. При выбранном режиме одного окна приложения переключение с одного модуля на другой будет происходить без открытия новых окон. Новый модуль всякий раз будет открываться в том же самом окне, заменяя предыдущий. Некоторые пользователи предпочтут именно такой «простой* режим работы, поскольку весь анализ будет происходить в одном окне приложения, а количество активных программ на рабочем столе будет минимальным. Примерно такого же эффекта можно достичь, нажимая кнопку Закончить и переключиться в диалоговом окне Переключатель модулей; при этом окно приложения текущего модуля закроется, но не будет заменено новым окном; вместо этого система откроет «следующее* окно приложения. Режим нескольких приложений. Основное преимущество режима нескольких приложений — возможность параллельного выполнения различных процедур анализа (модули) в разных одновременно открытых окнах приложения. При этом мож-
50 Глава 1. Краткая экскурсия по системе STATISTICA но переключаться между модулями, не закрывая предыдущие, и использовать все преимущества работы с независимыми очередями таблиц результатов и графиков для окон приложений разных модулей. Этот режим имеет очевидные преимущества для большинства задач анализа данных и дает возможность использовать различные методы анализа (и сравнивать полученные результаты). Интерактивный анализ данных в STATISTICA. Система не требует, чтобы пользователь еще до проведения анализа указал всю информацию, которую следует вывести на экран. Ведь анализ даже простого плана может породить большое число таблиц результатов и просто необозримое количество графиков, поэтому при проведении реального анализа, до изучения основных результатов, трудно представить, какие графики или таблицы следует анализировать в первую очередь. Именно поэтому STATISTICA предоставляет пользователю возможность выбрать определенные типы вывода и интерактивно провести последовательные сравнения и моделирующий анализ уже после того, как данные обработаны и получены основные результаты. Количество выводимых окон также может быть настроено, чтобы не перегружать экран компьютера. Гибкие вычислительные процедуры STATISTICA и широкий выбор методов графического представления данных любого типа открывают перед пользователем безграничные возможности проведения разведочного анализа и проверки статистических гипотез. Какие возможности предоставляют рабочие книги. Рабочие книги помогают организовывать наборы файлов (например, таблиц результатов, графиков, тек-
Вступление 51 стовых/графических отчетов, пользовательских программ и т. д.), которые были созданы или использовались (например, просматривались) во время анализа набора данных. Рабочие книги хранят список всех файлов, использовавшихся с текущим набором данных. Ш'ШИ МЕШ Строка А dvetlising Effectiveness Study. днформевлд о фвтидв ы примечания; ■. мыт ленные данные. полученные при изучении I рек ламы. Респонденты мужского и женского пола отвечали на 23 вопроса, оценивая эффективность Iрекламы по десятибалльной @-9) шкале. Данные были собраны в мае и июне 1993 г. на территории университета. АвТО <•.••"•"• ■ ••■• ••• •-'"-. J- Д Щ Файлы т*кут«* Рабочей книги: Цчереаь. |8 h В Ы! Нашм*гвО|М;г<* угобы начать. е>. новой сгрокн Нажмите СьИаЬ, чтобы вставить ID 0 D D 0 D 0 C:\stat5\data\fiist100. sel □ C:\stat5\data42d_gjaph.stg □ C:\stat5\data\poly5.txt C:\stat5\data\distibs.Mf я □ C:\stat5\data\blank.stg □ C:\stat5\eica«ples4hippo1.stg □ C:\stat5\eigenval. stb табуляции. & Охкрмть Кнопки 'Добавить*' иУдв/мп»' иамвнжтт список Файлов Раб книги Обновленный список этих файлов автоматически сохраняется с файлом данных. Если поставить пометку в поле Авто Щ около имени файла, то он будет автоматически открываться с текущим набором данных. Ц«й* Омы» 8м Йсцлм .fmmn* &m*m.tp*m*■■&*»■.&** №■' ■ ■|Д|»1 ОСНОВНЫЕ СТ4ТИСТ .wfflSr т&шл .^«НЯвкС \ 'ЯмПМг' ■>iauamii 1 00 - 17 - 19 - 04 - 08 02 26 05 •- 77 - 04 - 15 04 '№&*Г№*т<\ jbaww) щ
52 Глава 1. Краткая экскурсия по системе STATISTICA Справочная система и интерактивное (электронное) руководство. Чтобы получить дополнительную информацию о некоторых функциях системы, нажмите клавишу справки (F1), когда выделена соответствующая команда или пункт меню. STATISTICA содержит Электронное руководство — справочную информацию по всем процедурам и функциям программы, доступную в контекстно-зависимом режиме при нажатии клавиши F1 или кнопки справки |Щ в строке заголовка всех диалоговых окон (справочник содержит свыше 10 мегабайт документации в сжатом виде). Благодаря динамической организации Электронного руководства с помощью гиперссылок (и различным возможностям его настройки), как правило, быстрее использовать эту справочную систему, чем искать нужную информацию в напечатанном виде. Справку также можно вызвать двойным щелчком на поле сообщений строки состояния в нижней части окна приложения STATISTICA (в поле сообщений тоже отображаются краткие комментарии о функциях выпадающих меню или кнопках панели инструментов соответственно при выделений пункта меню или нажатии кнопки). Статистический советник. Статистический советник представляет собой интерактивную справочную систему. После выбора пункта Советник из выпадающего меню (Справка) программа задаст вам несложные вопросы о характере решаемой проблемы и типе исходных данных, а затем предложит список наиболее подходящих процедур (и объяснит, где их найти в системе STATISTICA). ; В эееисимости от ваших ответов на вопросы j сущности вашего исследования j Ст*тисггшчфский сотпти* предложит им подходящи! статистически! методы и их месгонехождение е системе STATISTICA Отвечайте не каждый ! вопрос, щелкая не соответствующем ответе. Если вы не уверены, кекой ответ 1 выбрать, щелкните не строке Допоптмш>ьн»я информации j Вы котите О) ОпииУь.щипачуiihflmn;> Дяпп-wi B) Пвмци'ь mnamn imwywhri тктлъп мишл. C) М1ЙТИ М<Г^йЫ,Ш^т^*Г<,й*MAi.ltUV. или D) Вырулит» сшч1бгигл1 ж пвсмушлщнагаманшалп кати»? -mi Дополнительная информации Если денные только что собрены, то сначала следует посмотреть соответствующие итоговые статистики для каждой переменной Непримвр. нужно посчитать респрвдаления частот, чтобы определить иийрссм. Обычно денные собиреются, чтобы проварить определенные гипотезы или модели, саманные с несколькими переменными Непримвр, можно выяснить, чаще ли мужчины соглешвются с каким-либо вопросом енкеты. чем женщины Более сложные гипотезы могут касаться зависимости параманных. например, линейная она или нет Если конкретных гипотез нет, в изучение проводится с исследовательскими целями, то можно использовать некоторые приемы, которые помогут "прояснить' денные, то есть нейти кластеры, шеблоны. и т д Четвертая опция (контроль качества) показывает различные приемы, использувмыа в промышленном контроле качестве, зксперимвнтах и енвлиза надежности С помощью гиперссылок можно непосредственно перейти из раздела Статистический советник к подробному описанию соответствующих статистических методов и процедур в разделе Вводный обзор. Мультимедийный учебник. CD-версия STATISTICA включает ряд анимационных примеров, иллюстрирующих некоторые из наиболее часто используемых возможностей STATISTICA. Эти примеры шаг за шагом показывают, как провести типичный статистический анализ и построить графики. Полный список имеющихся
Вступление 53 в данной версии системы мультимедийных обзоров находится в подменю Мультимедийный учебник выпадающего меню {Справка). :. ±*я Qpwm fim А"»*> Ср»им £«жс-: fl*xo *■ ' Они» мхом tt*t**# t**t*tmo* й Г0»»иц4 Отофдаим» и tmmmm тёкшими «wxowft м t*etm Неюл Пкжыат* и оглуетмгь и А*г«э#«»чю« Иопо% whmhm fr+Дочий ммги Г***** пофммгмдем*. егагяегмчкям*. вмомы» Н«стро*«ими*»«и»гр*Фи«)» s Р«амещ«ии> wwmh» rp—i»o» Кмпш aero**** Ял« 3UT»TJCA«A$iC Я»* Sa (К» »фшЛ lOMt STATIST КЛ| быстры» «мам*» етлчстиш. Ucmsmi выбор* иаблам»* 6«жооь« ст«тмс*икм и грмики : Зя^мгдодмервмиияиаиьм*» Прмамвск. митр** мрр*и«мй fatftttf Прммкг Дисперсно*»* »«ми»ДООД) Пр»«р- iWptMh»i«eHrpa»HUN»c»»» При *р: йлшю npcmoeo» ГцИ#4(^ ПрОММИМ94МГЛ1ММфСФФМ1 )КСтрммВМГ09 * ЧКТЬ I П<»»^»Пра>1»м1Д>««пл»1»о»»|1>»кеп1»1ла»к»«ч»ст>г Отметим, что для запуска этих мультимедийных иллюстраций необходима звуковая карта. Если ваша версия STATISTICA не содержит мультимедийный учебник (или содержит лишь часть примеров), вы можете загрузить соответствующие файлы из Интернета (http://www.statsoft.com) или заказать их в компании StatSoft. Приложения. Все рассмотренные возможности (доступные в любой момент работы с системой) могут служить весомой альтернативой или дополнением к обычному интерактивному пользовательскому интерфейсу, поскольку они позволяют автоматизировать рутинный процесс многократного выполнения одних и тех же, в том числе весьма сложных, задач. Например, макрокоманда (вызываемая щелчком мыши по кнопке на панели инструментов Кнопки автозадач или одним нажатием клавиши) может содержать длинный список переменных, часто используемый график, операцию внедрения и т. п. Автоматические отчеты и автоматическая распечатка таблиц результатов. Независимо от того, происходит ли обработка в пакетном режиме или интерактивно запрашивается пользователем, может быть выбран режим вывода Автоотчет. Этот режим позволяет автоматически, без каких-либо действий со стороны пользователя распечатывать (или направлять в окно отчета или в файл) содержание всех окон вывода, которые получаются в процессе анализа. Режим автоматического вывода каждой строящейся на экране таблицы результатов и/или графика может оказаться полезным не только для создания полного
54 Глава 1. Краткая экскурсия по системе STATISTICA отчета о результатах анализа, но и при разведочном анализе данных, когда возникает необходимость вернуться к предыдущему шагу и просмотреть результаты, полученные на ранних этапах обработки данных. Для этого всю выходную информацию (таблицы результатов и графики) можно направить во временное Окно текста/вывода с прокруткой и уже затем в случае необходимости сохранить ее, распечатать или скопировать в файл текстового редактора. Автоматическая печать графиков. Режим автоматической печати всех возникающих на экране графиков особенно полезен как средство пакетной графической печати. It i) \мл1*лн1 гимн hi» ИРчЕЗ ь(ЖАШ&№,)&;.Ш8а*ЯЬ& Описательные статистики (adstudy.sta) Дммы* AO8TU0Y STA 2вп ' 90м AdvartMng Ef f «divan*** 9u**y fen** AOSTUOY 8TA 26n ' 60h Adwrtemg ЕМвоНмпм* Study |Переменная N иабл. Среднее Нинимум Накскнум Стд.откл. HEA3UR1 HEA5UR2 HEA5UR3 HEASUP4 HEASUR5 50 50 50 50 50 5.900000 4.540000 4.140000 5.520000 Э.960000 0.00 0.00 0.00 0.00 0.00 9.000000 9.000000 9.000000 9.000000 9.000000 2.366863 2.887058 2.725615 2.659139 2.633846 * ^06 т uoy б та га^зд у • в 232-2 0ЭВ*х*О в22'**20 1 Уж^ЭЮ 001 **»О.0О1 'х*в**р« Как правило, печать графиков занимает довольно много времени. Поэтому имеет смысл воспользоваться этим режимом для распечатки последовательности («каскада») графиков, получающихся при применении определенных методов анализа (например, для зрительного представления конфигураций средних при исследовании связей высших порядков в дисперсионном анализе необходим^ длинная последовательность графиков, а для многомерных таблиц — каскад трехмерных гистограмм для двух переменных). Однако гораздо эффективнее направить создаваемую последовательность графиков в Окно текста/вывода. В STATISTICA предусмотрена возможность пакетной печати всех ранее сохраненных графиков и таблиц результатов; для этого нужно выбрать пункт Печать файлов в выпадающем меню Файл. Буфер обмена. Наиболее быстрый и во многих случаях наиболее простой способ получения данных из других приложений Windows (например, электронных таблиц) — это использование буфера обмена, который в STATISTICA поддерживает специальные форматы данных, создаваемые такими приложениями, как MS Excel или Lotus для Windows. Например, STATISTICA правильно интерпретирует форматированные (например, 1 000 000 или $10) и текстовые значения. Буфер обмена и преобразование файлов данных можно также использовать для экспорта данных из системы STATISTICA в другие форматы. При импорте и экспорте данных STATISTICA использует один и тот же набор форматов и типов данных.
Вступление 55 Функции импорта файлов. Файлы данных из приложений Windows и других операционных систем также можно переводить в формат системы STATISTICA с помощью функций импорта файлов, которые включают доступ ко всем базам данных (через поддержку метода ODBC), а также возможности импорта форматированных текстовых файлов и текстовых файлов свободного формата (ASCII). Импорт файлов без использования буфера обмена имеет свои преимущества: О он позволяет пользователю точно указать, как должен проводиться импорт (например, выбирать из файлов диапазоны значений, импортировать или не импортировать имена переменных, текстовые значения и имена наблюдений и указывать способ их интерпретации); О он предоставляет пользователю доступ к типам данных, которые недоступны (или труднодоступны) при операциях с буфером обмена (например, длинные метки значений или специальные коды пропущенных данных). Связи DDE. STATISTICA поддерживает соглашения динамического обмена данными (DDE), что позволяет динамически связывать диапазон данных в таблице исходных данных с набором данных других приложений (Windows). Эта процедура на самом деле гораздо проще, чем она может показаться, и ее легко освоить, не имея технических знаний о механизме DDE, особенно при использовании команды Установишь связь (вместо ввода описания связи). Связи DDE (динамического обмена данными) можно установить между файлом-источником (сервером), например электронной таблицей MS Excel, и файлом данных системы STATISTICA (файлом-клиентом), так что при внесении изменений в файл-источник данные в соответствующей части таблицы исходных данных STATISTICA (файле-клиенте) будут автоматически обновляться.
56 Глава 1. Краткая экскурсия по системе STATISTICA Обычно два файла динамически связываются в промышленных установках, когда к последовательному порту компьютера, на котором находится файл данных системы STATISTICA, подключено измерительное устройство (например, для ежечасного автоматического обновления определенных измерений). Связи DDE можно установить с помощью команды Установить связь выпадающего меню Правка таблицы исходных данных или введя определение связи в поле Длинное имя (метка, формула, связь): диалогового окна спецификаций переменной. ГГГх! g^|JMEASUR1 ^ 1>4рмн* ero*6.;J4 Щ 'Две. !,\ ^.Л*.J\.v,.w.. v?T \/ ...<-^ Отмена Дата Время Денежный Проценты Представление: il'iliBUiliTT 1 000; -1 000 1000; A000) 1 000; A 000) 3h»l/cttwct^ ШО £р*Фики| Данное имя {мипгк*. мм» или Формул* с Фшжцнямм}): eExcel|c.\adiesultxls!r10c10:г40с15 ЕЗ Id Лря wptr Мет** Валовой «анод ь 199V Формулы *vt + v2: С*»* фе>ссе|с:т*Ыг2<£:*«с4 = * Jvl>0ГА6С ♦ v3 Если связь установлена, то можно управлять ею в диалоговом окне Диспетчер связей (вызывается с помощью команды Связи... выпадающего меню Правка). 111Щ'1ДН;1 шщ Доносить сейчас! Отменит* Обновление» Лв1 pnbi ичоскоо Нэменнт* сеяэ* 1 Форматы Дата и Время. В файлах данных системы (которые организованы как базы данных) формат отображения значений применяется ко всей переменной, а не к отдельным ячейкам (как в Excel). Поэтому значения, которые в Excel были отформатированы как даты, в файле системы STATISTICA будут отображаться как юлианские (целые) значения (например, 34092 вместо May 3, 1993), если для соответствующих переменных не установлен формат Дата или Время. Поддерживает ли STATISTICA интерфейс ODBC? Да, для того чтобы реализовать эту возможность, существует список команд Импорт данных, который вызывается из выпадающего меню Файл любого модуля. Интерфейс ODBC STATISTICA включает возможности для объединения полей из нескольких таблиц и предоставляет доступ к множеству файлов баз данных, включая форматы больших и персональных компьютеров (например, dBASE для Windows, Paradox, Sybase, Oracle, SAS и т. д.).
Вступление 57 IIWW'iPHIfflll ЧМ -ii-i ВС В С«м(« Dl В Didw DeUfa D Ordeti нпшнп DSbpp«i Ds D С«1«домт Ceiegotj ID CeiegniM Омафйоп Cwto—ti.Curt—t ID Oid*t D*(«k.Pioduct ID Oidw 0«шЬ Urn» Price Oidw D*4«U QiunMy $* e»JMU«*C*Mb* t«ll* ■-^^^^ leSSJtf Щ^Ц/ Импорт через ODBC можно автоматизировать с помощью функции ODBC/Шаблоны или программ на языке SCL. Типы объектов. Если задан режим Новый объект, то тип создаваемого объекта может быть выбран из списка приложений Windows, которые поддерживают средства OLE. После выбора типа и нажатия кнопки ОК будет открыто окно соответствующего приложения для создания нового объекта. Если задан режим Объект из файла, то тип объекта для вставки также выбирается из списка приложений Windows, поддерживающих средства OLE; после выбора типа будут показаны все предварительно сохраненные файлы этого приложения. В режиме Картинка из файла можно вставить объект, несовместимый с методом OLE, но записанный в одном из графических форматов Windows: в формате метафайла (файл с расширением *.wmf) или растрового изображения (файл с расширением *.Ьтр). ■ .IDJXlj ПРОИЗВОДСТВО ВЕРТОЛЕТОВ Связывание и внедрение. STATISTICA поддерживает средства OLE (связывания и внедрения объектов) как в режиме клиента, так и в режиме сервера. Таким образом, возможна не только динамическая настройка графиков STATISTICA в других приложениях (режим сервера), но также внедрение и последующее преобразование 01£-совместимых объектов других приложений (например, графиков или таблиц) или собственных объектов в графики STATISTICA. Другими словами, помимо присоединения внешних элементов к графикам STATISTICA с помощью вставки можно обращаться непосредственно к объектам, содержащимся в файле на диске (например, перетащить их непосредственно из окна Диспетчер файлов или Проводник (Windows Explorer) и поместить на график STATISTICA).
58 Глава 1. Краткая экскурсия по системе STATISTICA STATISTICA поддерживает как связанные (то есть динамически присоединенные), так и внедренные (то есть статически «встроенные») объекты. При этом они могут быть расположены в любом файле, созданном приложениями Windows, включая файлы в собственном графическом формате STATISTICA (с расширением *.stg). Более того, STATISTICA одновременно может являться как клиентом, так и сервером в методе OLE, поддерживая при этом уникальную возможность создания вложенных составных документов (до четвертого порядка включительно), то есть документ STATISTICA с внедренным документом может быть, в свою очередь, внедрен в другой документ этой системы. Заметим, что каждый из этих двух способов присоединения {связывание и внедрение) имеет свои преимущества и недостатки. Связанные объекты. Графики со связанными объектами медленнее перерисовываются, поскольку при этом могут быть задействованы связи с внешними файлами. В то же время, эти графики обновляются автоматически (статус связей может быть установлен в диалоговом окне Связи данных и графика, которое вызывается из графического меню Правка), а это позволяет легко создавать составные документы, которые включают именно «текущее» содержимое других файлов. шшшшшшшшшшшшшшшшшшшшшщ гтшштшхЕтхтшшшшшшшшш j fllc » ' [Авто Гра*м*1: Диаграмма размана Л •'• | I I Ойщтть с*Лчшс \ I Щматсг» стлль [. I Орвраат» отяа» [ Г ГршФт ■:■*'■■*■■"• ,.™^._.—...«* ** . .. \ fp»«*«2:XYZграфик v ..../..' . '] Обиоымлг»: <? Датом4ГУ1Н»ае«И1 '•••."-С Дру»цщ Г uawwpw»ar% ttpwiamio) j; : Г Ив абив*«ять гра+иш. «ивдреимм» * тасаки* гра+и*
Вступление 59 Внедренные объекты. Графики с внедренными объектами перерисовываются быстрее, чем со связанными объектами, поскольку здесь отсутствуют связи с обновляемыми внешними файлами. Если дважды щелкнуть на внедренном объекте, то будет вызвано приложение-сервер (то есть источник), в котором можно изменить данный объект. При этом обновить внедренный объект можно двумя способами: отредактировать его или заменить вручную. В меню Правка можно настроить все параметры внешних объектов {связанных или внедренных), а также их связи с другими компонентами графика. Кроме того, щелкнув на объекте правой кнопкой мыши, можно выбрать нужные команды настройки из контекстного меню. Единственным исключением является способ присоединения объекта {связывание или внедрение), который определяется в момент подключения файла (после этого только связанный объект можно преобразовать во внедренный, но не наоборот (см. команду Преобразовать во внедренный из выпадающего меню Правка)), Настройка связанных или внедренных объектов OLE. Объекты OLE-графиков STATISTICA могут быть отредактированы после двойного щелчка мышью на объекте; при этом приложение-источник будет открыто в режиме сервера OLE с готовым к редактированию объектом. Если этот объект является графиком STATISTICA, то в текущем модуле откроется новое графическое окно, что позволит системе одновременно выступать как в роли клиента, так и сервера. Жт*> .+< ^ \ - -ЛАЛ , Г_ / '_">_ ;. -, Л : ■ pUH^rtPJ^jtEt^ ,^Ы<Ьрр;СМ^; Когда редактирование завершено, можно применить любое из стандартных соглашений OLE для выхода из режима сервера и обновления графика в системе STATISTICA (используя команды Обновить, Обновить и вернуться к... и т. д.
60 Глава 1. Краткая экскурсия по системе STATISTICA в выпадающем меню приложения Файл; эти команды доступны только в случае, если приложение запущено в режиме сервера). Графические форматы Метафайл и Растровое изображение. Для вставки графического файла в приложения, не поддерживающие методы OLE, используются команды Сохранить метафайл или Сохранить растровое изображение (из выпадающего графического меню Файл). График в формате метафайла Windows будет записан в файл с расширением *.wmf, а в формате растрового изображения — с расширением *.Ьтр. Эти форматы, описанные в двух следующих параграфах, не позволяют полностью реализовать все возможности настройки графиков STATISTICA, но в то же время совместимы со всеми приложениями, поддерживающими графические форматы Windows. Что такое метафайл Windows? Графический формат Метафайл — это один из стандартов для записи графических файлов (с расширением *.wmf) и их представления в буфере обмена Windows. Он содержит картинку в виде описаний и определений всех компонент графика и его атрибутов (например, элементов линий, их цветов и шаблонов, шаблонов заполнения, описания текста и его параметров). По сравнению со стандартом растрового изображения (см. ниже) формат метафайла дает возможности более гибкой настройки 01£-несовместимых объектов в приложениях Windows. Цапример, при открытии метафайла в программе Microsoft Draw можно «разложить» изображение графика, выделить и изменить отдельные линии, шаблоны заполнения или цвета, а также отредактировать текст и изменить его атрибуты. Однако не все приложения Windows полностью поддерживают все возможности формата метафайла, доступные в системе STATISTICA. Некоторые параметры графиков, записанных системой STATISTICA в этом формате, могут измениться при их воспроизведении в других приложениях. Например, может исчезнуть поворот некоторых шрифтов. Поэтому по возможности используйте графический формат STATISTICA и методы OLE для работы с графиками в других приложениях, чтобы иметь доступ ко всем возможностям настройки самой STATISTICA.
Вступление 61 Ограничения стандартного формата Метафайл Windows. Сложные графические изображения, создаваемые системой STATISTICA, могут оказаться слишком большими (по числу представленных точек данных) для записи в формате метафайла, который по умолчанию используется системой Windows для большинства операций по связыванию и внедрению графических объектов. В таких случаях нужно использовать растровое изображение. За дополнительной информацией обратитесь к Электронному руководству из диалогового окна. Дополнительные параметры, которое вызывается из вкладки Графика диалогового окна Параметры страницы/вывода. Что такое формат растрового изображения? Формат Растровое изображение — это второй стандартный графический формат системы Windows, который используется для представления графических файлов (с расширением *.Ьтр) и передачи изображения через буфер обмена (как и формат Метафайл). В этом формате не сохраняются никакие дополнительные данные или параметры, кроме изображения самой картинки. В отличие от метафайла растровое изображение представляет собой «пассивное» поточечное отображение графического окна. Возможности настройки такого графика в других приложениях Windows очень ограничены. Обычно они включают только операции растяжения, сжатия, вырезания, вставки и рисования поверх графика. Как уже отмечалось выше, для работы с графиками в других приложениях удобнее использовать запись в графическом формате STATISTICA и методы OLE, чтобы иметь доступ ко всем возможностям настройки самой системы STATISTICA. Что такое собственный графический формат STATISTICA? Графические файлы системы STATISTICA имеют расширение *.stg. Их основное отличие от метафайлов и растровых изображений состоит в том, что они содержат не только картинку, но и всю информацию, необходимую для настройки графика и анализа данных. Здесь записаны все представленные на графике данные, их связи, уравнения подгонки, параметры внедренных объектов, связи графиков и рисунков и т. п. Записанные в таком формате графики можно впоследствии открыть в любом из модулей системы STATISTICA для продолжения настройки и анализа данных. Кроме того, их можно распечатать в пакетном режиме с помощью команды Печать файлов из выпадающего меню Файл. Графические файлы в собственном формате системы STATISTICA можно динамически связать с документами приложений Windows с помощью методов OLE. Экспорт через буфер обмена (вставка или специальная вставка методами OLE). Использование буфера обмена — это самый быстрый способ экспорта графика в другое приложение. При копировании в буфер обмена создается три графических представления объекта: в собственном формате STATISTICA, в формате метафайла Windows и в формате растрового изображения. Каждое из них может быть использовано в других приложениях. Графики системы STATISTICA могут присутствовать в других приложениях (редакторах или электронных таблицах) как в качестве связанных, так и внедренных объектов. При использовании методов OLE они сохраняют свою связь с системой STATISTICA и, следовательно, могут интерактивно редактироваться в рамках других приложений.
62 Глава 1. Краткая экскурсия по системе STATISTICA Доступ ко всем данным графика. Данные, представленные на графиках системы, можно непосредственно просматривать и изменять независимо от их типа во встроенном Редакторе данных графика. Это могут быть исходные данные, части таблицы результатов или ряд рассчитанных значений (например, вероятностный график). Для каждого графика создается связанное с ним «дочернее» окно Редактора, которое закрывается вместе со своим графическим окном. Редактор организован в виде групп столбцов, представляющих отдельные зависимости данного графика (см. следующий параграф). швш t«tt::fl»*» JN:fr—4* £«»» -1 1.1дЫ шштошш^ Ш-ШЩ Данные любого графика всегда доступны через Редактор данных графика [(одним щелчком), даже если это уже преооразованные значения (например, для графика|квантиль-квантиль[). JUttbiT **»м*хяЬ*Ш\ РУплЭТЧ Audi ,?<«*'■'•,,:. Corvette Ctafe Oodq»';'- • -.£«*.. fed Hond» JftOu Mtofc '"' *«o«fet Mfeub |i) |pi|fll,l,|l|!|J.'»Plf!iffWf^i Линейный гр«фмк (CARS STA 5л'22н) ||m,'',Y ' ~7щ ^n« WkV,'T'':":Y,: i m 1 looo ■ЕНИИНв^И^^р 'Ежи пишиw Грин* i ,'>,%;; 12 00 Иде«У1<»»,гврт>чм<Г';' У; 13 X •:: •;::' • • •;':;;:.: #'^l- ¥#::::;.- :.^45^?r 8w**iH^*W■ :'':':K3:;? .9ммчмг^ naeotemy влом'''." Огн»чг» выиьтш* бя»л H1 K2 I9 )93 L9 L3 L8 120 )99 H1 H6 I3 )^2 )ое ИИИ^ИИЕОГ*' нАЖ>ине X 1.00 200 ЗХ 400 5Х 6 00 7Х 8 00 9Х 1000 11Х 1200 13Х 14Х Y 038 •0 09 •0 09 •0 21 0 97 •0 21 015 0 21 015 0 03 •4 23 050 •0 09 038 * ) ^; п выбранные д«*«>« (все) ►
Вступление 63 Категоризованные графики. Для создания категоризованных графиков данные разбиваются на подгруппы. На одном изображении будет одновременно представлено несколько графиков, по одному для каждой из заданных подгрупп. Например, можно построить графики отдельно для субъектов мужского и женского пола, разделить пациентов на группы женщин с высоким давлением, женщин с низким давлением, мужчин с высоким давлением, разделить товары по качеству, странам-производителям и т. п. Разбиение данных на однородные группы и исследование связей между этими группами — чрезвычайно важный прием анализа данных. шидиигдиг ** ^^^ ■ JffM Категоризованные графики широко применяются в системе STATISTICA: О Они доступны в большинстве диалоговых окон с результатами анализа (эти графики автоматически создаются в тех процедурах, где анализируются группы или подгруппы данных, например при классификации, проверки ^-критериев, в дисперсионном, дискриминантном и непараметрическом анализе). О Эти типы графиков присутствуют в списке Быстрые статистические графики в контекстных меню всех таблиц исходных данных и таблиц результатов. О Их можно вызвать из списка Статистические графики (в выпадающем меню Графика), при построении которых предлагается большой выбор различных методов категоризации данных. Методы категоризации, предлагаемые в системе STATISTICA, описаны в следующем пункте.
64 Глава 1. Краткая экскурсия по системе STATISTICA Каким образом задаются «категории» для категоризованных графиков? Итак, вначале нужно разбить данные на группы. При построении категоризованных графиков из диалоговых окон с результатами анализа подгруппы данных определяются автоматически (поскольку такое разделение является частью исследования данных). При построении статистических графиков предлагаются различные способы задания подгрупп по одной или двум группирующим переменным. Кроме того, разбиение на подгруппы может организовать сам пользователь, используя любые комбинации переменных из текущего набора данных. Существует несколько методов выделения категорий: О по целым значениям группирующих переменных (Целые числа); О разделением группирующих переменных на заданное число интервалов (Категории)? О разделением группирующих переменных на интервалы с заданными граничными значениями (Границы); О с помощью задания конкретных значений (кодов) группирующих переменных (Коды); О путем формирования сложных подгрупп (Сложные подгруппы); для этого пользователь может ввести условия выбора наблюдений практически неограниченной сложности и использовать значения любой переменной текущего файла данных, как показано ниже. На следующем рисунке показан достаточно сложный график, категоризован- ный по двум признакам. При этом использован смешанный метод выделения подгрупп. Категоризация по двум признакам означает, что элементы графика располагаются как элементы двухвходовой таблицы, полученной после использования двух различных методов категоризации. ШВВШй наша ИВЕ ,1 140 120 100 § оо 140 . <*• | 100 00 00 Диаграмма рассеяния (FACTOR.STA ИЬПООс) f ; ......... •у* Ф&: •V* Щ ...; ; \...Л i .-Ж ..£**!* \ 50 70 00 110 130 160 60 70 00 110 130 160 60 70 00 110 130 160 ГРУППА: ГРУППА: ГРУППА: «0<33 «nd НОМЕ_7<200 v0>32 and «0<87 v0>*6 «nd HOME_7<200«nd WORK 1
Вступление 65 Г|Графмк2 Диаграмма рас се Диаграмма рассеяния (FACTOR.STA 10v00c) 121 ОС о «,3 ■SI I"" •*/ #~ ♦_* Ш • f^ >^ Ш M 70 10 110 130 1S0 SO 70 M 110 130 1S0 SO 70 00 110 130 1S0 SUBSET: SUBSET: SUBSET: vt<33 «nd HOME_7<2M vt>32 and «0<S7 «0>00 end HOME_7<200*nd WORK 1 Две строки на приведенном выше графике представляют разделение на подгруппы по значениям переменной Ноте_2 (на наблюдения, для которых значение этой переменной меньше либо равно 104,624, и наблюдения, для которых оно больше 104,624). Три столбца графика представляют подгруппы, заданные специальным образом по номерам наблюдений (нулевая переменная) и значениям переменной Ноте_7. Ниже показано диалоговое окно, где задавались параметры этого графика. 2М категормэованмые д MJ.4'l.'lll.MJJJiPI.I £р Дереиетеце: } ; ЯЯ <• Отдельно . **-? ВГ"**9 IUr.Y:H0ME_2 Перем,* WQRKJ Лерем-Y: WORI^2 : Категории пе& Переменная: С*, полгрэолм \ С Целые числе : Г Категории: [То | \ С С Код** <? Задать подгруппы нет С Сложные naArpywM КООРДИНАТЫ л :| СИ! OIL м I Па^метры... Категории по £ ~ Переменная: HOHtJZ С Целые числе <?- Категории: [5 С Границы: нет СКадмс * ПОДОЖКА Нет \/ Линейная \Г~ Логарме»мм««бская \_J Экспоненциальная \j/ Сплайны О т. |'У Намм. квадраты 1*4. Отр зксп -взвеш. \Ш Другая Функция [Друелф На каждом маленьком графике представлена зависимость между переменными Work_1 и Work_2 (в качестве Хи Усоответственно). Первая категоризация (Категории поХ— «столбцы» графиков) проводится методом Сложные подгруппы в диалоговом окне, вызываемом кнопкой Задать подгруппы:
66 Глава 1. Краткая экскурсия по системе STATISTICA ЕЕИШЗЕ Потрут 1 ""•••" •- * -" : '-. [Вкяюч . осям ^JiOTmMrfrWcoip^wwbl [v0< 33 and Нотв^7< 200 П<мгрута2 Вкяюч . ее ям : •=•- : »8 ]ChnpfciTb/ctn>piiim| |vO>32 and v0<67 Подгрута J (Включ., ее ям. "~~ — — Н|Отк|мьт»/сояранмп^ |v0>66 and Hon»el7<20b : Вкяюч., ее ям ^||Открыгь/со«р<нмт»| тЩтт Отмой* ВТ ! & Oiiq*tt»pc« £оХр*«4Т* ОС« 1-е Печать Каждая fttft/рдов 6»*миг COOnMffut^OWffV ОДНОЙ ' категории {уровню) на |сатагориэоввннон трафика. jJ Второй класс {Категории по У или «строки» графиков) определяется группирующей переменной Ноте_2. Диапазон этой переменной разделен на два равных интервала. Для этого в диалоговом окне задания параметров графика в поле Категории введено значение 2 (при этом распределение переменной Ноте_2 разделено на две группы: наблюдения, для которых значения меньше либо равны 104,62, и наблюдения со значениями данной переменной, большими этого числа). Тернарные графики поверхности и карты линий уровня. При выводе результатов анализа по составлению смесей в модуле Планирование эксперимента можно построить тернарные графики в виде трехмерных поверхностей или карт линий уровня. ВШ! I' HL'l.f,',' II,'! 1ШШШШШШШШШШСШ\ Д*миы« mbdutt «U 25» * SOOc Тр«яомло»юитмм ciMtb ф1.82 и ВД и результат (n«p vi€LD) ■10 010 М 0 980 в 1970 ЕЭ 2 981 CZ3 3 951 □ 4 941 В 5 931 ■1 8 921 ■Л 7 911 ■1 в 902 ЦИННИИ зва ЕЕЯЭ1 Катргоригоаммый т»ри»рмыА гррфт (МК2 STA5V42c) Тр*»омпом«мтм«й сьись 0<1. К2 и КЗ). AM провы 5 fJBJ 144$ 1521 1596 ЕЭ 1672 CD С=) ffJBJ pjaj fjpj ■■ 1747 1823 1898 1974 2 049 2125
Вступление 67 Тернарные графики можно построить из подменю Статистические XYZ-графики, Статистические категоризованные графики и Пользовательские графики выпадающего меню Графика. Графики в полярных координатах. Некоторые типы графиков можно построить в полярных координатах. К ним относятся графики рассеяния, линейные графики и последовательные вложенные графики из подменю Статистические 2М графики (оно вызывается из выпадающего меню Графика). Угол излучения Ш!ШШВ2ШШШШШШШШШШШШШШШШШШШЩ Линейный график (EXP.STA 8v*48c) TIME: BEFORE TIME AFTERJ TIME AFTER_2 В полярных координатах можно построить и категоризованные графики. Многие графики, построенные в обычной прямоугольной системе координат, можно представить в полярных координатах. Для этого нужно установить соответствующий переключатель в диалоговом окне Общая разметка в положение Полярные.
68 Глава 1. Краткая экскурсия по системе STATISTICA Ш1Ю1Ш.Ш1М1Г.:11И Линейный график (EXP.STA 8v'48c) ;\Y левая fi^ltr^m *ш ]ЛинеАная 3 ■' " '«Ц JY правая V . •' " \. . «* j! Внмтрвг • • 1 ■*»»' [0 g •• •• Щ Па|>ам>П1>«осй j ц =>| .Верхняя Как поместить на график системы STATISTICA графический объект из другого приложения? Для вставки любых графических объектов, совместимых с системой Windows, можно использовать все описанные выше операции вставки посредством буфера обмена (включая связывание и внедрение методами OLE). Эти операции можно совершать над растровыми объектами, метафайлами Windows, графиками в формате STATISTICA, а также любыми OLE-совместимыми объектами. Как поместить текст на график STATISTICA (отчеты, таблицы и т. п.)? С помощью описанных выше операций с буфером обмена на графики STATISTICA можно поместить очень большой текстовый объект (например, отчет длиной несколько страниц). Этот текст редактируется и изменяется в окне Редактор текста графика системы STATISTICA или в соответствующем приложении, которое является сервером в методе OLE. Все описанные в предыдущем разделе операции вставки и использования буфера обмена применимы к любым совместимым с Windows графическим объектам, а операции связывания и внедрения выполняются для всех объектов, поддерживающих методы OLE. Галерея графиков STATISTICA. С помощью этой кнопки открывается диалоговое окно Галерея графиков STATISTICA. Эта кнопка присутствует в диалоговом окне каждого типа графиков. шшшвт ¥*Щ раза [$ГСтат. Ьст«. ЙСтат &*Стат. ЩСтет ЗМ последовательные графики XYZ графики матричные графики пиктог рафики кетегориэоваииые графики vtfS Размещение нескольких графиков О П»ст не графические окна Q Пользовательские графики 2? Блоковые статистические графики £9 Стат. графики пользователя ? Обаор 1 ? График | Гистограммы J 1 •"[ Диаграммы рассеяния Ов Диагр. рассеяния с гистограмме»»* I л1И1ил1Ш!Й11ли1илп»м |К; | Нормальные вероятностные графики Г Графики квантиль квантиль | | Графики вероятность вероятность [ii'i] Диаграммы диапазонов Диаграммы размаха Столбчатые диаграммы [^л] Линейные графики (для переменных) („У-1 Линейные графики (профили иаблюд ] Последовательные/налож. графики Ф£ Круговые диаграммы Г', ) Диагр пропущ. знач. и интервалов < I <* i Отмена ] Составные графики: диаграммы рассеян**] XV с диаграммами размаха для X и У, подгонхаи сглаживание функции на пи XV, параметров средним, медиан, проиентилвй. выбросов, крайним точек, диапазонов бе»
Вступление 69 Отсюда быстро и легко вызываются все статистические и пользовательские графики, пустые графические окна и статистические графики пользователя. Для этого нужно выделить название нужного типа графика и дважды щелкнуть на нем (или нажать кнопку ОК). Пользовательские и статистические графики. Помимо специализированных графиков, которые вызываются непосредственно из итогового диалогового окна любой программы статистической обработки, существуют еще два основных типа графиков, доступных из меню или панели инструментов любой таблицы: пользовательские графики и статистические (и быстрые статистические) графики. Главное различие между двумя основными типами графиков заключается в источнике данных для отображения. Более подробно эти различия описаны в следующих разделах. Ш Ш (Ш Э1Ш Пользовательские графики. Пользовательский график дает возможность отобразить любую заданную пользователем комбинацию значений из таблиц исходных данных или таблиц результатов (а также из любой комбинации их строк и/или столбцов). В меню предлагается пять типов таких графиков: 2Мпользовательские графики, ЗМпользовательские последовательные графики, ЗМ пользовательские диаграммы рассеяния и поверхности, пользовательские матричные графики и пользовательские пиктографики. При выборе одного из них открывается соответствующее диалоговое окно, где для отображения на графике можно задать диапазон данных текущей таблицы. Содержание этого диалогового окна зависит от выбранного типа пользовательского графика. Начальный выбор данных для построения графика, предлагаемый в этом диалоговом окне, определяется положением курсора в текущей таблице. В каждом диалоговом окне пользовательского графика при задании параметров предусмотрена возможность выбора определенного вида графика (в рамках основного типа). Вид графика также можно подобрать и после построения (с помощью диалоговых окон Общая разметка или Размещение графика, которые открываются при двойном щелчке мышью на области фона графического окна или при выборе соответствующей строки выпадающего меню Разметки). S818? Ш? И§ £% Ё!Ш Статистические графики. В отличие от пользовательских графиков, которые представляют собой средство наглядного отображения числовых данных любых таблиц (исходных данных или результатов, см. выше), статистические графики предлагают сотни заранее определенных типов графических представлений, включающих аналитическое обобщение статистических данных. Они вызываются из диалогового окна Галерея графиков, которое открывается с помощью одноименной кнопки панели инструментов @ или из выпадающего меню Графика.
70 Глава 1. Краткая экскурсия по системе STATISTICA При построении таких графиков используются значения непосредственно из файла данных, которые не зависят от содержания текущей таблицы, выделения блоков и положения курсора. При этом предлагаются либо стандартные методы графического анализа исходных данных (различные графики разброса значений, гистограммы, графики средних значений, например медиан), либо стандартные аналитические методы исследований (графики нормальной плотности распределения, вероятностные графики с исключенным трендом или графики доверительных интервалов линий регрессии). При построении статистических графиков программа учитывает условия выбора и веса наблюдений. Шл Быстрые статистические графики. Наиболее широко используемые типы статистических графиков (вызываемых из меню Графика, см. предыдущий параграф) представлены в меню Быстрые статистические графики. Эти списки графиков не предоставляют такой широкий спектр возможностей, как меню Статистические графики, но в отличие от последних упрощают и ускоряют процедуру построения графика. Быстрые статистические графики: О вызываются из контекстных меню или с панели инструментов любой таблицы (обычно они не требуют обращения к выпадающим меню или диалоговым окнам), О не требуют от пользователя выбора переменных (этот выбор определяется текущим положением курсора в таблице) и промежуточной настройки пара- * метров (формат соответствующих графиков определяется по умолчанию). При выборе пункта Быстрые статистические графики (с помощью кнопки на панели инструментов |^ из контекстного меню или из выпадающего меню Графика) появляется меню выбора статистического графика для текущей переменной таблицы, то есть той, на которую в настоящий момент указывает курсор. ешшшптгжшшяп^
Вступление 71 Если курсор не указывает ни на одну из переменных, то перед построением любого графика из меню Быстрые статистические графики будет предложено выбрать переменную из списка. При создании таких графиков система STATISTICA учитывает текущие условия выбора и веса наблюдений. Блоковые статистические графики. Эти типы (пользовательских) графиков вызываются из пунктов контекстных меню Статистики блока по столбцам и Статистики блока по строкам или из диалогового окна Галерея графиков. Любой из этих вариантов дает возможность построить итоговый статистический график для выделенного блока, чтобы сравнить значения в строках (Статистики блока по строкам) или в столбцах таблицы (Статистики блока по столбцам). Данный тип графиков похож на те пользовательские графики, на которых отображаются данные текущего блока таблицы. Другие специализированные графики. Помимо стандартного набора быстрых статистических графиков некоторые таблицы позволяют строить и более специализированные статистические графики (например, временные последовательности в модуле Временные ряды, пиктографики регрессионных остатков, а также контурные графики в модуле Кластерный анализ). Как уже упоминалось ранее, специализированные графики, которые связаны не с конкретной таблицей результатов, а с определенным методом анализа данных (например, графики аппроксимирующих функций в модуле Нелинейное оценивание или средних в модуле Дисперсионный анализ), вызываются непосредственно из диалогового окна с результатами анализа (то есть из окна, содержащего выходные параметры используемого метода обработки данных). Настройка графика до и после его построения. Любые изменения параметров графика в STATISTICA осуществляются из активного графического окна (после отображения графика на экране). Как правило, сначала имеет смысл построить график, приняв значения параметров по умолчанию, а затем уже вносить различные изменения. Однако в тех редких случаях, когда построение графика занимает слишком много времени (при создании сложных составных графических изображений или обработке больших наборов данных), можно вмешаться в этот процесс, чтобы
72 Глава 1. Краткая экскурсия по системе STATISTICA сделать необходимые настройки. Прервать рисование можно одним нажатием клавиши или щелчком мыши в любом месте экрана, а затем продолжить его после ввода необходимых изменений. Предусмотрено два основных метода настройки графика — добавление и редактирование пользовательских графических объектов, изменение структурных элементов графика. Применяются ли к различным типам графиков различные методы настройки? Нет. Независимо от способа создания графика для его настройки и изменения можно использовать любые возможности, предусмотренные в системе STATISTICA. К любому графику можно добавить новый график, объединить его с другим графиком, поместить в него связанный или внедренный объект. Кроме того, график можно любым образом изменять, рисовать на нем и использовать различные методы подгонки функций. Эти же методы настройки доступны при работе с графиками, которые были предварительно сохранены и вызваны из дискового файла. Настройка статистического графика до и после его построения. В разделе Как настроить график STATISTICA показано, что большинство возможностей настройки (сотни различных вариантов графического представления) доступны непосредственно после построения графика. Для этого достаточно щелкнуть на конкретном элементе графика или выбрать соответствующий пункт в диалоговых окнах Общая разметка или Размещение графика, которые вызываются из выпадающего меню Разметки. В то же время, отдельные параметры, которые определяют источник данных, нужно задать до построения графика, например переменные, метод категоризации, значения меток, имена наблюдений, метки осей. В данном примере перед построением графика нужно выбрать переменные и метод категоризации, а также при необходимости задать значения некоторых параметров с помощью кнопки Параметры (которая здесь не использована). Теперь вернемся к нашему примеру. После построения графика при щелчке на любом месте фона графического окна появится диалоговое окно Общая разметка, в котором регулируются параметры общего расположения графика. В этом окне можно изменить тип графика и задать построение карты линий уровня (используйте для этого поле Тип графика). Кроме того, можно изменить пара-
Вступление 73 метр Число сечений с установленного по умолчанию со значением 15 х 15 на 25 х 25 (этот параметр определяет точность построения карты линий уровня): После внесения изменений нажмите ОК, и вы увидите новый график: ЫШНМШД ЗМ мт«яц»оо1 ••**> ч*Ф* (cardtocl sui3v*30c) £ Tfl 00 108 1» <ЗВ Т8 00 10В «О 1ЭВ л' •UMtT.0fNDi№'MALr«ni}A*(<41 «UM(T «CMOf M-MAlf-Ml ЛО<>40 Тв 00 ЮЯ 1» 1ЭВ 187 773 - 306 4» 37363* - ?«1 01в Снова вернемся к диалоговому окну Общая разметка и выберем для типа контурной линии значение Зона. Кроме того, в первые три строки заголовка графика
74 Глава 1. Краткая экскурсия по системе STATISTICA поместим управляющие символы @F[1,1], @F[1,2] и @F[1,3], чтобы записать там уравнения аппроксимирующей квадратичной функции для первой зависимости (цифра 1 на месте первого параметра в квадратных скобках) для каждого из трех отдельных графиков (цифры У, 2 и 3 в качестве вторых параметров): 3«гоямок1 ЭМя«т« . 3«гоаомж 2 Подгрупп*: v1>0 3«гоаомж Э шжв Ниш ьХ1 MEASUR1 kYI MIASUR2 OcfcZI MCASUR3 Ь**««Мг}А«то 3 *рн {юяпщкл tmmmmcm * шит*) i»tut I О» 4 «»f|1 3K>-4*123«33 2i 1 Ma 1 30 C««*onra4 Б(«йГ liH.2 *f|1.1| t<W3 #fM,?l Trite 5 BoMmXI BL000_P1 11««VI BIOOO.P? L*IIY2 21 CHOLCST J Г********* Для быстрейшего отображения и всестороннего форматирования уравнений функций лучше использовать диалоговое окно Параметры, которое вызывается из диалогового окна Статистические графики. Нажмите ОК, и вы увидите измененный график: SubM oe<«MMALrtndAoe«4i z>74eesi*4«iyx-3«7«rvoxMi*xax-oiei*x a*wr of»c»H**LF «4 доемо г«вэ вгг-4в авгх*т$ totvo гэв*х*».о о &<mt OCfCCK-TCMALF РМв 12>»ЗЭ 48Гх-$Э S71VO 0t74*ii.01 36*tVO На^удЕ* ID 114 MS £23 mw C=) 15090» CDieeon ■Ив77ТЭ ■120S43& IB 223 836 ■■ 241 616 IUMIT •INMM-'rCUALr
Вступление 75 Теперь можно продолжить знакомство с различными способами настройки графика. Самый простой (и самый быстрый) способ изменения параметров какого- либо элемента — это двойной щелчок на нем кнопкой мыши. Кроме того, с помощью одного щелчка правой кнопкой мыши на данном объекте можно вызвать соответствующее ему контекстное меню. Например, при щелчке правой кнопкой мыши на одной из осей графика появится показанное ниже контекстное меню, в котором предлагается выбор вариантов настройки для данной оси: ifiiHiKifjuiiiiim на ЭМ кяткщтао*—** (рафик (cardart .*• i3v*20e) Panel А0€«41 х-748Л51*4.вЗЭ»х.2в7»7»у*ОД«1*х*х-0161,х SU*«t OeceWHALP «nd AOC*0 2-63.627.48J96*x*7S 707VO 23fx*x*0 О SubML OWCeR-TOOLe 2-4612903 4вГх.53 «71VO W7Vx-0.136»xVO Щит *штФ и»цс*с:: 00 106 120 SUtSIT «ENOfn-TtMALT ■■78182 ■■96 364 ■1114.S4S ЕЭ 132 727 CD 150 909 tZD 189.091 ■■167 273 ■■205 455 ■■223:636 ■■241818 ■■ »ыае по- На показанном ниже графике с помощью кнопки панели инструментов \ добраны другие пропорции графического окна, кроме того, изменен статус условных обозначений с фиксированного на перемещаемый, а их текст отредактирован, упорядочен и перемещен на другое место. Iillf ,'И 1Г1ЫЗЗ ЭМ K«Ten>|M»ta>**u графис (carded А* 1 ЭУ20с) SubMt OeCW-HAAUTandAOe-41 2-748Л51*4ВЗЗ,х.28 797»у*004ГхЧ.01в1*х Subaet OCICeR-'MALr and A06»40z-63 627-48 998*х-»75 707*у«0 23844*0 О $Cto«t C©C«-T»MLP 2-48129*33 488*x-53 87^4) 097»x'x-0.138»x*y0 SUMf T OENOfiR-TEMALF ■1 78 182 ■1 96 364 ГЯ 114545 Ш 132 727 ■1 223 636 CZ3 150 909 CD 169 091 ШШ 187 273 ШШ 205 455 ШШ 241 818 ЩШ выше Могут ли графики автоматически обновляться при изменении файла данных? Да, могут. Все графики сохраняют связи с таблицей исходных данных, по которым они построены. При этом, если обновление не происходит вручную и связи не отменены, график автоматически обновляется при изменении исходных данных. Для управления связями имеется специальное диалоговое окно Связи данных и графика. Оно вызывается из выпадающего меню Графика.
76 Глава 1. Краткая экскурсия по системе STATISTICA ВШВВШШМвааааааааааааааааШЕШ ! ?««"" &*** у-.. .•■:. . •.■•• •■:.:•. ...•■ |—;— :=.^.|%1 IApto График 16: Диаграмма размаха 'и .-тТ^-i * ; llbllLH!lllJ/PJ.J»llLHil'M/ll'l'>.l',P.lJJJ-l!ll|-lHH^IH | -у :; ЛГлокир. Графмк12: ЗМ карта лммия уровня l,,,,,,.,,,,,,,^?****. I--.-- 1 ]Авто График 11: Матричная диаграмма : > J 06&мтъ сейчас ) I I И»»****"» сая»ь | I . 1 Орераатъсааэ» 1 Графш^15: Диаграмме рассеяния : I : j Cb*aWei&$J^ •• . Обновжт^ Г A^OH«rir»eciu< (g ^fggt^ С ^юкщ>ошлть{шршьлтшю) \ • ; Г Аатообиоалеим* иамршшвго грабим б*У предварительного запроса Г Не обиоаапп» rpa+шм. анадрсш»* а текущий график Здесь можно установить автоматический режим связи, когда график автоматически обновляется при изменении данных, по которым он построен. Можно также задать режим Вручную или временно заблокировать связь. Кроме того, можно установить режим Связь с текущим файлом данных и построить такой же график или серию графиков для других файлов данных. Способ связи можно глобально изменить с помощью команды выпадающего меню Сервис. STATISTICA поддерживает и «вложенные» связи с другими приложениями. Например, можно установить связь графика с данными электронной таблицы Excel 5 путем динамического обмена данными (DDE). При нажатии клавиши F9 для пересчета таблицы Excel произойдет автоматическое обновление как данных этой таблицы, так и соответствующего им графика в системе STATISTICA. См. также два следующих пункта. Графический формат STATISTICA. Графики и рисунки могут быть сохранены в графическом формате STATISTICA в файле с расширением *.stg. Для этого используются команды Сохранить и Сохранить как... из выпадающего меню Файл. Именно этот формат рекомендуется для записи графического файла, если предполагается в дальнейшем снова открывать его в системе STATISTICA или присоединять к другим приложениям методами OLE. В отличие от других графических форматов формат STATISTICA хранит не только саму картинку, но и Редактор данных графика со всеми представленными на графике данными, все аналитические параметры (уравнения подгонки, эллипсы и пр.), а также другие параметры, позволяющие впоследствии продолжить анализ графических данных. Этот формат наиболее удобен при связывании или внедрении графика в другой график STATISTICA. Сохраненные в данном графическом формате файлы можно распечатать в пакетном режиме с помощью команды Печать файлов из выпадающего меню Файл. Командный язык STATISTICA (SCL) STATISTICA содержит два встроенных языка программирования: STATISTICA BASIC и SCL (командный язык). Оба языка предназначены для работы в среде
Командный язык STATISTICA (SCL) 11 STATISTICA и содержат встроенные операции для обращения к таблицам исходных данных, таблицам результатов и графическим функциям. Язык STATISTICA BASIC представляет собой простой и одновременно достаточно мощный язык программирования. С его помощью можно создать широкий спектр приложений, начиная от простых программ преобразования данных и кончая сложными пользовательскими процедурами комплексного анализа и вывода информации. Этот язык программирования пригоден для решения больших вычислительных задач, поскольку обрабатываемые массивы данных могут иметь до 8 измерений и нет ограничений на размеры массивов. Таким образом, пользователь может использовать всю доступную память и создавать процедуры, включающие операции с большими многомерными матрицами. Встроенный язык STATISTICA BASIC доступен в любой момент анализа вместе с интегрированной средой, которая позволяет писать, редактировать, проверять, отлаживать (предварительно прогонять) и выполнять программы. Язык STATISTICA BASIC как обычный язык программирования поддерживает циклические операции и условные переходы, функции и подпрограммы, а также работу с динамическими библиотеками (DLL). В то же время, он «понимает» структуру файлов данных системы STATISTICA и позволяет организовать интерактивную обработку данных в среде самой системы с помощью пользовательских диалоговых окон. С помощью этого языка пользователь может создавать свои собственные сложные программы анализа данных, одновременно используя готовые алгоритмы расчетов и построения графиков, предусмотренные в системе STATISTICA. Командный язык SCL (STATISTICA Command Language) предназначен для организации пакетной обработки данных и создания собственных приложений на основе процедур, содержащихся в системе STATISTICA. Для того чтобы пользователь мог при этом реализовать собственные алгоритмы расчетов, предусмотрена возможность интеграции языков STATISTICA BASIC и SCL. Программы, написанные на встроенных языках системы STATISTICA, доступны в любом модуле системы и на любом этапе анализа данных, при этом их можно вызывать и выполнять как с помощью кнопок автозадач, так и непосредственно из окна редактирования. Пользователь также имеет возможность создавать собственные библиотеки функций и подпрограмм и таким образом значительно расширять предлагаемый набор процедур обработки данных и представления результатов. Ввод и исполнение 5СХ-программ. STATISTICA может работать в «истинном» пакетном режиме как система, управляемая командами, с помощью встроенного языка управления приложениями SCL (STATISTICA Command Language), доступного в любом модуле системы из выпадающего меню Анализ. Можно ввести последовательность команд для выполнения определенных действий, а затем сколько угодно раз исполнять ее в пакетном режиме. Возможен и другой способ действий — использование диалогового окна Мастер команд для быстрого выбора и ввода требуемого списка команд.
78 Глава 1. Краткая экскурсия по системе STATISTICA Для написания и отладки «пакетов» команд используется интегрированная среда языка SCL. Она включает текстовый редактор, совмещенный с окном Мастер команд (см. иллюстрацию выше — кнопка Мастер команд на панели инструментов Командный язык), систему помощи по синтаксису языка с примерами и интегрированные средства проверки правильности программ (доступны из выпадающего меню Сервис). Пользовательские расширения языка SCL. Программы на языке SCL могут включать не только предопределенные параметры и команды для выполнения действий по статистической обработке, управлению и графическому выводу данных (см. кнопки Справка: примеры и Справка: синтаксис на панели инструментов), но и пользовательские «команды», определенные с помощью инструмента Назначить клавиши {SendKeys) (в соответствии с правилами, принятыми в MS Visual BASIC). Написанные таким образом программы могут выполнять, например, операции с буфером обмена (Копировать, Вставить), менять параметры вывода, принятые по умолчанию в различных процедурах, и выполнять другие функции. SCL-программы могут также включать в себя программы и процедуры, написанные на языке STATISTICA BASIC (языке STATISTICA, предназначенном для преобразования данных и графиков и управления ими, который доступен из любого модуля пакета). Например, определенные пользователем графические или вычислительные процедуры на языке STATISTICA BASIC могут выполняться как часть пакета команд SCL. Пользовательский интерактивный интерфейс для SCL-программ. Несмотря на то что в командном языке SCL не заложен в непосредственном виде специальный пользовательский интерактивный интерфейс, тем не менее для этих целей можно использовать программы на языке STATISTICA BASIC, вызываемые из SCL-про-
Командный язык STATISTICA (SCL) 79 грамм, например для создания диалоговых окон, позволяющих выбирать переменные, файлы данных и т. п. в ходе выполнения программы (см. примеры в Электронном руководстве). Исполняемый модуль STATISTICA. Командный язык содержит специальный Исполняемый модуль, позволяющий разрабатывать приложения «под ключ», которые вызываются двойным щелчком на значке соответствующего «пользовательского приложения» на рабочем столе Windows. Эта возможность позволяет экономить время пользователя, когда многократно повторяется одна и та же процедура или последовательность процедур анализа, а также дает возможность использовать SCI-программы пользователями, которые не знакомы с соглашениями системы STATISTICA. riflliHWIPillHilHilin' ЛГИ' ДГ \\Ш2ШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШЖЗ Чтобы создать такое приложение «под ключ», сначала нужно написать саму SCL- программу и сохранить ее обычным образом (например, в файле ProgramLscl). Затем в окне Диспетчер программ системы Windows нужно создать пиктограмму для исполняемого модуля с именем Sta_run.exe (оно находится в папке STATISTICA на диске). Модуль запуска
80 Глава 1. Краткая экскурсия по системе STATISTICA В поле команд нужно задать имя SCL-программы, подлежащей исполнению (например, d:\data\program1.scl). Теперь при щелчке мышью на этом значке будет начинаться выполнение программы (в данном случае ProgramLscl). Описанным способом можно создать любое количество пользовательских приложений, а с помощью окна Диспетчер программ дать им содержательные имена, соответствующие тем задачам анализа данных, которые эти приложения выполняют. Проверка Ежедн. и очистка итог данных Критерии оптимизации Кнопки автозадач Кнопки автозадач — это всплывающая настраиваемая панель инструментов (включить или выключить ее можно клавишами CTRL+M). ИНИИНИТ £*» Qpm* gw ftp*** fernm 4N4*J>»*** &£*8">*Л£ , ' -,-.'v • „ -л КНОПКИ АВТОЗАДАЧ идеально подходят для автоматизации работы. Им можно присваивать: Макрокоманды: созданные в Редакторе макрокоманд Макрокоманды: движения мыши и нажатия клавиш Программы из команд STATISTICA (язык SCL) Программы пользователей на STATISTICA BASIC Файлы STATISTICA (данные, графики, отчеты...) 1 ,л А •7 / / || W^: J^iew»»» ^J] f«W>lwr^J| № Orm 'J] fe Гра+мш14 J Нц'наё^ It 1 ^::-: • »ii»w.«»|^S • it IPP $и*»г»»инг£р Ц&МШ *W**n |"""". Кнопки на этой панели инструментов можно назначить/переопределить с помощью кнопки Настройка... (или нажатия на соответствующую кнопку при удерживаемой клавише CTRL). В диалоговом окне, которое при этом открывается, можно присвоить имена уже имеющимся и новым кнопкам.
Кнопки автозадач 81 Перейдем к более систематическому изложению. Часто при выполнении сложной задачи возникает необходимость выполнять одну и ту же последовательность действий, например открывать ранее сохраненные графики, данные или листинги программ. Постоянная потребность выполнять мало относящиеся к основной работе операции может отнимать время или даже раздражать. В системе STATISTICA предусмотрены возможности, которые избавляют пользователя от однообразных операций и способствует созданию комфортных условий работы. Кнопки автозадач — это настраиваемая панель, которую в случае необходимости вы легко можете убрать с экрана или снова восстановить (восстановить или скрыть эту панель можно с помощью комбинации кнопок CTRL+M). На панели «Кнопки автозадач» нажмите кнопку Настройка... Откроется окно настройки кнопок автозадач. В центральной части окна расположен столбец кнопок, позволяющий: О Изменить или задать кнопку. Нажав на эту кнопку, вы можете задать последовательность нажатий кнопок клавиатуры. Для организации такой последовательности достаточно нажать кнопку Запись в правой части диалогового окна. С этого момента система автоматически начнет запоминать и переводить на язык команд ваши действия. Нажав, например, на клавиатуре кнопку Alt, вы попадете в главное меню, по которому сможете передвигаться с помощью стрелок и клавиши Enter. Свободно перемещаться внутри диалоговых окон вам поможет клавиша Tab и т. д. Для окончания записи нажмите CTRL+F3. В нижней части окна Настройка кнопок авто- задач будут описаны кнопки перемещений по окнам и соответствующий им синтаксис. О Удалить кнопку. В любой момент вы можете удалить ставшую ненужной кнопку. О Задать последовательность функций или операций на Командном языке STATISTICA (SCL). О Использовать написанные на языке STATISTICA BASIC процедуры вычислительного характера, преобразования данных, операции по управлению данными, графические процедуры, а также процедуры, написанные на любом другом языке программирования, вызываемые из STATISTICA BASIC. О Открывать файлы данных и любые вспомогательные файлы системы STATISTICA. О Создавать и редактировать макрокоманды (последовательности нажатий клавиш), соответствующие часто выполняемым процедурам, заданиям или настройкам. Такие редактируемые команды можно вводить в текстовом виде или, например, как последовательности движений мышью. В каждом из описанных выше окон предусмотрена возможность создания сочетаний «горячих клавиш». Вы можете назначить сочетание клавиши CTRL и любой буквы от А до Z или цифры от 0 до 9. После сохранения этой установки вам будет достаточно нажать определенную комбинацию клавиш, что будет равносильно нажатию на кнопку автозадачи.
82 Глава 1. Краткая экскурсия по системе STATISTICA Панель инструментов может быть глобальной или локальной и содержать большие библиотеки пользовательских заданий и процедур. Локальная панель инструментов связана с конкретным модулем или проектом. Имя открытой в данный момент панели высвечивается в строке заголовка диалогового окна. Настроенную панель инструментов Кнопки автозадач можно затем сохранить, используя команды диалогового окна Настройка.... Панель инструментов Кнопки автозадач можно использовать как удобный интерфейс для пользовательских расширений стандартных процедур.
Кнопки автозадач 31 1 Ее можно легко настроить так, чтобы она занимала очень мало места на экране. Размеры панелей инструментов можно менять с помощью мыши: ■ни ihiiiiiiihmhiiihh ■шшшииииДшАяншм Панель можно зафиксировать, переместив ее к границе окна приложения системы STATISTICA, как показано на следующем рисунке. тшшшжшвшт шящ
84 Глава 1. Краткая экскурсия по системе STATISTICA Как уже было отмечено, кнопки панели инструментов Кнопки автозадач можно настроить или переназначить в диалоговом окне Настройка кнопок автозадач (которое открывается с помощью кнопки Настройка... на панели инструментов). Кроме того, отдельные кнопки можно отредактировать и/или переназначить непосредственно в соответствующем окне настройки; для этого нужно щелкнуть мышью по этой кнопке при нажатой клавише CTRL. 11 *%; *-Л ty00*1.V; 11 При этом откроется окно настройки данной конкретной кнопки. Выбирая последний пункт контекстного меню, которое появляется по щелчку правой кнопкой мыши где-либо на панели инструментов, можно быстро переключаться между различными предварительно сохраненными панелями инструментов Кнопки автозадач. Взгляд в будущее STATISTICA постоянно развивается, открывая новые возможности для пользователей. Если говорить кратко, то развитие системы происходит в духе развития современных Windows-технологий. Гибкая настраиваемость для задач конкретного проекта, широкий набор статистических опций, доступных пользователю из других приложений, глобальная интеграция с другими приложениями, например, с помощью VB, C++, Java, оптимизация для Web и мультимедийных приложений — ближайшие перспективы STATISTICA.
Первые шаги в системе STATISTICA 85 ;j£fe £<* %tm Qebug fiui $tf»fc* frapht look Window #ф ;JQ Й* В j £*' Г& | Л Ча & ;^ : *> Я* M $4 AddtoWoikbook* AddtaR«poa* j «$ Ц?! «lolxi Hiyffil^ff^r^ ^gjxj • ffifqlxn OrderlO j CustomerlD 103X LILAS 10331IBONAP 10332 MEREP 10333 WARTH 10334 VICTE 10335 HUNGO •'_j Workbook 1 •-: <j| 2D Box Plots A0 by И Box Plot A0 by В 'iJ Basic Statistics/Tat !:■; ;,'^J Descrptive slat ПУагЗПОЬу. nvaf4A0by П Vai5A0by Vaf6A0by J :'lh{:»>4f В таблицы с данными (мультимедийные электронные таблицы) можно будет встраивать различные объекты: звук, фото и т. д. Первые шаги в системе STATISTICA Наше знакомство с системой STATISTICA, конечно, следует начать с ввода данных. Вы увидите, как легко вводятся в STATISTICA самые разнообразные данные. Предполагается, что система STATISTICA установлена на вашем компьютере и вы последовательно повторяете описываемые действия. В качестве конкретной области выберем медицинский пример. Как вы уже знаете, исходные данные в системе STATISTICA организованы в виде таблиц. Если у вас имеется опыт работы с электронными таблицами (типа MS Excel), то вы быстро привыкнете к таблицам STATISTICA. Заметим, что табличная структура данных STATISTICA позволяет естественно отобразить большинство реальных данных. Электронная таблица состоит из строк и столбцов. Столбцы таблицы STATISTICA называются Variables — Переменные, а строки Cases — Наблюдения. Например, в медицине наблюдения — это пациенты, переменные — пол, возраст, дата поступления в больницу, дата диагноза, дата операции, перевода в другую больницу, выписки и т. д. Вы можете представить такую таблицу как страницу записной книжки врача, где строки — это, например, имена пациентов, столбцы — характеристики (переменные, описывающие течение болезни).
86 Глава 1. Краткая экскурсия по системе STATISTICA Для того чтобы создать таблицу с данными, проделайте следующее: 1. Запустите программу STATISTICA. 2. Откроется меню Статистических модулей (STATISTICA Module Switcher). 3. Выберите из меню модуль Основные статистики и таблицы и щелкните по нему мышью. 4. Теперь вы находитесь в модуле Основные статистики и таблицы, в котором можете выбрать любую статистическую процедуру, входящую в этот модуль. Но поскольку у вас другая цель, просто щелкните мышью по кнопке Выход (Cancel). Итак, вы находитесь в рабочем окне модуля Основные статистики и таблицы системы STATISTICA. В основном рабочем окне системы подведите курсор мыши к строке меню Файл и щелкните левой кнопкой. В выпадающем меню выберите команду Создать данные. На экране компьютера сразу же появляется окно Создание данных (см. рисунок ниже). В этом окне можно ввести имя файла, например medicine1.sta (файл может быть назван и по-русски, однако по ряду причин целесообразнее использовать английские имена). Теперь поместите курсор мыши в поле File name — Имя файла и наберите с клавиатуры нужное имя. Создание данных имя Файла S«v*jr< ,ij Examples ~зшшшш LjSepath Lj Sibasic CJIOitems £13x3 CQ Accident B] Adapters «I,,,,,,,-,;,,,,] • £]Adstudy C] Aggr essn £jAlerfly £)Ваюгю2 •CjBarotrop £|Beverag2 С J Beverage £] B»d_ptep £] Bleach £J Boston2 rj Bulbs £]Cars £] Center £1 Center2 £] Circuits rj Comfort £J Compos* £j Constrr 21 ffbhrnx U :.Imedone1 staj §*v* '•• Savearjtpp* .{Файлыданных (" sta) Рабоч книг* 1 ;  Cancel После нажатия клавиши Enter на клавиатуре или кнопки Save программа создаст пустую таблицу, содержащую 10 строк и 10 столбцов. NIHJUIIII 1. ш Ш ошэ г VAR2 10 УАШ8 >d
Первые шаги в системе STATISTICA 87 Вы легко можете увеличить или уменьшить как количество строк, так и количество столбцов этой таблицы. Создайте в таблице столько строк и столбцов, сколько нужно. Для этого используйте кнопки Щ^Н^^ЩИИ^^^Й на панели инструментов. Нажмите, например, кнопку Наблюдения. После нажатия кнопки на экране возникнет меню, предлагающее следующий выбор для наблюдений таблицы: Добавить, Переместить, Копировать, Удалить, Ввести имена наблюдений. Выберите, например, пункт Добавить, дважды щелкнув левой кнопкой мыши. Откроется окно, в котором можно задать число наблюдений, добавляемых в таблицу: вшев Ъегттъ Р-1 \ О* I 1 Опшм|1 Нажмите ОК, и количество строк (наблюдений) в таблице увеличится на 2, то есть станет равным 12. Аналогичным образом измените число переменных в таблице. В данном случае понадобятся 11 переменных. Нажмите кнопку Переменные на панели инструментов. С помощью курсора мыши в выпадающем меню выберите пункт Добавить. На экране появится окно, где выполните установки, как показано ниже. Ърг—тьтст; JvARI О Ямядышмкниг* Hi mm лкимаииоА. чтобы Нажмите еще раз кнопку Наблюдения и выберите пункт меню Имена. На экране появится диалоговое окно, в котором можно определить, сколько символов в таблице будет зарезервировано для имен наблюдений. Раздвинуть поле для имен наблюдений можно также с помощью мыши. Сммгъ? . югн ЕЛ ЕШЗ 1 ** 1 Итак, вы сделали первый шаг к достижению цели — создали электронную таблицу, которая имеет 11 столбцов и 12 строк, а также место для ввода имен наблюдений (см. рисунок). ИХ 1 г р-*э 1 4 I * I * Г *■] - * J * П to VAEV IVAR2 I У»ЙЗ ] У>А4 I УЛЮ 1 VW I УЛЙ? \ W9 \ УАЯ8 1 VAfflg Теперь необходимо ввести название таблицы (ее заголовок) и имена переменных. Вы работаете, используя мышь и клавиатуру. Запомните основной принцип: дважды
88 Глава 1. Краткая экскурсия по системе STATISTICA щелкая мышью по полям заголовков, вы открываете диалоговые окна, позволяющие вводить заголовки, описывать переменные и т. д. Введите заголовок таблицы. Для этого дважды щелкните мышью на верхней строке таблицы, пустой строке, которая находится над переменными. В появившемся окне введите заголовок таблицы. информация о ♦•Лив и |ФаАл создай Эрнстом Статистиком 15-го января 2000 года дня статьи "Учимся применять (статистические методы** ... Ца*миг*СМ*Сг4« чтобы начать*? новой строки НаммятоСШТяЬ. чтобы вставить позицию L*U табуляции. £ B£ «>аАйы текущей РебочеА шлшпс, &ч*рея>; |32 | £$ Оцрмть \ | Добаешь } 1 ШтвИ 1 Кнопки 'йобтигь' и "Удалить* Файлов Раб *н>сн Наберите с клавиатуры заголовок, нажмите ОК. Введенный текст отобразится в заголовке таблицы. В поле Информация о файле и примечания можно записать дополнительную информацию, которая будет полезна при работе с файлом. Аналогично редактируются имена переменных и наблюдений. Например, чтобы ввести имена, необходимо дважды щелкнуть мышью в поле Имя наблюдения и в появившемся окне ввести имена пациентов: IIIIIJ.!J1IIJJI1HJ!I!U.1 .l|J!H 1; Рм 2. ^Г ■6 [^ж; 1\п*~~т*А Для того чтобы описать переменную, необходимо дважды щелкнуть мышью по ее имени — например, после щелчка по заголовку переменноШ (VAR1) откроется окно, в котором можно задать ее имя (или переименовать ее), формат переменной, метку, связь и т. д. гта! Имя: ЩВГ БодПД; |9999 й* 3 Тит ll.l.l.l.l.i.HH.l.U.ffil Првдстлщденме: i » j Щст парам, | | Хв*СТ, 9Н6Ч. J | Знач./стат ист. { [38 £р*+шм | 1.000 000. 1.000 000 000 000 A000 0001 .000 000.A.000 000) Двинкое» я (метке.« *!%*"»' Ы Примеры Weir** 6алоеоАлокоав1991 Формулы: »vtVv2. Сея*»; <^Kce*r\!te*»i2c2.»4c4 - (vi >0ГАьГ »v3
Первые шаги в системе STATISTICA 89 Теперь заполните созданную таблицу данными. Данные вводятся непосредственно с клавиатуры. Возможности экспорта, например в MS Word, мы обсудим позднее. Если нужно ввести числовые данные, используйте клавиатуру и стрелки перемещения курсора. Поставьте курсор на нужную ячейку таблицы и введите числовые данные. Текстовые значения вводятся иначе. Подведите курсор к ячейке переменной с текстовыми значениями и дважды щелкните мышью. В ячейке появится код 9999 — это код пропущенных значений. Сотрите код, используя кнопку DEL на клавиатуре. Затем введите нужное текстовое значение. В итоге можно получить следующую таблицу: ТЕКСТОВЫЕ Абремо»АИ. Баранове 8 В Горим АН Гордом Д8. Гущин AJ4 ЩкаЛИ-И £мр«фо»ДЛ Жукя»ЛР Эаа*«яо*ЛГ, 3*порймф9*ИА Иммо»А,& ltf*L. „ .. тшшшшшшшшшшшш Поступление и выписка пациентов MECRLV январь май август август сентябрь октябрь октябрь ноябрь ноябрь февраль февраль март £ень J 6 2 31 22 9 5 26 22 20 15 8 29 ГОД.1 68 68 68 68 68 68 68 68 68 69 69 69 МЕСЯЦЕВ январь май май| октябрь январь декабрь июль август декабрь февраль ноябрь май Яд 21 25 7 14 8 7 29 13 25 29 7 ГОД.* 68 68 70 68 69 68 72 69 68 69 71 69 ПОЛ: муж жен муж муж жен муж муж муж муж жен муж ВОЗРАСТ 54 40 51 42 48 54 54 49 56 55 43 42 • .9, : ГОРОД Иваново Иваново Иваново Калуга Калуга Калуга Смоленск Смоленск Иваново Иваново Смоленск Иваново ■ -1Р1 10 I 11 ANmjMfSMA 0 0 0 0 0 0 0 0 0 1 0 0 111 3 -i 166 1 32 61 36 1 89 87 112 2 05 2 76 1 13 • 138*j ♦ Таким образом, вы научились создавать таблицы и вводить в них данные. Повторив несколько раз описанные действия с другими данными, вы прочно закрепите полученные навыки. Поскольку система STATISTICA является обычным Windows-приложением, можно легко и быстро импортировать данные, полученные в системе STATISTICA, в другое Windows-приложение, например в MS Word. Лучше всего проделать это следующим образом: нажмите одновременно кнопки ALT и F3. На экране вместо курсора мыши появится значок «прицел». Используя мышь, поместите прицел в верхний левый угол таблицы. Затем нажмите левую кнопку мыши, зафиксируйте прицел и, удерживая кнопку мыши, переместите прицел в новое место таблицы. Выделенная часть таблицы будет отмечена прямоугольной рамкой. После того как вы отпустите кнопку мыши, отмеченная часть таблицы будет помещена в буфер обмена. Если теперь открыть нужный документ Word и набрать на клавиатуре комбинацию кнопок CTRL и V, то выбранный сегмент таблицы будет скопирован в документ. Замечания. Вы работали в модуле Основные статистики и таблицы, подобным же способом можно ввести данные в любом модуле системы STATISTICA. С точки зрения общих возможностей по управлению данными, модули системы одинаковы. В системе STATISTICA имеется специальный модуль Управление данными (Data management), который содержит расширенные возможности, позволяющие быстро создать электронную таблицу, объединить две таблицы, вырезать часть таблицы, отсортировать наблюдения по какому-либо признаку: например, расположить имена пациентов в алфавитном порядке или упорядочить их по возрасту и т. д. (см. рисунок ниже). Упражнение. Проведите сортировку данных файла medicine 1.sta по возрасту пациентов и по городам. Используйте модуль Управление данными и опцию Сортировка наблюдений.
90 Глава 1. Краткая экскурсия по системе STATISTICA В*В Объединение дача •ейлов денных РЗ Создание подмножестве из Файле даиньп ••••» Сортировке небе—опий М Иэмонвнмв небвлдеюв! м? Проверке имен и Форматов перемешали ■■т Проверке значений данных W Стаидартиэадия перемешали iMbti Зенена ПД средними & йш Г> ММ: создание нового файла & ММ: открытие файле до |ВРДАеТ%»<т1фЫ*Ъ» STATISTICA Еще один пример Из переключателя модулей системы STATISTICA запустите модуль Основные статистики и таблицы. Для этого выберите в меню модуль Основные статистики и таблицы и щелкните по нему мышью. Модуль будет выбран из списка модулей. Затем подведите курсор мыши к кнопке Переключиться в и нажмите ее. Произойдет запуск системы STATISTICA, и на экране появится рабочее окно модуля Основные статистики и таблицы. Именно в этом модуле мы будем работать. еавжава Н опер вметрическея статистике Дисперсионный анализ (AN OVA/MAN OVA) Множественная регрессия Вр Кластерный анализ Управление данным» Факторный анализ Многомерное вжелировеиив Деревья классификации Анализ соответствий ИечфШжчкяцмА набор олмсаге/*»** автмогих.:'•' многообраэмвтаблиц..;...-■ мнргомерны* otttiMtMk;. t awrop ejpi ме дихотомии. '• ptlKOCTcipCi«ifi COpBlIC - табукюеаню данных просмотр таблщ по слоям, корреляции, t •критерии дм I жмборок, проверка различий корреляциям процентам. многие другие возможности. Вое быстры» статистики доступы из помелей йерекяажитьса i Ж уЦвмените к | J^»tw» »> w toKW*mwi **i:» ft JI Отмена 'трасс женщин ^ЗзЯжШ1жв1 П_семья| Н семья Н семья Н семья П семья П_семья П_семья Н_семья П_семья Н_семья ТРЕВОГА Высокая Низкая Высокая Низкая Высокая Низкая Низкая Высокая Низкая Высокая
Первые шаги в системе STATISTICA . 91^ В модуле Основные статистики и таблицы создайте файл данных, как показано на рисунке. В файле содержатся результаты опроса 10 женщин (данные являются модельными) относительно их семейного положения и состояния уровня тревожности. Первая переменная СЕМ_ПОЛ описывает семейное положение женщин. Эта переменная принимает два значения: П_семья — полная семья, Н__семья — неполная семья. Вторая переменная, ТРЕВОГА, описывает самооценку личностной тревожности женщины. Она принимает два значения: низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью воспринимать жизненную ситуацию как угрожающую (содержащую в себе тайную угрозу). Вы видите, что первая опрошенная женщина — наблюдение номер 1 (первая строка в таблице) — имеет полную семью и характеризует свое душевное состояние как тревожное. Вторая опрошенная женщина — наблюдение номер 2 (вторая строка таблицы) — имеет неполную семью и оценивает уровень своей тревожности как низкий и т. д. Назовите этот файл womenLsta. Заметьте, переменные в этом файле принимают текстовые значения, что типично для социологических опросов. Примите совет, позволяющий эффективнее организовать ввод текстовых данных. Переменные принимают текстовые значения, и если каждый раз вводить текст в таблицу, то это займет слишком много времени. Для удобства лучше использовать численные значения, а затем перейти в текстовый режим, нажав кнопку на панели инструментов. Удобно закодировать значения переменных. Покажем, как это делается. Начнем с переменной СЕМ_ПОЛ. Дважды щелкните по ее заголовку левой кнопкой мыши, и на экране отобразится окно Диспетчер текстовых значений - СЕМ_ПОЛ. В этом окне в колонке Текст наберите в первой строке П_семья, а в колонке Число наберите 1. Это приведет к тому, что текстовому значению П_семья будет присвоен код 1. Во второй строке Диспетчера текстовых значений наберите Н_семья, а в колонке Число наберите 2 — текстовому значению Н_семья будет присвоен код 2. Далее нажмите кнопку ОК.
92 Глава 1. Краткая экскурсия по системе STATISTICA Теперь введите значения 1 в те ячейки переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение П_семья. Введите значения 2 в те ячейки переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение Н семья. ^|Стр#сс ж#нщин 2 3 4 б в 9 10 1| 2 2 2 1 1 1 2 1 2 I Теперь достаточно нажать кнопку ||| на панели инструментов STATISTICA, чтобы получить нужные текстовые значения. Точно таким же образом введите текстовые значения в ячейку переменной ТРЕВОГА. Итак, вы создали файл womenLsta. Теперь построим, исходя из этого файла исходных данных, таблицу сопряженности. Это очень легко сделать в STATISTICA. Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. В появившемся меню сделайте выбор: Стартовая панель. Вы увидите различные виды анализа, которые доступны в модуле. Выберите анализ: Таблицы и заголовки и нажмите кнопку ОК. I М1-1!1 ЫЛГ111 JA Описательные статистики Корреляционные матрицы ft%B t-критерий для независимых выборок fl£2l t-критерия для зависимым выборок j£S Группировка и одио+акториая AN OVA Таблицы частот В а* Отмена Ijk ВероятностиыА калькулятор Юн Другие критерии значимости На экране появится окно Задайте таблицы. Шаг 2. Сначала в строке Анализ выберите Таблицы сопряженности (возможен вариант Таблицы флагов и заголовков). ITTxl Таблицы сопряженности Миогомоашмм таблицы Э) таблицы Фдагши заголовка» выверит* й— cm**. ..
Первые шаги в системе STATISTICA 93 Шаг 3. Далее нажмите кнопку Задать таблицы. В появившемся окне выберите переменные, которые будут табулированы в таблице. Эти переменные задают разбиение исходных данных на группы, поэтому часто их называют также группирующими переменными. В данном случае нужно табулировать значения переменных СЕМ_ПОЛ и ТРЕВОГА. Поэтому выберите их, как это показано на рисунке ниже. шшшшшш ми itTxii щопшм '2-ТРЕВОГА 3-VAR3 4-VAR4 5-VAR5 6-VAR6 7-VAR7 8-VAR8 9-VAR9 10-VAR10 1 СЕМПОЛ 3-VAR3 4-VAR4 5-VAR5 6-VAR6 7VAR7 8-VAR8 9-VAR9 10-VAR10 1 СЕМ ПОЛ 2-ТРЕВОГА 3-VAR3 4-VAR4 5-VAR5 6-VAR6 7VAR7 8-VAR8 9VAR9 10VAR10 1 СЕМ ПОЛ 2-ТРЕВОГА 3VAR3 4VAR4 5VAR5 6-VAR6 7VAR7 8VAR8 9VAR9 10-VAR10 1-СЕМ ПОЛ 2-ТРЕВОГА 3-VAR3 4-VAR4 5-VAR5 B-VAR6 7-VAR7 8-VAR8 9VAR9 10-VAR10 1-СЕМ ПОЛ 2 ТРЕВОГА 3-VAR3 4VAR4 5VAR5 6-VAR6 7VAR7 8-VAR8 9VAR9 10VAR10 ГшП Отмена! |Пщ|и*|И»««4по«фо&|И»^^ Слисая1: СлисшиЬ СлиеокЗ: Слиеок4: Слисокб: СлисокБ: F Г Заметьте, что вообще можно выбрать до 6 списков группирующих переменных, что позволяет построить чрезвычайно сложные таблицы, содержащие гораздо большее число переменных, чем в описываемом примере. Именно такие таблицы часто возникают при массовых обследованиях, и их нужно уметь строить. После выбора переменных нажмите кнопку ОК. Вы вновь вернетесь в диалоговое окно, показанное на рисунке. Обратите внимание, что окно немного изменилось: около надписи Число таблиц появилась цифра 1, потому что вы выбрали переменные и попросили систему построить одну таблицу. Шаг 4. Нажмите Enter на клавиатуре или кнопку ОК в верхнем правом углу диалогового окна. Система произведет вычисления и предложит посмотреть результат в окне Результаты кросстабуляции. швшшшшшшшшшшшшшшшш ЩШ БшЗ |Проа^ретъ итоговые те^лииы! Тъбтць .jEAaro» t* *»>*•« йршок | ■ ] Тебян** -■-.■ ;;;;;-.' Р? £ыле*ить частоты к jlO Г* Ojpemi шт чмпготы Г Оетатрчцце частоты Г* Проценты or общего числе Г Проценты по строке V Дронеиты по етолбаф з! Ш лк Отмена , Катеторцаочмепые гистограммы Грденкиешеииодейстеийчестот | I Р? Ото^ражвт* д< Г Включить прооумеццыв авишие j-Статистшш для деелиоае!^.?**!*^^"-—~? -\, ;^j^" ] Г Пирсоне и М«П м-каадрет ' /1 \. —•—« 1 Г То<1ииЛ<1>и1еер»<йвтое<Мекиеыар*B»2| ' ^; Г »иЦ>2те6лты1иГ4>емер1УиС . J 3«^ЧА^Е^Т»5«*ы«^цгш*«»гояо«сое j Г Тад-ЬитагдКеилелл* » ярстучы если г»><Ч*умл*е сгео*»дереыви«»к | Г" &oppoemut* Вшрмаш Г" Иоа+ещненты неопределенности 3J4 гистограммы •ннргими еиавемч, иеполудо» модель ЛогяииейныАг»1дла, Шаг 5. В окне Результаты кросстабуляции нажмите кнопку Просмотреть итоговые таблицы. На экране появится следующая таблица сопряженности:
94 Глава 1. Краткая экскурсия по системе STATISTICA Пшм&* {Частоты выделенных ячеек> 10 '::....■ ^ /{(Итоговые маргинальные не отмечены) j Шкй I'llllMI " i и ii | ii и и | СЕМ_ПОЛ ИИДВШИИ Высоко* j постр. I ЩЩДИ^ ^ ^ ^ ; Н-св*ья I 2 з 5 \ '/Всего „ mi J 5 5 10 ! Вы видите, что в этой таблице табулированы переменные СЕМ_ПОЛ и ТРЕВОГА. На пересечении строк и столбцов стоят абсолютные значения, вычисленные из исходного файла данных womenLsta. Мы табулировали совместно значения двух переменных, СЕМ_ПОЛ и ТРЕВОГА, и такое действие часто называется кросстабуляцией (от английского cross — пересекать). Из построенной таблицы, называемой на сленге таблицей сопряженности, видно, что три женщины имеют полную семью и низкий уровень тревоги, две женщины имеют неполную семью и низкий уровень тревоги и т. д. Если вас интересует раздельная табуляция каждой переменной, посмотрите на крайний правый столбец и нижнюю строку таблицы. Вы увидите, что всего среди опрошенных женщин пять имели полную семью и пять — неполную семью; пять женщин имели высокий уровень тревожности (см. крайний правый столбец), пять — низкий уровень тревожности (см. нижнюю строку). Часто возникает необходимость вместе с абсолютными значениями привести в таблице проценты. Система STATISTICA позволяет выбрать те проценты, которые требуются: например, только проценты по строке, или проценты по столбцу, или проценты от общего количества, или же и те и другие. Проценты по столбцу — это проценты, вычисленные относительно суммарного значения частот по столбцу. Проценты по строке — это проценты, вычисленные относительно суммарного значения частот по строке. Проценты от общего числа вычисляются относительно суммы частот в таблице. Рассмотрим, как это делается. Шаг 6. Нажмите кнопку Далее в верхнем левом углу таблицы (см. рисунок). Вы вновь вернетесь в окно Результаты кросстабуляции. Шаг 7. В окне Результаты кросстабуляции обратите внимание на опции в правой части, объединенные в группу Таблицы. Выберите, например, опцию Проценты от общего числа. Подведите курсор мыши к соответствующему квадрату и щелкните мышью. В окне Результаты кросстабуляции нажмите кнопку Просмотреть итоговые таблицы. На экране появится следующая таблица: Здесь рядом с абсолютными значениями появились относительные величины — проценты, вычисленные от общего числа женщин, то есть от 10.
Первые шаги в системе STATISTICA 95 Итак, из таблицы видно (пожалуйста, проверьте!), что: О 30% женщин имеют полную семью и низкий уровень тревоги (первая клетка таблицы), О 20% женщин имеют полную семью и высокий уровень тревоги (вторая клетка таблицы), О 20% женщин имеют неполную семью и низкий уровень тревоги, О 30% женщин имеют неполную семью и высокий уровень тревоги. Построенную таблицу можно отредактировать, изменить ее вид, надписи и т. д. Шаг 8. Редактирование таблицы. Дважды щелкните, например, по полю Всего % в построенной таблице. В появившемся окне Имя строки таблицы результатов вместо Всего % введите %. '■•i'i-iii.!.4'i*'.i. .'шав JUL Diwmi | Вы получите таблицу вида: Итого Итого* 20 00% | 5 50 00°/. 5 50 00V. Шаг 9. Построение отдельных таблиц с процентами. Вернитесь вновь в окно Результаты кросстабуляции и обратите внимание на опцию Отображать выбранные % в отдельных таблицах. Сделайте следующие установки: выберите опцию Проценты от общего числа и опцию Отображать выбранные % в отдельных таблицах. Затем нажмите кнопку Просмотреть итоговые таблицы. \ттж\\л\ж ЁЗ Просмотреть итоговые твбймщУ | .. ..'■'..■ W..J.!. ■■■■■■'I ■■ ■> ' ■■■■■ .'ДЧ1.1 'Ц .J. ■ Ь'.'. ..■.■■■■'.■■iL.'.'U1.'. U1. .'А Л^-. \ Щ Подробные деавдодоеые таблицы | . J Р? Отображать амины* метки анпаннЛ ; Г" Вшшиить tyowyoifiMe itatMMiHi > Статистики ляп двойное оным табли»-"•••"•■••: 1 Г" Пирсоне и М41 амлщмжрет -.■ \ Г Точный Фишере. Цетса. М ми юмора B Г Фи B*2 таблицы) и Крамера V и С Г" Т**Ь и тае-е Кенкаяле:":' • i Г" Еамме 1 Г*:^оорвляцие Сяиривна '*•'• Г" Соммере 4 ) Г 1Соа.ФФи*м#нгы неопределенности Р? Дыделить чистоты >: (То ' Г~ Одедаемые частоты 1 Г" Остаточные частоты 1рТ Проценты от общего числа Р Проценты по строке ] Г" Проценты по столодэ ш шс 1 Отмена j ,i Категориэоелииые гистограммы {*Щ Граочаш еаоимодействия частот ЗМ гистограммы ЗАМЕЧАНИЕ. Те5лишф*аго»*эаголоеко» доступны, если выбраны два списка переменным. Чтобы вычислить микеаврет максимального пражоослобия и проанализировать таблицы со многими еисвамм, иопояьэу&ге модуль Лог линейный анализ.
96 Глава 1. Краткая экскурсия по системе STATISTICA Вы увидите две таблицы, одна из которых будет содержать только абсолютные значения, а другая — проценты, вычисленные от общего количества опрошенных. ЕШШШЯШШШЯШШШШШПШШЕШШШ пшятл [частоты выдепемчых ячеек> Ю Г-..:..:...:.:■ "••:: ^(Маргинальные суммы не отмечены) СЕМ.ПОП ЧЧРЧРЧР тревогА Нмэка* 30 00 "с^""] 20 00 '..'Итого " ' 1 50 00 Ш ТРЕВОГА Щ Высокая Щ 20 00 L 30 00 50 00 ■Щ9Н 5000 1 50 00 100 00 Шаг 10. Создание автоотчета. г* »*»»<» -слфюя t чтткъ\тшз¥?1щжшън*&(ж\нштг rp—.-^-»-'-i-J-'^-^-J^-i-j СТАТ. Итоговая таблица частот (womenl.sta) ОСНОВНЫЕ Частоты выделенных ячеек> 10 Всего по стр. СТАТИСТ. СЕМ_ПОЛ П семыа Всего * Нсеныш Всего * Всего Всего * жи ТРЕВОГА Ннэкая Э 30 00* 2 20.00* 5 50 004 ТРЕВОГА Высокая 2 20.00* Э 30.00* 5 50.00* НЛ'ГММ HWII,' ШИ {Частоты выделенных ячеек> 10 СЕМ_ПОЛ 5000* Греемы 50.00* —' [(Маргинальные суммы не отмечены) ТРЕВОГА ТРЕВОГА Высокая 0 Всу? 1 з 30 00% 2 20 00% 5 50 00% 2 20 00% 3 30 00% 5 50 00% iC _ _. >d В системе STATISTICA имеется полезное средство подготовки отчета, которое позволяет представить все полученные результаты в формате RTF; далее отчет можно вывести на принтер, отредактировать и красиво распечатать. Проделайте следующее: войдите в меню Вид и выберите опцию Окно текста/ вывода. Из построенных таблиц (они находятся в рабочем окне системы) выберите ту, которую нужно сохранить для отчета. Щелкните по ней мышью. Вновь войдите в меню Файл и выберите опцию Печать. Отмеченная таблица результатов будет распечатана. В этом окне можно, например, отредактировать таблицу и подготовить ее в том формате, какой требуется для исследовательского отчета или статьи. тггнуу СТАТ. Итоговая таблица частот (women 1 л\ь\ ТРЕВОГА ТРЕВОГА ИТОГО СЕМ ПОЛ Низкая Высокая Абс.зи * Абс.зи * Абс.зи * П_сеиыш 3 30.00* 2 20.00* 5 50.00* Н_сеиья 2 20.00* 10 100.00* 51 J
Графический анализ таблиц сопряженности 97 Обратите внимание, что в процессе работы ни разу не использовался какой-либо язык программирования, все действия носят интерактивный характер, и это большое достоинство системы STATISTICA. Работать в ней так же просто, как, например, в текстовом редакторе MS Word. В заключение вам предлагается упражнение, которое закрепит полученные навыки. Пример. Создайте в STATISTICA файл women2.sta. Для градации значений пе- Шкала семейного положения Шкала тревожности женщи- Графический анализ таблиц сопряженности Таблицы сопряженности позволяют компактно описывать данные. Они удобны и требуют минимум комментариев, поэтому популярны среди врачей, социологов, маркетологов. В системе STATISTICA очень легко строятся даже самые сложные таблицы сопряженности. Здесь мы рассмотрим, как визуализировать построенные таблицы, то есть познакомимся со средствами STATISTICA, позволяющими графически проанализировать таблицы. Визуально гораздо проще увидеть закономерности, содержащиеся в таблицах. В примерах используются данные небольшого объема, чтобы можно было отчетливо представить основные приемы работы. Представьте, в каком сложном положении вы оказались, если бы имели дело с громадными таблицами, а именно такие таблицы возникают на практике. «Делайте вслед за нами!» — по-прежнему остается нашим главным девизом. Итак, система STATISTICA запущена на компьютере, вы работаете в модуле Основные статистики и таблицы (в английской версии STATISTICA модуль Основные статистики и таблицы называется Basic Statistics and Tables). Пример (продолжение) Файл данных womenLsta, с которым вы работаете, открыт в рабочем окне. Напомним, что в этом файле приведены результаты опроса 10 женщин (данные являются модельными) относительно их семейного положения и уровня тревожности. ременных используются более реалистичные шкалы, женщины: одинокая, неполная семья, полная семья, ны: низкая, умеренная, высокая. 1Ч TtKC энйч 1 к* • Е 10 иг шшшшшшввяшшшш Crptcc жфнщин П_с#мья Н„с#мья Одиноки Н_с#мья П_с#мья Одинокая П_с#мья Н_с#мья П.сфмья Н сфмья 2 ТРЕВОГА it! Низкая Высокая Ум#р#н Низкая Высокая Низкая Высокая
98 Глава 1. Краткая экскурсия по системе STATISTICA атель модулей смет НЛЩ11111!1!иЛ1]11И11111|1И1И l£V IteJ Непараметрическая статистика Дисперсионный анализ (AN OVA/MAN OVA) Множественная регрессия Временные ряды и прогнозирование Кластерный анализ Управление данными Факторный анализ л ДМОММЧОСКММ АМвИМЭ Многомерное шкалирование Деревья классификации Анализ соответствий •^v.^A.-jj.^v. v•:&s.•лV•:':^•1,:": Дерек яючнться ш Ж Исчврпмвдящнй набор . ■■.■ описательных статистик, ; мисгоо6рдэи»тв$ли»;. • li сопряжен юсти, таблицы Флагов м заголовков, многомерен отклики и многомврныедикотоь*«. :•. разносторонний сервис табелирований данных, • просмотр таблиц по слоям. корр«лйцйяй(ритариид1м : зависимых и независимы»*... /,. выборок, проверка различий I между дисперсиями, корреляциями, процентами, 1*рс*гнс>стный калькулятор и многие другие возможности Все быстрые статистики доступны из панелей инструментов, . Изменитьсписок.. J Злкрьтеь « н'^^'лпЫт^ы;» # Ж Отмена Первая переменная СЕМ_ПОЛ — семейное положение женщин. Эта переменная принимает два значения: П_семья — полная семья, Н_семья — неполная семья. Вторая переменная ТРЕВОГА — самооценка личностной тревожности женщины. Она принимает два значения: низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью личности воспринимать жизненную ситуацию как угрожающую. В данном упрощенном примере мы использовали две степени тревожности: низкая и высокая. Вы видите, что первая опрошенная женщина — наблюдение номер 1 (первая строка в таблице) — имеет полную семью и характеризует свое состояние как тревожное. Вторая опрошенная женщина — наблюдение номер 2 (вторая строка таблицы) — имеет неполную семью и оценивает уровень тревожности как низкий и т. д. щ h 2 3 4 б 6 7 е 9 10 ■I ■ I IIIIII III в— Стресс женщин 1 СЕМ^ПОЛ П_семья| Н семья Н семья Н семья П семья П семья П семья Н семья П семья Н_семья ТРЕВОГА Высокая Низкая Высокая Низкая Высокая Низкая Низкая Высокая Низкая Высокая Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. В появившемся меню сделайте выбор: Стартовая панель. Выберите анализ: Таблицы и заголовки и нажмите кнопку ОК. С помощью опций окна задания таблицы произведите табулировку переменных СЕМ ПОЛ и ТРЕВОГА.
Графический анализ таблиц сопряженности 99 17ПП ~ш ••ST.?';'*, &ft*iett»;J Таблицы сопряженности В^'ЖТ Океана;;J1 У< ОрЩ*Ют;ит тЬм^уЫжш1ЩНщю - :1"° Г Вз«;ейеи«м< **&М&р1Ы • ,A..L> , • VL..:JK:^k:^ •' Шаг 2. После того как система построит таблицу, посмотрите внимательно на окно Результаты кросстабуляции. Обратите внимание на кнопки в правом нижнем углу диалогового окна Результаты кросстабуляции. в finnriiiiivnacg Щ Р? OreftjMmerw Г BlUMMMTI» njMMJMJHlffejH) Ц Сттмспш» дд< дцррпцрпи т шб^щ г;;-/:;;: ул./ ;■;; ' Г" Теним* ^швр^Я^с*, Мемммео* B*2) Г" Ух fifr2теб*т*| и fomeca V и С | Г" Т«д-Ьит»гсKwMjiMi •;.. Г £*мме . t.- ^ ... 1Г* Го1 ■■«■ it •;*■«. ><ь • итм неопределенное £ы*еЛМТЬ «АбТеТЫ >! J10 Г~ Ржрлшшш частотм Г Остетечные честагм Р. Проценты оу ебжеге числе, I Лрофеиты не строке > Г Оротемтм по стелбед •■: * I Отмене '•» ••£W ^М гметегреммы ' ЗАМЕЧАНИЕ. ГеглдоФявггеиэеголоем» доступ м, о&ы аыбреиы дм $ямсЛ переменны* Чтобы еычмеемгь мншеарет маяеймалного лревдопдобия и проак**»<ч>е^ т*ол«*»со мелки ■исв»11испоя>»»*гс иоду» ЛоцмлейшеИ ноли». . Шаг 3. В диалоговом окне Результаты кросстабуляции нажмите кнопку Кате- горизованные гистограммы: ITl График. 4 Kaief ориз гистограмма СЕМ ПОЛ х ТРЕВОГА К«1егори$дис¥осремме: СЕМ.ПОЛ х ТРЕВОГА Ни«кая Высокая СЕМ_ПОЛ: П_« Низкая Высокая СЕМ_ПОЛ: Н_саиья
100 Глава 1. Краткая экскурсия по системе STATISTICA Смысл этих гистограмм следующий: опрошенные женщины разбиты на две группы (категории): женщины из полной семьи и женщины из неполной семьи. Обычная гистограмма для этих переменных выглядит следующим образом: Гисгограмма (women 1.S ТА 1№*10с) ] j в г : 5 f j ! 4 к ||, ! ^ 1 Низкая Высокая ТРЕВОГА Здесь ясно видно, в чем состоит отличие категоризованных гистограмм от обычных. На обычной гистограмме количество женщин с высокой и низкой тревожностью одинаково. На категоризованной гистограмме количество женщин с высоким уровнем тревожности в неполных семьях выше, чем в полных. Уровень тревожности женщин в полных семьях ниже, чем уровень тревожности в неполных семьях. Продолжение примера Рассмотрим файл данных women2.sta. Для градации значений переменных мы использовали более реалистичные шкалы: одинокая женщина, неполная семья, полная семья. Шкала тревожности женщины: низкая, умеренная, высокая. Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. В появившемся меню сделайте выбор: Стартовая панель. Выберите Таблицы и заголовки и нажмите кнопку ОК. Шаг 2. В строке Анализ выберите Таблицы сопряженности (возможен вариант Таблицы флагов и заголовков).
Графический анализ таблиц сопряженности 101 Далее нажмите кнопку Задать таблицы. В появившемся окне выберите переменные, которые будут табулированы в таблице (подробности см. выше). В данном случае необходимо табулировать значения переменных СЕМ__ПОЛ и ТРЕВОГА. Нажмите кнопку Коды и выберите коды (значения) табулируемых качественных признаков. В этом примере количество значений переменных увеличилось, так как используется более точная шкала измерения. Если вы хотите, чтобы табулировались все значения переменных, нажмите кнопку Выбрать все в правом нижнем углу. с£м_по л РИННШ 1Р£В0ГА:|'*Ниэ*«Г - "Высокая" "Умерен" Тй»11.ммй;ч- сие \Ъ*6рть wf\ Заметьте, что вообще можно выбрать любой набор кодов. Коды переменных можно просмотреть, нажав кнопку Инф. Например, переменная СЕМ_ПОЛ принимает следующие значения: ' (н*т длинного им*ин| : ;0лмс«нмым |.| N- % 10 ••>•< t •:. Г Й : Ст откл •0,78881063774682 щ Шаг 3. Нажмите Enter на клавиатуре или кнопку ОК в верхнем правом углу диалогового окна. STATISTICA произведет вычисления, табулирует данные и предложит результат в окне Результаты кросстабуляцш (см. рисунок).
102 Глава 1. Краткая экскурсия по системе STATISTICA онвивлз швш -*<& ftTxl 81 г!<<Щш'|Гд11^<1 fc^l'jg^J^? *«-'*VLj<^^*%"^ F;jai^iwmii>CTd<>6t|^t:v, fpj»^iiiNiiti^gacyiii» Wygr J Г x 34 fMCVQf fMMMM '' Шаг 4. В окне Результаты кросстабуляции нажмите кнопку Просмотреть итоговые таблицы. На экране появится таблица: Шаг 5. Нажмите кнопку Далее в верхнем углу таблицы, и вы вернетесь в окно результатов. В диалоговом окне Результаты кросстабуляции нажмите кнопку Ка- тегоризованные гистограммы. |Г|ГраФикЗ: Категориз гистограмма С1МП0Л к ТРЕВОГА BIRD Кат«х>ри).тстофа«им: СЕМ_П0Л х ТРЕВОГА IWOOtOH Г сем_пол сипов» Смысл гистограмм заключается в следующем: женщины разбиты на 3 группы или категории: женщины из полной семьи, женщины из неполной семьи, одинокие женщины (ср. с предыдущим примером). Для каждой группы построена отдель-
Графический анализ таблиц сопряженности 103 пая гистограмма, и все эти гистограммы собраны вместе на одном графике, что позволяет визуально сравнить группы. Шаг 6. В диалоговом окне Результаты кросстабуляции нажмите кнопку ЗМ гистограммы. На экране появится трехмерная гистограмма. Смысл этой гистограммы следующий: составляются всевозможные комбинации значений двух переменных: семейное положение и уровень тревожности, и под- считывается, сколько раз встречалась каждая комбинация. Трехмерная гистограмма очень наглядно воспроизводит таблицу кросстабуляции. Вы положили таблицу на плоскость и в каждую клетку поставили по столбцу, высота которого равна количеству наблюдений в клетке таблицы. Если вас не устраивает ракурс построенной трехмерной гистограммы, можно его изменить, воспользовавшись средствами системы. STATISTICA предлагает удивительный инструмент работы с графиками. Например, их можно повернуть. Нажмите кнопку Вращение, расположенную на панели инструментов. На экране появится окно, в котором можно провести вращение и подобрать нужную перспективу. Для вращения графика используйте линейку прокрутки. Немного поэкспериментируйте с ней. Сначала, например, с помощью мыши сдвиньте курсор прокрутки в крайне левое положение. Вы увидите следующую картинку:
104 Глава 1. Краткая экскурсия по системе SWISTICA 11ЧЭ5Э1 ок .гош—гЪД J E±Jtf Сдвиньте теперь курсор прокрутки правее: ерслектинл и праще Каждый раз, когда сдвигается курсор, происходит поворот графика. Выберите тот вариант, который вас устраивает. Нажмите кнопку ОК. Нужный график появится на экране. Шаг 7. Построение графиков взаимодействий частот. В окне Результаты кросс- табуляции нажмите кнопку Графики взаимодействий частот. На экране появится график взаимодействий: П f p,i<* 35 30 2.5 2.0 ! м 05 00 -0 5 мкЬ 1 р.хрия нз<«имод (Л M III Графм маимод.: СЕМ_П0Л х °> о. / у^<^_ Нинам BwcctM ТРЕВОГА )Л х I PL ВША ТРЕВОГА Ь VWptH СВ*_П0Л П.стя сви.пол Н_С«МкЯ сви.поп Одиноия Смысл этого графика простой: он показывает, как взаимодействуют или как связаны между собой частоты наблюдений из разных групп. Все построенные графики показывают, что женщины из разных семей различаются по уровню тревожности. Является ли это различие значимым, показывают статистические тесты.
2 Элементарные понятия анализа данных В этой главе предлагается краткое обсуждение элементарных статистических понятий, лежащих в основе процедур в любой области статистического анализа данных. Выбранные нами темы иллюстрируют основные допущения, принимаемые в большинстве статистических методов для описания «численной природы» действительности, а изложение ведется на языке, доступном для широкого круга читателей. Мы начнем с самых простых, интуитивно ясных понятий и рассмотрим связи между ними, фактически представим описание языка, на котором говорят при проведении анализа данных. Что такое переменная? Переменная (английский термин variable) — это то, что можно измерять, контролировать или чем можно манипулировать в исследованиях. Иными словами, переменная — это то, что варьируется, изменяется, а не является постоянным (от английского корня var). Например, измеряя давление или содержание лейкоцитов в крови, вы получаете различные значения у разных пациентов или значения для одного и того же пациента в разное время суток. Измеряя уровень осадков, получаете различные значения в разные дни недели, а также различные значения в одни и те же дни в разных точках географической карты. Другие примеры переменных из разных областей: анкетные данные, систолическое давление пациентов, количество лейкоцитов в крови, цена акций, товаров, услуг, потребление, инвестиции, доход, государственные закупки товаров и услуг, инструмент государственного регулирования (в экономике); рейтинг программ, доля зрителей, количество посещений сайта (в рекламе); скорость, температура, объем, масса в (физике) и т. д. Очевидно, что это очень разные по своим свойствам переменные, и поэтому можно сказать, что переменные отличаются характеристиками, в частности, той ролью, которую они играют в исследованиях, типом измерений и т. д. Простейшие описательные статистики Так как значения переменных не постоянны, нужно научиться описывать их изменчивость.
106 Глава 2. Элементарные понятия анализа данных Для этого придуманы описательные или дескриптивные статистики: минимум, максимум, среднее, дисперсия, стандартное отклонение, медиана, квартили, мода и т. д. Идея этих статистик очень проста: вместо того чтобы рассматривать все значения переменной, а их может быть очень много (тысячи и миллионы), вначале стоит просмотреть описательные статистики. Они дают общее представление о значениях, которые принимает переменная. Минимум и максимум — это минимальное и максимальное значения переменной. Среднее — сумма значений переменной, деленная на п (число значений переменной). Дисперсия (от английского variance) и стандартное отклонение (от английского standard deviation) — наиболее часто используемые меры изменчивости переменной. Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны. Стандартное отклонение вычисляется как корень квадратный из дисперсии. Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего. Часто стандартное отклонение — более удобная характеристика, так как измерена в тех же единицах, что исходная величина. Медиана разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина — выше. Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр. В некоторых случаях, например при описании доходов населения, медиана более удобна, чем среднее. Квартили представляют собой значения, которые делят две половины выборки (разбитые медианой) еще раз пополам. Таким образом, медиана и квартили делят диапазон значений переменной на четыре равные части. Различают верхнюю квартиль, которая больше медианы и делит пополам верхнюю часть выборки (значения переменной больше медианы), и нижнюю квартиль, которая меньше медианы и делит пополам нижнюю часть выборки. Нижнюю квартиль часто обозначают символом 25%, это означает, что 25% значений переменной меньше нижней квартили. Верхнюю квартиль часто обозначают символом 75%, это означает, что 75% значений переменной меньше верхней квартили. Мода представляет собой максимально часто встречающееся значение переменной (иными словами, наиболее «модное» значение переменной), например популярная передача на телевидении, модный цвет платья или марка автомобиля и т. д. С описательными статистиками связаны статистические графики, например приведенный ниже график наглядно показывает, как распределены значения переменной (подробнее см. главу Визуальный анализ данных): Взгляните на график. На графике приведены описательные статистики для переменной Уровень осад- ков. Хорошо видно, как распределены значения переменной: от минимального уровня A6 дюймов) до максимального уровня C9 дюймов). Половина значений переменной лежит ниже 27,5 дюйма, то есть в половине всех наблюдаемых месяцев уровень осадков был меньше 27,5 дюйма. Половина
Свойства описательных статистик 107 значений осадков лежит выше 27,5 дюйма, соответствуя тому, что в половине наблюдаемых месяцев уровень осадков был выше 27,5 дюйма. Осадки (■ дюймах \ ВВННННОШШ: А4? 40 38 36 34 32 30 28 26 24 22 20 18 16 14 о _1_ Макс. «39 Мин. «16 ПЗ 76% «33.6 26%-21.5 ° Медиана «27.5 j Свойства описательных статистик Введем формально определения простейших описательных статистик. Среднее. Пусть имеется переменная X, тогда оценка среднего, или выборочное среднее, вычисляется как среднее арифметическое наблюдаемых значений. Выборочное среднее обычно обозначается X и читается «X с чертой». Формально имеем: — 1 п х = -£х,. Выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0. Формально это записывается следующим образом: Е(х-х,.) = о Упражнение: используя определение среднего, убедитесь, что данное свойство действительно имеет место, то есть сумма отклонений наблюдаемых значений от среднего арифметического действительно равна 0. Выборочное среднее — единственная точка, которая обладает данным свойством, и это выделяет ее среди всех других. Кроме того, выборочное среднее обладает еще одним замечательным свойством: сумма квадратов расстояний между наблюдаемыми значениями и их средним арифметическим является минимальным. Если вместо среднего арифметического взять любую другую величину, то сумма квадратов расстояний между наблюдаемыми значениями и этой величиной будет только больше, но никак не меньше. Дисперсия. Выборочная дисперсия переменной X (термин впервые введен Фишером, в 1918 г.) вычисляется по формуле
108 Глава 2. Элементарные понятия анализа данных n-lfif Обратите внимание на коэффициент в данной формуле, он равен п - 1, такая оценка дисперсии является несмещенной (математическое ожидание несмещенной оценки равно в точности значению оцениваемого параметра). Стандартное отклонение равно корню квадратному из выборочной дисперсии. Формально имеем: Медиана выборки (термин был впервые введен Гальтоном, в 1882 г.) — значение, которое разбивает выборку на две равные части. Половина наблюдений лежит ниже медианы, и половина наблюдений лежит выше медианы. Наблюдения упорядочивается по возрастанию: Х0)< ХB)< ... < X(w). Полученная последовательность Х0) называется вариационным рядом, а ее элементы — порядковыми статистиками. Если число наблюдений нечетно п = 2т + 1, то медиана оценивается как X(m): med = Х(т). Если число наблюдений четно п = 2т, то в качестве оценки медианы берется величина (X(m) + X(m+1))/2. Медиана обладает следующим замечательным свойством: сумма абсолютных расстояний между точками выборки и медианой минимальна. С вариационным рядом связано много важных статистик, например, спейсинги, представляющие собой расстояния между соседними порядковыми статистиками. Квантиль (термин был впервые использован Кендаллом в 1940 г.) выборки представляет собой число хру ниже которого находится р-я часть (доли) выборки. Например, квантиль 0,25 для некоторой переменной — это такое значение (хр), ниже которого находится 25% значений переменной. Аналогично квантиль 0,75 — это такое значение, ниже которого попадают 75% значений выборки. Формально р-квантиль непрерывного распределения F определяется как корень уравнения F(x) =p, 0<р< 1. Квартили. Нижняя и верхняя квартили, от слова кварта — четверть (термин впервые использовал Гальтон в 1882 г.), равны соответственно 25-й и 75-й процен- тилям распределения. 25-я процентиль переменной — это значение, ниже которого располагаются 25% значений переменной. Аналогично, 75-я процентиль равна значению, ниже которого расположено 75% значений переменной. Итак, 3 точки — нижняя квартиль, медиана и верхняя квартиль — делят выборку на 4 равные части. У4 наблюдений лежит между минимальным значением и нижней квартилью, У4 — между нижней квартилью и медианой, У4 — между медианой и верхней квартилью, у4 — между верхней квартилью и максимальным значением выборки. Квартальный размах. Квартальный размах переменных (термин был впервые использован Галтоном в 1882 г.) равен разности значений 75-й процентили
Свойства описательных статистик 109 и 25-й процентили. Таким образом, это интервал, содержащий медиану, в который попадает 50% наблюдений. Мода. Мода (термин был впервые введен Пирсоном в 1894 г.) — это наиболее часто встречающееся (наиболее модное) значение переменной. Мода хорошо описывает, например, типичную реакцию водителей на сигнал светофора о прекращении движения. Классический пример использования моды — выбор размера выпускаемой партии обуви или цвета обоев. Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»). Мультимодальность распределения дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-то, то мультимодальность может означать, что существуют несколько определенно различных мнений. Мультимодальность также служит индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более «наложенными» распределениями. Асимметрия. Асимметрия, или коэффициент асимметрии (термин введен Пирсоном в 1895 г.), является мерой несимметричности распределения. Если этот коэффициент значительно отличается от 0, распределение является асимметричным (несимметричным). Формально имеем: -±(ХГХK g - п% 51 - 3 Г \ jl Пг \-l(xrxf\ |_"м J Эксцесс. Эксцесс, или коэффициент эксцесса (термин впервые введен Пирсоном в 1905 г.) измеряет остроту пика распределения. Оценка эксцесса, или выборочный эксцесс, вычисляется по формуле: -S(x.-xL b2=YILjl1 7, |-£(Х,.-ХJ| гдеХ = 1у X,.. Асимметрия и эксцесс полезны для проверки нормальности данных. Нормальное распределение симметрично, следовательно, коэффициент асимметрии равен 0. Эксцесс нормального распределения также равен 0, поэтому по отклонениям выборочного эксцесса и асимметрии от 0 можно судить о близости распределения наблюдаемой переменной к нормальному. Известно, что распределение с более острой вершиной, чем нормальное, в типичных случаях имеет положительный эксцесс, а с более закругленной - отрицательный.
110 Глава 2. Элементарные понятия анализа данных Шкалы измерений Переменные различаются тем, «насколько хорошо» они могут быть измерены, или, другими словами, как много измеряемой информации обеспечивает шкала их измерений, поскольку в каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации», которую можно получить в данном измерении. Другим фактором, определяющим количество информации, содержащейся в переменной, конечно, является тип шкалы, в которой проведено измерение. Вы можете считать, что шкала — это просто линейка: очень грубая, менее грубая, точная. Обычно используют следующие типы шкал измерений: (а) номинальная, (Ь) порядковая (ординальная)', (с) интервальная, (d) относительная {шкала отношения). Соответственно имеются четыре типа переменных: (а) номинальная, (Ь) порядковая (ординальная), (с) интервальная и (d) относительная. (a) Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым существенно различным классам, при этом вы не сможете определить количество или упорядочить эти классы. Типичными примерами номинальных переменных являются фирма-произ- • водитель, тип товара, признак (болен — здоров) и т. д. Часто номинальные переменные называются категориальными. Близкими к ним являются кате- горизованные переменные, то есть переменные, искусственно превращенные в категориальные (см. ниже). (b) Порядковые переменные позволяют ранжировать (упорядочить) объекты, если указано, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют определить «на сколько больше» или «на сколько меньше» данного качества содержится в переменной. Порядковые переменные иногда также называют ординальными. Типичный пример — социоэкрномический статус семьи. Мы понимаем, что верхний средний уровень выше среднего уровня, однако сказать, что разница между ними равна, допустим, 18%, мы не можем. Само расположение шкал в порядке возрастания их информативности — номинальная, порядковая, интервальная — является хорошим примером порядковой переменной. Например, можно сказать, что измерения в номинальной шкале предоставляют меньше информации, чем в порядковой шкале, а в порядковой — меньше, чем в интервальной. Однако невозможно придать термину «меньше» точный количественный смысл или сравнить между собой эти различия. Другой пример порядковой переменной — это интенсивность использования определенного цвета в картине художника. Категориальные и порядковые переменные особенно часто возникают при анкетировании, так как естественно отражают характер мышления человека. Например, измерение интенсивности посещения ресторанов можно проводить в следующей шкале: не посещаю, посещаю редко, посещаю, посещаю часто. Как легко понять, категориальные и порядковые шкалы часто используются для описания качественных признаков. (c) Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выражать и сравнивать различия между ними.
Какие статистики выбирать? 111 Такого рода переменные часто возникают в естественных науках, при снятии показателей с физических приборов, в медицине и т. д. Например, температура, измеренная в градусах по Фаренгейту или Цельсию, образует интервальную шкалу. Вы можете не только сказать, что температура 40 градусов выше, чем температура 30 градусов, но и то, что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов, (d) Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля, таким образом, для этих переменных являются обоснованными утверждения типа: х в два раза больше, чем у. Например, температура по Кельвину образует шкалу отношения, и вы можете не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и то, что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Однако в большинстве статистических процедур не делается тонкого различия между свойствами интервальных шкал и шкал отношения. Заметим, что всегда можно перейти от более богатой шкалы к менее богатой. Так, непрерывные переменные можно искусственно превратить в категориальные, то есть категоризовать. Например, непрерывная переменная «рост человека в сантиметрах» может быть превращена в порядковую переменную с градациями: низкий, средний, высокий или очень низкий; низкий, средний, высокий, высокий*; или очень низкий, средне-низкий, низкий, средний, высокий, очень высокий; для размера одежды используют следующую порядковую шкалу: S, M, L, XL, XXL, XXXL, XXXXL и т. д. Категоризованные данные часто представляют в виде частот наблюдений, попавших в определенные категории или классы. Для описания категориальных переменных полезной оказывается мода. В реальной жизни, например при проведении массовых опросов, мы имеем все типы переменных, представленных в одном исследовании. Какие статистики выбирать? Среднее и медиана оценивают положение центра выборки, вокруг которого группируются значения переменной. Среднее обладает рядом замечательных свойств. Однако эта оценка чувствительна к выбросам, которые вносят в нее сдвиг. Чтобы избежать сдвига, иногда используют взвешенное среднее (каждому значению переменной приписывают определенный вес в соответствии с его важностью, а затем для взвешенных наблюдений вычисляется обычное среднее). Медиана является средней точкой вариационного ряда, поэтому она не так чувствительна к выбросам. В официальной статистике США именно медиана используется в качестве оценки центральной точки доходов населения. Если распределение несимметрично (сдвинуто влево или вправо), то медиана и межквартильный размах могут дать больше информации о том, в какой области концентрируются наблюдения.
112 Глава 2. Элементарные понятия анализа данных Если медиана меньше среднего, то распределение сдвинуто вправо. Если медиана больше среднего, то распределение сдвинуто влево. Обычно имеется следующая схема выбора (при условии, что распределение имеет одну моду). Если данные категоризованы, то используйте моду. Если не все имеющиеся значения переменной представляют интерес, распределение несимметрично и имеются выбросы, используйте медиану. В противном случае работайте со средним. Распределение переменной Самый простой вопрос, который естественно задать, анализируя значения переменной, — какова вероятность того, что переменная примет данное значение или значение из данного интервала. Иными словами, мы интересуемся тем, как распределены значения переменной. Например, оценивается вероятность того, что брошенная монета выпадет гербом, вероятность того, что пациент проживет дольше определенного времени, или вероятность того, что доля дефектных изделий в партии меньше 95%. Описательные статистики дают общую информацию о распределении переменной. Например, медиана отражает то, что с вероятностью 0,5 значение переменной будет больше данного значения или, наоборот, меньше этого значения. Полный ответ дает функция распределения. Пусть X — некоторая переменная, принимающая значения на прямой. Тогда функция распределения этой переменной, обозначаемая F(x), есть вероятность того, что Х<х. Для описания реальных явлений статистиками используются различные распределения: нормальное, Стьюдента, хи-квадрат, Коши, биномиальное, отрицательное биномиальное и др. Распределения вероятностей, возникающие на практике, подробно описываются в отдельной главе. Зависимости между переменными Независимо от типа две или более переменных связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Другими словами, мы говорим, что переменные зависимы, если их значения каким-то образом согласованы друг с другом в имеющихся наблюдениях. Заметьте, мы не определяем, как именно происходит это согласование, возможно, его вовсе нельзя записать в явном виде. Например, переменные Пол и WCC (число лейкоцитов) могли бы рассматриваться как зависимые, если бы большинство мужчин имело высокий уровень WCC, а большинство женщин — низкий WCC, или наоборот. Итак, если бы у мужчин число лейкоцитов в крови было бы больше, чем у женщин, то можно сделать вывод: категориальная переменная Пол связана с переменной Число лейкоцитов. Если вы измеряете температуру человека сверхточными датчиками, то регистрируемые значения зависят от точки, в которой проводится измерение. Рост человека очевидно связан с Весом, потому что обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с Количеством ошибок в тесте, так как люди с высоким значением IQ, как правило, делают меньше ошибок, и т. д.
Исследование связей между наблюдаемыми переменными 113 Другими типичными примерами связей являются: зависимость между объемом винчестера и его ценой. Если вы рассмотрите предложения в Интернете, то увидите, что логарифмическая зависимость хорошо описывает связь цена — объем для винчестеров, зависимость между длиной диагонали монитора и ценой монитора, зависимость между зерном и длиной диагонали экрана. В том же ряду находятся: зависимость между количеством транспортных средств и количеством аварий в городе, зависимость между эластичностью спроса и доходов, числом преступлений против собственности и душевым доходом, зависимость между количеством рассылок по почте и посещений сайта и т. д. Более экзотическим примером является зависимость рождаемости от дня недели. Исследования зависимости между парой переменных, естественно, распространяется на исследование зависимостей между переменной и списком переменных, между двумя или несколькими множествами переменных и т. д. (цена монитора зависит от фирмы-производителя, от диагонали, зерна, развертки, разрешения и других параметров). Исследование связей между наблюдаемыми переменными в сравнении с экспериментальными исследованиями Большинство эмпирических исследований данных можно отнести к одному из двух типов: либо это сбор данных и оценка связей между ними, либо прямой эксперимент, в котором фиксируются некоторые воздействия на объект исследования и регистрируется отклик. В первом случае вы не влияете (или, по крайней мере, пытаетесь не влиять) на какие-либо переменные, а только собираете их значения и хотите найти зависимости (корреляции) между некоторыми измеренными переменными, например между кровяным давлением и уровнем холестерина. Типичный пример здесь — космическая съемка больших участков Земли и попытка оценить или спрогнозировать урожайность (см., например, сайт американского госдепартамента с данными о сельхозпродукции http://www.nass.usda.gov/census/). В экспериментальных исследованиях вы непосредственно и целенаправленно варьируете некоторые переменные и измеряете воздействия этих изменений на объект. Например, можете искусственно увеличить кровяное давление, а затем измерить уровень холестерина и проделать это несколько раз на ряде объектов. В исследованиях зависимости спроса на товар от рекламы вы можете активно менять свою рекламную политику, но такая возможность отсутствует при исследовании большинства экономических данных в маркетинговых исследованиях, где вы просто собираете данные, а затем находите связи между ними (типичный пример — оценка доходов телевизионных компаний). Анализ данных в экспериментальном исследовании также приходит к вычислению «корреляций» между переменными, а именно между переменными, на которые воздействуют, и теми переменными, на которые влияет воздействие. Тем не менее экспериментальные данные потенциально снабжают исследователей более качественной информацией.
114 Глава 2. Элементарные понятия анализа данных Корреляции Ключевым понятием, описывающим связи между переменными, является корреляция (от английского correlation — согласование, связь, взаимосвязь, соотношение, взаимозависимость); термин впервые введен Гальтоном (Galton) в 1888 г. Корреляция между парой переменных (парная корреляция). Если имеется пара переменных, тогда корреляция между ними — это мера связи (зависимости) именно между этими переменными. Например, известно, что ежегодные расходы на рекламу в США очень тесно коррелируют с валовым внутренним продуктом, коэффициент корреляции между этими величинами (с 1956 по 1977 г.) равен 0,9699. Число посещений сайта торговой компании тесно связано с объемами продаж и т. д. Также тесно коррелировано число хостов и число хитов на сайте (см. графики ниже). Тесно связаны между собой такие, например, переменные, как температура воздуха и объем продажи пива, среднемесячная температура в данном месте текущего и предыдущего года, расходы на рекламу за предыдущий месяц и объем торговли в текущем месяце и т. д. еннмх (рядов) щвшашяшшшаж График выбранных переменных (рядов) i500 J3U 300 250 200 £ 150 х 100 50 0 50 hi**»— ±№t ■ 1 ■ Lj яжШ№ _, . , ._ Libl!1 ' ЧЩк: . 400 300 200 £ 100 о 50 100 150 200 250 300 350 Номера наблюдений HOST (Л) - - - HITS (П) ■100 Itll'N-HIUlllW" Диет рамма рассеяния (S1TE.STA fcV4Mc) y--1.72*0.001 *x*ep* 350 300 250 200 * 150 [ О X 100 50 0 -50 I Корреляция между хостами и хит «ми - 0.97 150 250 HITS
Корреляции 115 Корреляция между парой переменных называется парной корреляцией. Статистики предпочитают говорить о коэффициенте парной корреляции, который изменяется в пределах от -1 до +1. В зависимости от типа шкалы, в которой измерены переменные, используют различные виды коэффициентов корреляции. Если исследуется зависимость между двумя переменными, измеренными в интервальной шкале, наиболее подходящим коэффициентом будет коэффициент корреляции Пирсона г (Pearson, 1896), называемый также линейной корреляцией, так как он отражает степень линейных связей между переменными. Эта корреляция наиболее популярна, поэтому часто, когда говорят о корреляции, имеют в виду именно корреляцию Пирсона. Итак, коэффициент парной корреляции изменяется в пределах от -1 до +1. Крайние значения имеют особенный смысл. Значение -1 означает полную отрицательную зависимость, значение +1 означает полную положительную зависимость, иными словами, между наблюдаемыми переменными имеется точная линейная зависимость с отрицательным или положительным коэффициентом. Значение 0,00 интерпретируется как отсутствие корреляции. Корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу. Это можно проследить, анализируя графики (см. ниже). На графике в левом верхнем углу значения парного коэффициента корреляции равны 0,0, на графике в правом верхнем углу коэффициент корреляции постепенно увеличивается и становится равным 0,3. На нижних графиках коэффициент корреляции увеличивается и становится равным 0,6 и 0,9. Обратите внимание на то, как меняется наклон прямой линии и как группируются точки вокруг этой прямой. ншшешипязшш MEASURE3vt. MEASURE4 103 i . г . ! 102 101 100 MEASURE3 Заметьте, что чем ближе коэффициент корреляции к крайнему значению 1, тем теснее группируются данные вокруг прямой. Та же картина наблюдалась бы и при
116 Глава 2. Элементарные понятия анализа данных отрицательных значениях корреляции, только наклон прямой, вокруг которой группируются значения переменных, был бы отрицательным. При значении коэффициента корреляции, равном ±1, точки точно легли бы на прямую линию, а это означает, что между данными имеется точная линейная зависимость. Внимательно посмотрите на эти графики. Корреляция — важное понятие, постарайтесь привыкнуть к нему и научиться визуально определять по расположению данных, насколько тесно они коррелированы. Говорят, что две переменные положительно коррелированы, если при увеличении значений одной переменной увеличиваются значения другой переменной. Две переменные отрицательно коррелированны, если при увеличении одной переменной другая переменная уменьшается (см. рисунки выше). Говорят, что корреляция высокая, если на графике зависимость между переменными можно с большой точностью представить прямой линией (с положительным или отрицательным наклоном). Если коэффициент корреляции равен 0, то отсутствует отчетливая тенденция в совместном поведении двух переменных, точки располагаются хаотически вокруг прямой линии (см. график в левом верхнем углу). Важно, что коэффициент корреляции — безразмерная величина и не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же независимо от того, проводились ли измерения в дюймах и футах или в сантиметрах и килограммах. Проведенная прямая (см. графики), вокруг которой группируются значения переменных, называется прямой регрессии, или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленная по оси Y) от наблюдаемых точек до прямой действительно является минимальной из всех возможных. Формально коэффициент корреляции г12 Пирсона между переменными Yp Y2 вычисляется следующим образом: ra =r(Y„Y2) = -Hp = — JJCYu-Y^xCYa-Y,)'' V Ып где Yt — среднее переменной Yt, Y2 — среднее переменной Y2. Если переменные измерены в интервальной шкале, то используются ранговые корреляции, которые будут рассмотрены ниже. Для анализа зависимостей категориальных переменных обычно используют таблицы сопряженности и соответствующие статистики, например хи-квадрат, V-квадрату точный критерий Фишера, статистика фи-квадрат (альтернатива корреляции) и др. Если требуется измерить связи между списками переменных, используются следующие типы корреляции: О множественная корреляции: измерение зависимости между одной переменной и несколькими переменными;
Корреляции 117 О каноническая корреляция: измерение зависимостей между двумя множества - ми переменных; О частные корреляции. Если вычисляется корреляция между значениями одной переменной, сдвинутыми на некоторый лаг, то говорят об автокорреляции. Ранговые корреляции. Ранговые корреляции основаны на рангах, которые соответствуют номеру наблюдения в вариационном ряде. Если ваши данные ранжированы, то вы можете воспользоваться ранговыми корреляциями. Формально ранговый коэффициент корреляции Спирмена между переменными Yp Y2 вычисляется следующим образом: £(R,-R)(S,-S) ТУ _ \=П R|2" ~П Z Г" • X(R,-RJE(S,-SJ V i=n где R, — ранг наблюдения Ylb S, — ранг наблюдения Y2j. Сравнив эту формулу с формулой корреляции Пирсона, приведенной выше, вы быстро поймете, что корреляция Спирмена является прямым аналогом корреляции Пирсона. Заменив в формуле Пирсона наблюдения рангами, вы получите корреляцию Спирмена. Большие значения рангового коэффициента корреляции свидетельствуют против гипотезы о независимости переменных Yh Y2. Частные корреляции. При исследовании «взаимозависимостей» переменных часто возникают следующие трудности: если одна величина коррелирована с другой, то это может быть всего лишь отражением того факта, что обе эти величины коррелированы с некоторой третьей величиной или с совокупностью величин, которые, грубо говоря, остаются за кадром и не введены в исследование. Указанная ситуация приводит к рассмотрению условных корреляций между двумя величинами при фиксированныхзначениях остальных величин. Это так называемые частные корреляции. Если корреляция между двумя величинами уменьшается, когда мы фиксируем некоторую третью случайную величину, то это означает, что взаимозависимость исходных величин возникает частично под воздействием этой величины; если же частная корреляция равна нулю или очень мала, то мы делаем вывод, что их взаимозависимость целиком обусловлена собственным воздействием и никак не связана с новой величиной. Наоборот, если частная корреляция больше первоначальной корреляции между двумя величинами, то мы заключаем, что третья величина ослабила исходную связь. Еще одна тонкость состоит в том, что следует помнить — корреляция не есть причинность. Иными словами, установив корреляцию двух величин, мы не имеем права безапелляционно говорить о наличии причинной связи между ними: некоторая совершенно отличная от рассматриваемых в анализе величина может быть источником этой корреляции. Как при обычной корреляции, так и при частных
118 Глава 2. Элементарные понятия анализа данных корреляциях предположение о причинности должно всегда иметь также собственные основания, иными словами, соответствовать природе вещей. Эти интуитивно ясные представления полезно иметь в виду при интерпретации частных корреляций. Рассмотрим вначале тройку переменных Yb Y2, Y3. Формально коэффициент частной корреляции г12.3 между переменными Yb Y2 в предположении, что переменная Y3 фиксирована, имеет вид: г _ Г12 ~ Г13Г23 V * ~ Г13 V* ~ Г23 аналогично коэффициент частной корреляции г13.2 между переменными Yp Y3 в предположении, что переменная Y2 фиксирована, имеет вид: г _ Г13 ~ Г12Г23 VI ~ Г12 V1 ~ Г23 и коэффициент частной корреляции г231 между переменными Y2, Y3 в предположении, что переменная Yt фиксирована, имеет вид: г _ Г23 ~ Г12Г13 23,1" ТГ^ТГ7^ Заметьте, эти формулы вполне симметричные, точкой отделяются переменные, значения которых фиксированы. Множественная корреляция. Лучше всего понять множественную корреляцию, а также частные корреляции, с точки зрения регрессии, где они возникают естественно из самого существа задачи и обобщаются на любое число переменных. Рассмотрим вначале три переменные: переменную Y и переменные Хь Х2. Переменную Y будем называть зависимой, переменные Xt, X2 независимыми. Предположим, что между Y и Xt, X2 имеется линейная зависимость вида: У: =P0+P1X1|. + P2X2j+eJ., г = 1,...,я(*), где е, — независимые случайные ошибки с нулевым средним, РРР2,Р3 —неизвестные параметры. Хорошо известно, что в широких предположениях оптимальными оценками неизвестных параметров в уравнении (*) являются оценки метода наименьших квадратов (мнк-оценки). Обозначим мнк-оценки через Р0, рр Р2. Эти оценки замечательны тем, что сумма квадратов расстояний между наблюдениями Yj и плоскостью (*) минимальна. Формально подставив мнк-оценки в (*) получаем значения Yn г = 1,...,п . Теперь коэффициент множественной корреляции между Y и Xt, X2 можно определить как обычный коэффициент корреляции Пирсона между Y и Y . Заметим, что квадрат коэффициента множественной корреляции называется коэффициентом множественной детерминации и показывает, какая доля вариации (изменчивости, вариабельности) переменной Y объясняется с помощью линейной зависимости Y и Xt, X2. Формально для коэффициента детерминации имеем:
Корреляции 119 г2 _ /=1 rYY i=i Это определение легко обобщается на любое число переменных. Частные корреляции с точки зрения линейной регрессии. Продолжим наши рассуждения и покажем, как вычислить частные корреляции исходя из уравнения регрессии. Пусть нужно, например, вычислить частную корреляцию между Y и Xi. Идея проста — очевидно, на эту связь влияет переменная Х2. Следовательно, это влияние нужно устранить, для этого вначале находим линейную регрессию Y на Х2, затем находим регрессию Xt на Х2. Формально имеем: i^.=p01+p02x2l., i = i я XU =PlO + Pl2*2i» « = 1,---,Я Теперь рассмотрим остатки {Yi -У{)у(Хи - Хи), г = 1,...,я. В соответствии с общей идеей частная корреляция между Y и Xi есть обычная парная корреляция Пирсона между переменными (У - Y),(Xt - Х{). Эти рассуждения легко распространяются на любое число переменных. Нелинейные зависимости между переменными. Корреляция Пирсона г хорошо подходит для описания линейной зависимости. Отклонения от линейности увеличивают общую сумму квадратов расстояний от регрессионной прямой, даже если она представляет «истинные» и очень тесные зависимости между переменными. Поэтому хорошим тоном после вычисления корреляций является построение диаграмм рассеяния, которые позволяют понять, действительно ли между двумя исследуемыми переменными имеется связь. Например, показанная ниже высокая корреляция плохо описывается линейной функцией. ниша иш MEASURE1 v* MEASURE2 (Построч уд*л»«« ПД) MEASURE2 - 37 474 . J23S4 • MEASURE1 Копил*** г "-3194
120 Глава 2. Элементарные понятия анализа данных Однако, как видно на графике ниже, полином пятого порядка достаточно хорошо описывает зависимость. шшшштвшшшшшшшшшшшшшшшшшзшщ Диаграмма рассей» (RAMMX STA 7п«478м) у-10 0150 111 *х»0 299*х*2-0 049*x»3»0 0О2*х«4.2 284e-5,x«6*eps j 46 40 34 22 10 • 5 0 5 Ю 15 ГО 2$ 30 36 40 MIASURC1 Ложные корреляции. Нужно иметь в виду, что на свете существуют ложные корреляции, и это нарушает идиллическую картину корреляционного анализа. Другими словами, если вы нашли переменные с высокими значениями коэффициентов корреляции, то отсюда еще не следует, что между ними действительно существует причинная связь; нужна уверенность, что на исследуемые переменные не влияют другие переменные. Лучше всего понять ложные корреляции на следующем шутливом примере. Известно, что существует корреляция между ущербом, причиненным пожаром, и числом пожарных, тушивших его. Однако эта корреляция ничего не говорит о том, насколько уменьшатся потери, если будет вызвано меньшее число пожарных. Задумавшись над полученным результатом, вы будете искать и найдете причину высокой корреляции: причина состоит в том, что имеется третья переменная (величина пожара), которая влияет как на причиненный ущерб, так и на число вызванных пожарных. Если вы будете «контролировать» эту переменную (например, рассматривать только пожары определенной величины), то исходная корреляция (между ущербом и числом пожарных) либо исчезнет, либо, возможно, даже изменит свой знак. В реальной жизни проводить такие рассуждения и находить «причинные» переменные, конечно, гораздо сложнее. Основная проблема ложной корреляции состоит в том, что вы не знаете, чем она вызвана или, фигурально выражаясь, кто является ее агентом. Тем не менее, если вы знаете, где искать, то можно воспользоваться частными корреляциями, чтобы контролировать (частично исключенное) влияние определенных переменных. Почему зависимости между переменными являются важными Вообще говоря, цель всякого исследования или научного анализа состоит в нахождении связей (зависимостей) между измеряемыми переменными. Далее почти не проводится различия между терминами «связь» и «зависимость», и во многих
Зависимые и независимые переменные 121 ситуациях они рассматриваются как синонимы, хотя поклонники строгих определений, возможно, усмотрят в этом вольность. Заметим, что не существует иного способа представления знания, кроме как в терминах зависимостей между количествами или качествами. Таким образом, развитие знаний всегда заключается в нахождении новых зависимостей между переменными. Исследование корреляций по существу состоит в измерении таких зависимостей непосредственным образом. Тем не менее экспериментальное исследование не является в этом смысле чем-то отличным. Например, отмеченное экспериментальное сравнение WCC у мужчин и женщин может быть описано как поиск связи между двумя переменными: Пол и WCC. Назначение статистики состоит в том, чтобы помочь оценить зависимости между переменными. Действительно, множество статистических процедур может быть рассмотрено в терминах оценки различных типов взаимосвязей между переменными. Итак, специалиста по статистике прежде всего интересует оценка связи между измеренными переменными. Зависимые и независимые переменные В повседневной жизни мы хорошо понимаем, что одни величины зависят от других, например потребление, конечно, зависит от дохода, цена квартиры — от площади, число посетителей магазина зависит от количества рекламных объявлений, предпочтение в выборе платья связано с содержимым кошелька, число посетителей ресторана зависит от времени суток и т. д. Проведем более строго различие между независимыми и зависимыми переменными. Независимыми переменными называются переменные, которые варьируются исследователем, тогда как зависимые переменные — это переменные, которые измеряются или регистрируются. Очевидно, варьируя интенсивность рекламной рассылки, вы можете наблюдать изменение спроса и потока посетителей в магазин; в этом примере интенсивность рекламы — независимая переменная, поток посетителей — зависимая. Изменяя рекламную кампанию, вы можете заставить покупателя перейти из пассивного состояния (спячки) в активное и т. д. В электронной торговле очень важна оценка момента перехода покупателя из категорий пассивный, активный, суперактивный, чтобы иметь возможность влиять на этот процесс. На первый взгляд может показаться, что проведение .этого различия создает путаницу в терминологии, поскольку, как иногда говорят в шутку студенты, «все переменные зависят от чего-нибудь». Тем не менее, однажды отчетливо проведя это различие, вы поймете его необходимость. Термины зависимая и независимая переменная применяются в экспериментальном исследовании, где экспериментатор манипулирует некоторыми переменными, и в этом смысле они «независимы» от реакций, свойств, намерений и т. д., присущих объектам исследования. Некоторые другие переменные, как предполагается, должны «зависеть» от действий экспериментатора или от экспериментальных условий. Иными словами, зависимость проявляется в ответной реакции исследуемого объекта, ее можно назвать откликом объекта на воздействие, поэтому термин отклик (response) также иногда используется как синоним зависимой переменной.
122 Глава 2. Элементарные понятия анализа данных Отчасти в противоречии с данным разграничением понятий находится использование их в исследованиях, где вы не варьируете независимые переменные, а только приписываете объекты к «экспериментальным группам», основываясь на некоторых их априорных свойствах. Например, если в эксперименте мужчины сравниваются с женщинами относительно числа лейкоцитов (WCC), то Пол можно назвать независимой переменной, a WCC — зависимой переменной; вложения в рекламу является независимой (варьируемой) переменной, а число клиентов — зависимой и т. д. Как измерить величину зависимости между переменными Статистиками разработано много различных мер, позволяющих оценить или измерить степень зависимости между наблюдаемыми переменными. Выбор определенной меры в конкретном исследовании зависит от числа включенных в анализ переменных, используемых шкал измерения, природы зависимостей и т. д. Большинство этих мер, тем не менее, подчиняется одному общему принципу: они являются попыткой оценить наблюдаемую зависимость, сравнивая ее с «максимально возможной зависимостью» между рассматриваемыми переменными. Обычный способ выполнить такие оценки заключается в том, чтобы посмотреть, как варьируются значения переменных, и затем подсчитать, какая часть всей имеющейся вариации может быть объяснена наличием «общей» («совместной») вариации двух (или более) переменных. Проще говоря, сравнивается то, «что есть общего в этих переменных», с тем, «что потенциально было бы у них общего, если бы переменные были абсолютно зависимы». Рассмотрим простой пример. Пусть в вашей выборке средний показатель (число лейкоцитов) WCC равен 100 для мужчин и 102 для женщин. Следовательно, вы могли бы сказать, что отклонение каждого индивидуального значения от общего среднего A01) содержит компоненту, связанную с полом субъекта, и средняя величина ее равна 1. Это значение, таким образом, представляет некоторую меру зависимости между переменными Пол и WCC. Конечно, это очень бедная мера, так как она не дает никакой информации о том, насколько велика эта компонента, скажем, относительно общего изменения значений WCC. Рассмотрим две крайние возможности: (а) Если все значения WCCy мужчин были бы точно равны 100, а у женщин 102, то все отклонения значений от общего среднего в выборке всецело объяснялись бы полом. Поэтому вы могли бы сказать, что пол абсолютно коррелирует с WCC, иными словами, 100% наблюдаемых различий между субъектами в значениях WCC объясняются полом субъектов. (б) Если же значения WCC лежат в пределах 0-1000, то та же самая разность B) между средними значениями WCC у мужчин и женщин, обнаруженная в эксперименте, составляла бы столь малую долю общей вариации, что полученное различие считалось бы пренебрежимо малым. Например, введение в рассмотрение еще одного субъекта могло бы изменить разность или даже изменить ее знак. Поэтому хорошая мера зависимости должна принимать во внимание полную изменчивость индивидуальных значений в выборке и оценивать зависимость по тому, насколько эта изменчивость объясняется изучаемой зависимостью.
Что такое статистическая значимость (р-уровень)? 123 Две черты зависимости между переменными Можно отметить два самых простых свойства зависимости между переменными: (а) величину зависимости и (Ь) надежность зависимости. (а) Величина. Величину зависимости легче понять и измерить, чем надежность. Например, если любой мужчина в вашей выборке имел значение WCC выше, чем любая женщина, то вы можете сказать, что величина зависимости между двумя переменными (Пол и WCC) очень высокая. Другими словами, вы могли бы предсказать значения одной переменной по значениям другой. (б) Надежность («истинность»). Надежность взаимозависимости — менее наглядное понятие, чем величина зависимости, однако чрезвычайно важное. Оно непосредственно связано с репрезентативностью той определенной выборки, на основе которой строятся выводы. Другими словами, надежность говорит, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена (подтвердится) на данных другой выборки, извлеченной из той же самой популяции. Следует помнить, что конечной целью почти никогда не является изучение данной конкретной выборки; выборка представляет интерес лишь постольку, поскольку она дает информацию обо всей популяции. Если ваше исследование удовлетворяет некоторым специальным критериям (об этом будет сказано позже), то надежность найденных зависимостей между переменными выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой р-уров- нем, или статистическим уровнем значимости, см. следующий раздел). Что такое статистическая значимость (р-уровень)? Статистическая значимость результата представляет собой оцененную меру уверенности в его правильности. Говоря проще, не на статистическом жаргоне, уровень значимости показывает, насколько значим для вас полученный результат. Предположим, вы врач, исследующий пациента. Проводя всесторонние исследования (измеряя давление, беря анализы крови и т. д.), вы приходите к выводу, что пациент с большой вероятностью болен, следовательно, полученные результаты значимы. Выражаясь формально, уровень значимости, или, как еще говорят,р-уровень, — это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий р-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно р-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, р-уровень = 0,05 (то есть 1/20) показывает, что имеется 5%-я вероятность того, что найденная в выборке зависимость между переменными является лишь случайной особенностью данной выборки. Иначе говоря, если данная зависимость в популяции отсутствует, а вы многократно проводите подобные эксперименты, то примерно в одном из двадцати повторений
124 Глава 2. Элементарные понятия анализа данных эксперимента можно ожидать такой же или более сильной зависимости между изучаемыми переменными. Во многих исследованиях р-уровенъ, равный 0,05, рассматривается как «приемлемая граница» уровня ошибки. На уровень значимости можно посмотреть с другой стороны. Предположим, что вы врач и выдвигаете гипотезу: пациент болен. Тогда, если вы назначили уровень 0,05, то в среднем в 5 случаях из 100 будете совершать ошибку (то есть принимать неправильную гипотезу — признавать человека больным, когда на самом деле он здоров). Как определить, является ли результат действительно значимым Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Однако... Однако статистическую значимость можно перевести в потери (например, финансовые), используя подходящую функцию потерь. Представьте, что вы многократно принимаете решение, то есть проверяете гипотезу о направлении изменения курса акций, выбрав некоторый уровень значимости, тогда уменьшение денег в вашем кошельке покажет ошибочность вашего выбора. Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (то есть до проведения опыта) или обнаружен апостериорно, в результате многих анализов и сравнений, выполненных с множеством данных, а также по традиции, имеющейся в данной области исследований. Обычно, что во многих областях результату = 0,05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки E%). Результаты, значимые на уровне р = 0,01, обычно рассматриваются как статистически значимые, а результаты с уровнем р = 0,005 илир = 0,001 как высокозначимые. Но следует понимать, что в данной классификации уровней значимости имеется произвол и это является всего лишь неформальным соглашением, принятым на основе практического опыта. Статистическая значимость и количество выполненных анализов Понятно, что чем большее число анализов вы провели над некоторыми группами данных, тем большее число результатов среди них имеют шанс удовлетворить выбранному уровню значимости. Например, если вычисляются корреляции между 10 переменными (то есть имеется 45 различных коэффициентов корреляции), можно ожидать, что примерно 2 коэффициента корреляции A на каждые 20) случайно окажутся значимыми на уровне р = 0,05, даже если переменные совершенно случайны и некоррелированы в популяции. Иными словами, имея серию экспериментов, вы всегда можете подтасовать результаты, выбирая только те опыты, результаты которых подтверждают вашу гипотезу.
Почему объем выборки влияет на значимость зависимости 125 Некоторые статистические методы, включающие множественные, то есть многократные, сравнения и, следовательно, имеющие хороший шанс повторить такого рода ошибки, используют специальную корректировку, или поправку, на общее число сравнений. Тем не менее многие статистические методы (особенно простые методы разведочного анализа данных) не предлагают какого-либо способа решения этой проблемы. Поэтому исследователь должен с осторожностью оценивать надежность неожиданных находок. Многие примеры, обсуждаемые в данном руководстве, предлагают специальные советы по поводу того, как это сделать. Величина зависимости между переменными в сравнении с надежностью зависимости Величина и надежность представляют собой две различные характеристики зависимостей между переменными. Тем не менее нельзя сказать, что они совершенно независимы. В общем, можно утверждать, что чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем она надежней. Почему более сильные зависимости между переменными являются более значимыми Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то с наибольшей вероятностью следует ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена. Как можно заметить, величина зависимости и значимости тесно связаны между собой, и можно попытаться вывести значимость из величины зависимости и наоборот. Однако указанная связь между зависимостью и значимостью имеет место только при фиксированном объеме выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высокозначимой, так и не значимой вовсе (см. следующий раздел). Почему объем выборки влияет на значимость зависимости Общая идея статистических методов состоит в том, чтобы по некоторой части популяции вынести суждения о свойствах популяции в целом. Именно такого рода результаты и представляют основной интерес, так как являются объективными. Если количество наблюдений невелико, то есть выборка из популяции мала, то соответственно имеет место малое количество возможных комбинаций значений этих переменных и, таким образом, вероятность случайно обнаружить комбинацию значений, показывающую сильную зависимость, относительно высока. Рассмотрим следующий пример. Если вы исследуете зависимость двух переменных {Пол: муж-
126 Глава 2. Элементарные понятия анализа данных чина/женщина и WCC: высокий/низкий) и имеете только 4 субъекта в выборке B мужчины и 2 женщины), то вероятность того, что чисто случайно вы найдете 100%-ю зависимость между двумя переменными, равна 1/8. А именно вероятность того, что оба мужчины имеют высокий WCC, а обе женщины — низкий WCC, или наоборот, равна 1/8. Теперь рассмотрим вероятность подобного совпадения для 100 субъектов; легко видеть, что эта вероятность равна практически нулю. Рассмотрим более общий пример. Представим популяцию, в которой среднее значение WCC для мужчин и женщин одно и то же. Если теперь вы начнете повторять эксперимент, состоящий в извлечении пары случайных выборок (одна — мужчины, другая — женщины) и вычислении разности выборочных средних WCC для каждой пары, то в большинстве экспериментов результат будет близок к 0. Однако время от времени будут встречаться пары выборок, в которых различие между мужчинами и женщинами будет существенно отличаться от 0. Как часто будет это происходить? Чем меньше объем выборки в каждом эксперименте, тем более вероятно появление таких ложных результатов, которые показывают существование зависимости между полом и WCC в данных, полученных из популяции, где такая зависимость на самом деле отсутствует. Почему слабые зависимости могут быть значимо доказаны только на больших выборках Предыдущий пример показывает, что если зависимость между переменными «объективно» (другими словами, в популяции) мала, не существует иного способа проверить такую зависимость, кроме как исследовать выборку достаточно большого объема. Даже если ваша выборка совершенно репрезентативна, эффект не будет статистически значимым, если выборка мала. Аналогично, если зависимость «объективно» (в популяции) очень сильная, то она может быть обнаружена с высокой значимостью даже на очень маленькой выборке. Рассмотрим следующий иллюстративный пример. Если монета слегка несимметрична и при подбрасывании орел выпадает чаще решки (например, 60% против 40%), то 10 подбрасываний монеты было бы недостаточно, чтобы убедить кого бы то ни было, что монета асимметрична, даже если был бы получен совершенно репрезентативный результат, 6 орлов и 4 решки. Не следует ли отсюда, что 10 подбрасываний вообще не могут доказать что- либо? Нет, не следует, потому что если эффект в принципе очень сильный, 10 подбрасываний может быть вполне достаточно. Представьте, что монета настолько несимметрична, что всякий раз, когда вы ее бросаете, выпадает орел. Если вы бросаете такую монету 10 раз и всякий раз выпадает орел, большинство людей сочтут это убедительным доказательством того, что с монетой что-то не то. Другими словами, это послужило бы убедительным доказательством того, что в популяции, состоящей из бесконечного числа подбрасываний этой монеты, орел будет встречаться чаще, чем решка. Таким образом, если зависимость сильная, она может быть обнаружена с высоким уровнем значимости даже на малой выборке.
Как вычисляется статистическая значимость 127 Можно ли рассматривать отсутствие связей как значимый результат? Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить. Например, представьте, как много бросков монеты необходимо сделать, чтобы доказать, что отклонение от равных вероятностей составляет только 0,000001%! Таким образом, необходимый минимальный размер выборки возрастает, когда степень эффекта, который нужно доказать, убывает. Когда эффект близок к 0, необходимый объем выборки для его отчетливого доказательства приближается к бесконечности. Другими словами, если зависимость между переменными почти отсутствует, объем выборки, необходимый для ее значимого обнаружения, почти равен объему всей популяции, который предполагается бесконечным. Статистическая значимость представляет вероятность того, что подобный результат был бы получен при проверке всей популяции в целом. Таким образом, все, что получено после тестирования всей популяции, было бы по определению значимым на наивысшем возможном уровне, и это относится ко всем результатам типа «нет связи». Общая конструкция статистических тестов Так как конечная цель большинства статистических тестов состоит в оценке зависимости между переменными, большинство статистических тестов следует некоторому общему принципу. Говоря техническим языком, эти тесты представляют собой отношение групповой изменчивости к полной изменчивости. Например, такой тест может представлять собой отношение той части изменчивости WCC, которая определяется полом, к полной изменчивости WCC (вычисленной для объединенной выборки мужчин и женщин). Это отношение обычно называется отношением объясненной вариации к полной вариации. В статистике термин объясненная вариация не обязательно означает, что вы даете ей «теоретическое объяснение». Он используется только для обозначения общи вариации рассматриваемых переменных, то есть для указания на то, что часть вариации одной переменной «объясняется» определенными значениями другой переменной, и наоборот. Как вычисляется статистическая значимость Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: насколько значима эта зависимость? Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ будет таким: в зависимости от обстоятельств. Именно значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными
128 Глава 2. Элементарные понятия анализа данных (значимыми). Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно, насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет. Другими словами, эта функция давала бы вам уровень значимости (р-уровень) и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейна и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда одна и та же. Тем не менее в большинстве случаев ее форма известна, и это можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом, называемым нормальным. Значимость коэффициента корреляции Допустим, вы оценили коэффициент корреляции между двумя переменными. Очевидно, чем больше по абсолютной величине значение коэффициента, тем больше вероятность, что между переменными имеется связь, то есть с тем меньшей вероятностью ошибки можно отвергнуть гипотезу об отсутствии связи между переменными. Иными словами, чем больше абсолютное значение коэффициента корреляции, тем более обоснованно опровергается гипотеза, что между переменными нет связи. Спрашивается: какие именно значения значимы? Ответ зависит как от величины коэффициента корреляции, так и от объема выборки, по которой он вычислен. Например, анализируя данные о годовых урожаях в Восточной Англии за 20 лет, Фишер вычислил коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей. Этот коэффициент, как и ожидалось, оказался отрицательным (чем выше уровень осенних осадков, тем меньше урожай, то есть переменные отрицательно коррелированны) и равным... 0,629, что значимо на уровне 0,01. Если бы выборочный коэффициент корреляции оказался равен 0,45, то результат был бы значим на уровне 0,1, но незначим на уровне 0,01, и т. д. Как определить, являются ли два коэффициента корреляции значимо различными Имеется критерий, позволяющий оценить значимость различия между двумя коэффициентами корреляции. Результат применения критерия зависит не только от величины разности этих коэффициентов, но и от объема выборок и величины
Почему важно нормальное распределение 129 самих этих коэффициентов. Вообще говоря, в соответствии с общим принципом надежность коэффициента корреляции увеличивается с увеличением его абсолютного значения; относительно малые различия между большими коэффициентами могут быть значимыми. Например, разница 0,10 между двумя корреляциями может не быть значимой, если коэффициенты равны 0,15 и 0,25, хотя для той же выборки разность 0,10 может оказаться значимой для коэффициентов 0,80 и 0,90. В системе STATISTICA имеется специальное средство — статистический калькулятор — в диалоговом окне Другие критерии значимости, доступном из стартовой панели модуля Основные статистики и таблицы. Калькулятор позволяет быстро сравнить коэффициенты корреляции, вычисленные по разным выборкам. Бк Основные статистики и таблицы ^fl Описательные статистики ЩЦ Корреляционные матрицы Iftfj (критерий для независимых выборок [>2j I критерий для зависимых выборок jff[ Группировка и однофакторная AN0VA Щ} Таблицы частот ${\\ Таблицы и заголовки IjJn Вероятностный калькулятор ИЯ Другие критерии значимости В ак Отмена Ё? Данные & Л Другие критерии значимости Г~ Печатать результаты после каждого вычисления Различие между двумя коэффициентами корреляции т 1: f80 g Nl.flOO j| ~ I Отмене .0100 I 'Вычислить, f£ рШ Щ N2: (ТОО Различие между двумя средними (нормальное распределение) Г Односторонний I ,уп7ГДГтшп1 <• Двусторонний Ст.откл. Щ р: 1.0000 | Вычислить |j С Односторонний (• Двусторонний С Ь (о" Щ Ст.откл. [Г Г" Среднее выборки 1 в сравнении со средним популяции 2 Различие между двумя пропорциями -—-.......> ....:^;^.: р: i.oooo r 0*hoct°pohh>* L.SgyiSP!!?,-! (* Двусторонний Пр.1;[ 50 a M1:[Y5 щ Rp.^fbo Э N2:fT5 Э Почему важно нормальное распределение Нормальное распределение (термин был впервые введен Гальюном в 1889 г.), иногда называемое гауссовским, важно по многим причинам. Распределение большого числа статистик является нормальным или может быть получено из нормального с помощью некоторых преобразований.
130 Глава 2. Элементарные понятия анализа данных Стандартная нормальная кривая ♦ Ст опт содержит G8X всем иаблюаеиий ♦ 2 Ст 0ТК.Л содержит 95* все» наблюдении Области, содержащие S8X и 96% маблюаемий. отмечены на графике 0 329 0219 0110 0000 ^/ / б8% \ 95% \ Рассуждая философски, можно сказать, что нормальное распределение представляет собой одну из эмпирически проверенных истин относительно общей природы действительности и его положение может рассматриваться как один из фундаментальных законов природы. Точная форма нормального распределения (характерная «колоколообразная кривая») определяется только двумя параметрами: средним и стандартным отклонением. Характерное свойство нормального распределения состоит в том, что 68% из всех его наблюдений лежат в диапазоне 1 (стандартное отклонение от среднего), а диапазон 2 стандартных отклонений включает 95% значений. Другими словами, при нормальном распределении стандартизованные наблюдения, меньшие -2 или большие +2, имеют относительную частоту менее 5% (стандартизованное наблюдение означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение). Это и есть знаменитое правило 2 сигма или 2-стан- дартных отклонения, вместе с правилом 3-ситаа чрезвычайно популярное на практике. Плотность нормального распределения имеет вид: f(x\ \i, a) = 1 aV27i ' 2о2 Множество величин на практике имеют нормальное распределение, например распределение приращений индексов развитых стран, курсы акций и т. д. Двумерное нормальное распределение. Переменная X - (Хь Х2) имеет двумерное нормальное распределение, если любая линейная комбинация Z - Я/Х, + а-^Х2 имеет либо нормальное, либо вырожденное распределение (которое также можно считать нормальным со2в 0). Двумерное нормальное распределение имеет плотность вида: f(xl,x2,\il,\i2,G2,o22,p) = 1 21юха2^\-рЛ • х ехр < 1 2A-Р2) (х, - щJ 2р(*, - ^)(х, - ц2) (х2 - \i2J ст,а9 x = (xv х2)Т, p = cov(Xp Х2)/(а,а2). ар а2>0, |р|<1
Как проверить нормальность наблюдаемых величин 131 где р — корреляция переменных Хь Х2, щ, <*i — среднее и стандартное отклонения переменной Хь \i2, c2 — среднее и стандартное отклонения переменной Х2. Заметим, что двумерное нормальное распределение легко обобщить на многомерное нормальное распределение. График двумерного распределения показан ниже: Иллюстрация того, как нормальное распределение используется в статистических рассуждениях Напомним пример, обсуждавшийся ранее, когда пары выборок мужчин и женщин выбирались из совокупности, в которой среднее значение WCC для мужчин и женщин было в точности одно и то же. Хотя наиболее вероятный результат таких экспериментов (одна пара выборок на эксперимент) состоит в том, что разность между средними WCCдля мужчин и женщин для каждой пары близка к 0, время от времени появляются пары выборок, в которых эта разность существенно отличается от 0. Как часто это происходит? Если объем выборок достаточно большой, то разности «нормально распределены» и, зная форму нормальной кривой, вы можете точно рассчитать вероятность случайного получения результатов, представляющих различные уровни отклонения среднего от 0, — значения гипотетического для всей популяции. Если вычисленная вероятность настолько мала, что удовлетворяет принятому заранее уровню статистической значимости, то можно сделать лишь один вывод: ваш результат лучше описывает свойства популяции, чем «нулевая гипотеза». Следует помнить, что нулевая гипотеза рассматривается только по техническим соображениям как начальная точка, с которой сопоставляются эмпирические результаты. Как проверить нормальность наблюдаемых величин При проверке нормальности выборки часто руководствуются следующим принципом Фишера: «Отклонения от нормального вида, если только они не слишком заметны, можно обнаружить лишь для больших выборок, однако сами по себе эти отклонения вносят малое отличие в статистические критерии и другие вопросы», (см. например, Справочник по прикладной статистике под редакцией Э. Ллойда и У. Линдермана, М: Финансы и статистика, 1989, с. 270).
132 Глава 2. Элементарные понятия анализа данных На практике для проверки нормальности обычно применяют визуальные методы, например гистограммы, нормальные вероятностные графики или численные методы с помощью оценки коэффициентов асимметрии и эксцесса; используется также критерий хи-квадрат. Пример (проверка нормальности с помощью оценок коэффициентов асимметрии и эксцесса). Рассмотрим классические данные Р. Фишера о количестве осадков в одном из районов Англии (см. Fisher R. А. A970). Statistical methods for research workers, 15-th edition, Macmillan): 2 J 4 Б e 7 8 В 10 t! \2 !3 14 15 1$ f? 18 19 20 2Л гг 23 24 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 12 33 34 35 36 37 38 39 0 0 3 3 3 3 2 К A 7 4 8 3 6 7 4 4 4 3 3 0 1 m...i Далее приводится последовательность действий, которую лучше всего повторить, используя систему STATISTICA. Шаг 1. Создайте файл STATISTICA и введите в него данные, представленные в таблице. В первом столбце приведено количество осадков в дюймах. Во втором столбце записана частота, с которой данное значение встречалось в измерениях. Например, уровень 16 дюймов наблюдался 1 раз, уровень 17 дюймов — 0 раз, уровень 18 дюймов — 0 раз и т. д. Шаг 2. Запустите модуль Основные статистики и таблицы. Шаг 3. В стартовой панели модуля выберите Основные статистики и нажмите ОК. Корреляционные матрицы (-критерия для независимых выборок U2J I-критерия для зависимых выборок jfX Группировка и одно+акторная AN OVA 9Ш Таблицы частот ЩЦ Таблицы и заголовки %Л Вероятностный калькулятор №д Другие критерии значимости &' ц[ &> а
Как проверить нормальность наблюдаемых величин 133 Шаг 4. В появившемся окне Описательные статистики нажмите кнопку Переменные и выберите переменную УРОВЕНЬ. LE HiiTlHiuir Iflliilli |дЗ Переменные. I УРОВЕНЬ |дк;1 Подробные описательные статистики Отмена Опции Г~ Построчное мдалвиме ПД Г~ Отображать длинные имена переменных Г~ Вычислении с повышенной точностью Статистики Г Медиана м доартидм Г Доверит, границы средни* I . и» jj\ g> fl,j * Интервал: J95. VI Друнв статистики |х В зе. моменты Or свободы <* 8-1 Г - N-1 Распределение - ЙВ Т аблм&ы частот Гистограммы Г г Г i Офтмровка ; <• Число интервалов: [75 Э С Целые интервалы (категории) smi а □ г> < и - tr:- - ■••■■уюм1*<* 1*ъ:***4\-> <>.■ >MsV**&0*'Ht*# »*>>оч'(! '■ , ■Г№Ор*У.Ш>Г>Ы>- ?•-•;>:• >.< >>;*>«*>«•> ©е}>{/.¥< *»*•■:« >♦»• • >•••.;♦***♦«« jl >\ ;•■№»> *«****«« |(ТГ^ .„■;,»>;.••< : •.-:. >*~Kt>-v •' ,,<:>^5<, :,>,,, ^1® *■-,• 71^:V,-. - 1 ВВ ' - 1 сто < - 1 88 — .|Ю'-< - - |88>>» ••••.,,. | ig? *>>}>ЧИ ^< W ( Л{-*^ "{»>« '>*v ^*>*х<- 4 ><<*П >'<*<****>• i-Л i*An>Hf> | , «>? »»'<fW , ^Лф*» >•* 5« >»*<{>< J <>«v *)««•(•»****'! < и'*?<Г',< Xrw?* j >ft^**Mi-}r' W(«i<,»»»tf <-f>>4*»^*b« j * v</ <<JJv- ДО »« {><>»>« <M «. >ч' , < <>¥<(<*! '%* rm-({!ip**i*.iM j Шаг 5. Далее в правом верхнем углу окна нажмите кнопку В. В появившемся окне Задание веса выберите вес из переменной ЧАСТОТА. Нажмите ОК. Дмчды щелкните м* (• Bjyi rww еесса. чтобы выбрать переменную из Г ВЫ*Л стек* Шаг 6. Нажмите кнопку Другие статистики и дайте указание системе, что вам нужно вычислить асимметрию и эксцесс, а также их стандартные ошибки (см. рисунок). Gьдм..».«шо1 ftce Чи< ло илЛоод^кй N Г Среднее f~ £ч»*ь»« Г MftUHitlU Г" ClfiMA«»t"»*>0 1 г л---■■.-.• и« Г" Oj...;.,! ■•• «' i Т> - » ' • .■ • ! " Мимь.у- • .« Г HMktiMft и оно Г" Ре змея Г* Кдв41ТИ<|«>»1Ьи4 fx Асимм«хрмя fx Дигаясг fx (.т«»ш<ч""->и . [х Стандартное < |»лин«* U*0> , (..„..-И., •.HH4N If **• * ж. . нме «нлртидм рлзыл* шил*,, цк ] (О |»:Л..С1Л г?Г|>ММ .имела лисцесс*
134 Глава 2. Элементарные понятия анализа данных Шаг 7. Нажмите ОК в окне Статистики и далее нажмите ОК в появившемся окне Описательные статистики. Следующая таблица с результатами появится на экране: Из этой таблицы видно, что по абсолютной величине оценки асимметрии и эксцесса имеют тот же порядок, что их ошибки. Следовательно, ни одна из полученных величин не значима. Поэтому можно сказать, что данные согласованы с гипотезой нормальности. Продолжение примера (использование критерия хи-квадрат для проверки нормальности). Мы работаем с теми же данными по осадкам, что и в предыдущем примере. Шаг 1. Запустите модуль Непараметрические статистики. В стартовой панели модуля выберите опцию Подгонка распределения. Так как нужно проверить согласие данных с нормальным распределением, в списке Непрерывные распределения выберите Нормальное. Далее нажмите кнопку ОК. шшт вша ЕЩ ;Г Н|Д|ч1Цгц||Щр1и £;V-'-'^>%i **•''> v •,*•<. ' * ' x ... Д» ftl Шаг 2. В появившемся диалоговом окне Подгонка непрерывных распределений нажмите кнопку Переменные и выберите переменную УРОВЕНЬ. Нажмите ОК. шшшштшшшшш J2 ЧАСТОТА (ЗЛ/АЯЭ 44-VAR4 J5VAR5 tt-VAR6 J7VAR7 I8-VAR8 ! J9-VAR9 llO-VARIO ГуП 1522Е2^^2Я 4-*—* * W Шаг 3. Далее в правом верхнем углу окна нажмите кнопку В. Выберите веса из переменной ЧАСТОТА.
Как проверить нормальность наблюдаемых величин 135 Шаг 4. В диалоговом окне Подгонка непрерывных распределений нажмите кнопку ОК. На экране появится следующая электронная таблица с результатами: LIIIJ.IMLIUII.II.imUl.lJ.U.IJMiJllll.l |статистика Копм-См d -0399655. р ■ ги-кввдрвт 5 093237. ее ■ 6. р ■ 5319227 (ст ев скор • процент маблюд. частота 0 1 1 6 9 14 30 41 58 71 79 86 89 90 90 0 00000 1 11111 0 00000 5 55556 3 33333 5 55556 17 77778 12 22222 18 88889 14 44444 8 88889 7 77778 3 33333 1 11111 0 00000 0 0000 11111 11111 6 6667 10 0000 15 5556 33 3333 45 5556 64 4444 78 8889 87 7778 95 5556 98 8889 100 0000 100 0000 10964 29009 84542 2 07955 4 31762 7 56682 11 19396 13 97860 14 73523 1311186 9 84881 6 24468 3 34222 1 50990 82558 * Во второй строке заголовка таблицы показано значение статистики хи-квадрат и уровень значимости/? = 0,532. Снова мы можем сказать, что данные согласованы с гипотезой нормальности. Результат согласуется с тем, который был получен в первой части примера, когда в качестве критерия нормальности использовались коэффициенты асимметрии и эксцесса. ЗАМЕЧАНИЕ В первой строке заголовка таблицы указаны значения статистики Колмогорова—Смирнова. Этот критерий также можно использовать для проверки нормальности. Результат также незначим.
136 Глава 2. Элементарные понятия анализа данных Посмотрим на результаты в графическом виде. Шаг 5. В диалоговом окне Подгонка непрерывных распределений нажмите кнопку График. На экране появится гистограмма значений переменной Осадки. Из графика также видно хорошее согласие данных с нормальным распределением. УРОВЕНЬ . распределение Нормальное УРОВЕНЬ статистика Колм-См. d «.0399656. р ■ на. х и-квадрат: 5.093237, ее ■ 6, р ■ .5319227 (ее. скор.) 20, ■ ■ ■ ■—■ ■ ■ ■ Ш ML ill11 l£±_J 1214161820 2224 2628 3032 3436 3840 42 Группа (■•рх. границы) Ожидаемы* Этот классический пример иллюстрирует схему действий в системе STATIS- TICA при проверке нормальности данных. Все ли статистики критериев нормально распределены? Не все, но большинство из них либо имеют нормальное распределение (особенно при большом числе наблюдений), либо имеют распределение, связанное с нормальным и вычисляемое на основе нормального, такое как t, Fили хи-квадрат. Обычно эти статистики требуют, чтобы анализируемые переменные сами были нормально распределены в совокупности, то есть удовлетворяли бы «предположению». Многие наблюдаемые переменные действительно нормально распределены, что является еще одним аргументом в пользу того, что нормальное распределение представляет «фундаментальный закон». Проблема может возникнуть при попытке применить тесты, основанные на предположении нормальности, к данным, не являющимся нормальными. В подобных случаях вы можете выбрать одно из двух. Во-первых, вы можете использовать альтернативные «непараметрические» тесты (или так называемые «свободно распределенные тесты»), особенно полезные, если число наблюдений мало. Как альтернативу во многих случаях вы можете все же использовать тесты, основанные на предположении нормальности, если уверены, что объем выборки достаточно велик. Последняя возможность основана на чрезвычайно важном принципе, позволяющем понять популярность тестов, основанных на нормальности: при возрастании объема выборки форма распределения статистики критерия приближается к нормальной, даже если распределение исследуемых переменных не является нормальным. Этот принцип называется центральной предельной теоремой.
Оценка объема выборки 137 Как узнать последствия нарушений предположений нормальности? Хотя многие утверждения предыдущих параграфов можно доказать математически, некоторые из них не имеют теоретического обоснования и могут быть продемонстрированы только эмпирически, с помощью так называемых экспериментов Монте-Карло. В этих экспериментах большое число выборок генерируется на компьютере, а результаты, полученные из этих выборок, анализируются с помощью различных тестов. Этим способом можно эмпирически оценить тип и величину ошибок или смещений, которые вы получаете, когда нарушаются определенные теоретические предположения используемых тестов, например, вы можете искусственно изменить распределение выборки, сделать его отличным от нормального и проверить результат. Монте-Карловские исследования интенсивно использовались для того, чтобы оценить, насколько тесты, основанные на предположении нормальности, чувствительны к различным нарушениям предположений нормальности. Общий вывод этих исследований состоит в том, что последствия нарушения предположения нормальности менее фатальны, чем первоначально предполагалось. Хотя эти выводы не означают, что предположения нормальности можно игнорировать, они увеличили общую популярность тестов, основанных на нормальном распределении. Оценка объема выборки В большинстве ситуаций на практике у нас нет доступа ко всей популяции (генеральной совокупности) в целом (например, популяция слишком большая, процесс измерения слишком дорог и т. д.). Таким образом, мы имеем дело с ограниченным объемом данных — выборкой, и поставлены перед необходимость принимать решение относительно всей популяции на основе лишь выборочных данных. Для того чтобы оценить некоторую характеристику популяции, которую назовем параметром, мы строим выборку и вычисляем на ее основе некоторую статистику, которую рассматриваем как оценку искомого параметра. Представьте, вы врач и вас интересует доля людей с данным заболеванием или вы политик и вас интересует доля людей, поддерживающих вашу позицию. Пусть ваш избирательный округ — большой город, в котором проживают около 1 500 000 человек, имеющих право голоса. В данном случае интересующий параметр я, доля всех людей, поддерживающих вас. Как понять, насколько велика эта доля? Вы можете поступить следующим образом: выбрать наудачу группу людей и выяснить их мнение. Назовем выбранную группу выборкой, а количество элементов в ней (в данном случае людей) объемом выборки. Число людей (N) в выборке будет относительно небольшим в сравнении со всей популяцией. Опросив людей в выборке, вы получите не точное значение интересующего вас параметра я, а оценку — обозначим ее через р.
138 Глава 2. Элементарные понятия анализа данных Формально р вычисляется так: p=N1/N, где N1 — число людей, поддерживающих вашу кандидатуру, N — объем выборки. Эквивалентная формула имеет вид: p = p(N) = ^/N (*) £, = 1, если 2-й респондент поддерживает вас, ^ = 0 в противном случае. Возникает вопрос: какова точность этой оценки? В зависимости от ответа на данный вопрос вы предпримете то или иное действие. Очевидно, что параметр я не будет равен в точности оценки р. Величина отклонения р от я называется ошибкой. Таким образом, в любой построенной по выборке оценке содержится ошибка, точная величина которой неизвестна, в противном случае вы могли бы точно вычислить значение параметра, что в принципе невозможно сделать, имея дело с частью популяции, то есть с выборкой. В общем, можно сказать, чем больше объем выборки N, тем меньше ошибка оценки. Если вам нужно точное решение относительно параметра р, вам необходимо взять N достаточно большим, чтобы ошибка была «разумно малой», например, опросить всех жителей города. Если N слишком мало, то мало шансов получить хорошую оценку. С другой стороны, если взять объем выборки N слишком большим, улучшение точности оценки окажется незначительным. Итак, если N «достаточно большое», чтобы обеспечить приемлемый уровень точности, то дальнейшее увеличение объема данных не приводит к неоправданной трате времени и средств. Таким образом, ключевым вопросом является: какой уровень точности будет иметь оценка для данного объема выборки?, а также связанный с ним: какой размер выборки нужно иметь, чтобы достичь приемлемого уровня точности? Выборочное распределение представляет собой распределение статистики критерия в повторных выборках. Рассмотрим выборочную оценку р, построенную по выборке объема N в предположении, что значение я в точности равно .50. Статистическая теория утверждает, что р имеет биномиальное распределение (как сумма независимых случайных величин, принимающих два значения: 1 или 0). Это распределение при достаточно больших N в силу теоремы Муавра—Лапласа, являющейся частным случаем центральной предельной теоремы, приближается к нормальному распределению со средним я и стандартным отклонением, вычисляемым по формуле: o = yJn(l-n)/N . Заметим, что часто полезной оказывается оценка: а < 1 / 2^1 / N. Предположим, что объем выборки N равен 100. Тогда распределение/? имеет следующий вид (напомним, мы считаем, что я = .5):
Оценка объема выборки 139 Distribution of th« Sjmpl* Proportion N- 100. Pi- .50 0 0 1 Sjmpl* Proportion (p) Из рисунка видно, что значения статистики сосредоточены вокруг точки .5, но небольшой процент значений больше .6 или меньше .4. Этот разброс значений оценок отражает тот факт, что опрос общественного мнения проводился среди 100 человек и поэтому не является абсолютно точным значением вероятности успеха я. Если бы р была «совершенной» оценкой я, разброса значений не было бы, и стандартная ошибка равнялась бы 0. Тогда выборочное распределение имело бы выброс в точке 0.5. Выброс выборочного распределения говорит о том, насколько много «шум» смешивается с «сигналом» от параметра. Заметим, что стандартная ошибка/? стремится к 0 при увеличении объема выборки N (N стоит в знаменателе). Если N становится достаточно большим, то оценка р будет все более точной (см. формулу для вычисления ошибки). Предположим, вы используете критерий, описанный ранее. Допустим, вы решили, что, если р больше .58, то нулевая гипотеза: «я меньше или равно .50» неверна. Критическая область этого критерия показана ниже. ИЩЬрс 1 ° 1 ° 1 <в 2 о 1 о 1 £ 0 1 ° vbh.SIfj Distribution of tb« Sjmpl* Proportion N ■ 100. Pi ■ .50 Л *. • v • * * tow»>«wwun4v4auM»«<<4&*v ы с y VK 0 0 0 11 Sjmplt Proportion (p) R@E3 1 Проведя несложные подсчеты (например, используя формулу биномиального распределения), легко определить, что вероятность отвергнуть нулевую гипотезу
140 Глава 2. Элементарные понятия анализа данных при п = .50 равна .044. Следовательно, для выбранного решающего правила ошибка I рода а находится на уровне не ниже .044. Теперь важно понять, какова мощность этого критерия. Предположим, что 55% избирателей поддерживают политика, то есть я = .55 и нулевая гипотеза не верна. В этом случае правильное решение состоит в том, чтобы отвергнуть нулевую гипотезу в пользу альтернативы. На рисунке ниже показано выборочное распределениер при условии, что п = .55. Ясно, что политики принимают верные решения, поддерживаемые большинством, только в очень малом проценте случаев. Вероятность того, что р больше .58, равна только .241. Нечего и говорить, что нет смысла проводить эксперимент, в котором ваша точка зрения верна только в 24.1% опытов! В таком случае говорят, что критерий значимости имеет «недостаточную мощность, чтобы обнаружить 5%-ное отклонение от нулевой гипотезы». Суть проблемы лежит в ширине этих двух распределений (при различных гипотезах). Если объем выборки становится большим, то стандартная ошибка доли уменьшается и область перекрытия двух распределений соответственно уменьшается. Таким образом, при достаточно большой выборке можно найти критерий с высокой мощностью и данным уровнем значимости а. Следующие рассуждения вообще типичны при проверке гипотез. Назовем исходную гипотезу «нулевая гипотеза» — Н0. Например, доля поддерживающих политика выше 0.5 или прививка от гриппа привела к снижению заболеваемости. Для проверки гипотезы мы организуем сбор данных, извлекаем выборку. Используя статистическую теорию, видим, что гипотеза Н0, вероятно, неверна и должна быть отвергнута. Отвергая Н0, мы обосновываем то, во что верим. Эта ситуация, типичная во многих областях приложения, отвергая нулевую гипотезу, вы подтверждаете теорию. Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:
Визуальный подход к анализу мощности 141 Решение Но н, Верная гипотеза Но Правильное принятие Ошибка 1рода а н, Ошибка II рода Р Правильное отвержение Как вы видите, применение статистического критерия приводит к ошибкам двух видов. Конечно, идеальным вариантом было бы уменьшение обеих ошибок (первого и второго рода), однако реальное положение вещей такое, что при фиксированном объеме выборки этого достичь нельзя. Поэтому мы фиксируем уровень а и стараемся сделать ошибку второго рода C как можно меньше. Обычно считается, что ошибка первого рода а должна принимать значение .05 или ниже, тогда как ошибка второго рода C должна быть столь малой, насколько это возможно при фиксированном уровне ошибки первого рода. «Статистическая мощность», которая по определению равна 1 - C (единица минус ошибка второго рода), соответственно, должна быть максимально высокой. Идеальный вариант, когда мощность равна, по крайней мере, .80, чтобы обнаружить разумные отклонения от нулевой гипотезы. Поставим вопрос: какой объем выборки N необходим, чтобы достичь разумно высокой мощности в ситуации, когда а фиксировано на разумно низком уровне. Конечно, можно опытным путем установить нужный объем выборки, например, используя метод Монте-Карло. Однако программное обеспечение позволяет это сделать автоматически с помощью нескольких движений мыши. Модуль STATISTICA Анализ мощности предлагает различные аналитические и графические процедуры, позволяющие представить зависимость между мощностью и размером выборки. При работе с модулем Анализ мощности предполагается, что вы будете применять хорошо известный лги-квадрат-критерий чаще, чем точный биномиальный критерий. Например, предположим, что в обсуждаемом нами примере политик хочет достичь мощности .80 при я равном .55. Используя выборку объема 607, он получит на выходе мощность, равную .8009. (Реальный уровень Альфа этого критерия равен .0522.) Визуальный подход к анализу мощности Основные этапы проведения анализа мощности и вычисления объема выборки состоят в следующем: определяется нулевая гипотеза и альтернативы, выбирается критерий и исследуется мощность и требуемый объем выборки для обнаружения данным критерием эффекта на разумном уровне.
142 Глава 2. Элементарные понятия анализа данных В разбираемом примере, мы получили, что необходимая мощность @.8) достигается при выборке объема 607 (р=.80). На практике, конечно, было бы неразумно проводить только одно вычисление, основываясь на одном гипотетическом значении. Более естественно рассмотреть, как зависит мощность от различных р} иными словами, построить функцию зависимости мощности от р. В обсуждаемом примере мы хотим понять с низкой вероятностью ошибиться, будут или нет нашу точку зрения поддерживать более половины избирателей. Графический анализ чрезвычайно полезен для понимания возможности данного статистического критерия обеспечить нужную мощность. Например, можно построить график зависимости мощности от объема выборки в предположении, что истинная доля поддерживающих равна .55 (т.е. вас поддерживают более 55% жителей). На следующем графике показана мощность как функция объема выборки в диапазоне от 20 до 2000 наблюдений (используется «нормальная аппроксимация» биномиального распределения). One Proportion: Sample Size Calculation Test on One Proportion (HO: Pi <= PIO) N vs. Power (Pi = 0.55. PiO = 0.5. Alpha = 0.05) 1.00 0.95 0.90 g | 0.85 о 2 0.80 0.75 0.70 500 600 700 800 900 1000 1100 1200 Объем выборки N Из графика видно, что мощность достигает приемлемого уровня (часто этот уровень фиксируют между .80 и .90) на выборке, состоящей примерно из 600 наблюдений. Следует помнить, что вычисления сделаны в предположении, что истинное значение доли р равно.55. Возможно, что форма кривой (а значит, и наши оценки!) очень чувствительна к величине р. Логично поставить вопрос: как чувствителен наклон графика к изменению величины р? Имеется несколько подходов к решению данного вопроса. Один состоит в том, чтобы построить графики зависимости мощности от размера выборки для разных значений р. Ниже показан график зависимости мощности от размера выборки при р- .6. Можно заметить, что увеличение мощности при возрастании N происходит гораздо быстрее при р = .6 чем при р = .55. Это различие становится более заметно, если построить два графика одновременно.
Визуальный подход к анализу мощности 143 Tlhpovbbd.STG Ttst on Ont Proportion ( HO: Pi <- PC ) Power v» N (Pi - О 0. PiO - О 5. Alphj - О Об) 500 1000 1500 Sjmplt Sizt(N) iHlhpovbbb.STG Ttft on Ont Proportion ( MO: Pi <■ PiO ) Power ws N (PiO - 0 6. Alphj - 0 05) 500 1000 1500 Sjmplt Sizt (N) Для данного уровня мощности график зависимости объема выборки отр показывает чувствительность объема выборки к величине р. На следующем графике показана зависимость объема выборки N, позволяющей достичь мощности .90 для различных значений р, когда при нулевой гипотезе р = .50. lHbpovbt(.SICj Ttst on Ont Proportion (HO: Pi ■ PiO) N v» Pi (Alphj • 0 05. PrO • 0 5. Power «0 0) r S. 800 i eoo i 8 400 Population Proportion (Pi)
144 Глава 2. Элементарные понятия анализа данных Из графика видно, как быстро уменьшается N дляр изменяющихся от .55 до .60. Таким образом, чтобы надежно обнаружить различие .05 (от значения при нулевой гипотезе .50), требуется взять объем выборки N больше 800, но, чтобы надежно обнаружить различие .10 требуется всего лишь 200 (см. значение ЛГпри р = 0.6). Очевидно, гораздо лучше быть осведомленным заранее о точности критерия, чем оказаться поставленным перед фактом некорректности исследования и ошибки при принятии решения. В заключении сделаем замечание общего характера. Результат применения критерия значимости заключается в утверждении — принять или отвергнуть нулевую гипотезу. Такой подход часто не устраивает тех исследователей, кто рассматривает нулевую гипотезу не как утверждение об отсутствии эффекта или нулевого эффекта, а интересуется тем, насколько велик эффект, чем в точности он равен нулю или нет. Таким образом, приходится ставить одну, две или три звездочки после результатов в таблице, или приводить соответствующие р-уровни. Вероятностные уровни иногда могут ввести в заблуждение относительно «силы» результата, особенно когда они представлены без дополнительной информации. Например, если в таблице дисперсионного анализа один эффект имел р-уровень .019, а другой р уровень .048, то утверждение, что первый эффект сильнее второго, возможно, будет ошибочным. Для правильной интерпретации полученного результата необходима дополнительная информация. Чтобы понять это, предположим, что некто установил р уровень .001. Это могло быть результатом слабого эффекта и чрезмерно большого объема выборки, либо сильного эффекта в популяции и умеренного объема выборки, либо очень сильного эффекта и малого объема выборки. Аналогично,/? уровень .075 можно интерпретировать как комбинацию очень сильного и малой выборки, либо незначительного эффекта и гигантской выборки. Отсюда ясно, что следует внимательно сравнивать р-уровни и принимать во внимание объем выборки и точность эксперимента. Понижение размерности данных Исследователи из различных областей часто сталкиваются с данными большой размерности, иными словами, с таблицами данных, в которых много переменных (столбцов). Естественное желание исследователя разумно сократить число переменных, вводя новые переменные и объединяя некоторые переменные в одну. Конечно, хотелось, чтобы эти новые переменные имели определенный смысл и допускали разумную интерпретацию, а не вводились чисто формально. Если вы хотите понизить размерность непрерывных данных, то можете воспользоваться методами факторного анализа. Аналогом факторного анализа для категориальных переменных является анализ соответствий, в котором роль компонент дисперсии играют компоненты статистики хи-квадрат. В анализе главных компонент определяются попарно ортогональные направления максимальной вариации исходных данных, после чего данные проектируются на подпространство меньшей размерности, порожденное найденными компонентами. Далее эти компоненты могут рассматриваться как новые переменные,
Визуальный подход к анализу мощности 145 к которым применяются обычные методы многомерного анализа, например, регрессионный анализ. Для того чтобы понять основную идею, рассмотрим две зависимые непрерывные переменные. Зависимость между двумя переменными можно обнаружить с помощью двумерной диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих коррелированных переменных. Итак, фактически, вы сократили число переменных и заменили две зависимые переменные одной переменной. Если вы имеете три зависимые переменные, то аналогичным образом можете построить трехмерную диаграмму рассеяния и вновь провести линию регрессии, вдоль которой разброс данных максимальный. После того, как вы нашли линию регрессии, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных, поэтому процедуру естественно повторить. В анализе главных компонент именно так и поступают: после выделения первого фактора определяется следующий фактор, максимизирующий остаточную вариацию и т. д. Таким образом, последовательно выделяются главные компоненты, которые по самому способу построения оказываются некоррелированными или ортогональными. Эта идея естественно распространяется на любое число переменных.
«~ Вероятностные ^у распределения и их свойства Случай является одним из наиболее загадочных явлений на свете, он внезапно возникает и так же внезапно исчезает, — столь внезапно, что не позволяет нам проникнуть в свою сущность. Только в XX веке математики научились оперировать с вероятностью, хотя отдельные задачи о подсчете шансов в азартных играх рассматривались еще в XV-XVI веках. Древние греки, приучившие нас к количественному взгляду на мир, пришли бы в ужас, если бы узнали, что мы научились с помощью теории вероятностей вычислять шансы и оценивать, какие события более вероятны, а какие менее вероятны, например в актуарных расчетах или азартных играх. Знаменитые итальянские математики Кардано, Пачоли и Тарталья, а вслед за ними Паскаль, Ферма, Гюйгенс в XVII веке разрабатывали все более и более изощренные способы подсчета вероятностей в разнообразных игровых задачах и в популярных лотереях. Их изобретательность была поистине удивительной! Используя ограниченный и, на наш взгляд, примитивный язык, они смогли объяснить глубокие явления. Существенное движение вперед произошло в тот момент, когда прозорливые умы вдруг осознали, что очень схожие вероятностные законы возникают в разных, на первый взгляд, задачах. В чем состоит идея вероятностных рассуждений? Первый, самый естественный шаг вероятностных рассуждений заключается в следующем: если вы имеете некоторую переменную, принимающую значения случайным образом, то вам хотелось бы знать, с какими вероятностями эта переменная принимает определенные значения. Совокупность этих вероятностей как раз и задает распределение вероятностей. Например, имея игральную кость, можно a priori считать, что с равными вероятностями 1/6 она упадет на любую грань. И это происходит при условии, что кость симметричная. Если кость несимметричная, то можно определить большие вероятности для тех граней, которые выпадают чаще, а меньшие вероятности — для тех граней, которые выпадают реже, исходя из опытных данных. Если какая-то грань вообще не выпадает, то ей можно присвоить ве-
Нормальное распределение 147 роятность 0. Это и есть простейший вероятностный закон, с помощью которого можно описать результаты бросания кости. Конечно, это чрезвычайно простой пример, но аналогичные задачи возникают, например, при актуарных расчетах, когда на основе реальных данных рассчитывается реальный риск при выдаче страхового полиса. В этой главе мы рассмотрим вероятностные законы, наиболее часто возникающие на практике. Графики этих распределений можно легко построить в STATISTICA. Нормальное распределение Нормальное распределение вероятностей особенно часто используется в статистике. Нормальное распределение дает хорошую модель для реальных явлений, в которых: 1) имеется сильная тенденция данных группироваться вокруг центра; 2) положительные и отрицательные отклонения от центра равновероятны; 3) частота отклонений быстро падает, когда отклонения от центра становятся большими. Механизм, лежащий в основе нормального распределения, объясняемый с помощью так называемой центральной предельной теоремы, можно образно описать следующим образом. Представьте, что у вас имеются частицы цветочной пыльцы, которые вы случайным образом бросили в стакан воды. Рассматривая отдельную частицу под микроскопом, вы увидите удивительное явление — частица движется. Конечно, это происходит, потому что перемещаются молекулы воды и передают свое движение частицам взвешенной пыльцы. Но как именно происходит движение? Вот более интересный вопрос. А это движение очень причудливо! Имеется бесконечное число независимых воздействий на отдельную частицу пыльцы в виде ударов молекул воды, которые заставляют частицу двигаться по весьма странной траектории. Под микроскопом это движение напоминает многократно и хаотично изломанную линию. Эти изломы невозможно предсказать, в них нет никакой закономерности, что как раз и соответствует хаотическим ударам молекул о частицу. Взвешенная частица, испытав удар молекулы воды в случайный момент времени, меняет направление своего движения, далее некоторое время движется по инерции, затем вновь попадает под удар следующей молекулы и т. д. Возникает удивительный бильярд в стакане воды! Поскольку движение молекул имеет случайное направление и скорость, то величина и направление изломов траектории также совершенно случайны и непредсказуемы. Это удивительное явление, называемое броуновским движением, открытое в XIX веке, заставляет нас задуматься о многом. Если ввести подходящую систему и отмечать координаты частицы через некоторые моменты времени, то как раз и получим нормальный закон. Более точно, смещения частицы пыльцы, возникающие из-за ударов молекул, будут подчиняться нормальному закону.
148 Глава 3. Вероятностные распределения и их свойства Впервые закон движения такой частицы, называемого броуновским, на физическом уровне строгости описал А. Эйнштейн. Затем более простой и интуитивно ясный подход развил Ленжеван. Математики в XX веке посвятили этой теории лучшие страницы, а первый шаг был сделан 300 лет назад, когда был открыт простейший вариант центральной предельной теоремы. В теории вероятности центральная предельная теорема, первоначально известная в формулировке Муавра и Лапласа еще в XVII веке как развитие знаменитого закона больших чисел Я. Бернулли A654-1705) (см. Я. Бернулли A713), Ars Conjectandi), в настоящее время чрезвычайно развилась и достигла своих высот в современном принципе инвариантности, в создании которого существенную роль сыграла русская математическая школа. Именно в этом принципе находит свое строгое математическое объяснение движение броуновской частицы. Идея состоит в том, что при суммировании большого числа независимых величин (ударов молекул о частицы пыльцы) в определенных разумных условиях получаются именно нормально распределенные величины. И это происходит независимо, то есть инвариантно, от распределения исходных величин. Иными словами, если на некоторую переменную воздействует множество факторов, эти воздействия независимы, относительно малы и слагаются друг с другом, то получаемая в итоге величина имеет нормальное распределение. Например, практически бесконечное количество факторов определяет вес человека (тысячи генов, предрасположенность, болезни и т. д.). Таким образом, можно ожидать нормальное распределение веса в популяции всех людей. Если вы финансист и занимаетесь игрой на бирже, то, конечно, вам известны случаи, когда курсы акций ведут себя подобно броуновским частицам, испытывая хаотические удары многих факторов. (Н| График! 2 Линейный график ННИ Броуновское движение X
Нормальное распределение 149 Г$ ГрафмкБ Линейный график Броуиовско# движ#ни# Формально плотность нормального распределения записывается так: ф(х;я,а2) = л/2я~-а (х-аГ ' 2а2 г2_1 где а и о * — параметры закона, интерпретируемые соответственно как среднее значение и дисперсия данной случайной величины (ввиду особой роли нормального распределения мы будем использовать специальную символику для обозначения его функции плотности и функции распределения). Визуально график нормальной плотности — это знаменитая колоколообразная кривая. Соответствующая функция распределения нормальной случайной величины £(<я,сг2) обозначается Ф(х; <я,сг2) и задается соотношением: ФО; д,а ) =РЩа^)< jc}= -\/2я -а X (*-fl) 2а2 dt. Нормальный закон с параметрами а = О и с2 = 1 называется стандартным. Обратная функция стандартного нормального распределения, примененная к величине 2, 0<z<1, называется пробит-преобразованием z, или просто пробитом z. Воспользуйтесь вероятностным калькулятором STATISTICA, чтобы по х вычислить 2 и наоборот. Основные характеристики нормального закона: среднее, мода, медиана: Е% = xmod = xmed = a\ дисперсия: D% = а2; асимметрия: р{ = 0; эксцесс: J32 = 0;
150 Глава 3. Вероятностные распределения и их свойства Центральные моменты порядка k > s: О при к = 2/и-1, 1-3-... •Bт-\)а2т при к = 2т, т =3, 4,. Из формул видно, что нормальное распределение описывается двумя параметрами: а — mean — среднее; а — stantard deviation — стандартное отклонение, читается: «сигма». Иногда стандартное отклонение называют среднеквадратическим отклонением, но это уже устаревшая терминология. Приведем некоторые полезные факты относительно нормального распределения. Среднее значение определяет меру расположения плотности. Плотность нормального распределения симметрична относительно среднего. Среднее нормального распределения совпадает с медианой и модой (см. графики). «. ллг» 0 110 /" / / / 1.D "\ \ \ ч •10 1 t • Плотность нормального распределения с дисперсией 1 и средним 1 а—ним •Ю1 им 1007 0000 / / / / ,* / ► •» "X : \ J \ | N X ■^ Плотность нормального распределения со средним 0 и дисперсией 0,01 ВПйШШШЗШ Плотность нормального распределения со средним 0 и дисперсией 4
Равномерное распределение 151 При увеличении дисперсии плотность нормального распределения расплывается или растекается вдоль оси ОХ, при уменьшении дисперсии она, наоборот, сжимается, концентрируясь вокруг одной точки — точки максимального значения, совпадающей со средним значением. В предельном случае нулевой дисперсии случайная величина вырождается и принимает единственное значение, равное среднему. Полезно знать правила 2- и 3-сигма, или 2- и 3-стандартных отклонений, которые связаны с нормальным распределением и используются в разнообразных приложениях. Смысл этих правил очень простой. Если от точки среднего или, что то же самое, от точки максимума плотности нормального распределения отложить вправо и влево соответственно два и три стандартных отклонения B- и 3-сигма), то площадь под графиком нормальной плотности, подсчитанная по этому промежутку, будет соответственно равна 95,45% и 99,73% всей площади под графиком (проверьте на вероятностном калькуляторе STATISTICA!). Другими словами, это можно выразить следующим образом: 95,45% и 99,73% всех независимых наблюдений из нормальной совокупности, например размеров детали или цены акций, лежит в зоне 2- и 3-стандартных отклонений от среднего значения. Равномерное распределение Равномерное распределение полезно при описании переменных, у которых каждое значение равновероятно, иными словами, значения переменной равномерно распределены в некоторой области. Ниже приведены формулы плотности и функции распределения равномерной случайной величины, принимающей значения на отрезке [а, Ь]. /<(*) = FJx) = при а<х<Ь; Ъ-а [О при х<аи х>Ь. О при х<а; х-а Ь-а 1 при х>Ь. при а<х<Ь\ Из этих формул легко понять, что вероятность того, что равномерная случайная величина примет значения из множества [с, d\ с [а, Ь], равна (d — с)/(Ь — а). Положим а - О, Ъ - 1. Ниже показан график равномерной плотности вероятности, сосредоточенной на отрезке [0,1].
152 Глава 3. Вероятностные распределения и их свойства 02 Ojl 1 1 1 2 1 0 1 ? Числовые характеристики равномерного закона: г.* а + Ь среднее, медиана: Eg = xmed = ; дисперсия: D% = —; асимметрия: Д = 0; эксцесс: р2 =-1,2. Экспоненциальное распределение Имеют место события, которые на обыденном языке можно назвать редкими. Если Т— время между наступлениями редких событий, происходящих в среднем с интенсивностью X, то величина Г имеет экспоненциальное распределение с параметром X (лямбда). Экспоненциальное распределение часто используется для описания интервалов между последовательными случайными событиями, например интервалов между заходами на непопулярный сайт, так как эти посещения являются редкими событиями. Это распределение обладает очень интересным свойством отсутствия последействия, или, как еще говорят, марковским свойством, в честь знаменитого русского математика Маркова А. А., которое можно объяснить следующим образом. Если распределение между моментами наступления некоторых событий является показательным, то распределение, отсчитанное от любого момента t до следующего события, также имеет показательное распределение (с тем же самым параметром). Иными словами, для потока редких событий время ожидания следующего посетителя всегда распределено показательно независимо от того, сколько времени вы его уже ждали. Показательное распределение связано с пуассоновским распределением: в единичном интервале времени количество событий, интервалы между которыми независимы и показательно распределены, имеет распределение Пуассона. Если интервалы между посещениями сайта имеют экспоненциальное распределение, то количество посещений, например в течение часа, распределено по закону Пуассона.
Распределение Эрланга 153 Показательное распределение представляет собой частный случай распределения Вейбулла. Если время не непрерывно, а дискретно, то аналогом показательного распределения является геометрическое распределение. Плотность экспоненциального распределения описывается формулой: Это распределение имеет только один параметр, который и определяет его характеристики. График плотности показательного распределения имеет вид: f*| Г рафик в График5 ?М график Экспоненциальны плотность с параметром 1 уекрогЦМ) Основные числовые характеристики экспоненциального распределения: среднее: Ед = —; M^a:^mod=°; медиана: xmed = — In 2; дисперсия: £>£ = — ; Я1 асимметрия: Д = 2; эксцесс: f} = 6. Распределение Эрланга Это непрерывное распределение сосредоточено на @, 1) и имеет плотность: (лц)" „ч _n]ix Р(Х)=Г(П)Х 6 ' где /г, п — параметры, \х > 0, п — целое.
154 Глава 3. Вероятностные распределения и их свойства Математическое ожидание и дисперсия равны соответственно — и —г-. ju nju Распределение Эрланга названо в честь А. Эрланга (A. Erlang), впервые применившего его в задачах теории массового обслуживания и телефонии. Распределение Эрланга с параметрами \i и п является распределением суммы п независимых, одинаково распределенных случайных величин, каждая из которых имеет показательное распределение с параметром п/л. При п - 1 распределение Эрланга совпадает с показательным или экспоненциальным распределением. Распределение Эрланга с разными параметрами и-1 —п-1 п-2 - - • п-3 • 2 4 I S 1t 12 14 11 1t 2t 22 24 2С 2t М 32 34 М М 4t 42 44 4* 4t SI Распределение Лапласа Функция плотности распределения Лапласа, или, как его еще называют, двойного экспоненциального, используется, например, для описания распределения ошибок в моделях регрессии. Взглянув на график этого распределения, вы увидите, что оно состоит из двух экспоненциальных распределений, симметричных относительно оси OY. Если параметр положения равен 0, то функция плотности распределения Лапласа имеет вид: f(x) = h-e-MA (-<»<JC<°°). Основные числовые характеристики этого закона распределения в предположении, что параметр положения нулевой, выглядят следующим образом: среднее: Е% = 0; м°Да: *mod=°; медиана: xmed=0;
Гамма-распределение 155 дисперсия: Dg = —; Я асимметрия: fi{ = 0; эксцесс: J32=3. UIIHU>IUUUIIWJ ЩЦ-ПИ Функция плотности уН*р!»оЦж,0,1) 0960 0413 0 276 0 138 0000 - У ^,^' 1 1 / / \ \ \ \ S \ Xv "~^—- В общем случае плотность распределения Лапласа имеет вид: /М = — -е е -оо<Д:<оо, 2о где а — среднее распределение; Ь — параметр масштаба; е — число Эйлера B,71...). -10 9 8 7 •€ б 4 3 2 1 О 1 2 3 4 5 6 7 8 9 10 Гамма-распределение Плотность экспоненциального распределения имеет моду в точке 0, и это иногда неудобно для практических применений. Во многих примерах заранее известно, что мода рассматриваемой случайной переменной не равна 0, например, интерва-
156 Глава 3. Вероятностные распределения и их свойства лы между приходами покупателей в магазин электронной торговли или заходами на сайт имеют ярко выраженную моду. Для моделирования таких событий используется гамма-распределение. Плотность гамма-распределения имеет вид: JA(a,b)\X) ~ -хаЧе-Ьх Па) О при х<0 при О < х < °°; где Г — Г-функция Эйлера, а > О — параметр «формы» и b > О — параметр масштаба. В частном случае имеем распределение Эрланга и экспоненциальное распределение. Основные характеристики гамма-распределения: среднее: Еу(а,Ъ) = —\ о м°да: *mod = —г- (пРи а *!); дисперсия: Dy(a9b) = —; Ъ асимметрия: j3{ =-=; _2_ л/я эксцесс: р2=—% а Ниже приведены два графика плотности гамма-распределения с параметром масштаба, равным 1, и параметрами формы, равными 3 и 5. fj График в График 1 ?М график Функцил пленное 1и y~g«mm«(x,3)
Логнормальное распределение 157 I и in ii ii ^m ФуНМДИЯ ПЯ01ИОС1И y*g«mm*(x,5) 1.75 0.50 1.25 0.00 I -^ 1 11LLJ 1.0 2.5 5.1 7.5 10.1 ! Полезное свойство гамма-распределения: сумма любого числа независимых гамма-распределенных случайных величин (с одинаковым параметром масштаба Ь) yl(al9b) + y2(a2,b) + --- + yn(an9b) также подчиняется гамма-распределению, но с параметрами я, + я 2 + • • • + я „ иЬ. Логнормальное распределение Случайная величина h называется логарифмически нормальной, или логнормаль- ной, если ее натуральный логарифм AпА) подчинен нормальному закону распределения. Логнормальное распределение используется, например, при моделировании таких переменных, как доходы, возраст новобрачных или допустимое отклонение от стандарта вредных веществ в продуктах питания. Итак, если величина х имеет нормальное распределение, то величина у = ех имеет логнормальное распределение. Если вы подставите нормальную величину в степень экспоненты, то легко поймете, что логнормальная величина получается в результате многократных умножений независимых величин, так же как нормальная случайная величина есть результат многократного суммирования. Плотность логнормального распределения имеет вид: (lnjc-lnaJ /*(*) =-г— е~ 2°2 * 1 л/2я ох Основные характеристики логарифмически нормального распределения: среднее: Ег/ = ае2 ; Mojx^xmod=ae-a2; медиана: xmed = a; дисперсия: D7j = (E7jJ(ea2 -X) = a2ea\eal -1);
158 Глава 3. Вероятностные распределения и их свойства асимметрия: /?, =(еа -1J(еа +2); эксцесс: р2=(е°2 -\)(еъ°2 + Ъе2°2 + 6е°2 +6) |"| График в Г рафик. 3 2М график 0.721 Функция плотности y-k>gnorm(x,0,1) ИНЕЗ €% График в ГрафикЭ: 2М график нгас Функция плотности y-lognor m(x, 2,1) Г^График в График/: 2М график ВИС Функция плотности y-lognorm(x,0,0.5) 0.994 0.497 0.000 0.722 1.444 2.186 2.888
Хи-квадрат-распределение 159 Хи-квадрат-распределение Сумма квадратов т независимых нормальных величин со средним 0 и дисперсией 1 имеет хи-квадрат-распределение с т степенями свободы. Это распределение наиболее часто используется при анализе данных. Формально плотность хи-квадрат-распределения с т степенями свободы имеет вид: -W*) = 1 *М1 /я, _* .7" „ 2 х2 е % jc > 0. При отрицательных х плотность обращается в 0. Основные числовые характеристики хи-квадрат-распределения: среднее: Ех2{т)-т\ мода: 7nmod=/n-2; дисперсия: Dx2{m) = 2т; з 22 асимметрия: Д =—=; 4т 12 эксцесс: р2 =—. /п График плотности приводится на рисунке ниже: £"! График о График! 2М графи Функция плотности y-chi2(x,10) 0.175 0.131 0.087 0.044 0.000 0.00 625 12.50 18.75 ■ЧГ-Ш 25.00 :
160 Глава 3. Вероятностные распределения и их свойства ШЗШВШВШЕВШ Probability densNu function Chi2 distribution 0.3 02 0.1 /, / \ / '' / m-2 v- 4< F«l У \. --..... |m-17 [ 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 Биномиальное распределение Биномиальное распределение является наиболее важным дискретным распределением, которое сосредоточено всего лишь в нескольких точках. Этим точкам биномиальное распределение приписывает положительные вероятности. Таким образом, биномиальное распределение отличается от непрерывных распределений (нормального, хи-квадрат и др.), которые приписывают нулевые вероятности отдельно выбранным точкам и называются непрерывными. Лучше понять биномиальное распределение можно, рассмотрев следующую игру. Представьте, что вы бросаете монету. Пусть вероятность выпадения герба естьр, а вероятность выпадения решки есть q = 1 - р (мы рассматриваем самый общий случай, когда монета несимметрична, имеет, например, смещенный центр тяжести—в монете сделана дырка). Выпадение герба считается успехом, а выпадение решки — неудачей. Тогда число выпавших гербов (или решек) имеет биномиальное распределение. Отметим, что рассмотрение несимметричных монет или неправильных игральных костей имеет практический интерес. Как отметил Дж. Нейман в своей изящной книге «Вводный курс теории вероятностей и математической статистики», люди давно догадались, что частота выпадений очков на игральной кости зависит от свойств самой этой кости и может быть искусственно изменена. Археологи обнаружили в гробнице фараона две пары костей: «честные» — с равными вероятностями выпадения всех граней, и фальшивые — с умышленным смещением центра тяжести, что увеличивало вероятность выпадения шестерок. Параметрами биномиального распределения являются вероятность успеха р (q = 1 - р) и число испытаний п. Биномиальное распределение полезно для описания распределения биномиальных событий, таких, например, как количество мужчин и женщин в случайно выбранных компаниях. Особую важность имеет применение биномиального распределения в игровых задачах. Точная формула для вероятности т успехов в п испытаниях записывается так: /(>") = т\-(п—т)\ •Р 'Я
Биномиальное распределение 161 где р — вероятность успеха; q равно 1-р,р, q>~0,p + q - 1; п — число испытаний, т = 0,1 ...т. Основные характеристики биноминального распределения: среднее: Evp{n) = пр\ М0Даxmod: P(n + \)-\<xmod <р{п +1); дисперсия: D vp (п) = прA - р); 1-2р асимметрия: р = ^прA-р)' эксцесс: Д = 1"М1-Р) прA-р) График этого распределения при различном числе испытаний п и вероятностях успеха р имеет вид: ^тишишяш тштттттт шШШШМвЩ/шшйЛшшлшшм Бмиомиы»1юа реслредеяеиме с г 0 24 0.20 0 10 0.12 ом | 0.04 . 1 мреминреми р-#Д n»1i .!:... 12Э460710 10 wtmtsstrru 1 V**3 Бимомивлымм распределение с пер#мв1ремм p"#.J, n*i§ L24 t.2t Ml •.12 t.M M4 Mt I ■ I I • ■ - « _. \ \ I II. I | VAftt
162 Глава 3. Вероятностные распределения и их свойства Биномиальное распределение с пар ■тирами р»*.7, n-1i •.24 Mt М2 t.M t.M . I Ll_ _J 1 2 3 4 S I 7 • S It 11 12 13 14 15 I VARe bll'MIIUIHIIIilWir— Биномиальное распределение с параме1рами p"t.7, na1tt ; Ml i I VAR7 (Г)! рафик40 Столбчатая диаграмма Биномиально* распределение с параметрами р«0.0$, п-100 I Р_0_05
Биномиальное распределение *од Биномиальное распределение связано с нормальным распределением и распределением Пуассона (см. ниже); при определенных значениях параметров при большом числе испытаний оно превращается в эти распределения. Это легко продемонстрировать с помощью STATISTIC А. Например, рассматривая график биномиального распределения с параметрами р=0,7, п = 100 (см. рисунок), мы использовали STATISTICA BASIC, — вы можете заметить, что график очень похож на плотность нормального распределения (так оно и есть на самом деле!). График биномиального распределения с параметрами р=0f05f n = 100 очень похож на график пуассоновского распределения. Как уже было сказано, биномиальное распределение возникло из наблюдений за простейшей азартной игрой — бросание правильной монеты. Во многих ситуациях эта модель служит хорошим первым приближением для более сложных игр и случайных процессов, возникающих при игре на бирже. Замечательно, что существенные черты многих сложных процессов можно понять, исходя из простой биномиальной модели. Например, рассмотрим следующую ситуацию. Отметим выпадение герба как 1, а выпадение решки — минус 1 и будем суммировать выигрыши и проигрыши в последовательные моменты времени. На графиках показаны типичные траектории такой игры при 1000 бросков, при 5000 бросков и при 10 000 бросков. Обратите внимание, какие длинные отрезки времени траектория находится выше или ниже нуля, иными словами, время, в течение которого один из игроков находится в выигрыше в абсолютно справедливой игре, очень продолжительно, а переходы от выигрыша к проигрышу относительно редки, и это с трудом укладывается в неподготовленном сознании, для которого выражение «абсолютно справедливая игра» звучит как магическое заклинание. Итак, хотя игра и справедлива по условиям, поведение типичной траектории вовсе не справедливо и не демонстрирует равновесия! Конечно, эмпирически этот факт известен всем игрокам, с ним связана стратегия, когда игроку не дают уйти с выигрышем, а заставляют играть дальше. Результаты бросаний правильной монеты A000 бросков) 30 20 10 S 0 -10 -20 -30 0 100 200 300 400 500 600 700 800 900 1000
164 Глава 3. Вероятностные распределения и их свойства ал Результаты бросаний правильной монеты E000 бросков) сшш; 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 шмшштн ■ JDlxi Результаты бросаний правильной монеты A5000 бросков) 100 г 0 2000 4000 6000 8000 10000 12000 14000 1000 3000 5000 7000 9000 11000 13000 15000 Рассмотрим количество бросков, в течение которых один игрок находится в выигрыше (траектория выше 0), а второй — в проигрыше (траектория ниже 0). На первый взгляд кажется, что количество таких бросков примерно одинаково. Однако (см. захватывающую книгу: Феллер В. Введение в теорию вероятностей и ее приложения. М: Мир, 1984, с.106) при 10 000 бросках идеальной монеты (то есть для испытаний Бернулли ср - q - 0,5, п-10 000) вероятность того, что одна из сторон будет лидировать на протяжении более 9 930 испытаний, а вторая — менее 70, превосходит 0,1. Удивительно, что в игре, состоящей из 10 000 бросаний правильной монеты, вероятность того, что лидерство поменяется не более 8 раз, превышает 0,14, а вероятность более 78 изменений лидерства приблизительно равна 0,12. Итак, мы имеем парадоксальную ситуацию: в симметричном блуждании Бернулли «волны» на графике между последовательными возвращениями в нуль (см. графики) могут быть поразительно длинными. С этим связано и другое обстоятельство, а именно то, что для Тп/п (доли времени, когда график находится выше оси абсцисс) наименее вероятными оказываются значения, близкие к 1/2.
Распределение арксинуса 165 Математиками был открыт так называемый закон арксинуса, согласно которо- Т му при каждом 0 < а <1 вероятность неравенства — <а, где Т п — число п шагов, в течение которых первый игрок находится в выигрыше, стремится к 1 с dx 2 . г- — \ , =— arcsiiWfl. 7CJo ^X(l-X) 1С Распределение арксинуса Это непрерывное распределение сосредоточено на интервале @,1) и имеет плотность: Функция распределения имеет вид: F{x) = 2я " arcsin Распределение арксинуса связано со случайным блужданием. Это распределение доли времени, в течение которого первый игрок находится в выигрыше при бросании симметричной монеты, то есть монеты, которая с равными вероятностями S падает на герб и решку. По-другому такую игру можно рассматривать как случайное блуждание частицы, которая, стартуя из нуля, с равными вероятностями делает единичные скачки вправо или влево. Так как скачки частицы — выпадения герба или решки — равновероятны, то такое блуждание часто называется симметричным. Если бы вероятности были разными, то мы имели бы несимметричное блуждание. График плотности распределения арксинуса приведен на следующем рисунке: •0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.0 1.0 1.1 | Доля времени
166 Глава 3. Вероятностные распределения и их свойства Самое интересное — это качественная интерпретация графика, из которой можно сделать удивительные выводы о сериях выигрышей и проигрышей в справедливой игре. Взглянув на график, вы можете заметить, что минимум плотности находится в точке 0,5. «Ну и что?!» — спросите вы. Но если вы задумаетесь над этим наблюдением, то вашему удивлению не будет границ! Оказывается, определенная как справедливая, игра в действительности вовсе не такая справедливая, как может показаться на первый взгляд. Траектории симметричного случайного, в которых частица равное время проводит как на положительной, так и на отрицательной полуоси, то есть правее или левее нуля, являются как раз наименее вероятными. Переходя на язык игроков, можно сказать, что при бросании симметричной монеты игры, в которых игроки находятся равное время в выигрыше и проигрыше, наименее вероятны. Напротив, игры, в которых один игрок значительно чаще находится в выигрыше, а другой соответственно в проигрыше, являются наиболее вероятными. Удивительный парадокс! Чтобы рассчитать вероятность того, что доля времени т, в течение которой первый игрок находится в выигрыше, лежит в пределах от t1 до t2> нужно из значения функции распределения F(t2) вычесть значение функции распределения F(t1). Формально получаем: P{tKx<t2} - F(t2) - F(t1). Опираясь на этот факт, можно вычислить с помощью STATISTIC А, что при 10 000 шагов частица остается на положительной стороне более чем 9930 моментов времени с вероятностью 0,1, то есть, грубо говоря, подобное положение будет наблюдаться не реже чем в одном случае из десяти (хотя, на первый взгляд, оно кажется абсурдным; см. замечательную по ясности заметку Ю. В. Прохорова «Блуждание Бернул- ли» в энциклопедии «Вероятность и математическая статистика», с. 42-43, М.: Большая российская энциклопедия, 1999). Отрицательное биномиальное распределение Это дискретное распределение, приписывающее целым точкам k = 0, 1,2,... вероятности: Рк=Р{Х = к}=Скг+к_1ргA-р)к>где0<р<1,г>0. Отрицательное биномиальное распределение встречается во многих приложениях. При целом г > 0 отрицательное биномиальное распределение интерпретируется как распределение времени ожидания r-го «успеха» в схеме испытаний Бернулли с вероятностью «успеха» р, например, количество бросков, которые нужно сделать до второго выпадения герба, в этом случае оно иногда называется распределением Паскаля и является дискретным аналогом гамма-распределения. При г - 1 отрицательное биномиальное распределение совпадает с геометрическим распределением.
Распределение Пуассона 167 Если Y — случайная величина, имеющая распределение Пуассона со случайным параметром А, который, в свою очередь, имеет гамма-распределение с плотностью 1 вд х"'хе'ах9 л: > 0, // > 0, то Убудет иметь отрицательно биномиальное распределение с параметрами г = \х а и р = Распределение Пуассона Распределение Пуассона иногда называют распределением редких событий. Примерами переменных, распределенных по закону Пуассона, могут служить: число несчастных случаев, число дефектов в производственном процессе и т. д. Распределение Пуассона определяется формулой: /(*) = XхНеосновные характеристики пуассоновской случайной величины: среднее: Ev0 =Я; дисперсия: Dv0 =Л; 1 асимметрия: Д = эксцесс: /?2 =—. л/Г Распределение Пуассона связано с показательным распределением и с распределением Бернулли. Если число событий имеет распределение Пуассона, то интервалы между событиями имеют экспоненциальное или показательное распределение. График распределения Пуассона: Распределение Пуассона с параметром 5 1. .1.1 1.. 2 Э 4 9 в 7 • 0 10 11 12 13 14 15 16 17 II 10 20 I ПУАССОН
168 Глава 3. Вероятностные распределения и их свойства Сравните график пуассоновского распределения с параметром 5 с графиком распределения Бернулли прир=^=0,5, п=100. Вы увидите, что графики очень похожи. В общем случае имеется следующая закономерность (см., например, превосходную книгу: Ширяев А. Н. Вероятность. М: Наука, с. 76): если в испытаниях Бернулли п принимает большие значения, а вероятность успеха р относительно мала, так что среднее число успехов (произведение п нар) и не мало и не велико, то распределение Бернулли с параметрами п, р можно заменить распределением Пуассона с параметром Я - п х р. Распределение Пуассона широко используется на практике, например, в картах контроля качества как распределение редких событий. В качестве другого примера рассмотрим следующую задачу, связанную с телефонными линиями и взятую из практики (см.: Феллер В. Введение в теорию вероятностей и ее приложения. М: Мир, 1984, с. 205, а также Molina E. С. A935) Probability in engineering, Electrical engineering, 54, p. 423-427; Bell Telephone System Technical Publications Monograph B-854). Эту задачу легко перевести на современный язык, например на язык мобильной связи, что и предлагается сделать заинтересованным читателям. Задача формулируется следующим образом. Пусть имеется две телефонные станции — А и В. Телефонная станция А должна обеспечить связь 2000 абонентов со станцией В. Качество связи должно быть таким, чтобы только 1 вызов из 100 ждал, когда освободится линия. Спрашивается: сколько нужно провести телефонных линий, чтобы обеспечить заданное качество связи? Очевидно, что глупо создавать 2000 линий, так как длительное время многие из них будут свободными. Из интуитивных соображений ясно, что, по-видимому, имеется какое-то оптимальное число линий N Как рассчитать это количество? Начнем с реалистической модели, которая описывает интенсивность обращения абонента к сети, при этом заметим, что точность модели, конечно, можно проверить, используя стандартные статистические критерии. Итак, предположим, что каждый абонент использует линию в среднем 2 минуты в час и подключения абонентов независимы (однако, как справедливо замечает Феллер, последнее имеет место, если не происходит некоторых событий, затрагивающих всех абонентов, например войны или урагана). Тогда мы имеем 2000 испытаний Бернулли (бросков монеты) или подключений к сети с вероятностью успеха р-2/60-1/30. Нужно найти такое N, когда вероятность того, что к сети одновременно подключается больше N пользователей, не превосходит 0,01. Эти расчеты легко можно решить в системе STATISTICA. Решение задачи на STATISTICA. Шаг 1. Откройте модуль Основные статистики. Создайте файл binomtsta, содержащий 110 наблюдений. Назовите первую переменную БИНОМ, вторую переменную - ПУАССОН. Шаг 2. Дважды щелкнув мышью на заголовке БИНОМ, откройте окно Переменная 1 (см. рисунок). Введите в окно формулу, как показано на рисунке. Нажмите кнопку ОК.
Распределение Пуассона 169 Шаг 3. Дважды щелкнув мышью на заголовке ПУАССОН, откройте окно Переменная 2 (см. рис.) Введите в окно формулу, как показано на рисунке. Обратите внимание, что мы вычисляем параметр Я распределения Пуассона по формуле Я - п Хр. Поэтому Я - 2000 х 1/30. Нажмите кнопку ОК. :-1Щ^ j-MPoitton(vO. 86 67) При»йгй«тк* taw**«зла• 1991 - Фт&ы «vl *v2r STATISTICA рассчитает вероятности и запишет их в созданный файл. ш щ р 17932915481441 14962154195493 12349862619553 10083994221371; 08144974069924 06507644413006. 05143167109724 04020781452994; 03109338172823 02378544881279 01799915279134 16824907605534 14033911041369 11585546029094 09465649818746 07653676714149 06124512732208 04850142615164 03801225878085 02948407549279 02263376934871 01719675893199 00731161583547 00530040965263 00380185793569 00269833777141: '00189511542052: 00709273651699 00517334853803 00373553209677 00267042798121 00189009414657
170 Глава 3. Вероятностные распределения и их свойства Шаг 4. Прокрутите построениую таблицу до наблюдений с номером 86. Вы увидите, что вероятность того, что в течение часа из 2000 пользователей сети одновременно работают 86 или более, равна 0,01347, если используется биномиальное распределение. Вероятность того, что в течение часа из 2000 пользователей сети одновременно работают 86 или более человек, равна 0,01293, если используется пуассоновское приближение для биномиального распределения. Так как нам нужна вероятность не более 0,01, то 87 линий будет достаточно, чтобы обеспечить нужное качество связи. Близкие результаты можно получить, если использовать нормальное приближение для биномиального распределения (проверьте это!). Заметим, что В. Феллер не имел в своем распоряжении систему STATISTICA и использовал таблицы для биномиального и нормального распределения. С помощью таких же рассуждений можно решить следующую задачу, обсуждаемую В. Феллером. Требуется проверить, больше или меньше линий потребуется для надежного обслуживания пользователей при разбиении их на 2 группы по 1000 человек в каждой. Оказывается, при разбиении пользователей на группы потребуется дополнительно 10 линий, чтобы достичь качества того же уровня. Можно также учесть изменение интенсивности подключения к сети в течение дня. Геометрическое распределение Если проводятся независимые испытания Бернулли и подсчитывается количество испытаний до наступления следующего «успеха», то это число имеет геометрическое распределение. Таким образом, если вы бросаете монету, то число подбрасываний, которое вам нужно сделать до выпадения очередного герба, подчиняется геометрическому закону. Геометрическое распределение определяется формулой: f(x) = p-(l-Py-\ гдер — вероятность успеха, х= 1,2,3... Название распределения связано с геометрической прогрессией. Итак, геометрическое распределение задает вероятность того, что успех наступил на определенном шаге. Геометрическое распределение представляет собой дискретный аналог показательного распределения. Если время изменяется квантами, то вероятность успеха в каждый момент времени описывается геометрическим законом. Если время непрерывно, то вероятность описывается показательным или экспоненциальным законом. Гипергеометрическое распределение Это дискретное распределение вероятностей случайной величины Ху принимающей целочисленные значения т = 0, 1,2,..., п с вероятностями:
Бета-распределение 171 N где N, M и п — целые неотрицательные числа uM<N,n<N. Гипергеометрическое распределение обычно связано с выбором без возвращения и определяет, например, вероятность найти ровно т черных шаров в случайной выборке объема п из генеральной совокупности, содержащей N шаров, среди которых М черных и N - М белых (см., например, энциклопедию «Вероятность и математическая статистика», М.: Большая российская энциклопедия, с. 144). Математическое ожидание гипергеометрического распределения не зависит от N и совпадает с математическим ожиданием /л = пр соответствующего биномиального распределения. 2 N-n Дисперсия гипергеометрического распределения с = npq + не превос- N -\ ходит дисперсии биномиального распределения npq. При N—> °° моменты любого порядка гипергеометрического распределения стремятся к соответствующим значениям моментов биномиального распределения. Это распределение чрезвычайно часто возникает в задачах, связанных с контролем качества. Полиномиальное распределение Полиномиальное у или мультиномиальное, распределение естественно обобщает распределение. Если биномиальное распределение возникает при бросании монеты с двумя исходами (решетка или герб), то полиномиальное распределение в(?зни- кает, когда бросается игральная кость и имеется больше двух возможных исходов. Формально — это совместное распределение вероятностей случайных величин X1t...,Xk> принимающих целые неотрицательные значения n1f...,nk, удовлетворяющие условию п1 + ... + nk = п, с вероятностями: ПХх=п, хк=пк}—^—р?...р?, PjZ0,Y.Pj=l. (*) и,/...и к! J Название «полиномиальное распределение» объясняется тем, что мультиномиальные вероятности возникают при разложении полинома (р1 + ... + р^1. Бета-распределение Бета-распределение имеет плотность вида: /p(a„a2)W- Г(а1+а2) _а,-1л ча2-1 *а,"'A-;с)а2~' приО<х<\', Цах)Т\а2) О для остальных значений х.
172 Глава 3. Вероятностные распределения и их свойства Стандартное бета-распределение сосредоточено на отрезке от 0 до 1. Применяя линейные преобразования, бета-величину можно преобразовать так, что она будет принимать значения на любом интервале. Основные числовые характеристики величины, имеющей бета-распределение: среднее: Efl(a{, а2) = —— м°Да: *mod = — г (пРи а1>1иа2> 1); а, + а2 — 2 дисперсия: В/г(а,,а2) = 2'*2 ; асимметрия: д =_1J 1/Л/ ' 1—. (a,+a2+2)V^ эксцесс: А = 3(д, + *2 + 1)[2(а, + а,)' +«,«,(«, + *2 -Q] _3. а1а2(а1+а2+2)(а,+а2+3) Распределение экстремальных значений Распределение экстремальных значений (тип I) имеет плотность вида: 1 *~* — f(x) = --e ь -е'е " -оо<х<оо9Ь>0, где в — параметр положения; Ъ — параметр масштаба; е — число Эйлера B,71...). Это распределение иногда также называют распределением крайних значений. Распределение экстремальных значений используется при моделировании экстремальных событий, например уровней наводнений, скоростей вихрей, максимума индексов рынков ценных бумаг за данный год и т. д. Это распределение используется в теории надежности, например для описания времени отказа электрических схем, а также в актуарных расчетах. Распределения Релея Распределение Релея имеет плотность вида: 1 *~в *~° f(x) = --e b -е~* ь -оо<х<оо9Ь>0,
Распределение Вейбулла 173 где Ь — параметр масштаба. Распределение Релея сосредоточено в интервале от 0 до бесконечности. Вместо значения О STATISTICA позволяет ввести другое значение порогового параметра, которое будет вычтено из исходных данных перед подгонкой распределения Релея. Следовательно, значение порогового параметра должно быть меньше всех наблюдаемых значений. Если две переменные у1 и у2 являются независимыми друг от друга и нормально распределены с одинаковой дисперсией, то переменная х = ^]у? + у\ будет иметь распределение Релея. Распределение Релея используется, например, в теории стрельбы. £**|1 рафик о График. 4 ?М график. HWE2 Плотность распределения Ре лед y-rtyteigh(x,1) 0.667 0.S00 0.334 8.167 0.000 0.0 0.2 0.4 0.1 0.0 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.1 2.0 3.0 Распределение Вейбулла Распределение Вейбулла названо в честь шведского исследователя Валодди Вейбулла (Waloddi Weibull), применявшего это распределение для описания времен отказов разного типа в теории надежности. Формально плотность распределения Вейбулла записывается в виде: Лф) = \Ша-хе*^, />0. Иногда плотность распределения Вейбулла записывается также в виде: /w=Hf)c °~x'b> 0, о 0, где Ь — параметр масштаба; с — параметр формы; е — константа Эйлера B,718...).
174 Глава 3. Вероятностные распределения и их свойства Параметр положения. Обычно распределение Вейбулла сосредоточено на полуоси от 0 до бесконечности. Если вместо границы 0 ввести параметр а, что часто бывает необходимо на практике, то возникает так называемое трехпараметричес- кое распределение Вейбулла. Распределение Вейбулла интенсивно используется в теории надежности и страховании. Как описывалось выше, экспоненциальное распределение часто используется как модель, оценивающая время наработки до отказа в предположении, что вероятность отказа объекта постоянна. Если вероятность отказа меняется с течением времени, применяется распределение Вейбулла. При с = 1 или, в другой параметризации, при а = 1 распределение Вейбулла, как легко видеть из формул, переходит в экспоненциальное распределение, а при а = 2 — в распределение Релея. Разработаны специальные методы оценки параметров распределения Вейбулла (см. например, книгу: Lawless A982) Statistical models and methods for lifetime data, Belmont, CA: Lifetime Learning, где описаны методы оценивания, а также проблемы, возникающие при оценке параметра положения для трехпараметричес- кого распределения Вейбулла). Часто при проведении анализа надежности необходимо рассматривать вероятность отказа в течение малого интервала времени после момента времени t при условии, что до момента t отказа не произошло. Такая функция называется функцией риска, или функцией интенсивности отказов, и формально определяется следующим образом: „@= т \-F(t) где h(t) — функция интенсивности отказов или функция риска в момент времени t; f(t) — плотность распределения времен отказов; F(t) — функция распределения времен отказов (интеграл от плотности по интервалу [0, ф. В общем виде функция интенсивности отказов записывается так: Л@ = Я0саа-\ где к0>0иа>0 — некоторые числовые параметры. При ос = 1 функция риска равна константе, что соответствует нормальной эксплуатации прибора (см. формулы). При а < 1 функция риска убывает, что соответствует приработке прибора. При а > 1 функция риска убывает, что соответствует старению прибора. Типичные функции риска показаны на графике.
Распределение Вейбулла 175 тшшшшшшт Функция риска, модулируемая распределениями Вейбулла с различными параметрами Функция риска, моделируемая распределениями Вейбулла с различными параметрами 130 г 120 110 100 90 § 80 70 во 50 40 I |*-°-т| I—И . li-U , 10 12 ТМЕ Ниже показаны графики плотности распределения Вейбулла с различными параметрами. Нужно обратить внимание на три области значений параметра ос: 1. сс<1, 2. ос=1, 3. а>1. В первой области функция риска убывает (период настройки), во второй области функция риска равна константе, в третьей области функция риска возрастает. Вы легко поймете сказанное на примере покупки нового автомобиля: вначале идет период адаптации машины, затем длительный период нормальной эксплуатации, далее детали автомобиля изнашиваются и функция риска выхода его из строя резко возрастает. Важно, что все периоды эксплуатации можно описать одним и тем же семейством распределения. В этом и состоит идея распределения Вейбулла.
176 Глава 3. Вероятностные распределения и их свойства | Плотность распределения Вембулле с переме?реми 10,6 j y-wett>uN(x,1ltM) I 0.207 . 1.166 1.113 0.062 0.000 7.100 0.607 Плотность распределит* Веиоуяля с переметремм 1,2 ywe*buM<K,V,t) 0.043 0.700 0.472 1230 0J00 1.0 1.6 2.0 2.6 3.0 3.6 4.0 4.6 6.0 Плотное* распределения ВейОулле с переметремм 1,0.0 ywe4butt(M,M,l) 2.762 0.000 Приведем основные числовые характеристики распределения Вейбулла. Среднее: Е\ = к" Г 1+- ;
Распределение Парето 177 мода:*т0A =1 О, если а <1; -1 1 i а( 1V к и— , если а >1; дисперсия: D% = X ГЦ- сс -Г2 момент &-го порядка: тк = Eq = Х0 • Г 1 1 + ч а fi+* 1 а здесь Г(г) — так называемая гамлш-функция Эйлера, T(z) = \x"~le~"dx. Распределение Парето В различных задачах прикладной статистики довольно часто встречаются так называемые усеченные распределения. Например, это распределение используется в страховании или в налогообложении, когда интерес представляют доходы, которые превосходят некоторую величину со- W = P{£<*} = 1-|^|, а лм=- Основные числовые характеристики распределения Парето: ос среднее: Е = cQ (существует при а> 1); а-1 мода:*тоA=с0; медиана: xmed =2a -с0; дисперсия: Z)£ = а (а-1J(а-2) cl (существует при а>2);
178 Глава 3. Вероятностные распределения и их свойства а Момент &-го порядка: Е%к = cl (существует при a>k). а-к V% График, в График.5 2М графи Функция плотности yp»r*to{x,2) Графикб: 2М график Функция плотности y«p»r*to(x.10) Логистическое распределение Логистическое распределение имеет функцию плотности: -(*-«) f(x) = — -e b */W 2b -(x-a) l + в b где a — параметр положения; b — параметр масштаба; e — число Эйлера B,71...).
Хотеллинга Т2-распределение 179 итим\шл1шиш1штт Плотность логистического распределения с параметрами 2, 4 y-logis(x,2,4) 0.069 | 0.052 0.034 0.017 0.000 20 .16 12 -8 4 0 4 12 16 20 Хотеллинга Т2-распределение Это непрерывное распределение, сосредоточенное на интервале @, Г), имеет плотность: Г п+\Л г2-\ 'и-А;+П (О 7 и/ где параметры nnkyn>k>1y называются степенями свободы. При k e 1 Хотеллинга Т2-распределение сводится к распределению Стьюдента, а при любом k > 1 может рассматриваться как обобщение распределения Стьюдента на многомерный случай. Распределение Хотеллинга строится исходя из нормального распределения. Пусть ^-мерный случайный вектор У имеет нормальное распределение с нулевым вектором средних и ковариационной матрицей 2. Рассмотрим величину где случайные векторы Z. независимы между собой и У и распределены так же, как У. Тогда случайная величина Т2 = YTS'lY имеет Т2-распределение Хотеллинга с п степенями свободы (У— вектор-столбец, Т — оператор транспонирования). Если k - У, то Т2 = - Т = '- п
180 Глава 3. Вероятностные распределения и их свойства где случайная величина tn имеет распределение Стьюдента с п степенями свободы (см. «Вероятность и математическая статистика», Энциклопедия, с. 792). Если У имеет нормальное распределение с ненулевым средним, то соответствующее распределение называется нецентральным Хотеллинга Т2-распределением с п степенями свободы и параметром нецентральности v. Хотеллинга Т2-распределение используют в математической статистике в той же ситуации, что и ^-распределение Стьюдента, но только в многомерном случае. Если результаты наблюдений X1t..., Хп представляют собой независимые, нормально распределенные случайные векторы с вектором средних \х и невырожденной ковариационной матрицей X, то статистика T2=n(X-M)TS-l(X-M), где х = 1 2 Xt и S = —Х (Х{ -Х)(Х, -Х)\ Я , , /2—1 имеет Хотеллинга Т2-распределение с п - 1 степенями свободы. Этот факт положен в основу критерия Хотеллинга. В STATISTIC А критерий Хотеллинга доступен, например, в модуле Основные статистики и таблицы (см. приведенное ниже диалоговое окно). Распределение Максвелла Распределение Максвелла возникло в физике при описании распределения скоростей молекул идеального газа. Это непрерывное распределение сосредоточено на @, «>) и имеет плотность: -х2 pw=.(I4^. °>°- (*) уя а
Распределение Коши 181 Функция распределения имеет вид: F(x) [а) \п а 2а 4U 1 е -I, где Ф(х) — функция стандартного нормального распределения. Распределение Максвелла имеет положительный коэффициент асимметрии и единственную моду в точке х = 42с (то есть распределение унимодально). Распределение Максвелла имеет конечные моменты любого порядка; матема- /~2 ^7г — 8 тическое ожидание и дисперсия равны соответственно 2J—<т и <т2. \к к Распределение Максвелла естественным образом связано с нормальным распределением. Если Хг Х2, Х3 — независимые случайные величины, имеющие нормальное распределение с параметрами 0 и о2, то случайная величина ^Jx? + Х\ + Х\ имеет распределение Максвелла. Таким образом, распределение Максвелла можно рассматривать как распределение длины случайного вектора, координаты которого в декартовой системе координат в трехмерном пространстве независимы и нормально распределены со средним 0 и дисперсией о2. Распределение Коши У этого удивительного распределения иногда не существует среднего значения, так как плотность его очень медленно стремится к нулю при увеличении х по абсолютной величине. Такие распределения называют распределениями с тяжелыми хвостами. Если вам нужно придумать распределение, не имеющее среднего, то сразу называйте распределение Коши. Распределение Коши унимодально и симметрично относительно моды, которая одновременно является и медианой, и имеет функцию плотности вида: п с2+(х-аJ f(x) = -'-rr7 ^"' -00<х<00> где с > 0 — параметр масштаба и а — параметр центра, определяющий одновременно значения моды и медианы. Интеграл от плотности, то есть функция распределения, задается соотношением: _. ч l l , х-а F(x) = — + — arcth . 2 п с
182 Глава 3. Вероятностные распределения и их свойства ItlCTiTHFWPMTl 0.7 0.6 0.5 0.4 0.3 02 0.1 п п шшшшшшшшшшшшшшшшшшшшиш Probability density function Cauchy distribution i / - • / \ |C«ucfty@,0S) | |Cauchy@,0 8)| *JS^ 4 \t [caucfty@,1)| -3.0 2£ 22 1.8 1.4 -1.0 Л.6 4J.2 0.2 0.6 1.0 1.4 1.8 22 2£ 3.0 Распределение Стьюдента Английский статистик В. Госсет, известный под псевдонимом «Стьюдент» и начавший свою карьеру со статистического исследования качества английского пива, получил в 1908 г. следующий результат. Пусть х0> xv..., хт — независимые, @, s2) — нормально распределенные случайные величины: t(m) = описывается функцией: /,(*) = (-оо<^<оо). Это распределение, известное теперь как распределение Стьюдента (кратко обозначается как £(т)-распределения, где т — число степеней свободы), лежит в основе знаменитого t-критерия, предназначенного для сравнения средних двух совокупностей. Функция плотности ft(x) не зависит от дисперсии о2 случайных величин £. и, кроме того, является унимодальной и симметричной относительно точки х = 0. Основные числовые характеристики распределения Стьюдента: среднее, мода, медиана: Et(m) = xmQd = xmed = 0; дисперсия: Dt(m) = асимметрия: /3=0; т т-2 (существует только при т>2);
F-распределение 183 эксцесс: Р2 т (существует только при т>4). т —4 t-распределение важно в тех случаях, когда рассматриваются оценки среднего и неизвестна дисперсия выборки. В этом случае используют выборочную дисперсию и t-распределение. При больших степенях свободы (больших 30) t-распределение практически совпадает со стандартным нормальным распределением. График функции плотности t-распределения деформируется при возрастании числа степеней свободы следующим образом: пик увеличивается, хвосты более круто идут к 0, и кажется, будто график функции плотности t-распределения сжимается с боков. 11ИМИ11Ш l.lalx Probability density function Student distribution 3fl 2,6 2Л Л» 1.4 1,0 Я.6 Q2 0,2 0,6 1,0 1,4 1,8 22 2,6 3,0 F-распределение Рассмотрим т1 + m2 независимых и @, s2) нормально распределенных величин £lv..£m,;77lv..,77m2 И ПОЛОЖИМ -!-£«■ 1 А 2* г»/ \ "Ч /=1 F(ml9m2) = —*— Очевидно, та же самая случайная величина может быть определена и как отношение двух независимых и соответствующим образом нормированных ^-распределенных величин ^(т^ и tf(m2), то есть F(m]9m2) = —L — X\rnx) — Z2(m2)
184 Глава 3. Вероятностные распределения и их свойства Знаменитый английский статистик Р. Фишер в 1924 г. показал, что плотность вероятности случайной величины F(m1f m2) задается функцией: JF(m.,i F(mltm2) Л т, +т2 12 2 г ~т~^ г 'щ Дч (*) = / Ч / \ —^ХГ, @<*<~), {тЛАтЛ \2) \2) (mtx+m. ) где Т(у) — значение гамма-функции Эйлера в точке у, а сам закон называется Y-распределением с числами степеней свободы числителя и знаменателя, равными соответственно тп1 и тп2. Основные числовые характеристики F-распределения: среднее: EF(jnx,m2) = ——, (существуетприт>2)\ т2-2 м°Да: *mod = _(т1-2)-т2 тх -(т2+2) , (длят,>7); __, ч 2/w, (/w, +/w9 — 2) , .ч дисперсия: DF(ml9m2) = — 2 , (приту>7); т1(т2-2У(т2-4) „ Bm.+m2-2)J&(m2-4) , _ч асимметрия: /?, = -—■ l v l , (прит2>б); (Щ-Щ(т\ +гп2-2)тх эксцесс: J32 = - 3(т2-6)B + 1д2) w2-8 2 3, (прит2>5). ■Jcrfxl 1.2 1.0 0J 0.6 0.4 0.2 0.0 \ Im,x V ' ■ \ ' / .. 1. Л .. . . . . .т,=4 / Probability dontlty function Flthor distribution ] [m,=10. m,=50 I \ |т1ж4. ^Г ■■■V 4. - N 00 | 0,0 0,4 0,8 1,2 1,6 2.0 2,4 2,8 F-распределение возникает в дискриминантном, регрессионном и дисперсионном анализе, а также в других видах многомерного анализа данных.
Подгонка 4 вероятностных распределений к реальным данным Подгонкой (английский термин fitting) называют аналитические процедуры, позволяющие подобрать распределение, которое с достаточной степенью точности описывает наблюдаемые данные. Типы различных распределений описаны выше в главе Вероятностные распределения. Итак, имея значения переменной X, мы проверяем гипотезу, согласно которой распределение X описывается вероятностным законом F. Одним из популярных и простых критериев согласия наблюдаемых данных с гипотезой является критерий хи-квадрат Пирсона. Мы сформулируем этот критерий в общем виде, потому что в дальнейшем он используется в нескольких задачах: как критерий согласия, критерий однородности и критерий проверки независимости признаков в таблицах сопряженности (см. главу 11). Итак, пусть проводится п независимых испытаний, в результате которых наблюдаются частоты (пи ... щ) попарно несовместных исходов (Хь ... X*), составляющих полную группу событий, щ + ... + щ - п. Например, вы можете представить себе, что бросаете игральную кость (кость имеет шесть граней, следовательно k - 6, исходы 1, 2, 3, 4, 5, 6 — выпадающие очки) или наблюдаете независимые реализации случайной величины, область изменения которой разбита на k>l непересекающихся интервалов. Обозначим вероятность появления f-ro исхода в каждом испытании через р,: i-l9...k9pi+...+pk-l9pi>0. Формально статистика хи -квадрат вычисляется так: k хи-квадрат = V (щ -nptJ /npi /»i Заметим, что иногда используют также греческое обозначение %2 для статистики хи-квадрат. Предположим, вам нужно проверить гипотезу Н0: р - р°, где р - (рь ... рО, Р° ■ (р°ь... Р°к). Альтернативой является гипотеза, согласно которой эти вероятности неравны, иными словами, Hi: p Ф р°.
186 Глава 4. Подгонка вероятностных распределений к реальным данным Для проверки гипотезы Н0 против альтернативы Hi мы вычисляем статистику хи-квадрат при значениях р = р°(то есть при гипотезе Н0). Затем, выбираем уровень значимости а, и находим 1 - а квантиль %2 распределения с к - 1 степенью свободы. Обозначим данную квантиль через %2 ^ к. Тогда критическая область критерия Пирсона уровня а имеет вид: Г к 1 [ /=1 J Таким образом, если мы, наблюдая (пь... nk), получаем значение статистики х2, превышающее уровень х2 i-cu, то отвергаем гипотезу Н0 в пользу альтернативы Нь в противном случае гипотезу не отвергаем. Обычно критерий хи-квадрат используют при числе наблюдений п > 50, я,>5, г = 1,... k. Заметим, что при проверке гипотезы, согласно которой случайная величина X имеет распределение F, вероятности p°jможно вычислять по формуле:p°f= F(Xf) - F(X, _ 0, где [X,-, Х,_ 0, i-й интервал группировки. Взглянув на формулу, вы легко поймете, что статистика хи-квадрат разумно сравнивает наблюдаемые и ожидаемые частоты. Статистика принимает значения от нуля до бесконечности. Чем меньше значение статистики хи-квадрат, тем более вероятно, что гипотеза верна, чем больше значение статистики хи-квадрат, тем меньше вероятность того, что гипотеза соответствует данным. Итак, статистика хи-квадрат — это разумная мера согласия (соответствия) данных с гипотезой. Конечно, вы можете предложить собственную меру, например, вместо квадрата в приведенной формуле использовать модуль или четвертую степень, однако известно, что критерий Пирсона обладает свойством оптимальности. Замечательно, что выборочное распределение статистики хи-квадрат при гипотезе приближенно является распределением хи-квадрат с числом степеней свободы k - 1 (число интервалов группировки минус 1) и не зависит от закона F. Точность приближения, грубо говоря, зависит от числа наблюдений (что вполне естественно). Если у вас имеется много данных, объем выборки большой, вы можете считать, что статистика хи-квадрат имеет в точности распределение хи-квадрат, и рассчитать вероятность ошибки, связанной с отклонением правильной гипотезы. Тонкости применения: О ячейки, в которых ожидаемые при гипотезе частоты меньше 5, следует объединять (так как ухудшается качество аппроксимации распределения критериальной статистики распределением хи-квадрат); О если проверяется параметрическая гипотеза и параметры распределения оцениваются по данным, то число степеней свободы критерия хи-квадрат равно k-m- 1, где т — число параметров вероятностной модели, которые должны быть оценены по тем же данным, что и проверяемая гипотеза. В системе STATISTICA все необходимые вычисления и поправки на число степеней свободы производятся автоматически.
Пример 1. Подгонка распределения к данным: посещение непопулярного сайта 187 ример 1. Подгонка распределения данным: посещение непопулярного сайта Рассмотрим данные о числе посетителей нераскрученного сайта. Е ЧИ( 1* *> Г\ * 9 10 11 1 $ lllilllflfll нПосетители ПЕШ сейте 1 •■■■ :;.:V'<1.:^ ":^:":^^^^Н 1 ° 1 2 I 3 4 А 3 5 I 6 3 7 ] 8 3 9 10 11 12 57 203 383 525 532 408 273 139 45 27 10 4 1 1| Из файла видно, что за 57 часов сайт не посетило ни одного человека (первая строка файла), за 203 часа — на сайте находился 1 человек (вторая строка), за 383 часа — 2 человека и т. д. Спрашивается, какой вероятностный закон описывает эти данные? Графически данные представляются в виде: ШШШШШ Переменная, описывающее число посетителей (переменная varl), принимает дискретные значения. Проведем анализ в модуле Непараметрические статистики и подгонка распределений. Шаг 1. Откройте модуль Непараметрические статистики и подгонка распределений. Выберите опцию Подгонка распределения. В окне Дискретные распределения выберите распределение Пуассона (дважды щелкните мышью).
188 Глава 4. Подгонка вероятностных распределений к реальным данным ш щщ *^'Птутл рфщтщ тштрШ'^ »»Щ X Отмаи* |— Равномерное \_J Экспоненциальное |/\. Гамма 1/V Логиормальиое 1/\. Хм квадрат 1*С Друме ... Д|»жрат<>ме |мюпре*в*#ни* L.. Геометрическое |А Бериуяяи <J*S > ■ л - АЯЬТврнвТМвНЛЯ Иодгойка'' распределен^ аоступн*{1}»мйв|р» Анадопршдеоо» {мргодм*& правдоподобия для ' Р*СПРвАвлФИИЙ экстремального, вата раолр«в«л*нии,и2| •Сгетисттаск** - графиках fB^K-O, |3)«номдоАи«*#; ;• ыжие в as а! ва| Шаг 2. На экране появится следующее окно: fc.v-A.^ ■ Ау ■■ ■ ^й=... ■■<■•? ч. ,.VA:г.■■■■:=■■■■ -й ^МЙШНК ШИЧМЯР^* 4* ъ#рх±Ы±*ьш*ш*шшш \!§&J!№ {ТрШ+Ш* Д tflttftltNlilll '1X31 (l| IMM Ж *; I С-.Относительные частоты ОД;: Нажмите кнопку Переменная и выберите переменную шг7 для анализа. шз J2-VAR2 !]3-VAR3 I4-VAR4 15-VAR5 гб-УАЯб IJ7-VAR7 J8-VAR8 I9-VAR9 : J10-VAR10 1*..^>&*х*...,.\..г Й1оорат»всё| ДоДроО 1 ЦиФ. Шаг 3. Нажмите кнопку веса Б, расположенную в правом верхнем углу диалогового окна Подгонка дискретных распределений. В появившемся окне Задание веса сделайте установки, как показано на рисунке ниже; веса, в данном случае частоты, взяты из переменной var2. Нажмите ОК. Затем нажмите О К в диалоговом окне Подгонка дискретных распределений.
Пример 1. Подгонка распределения к данным: посещение непопулярного сайта 189 LLSy rxJ " ч, v^ v. ^Д**Щ ; Шаг 4. Программа вычислит оценку параметра распределения Пауссона, равную 3,864, а также представит результаты в следующих таблицах. НЕПАРАМ. СТАТИСТ Верхняя раница i-квадрат: 13 56034, се ■ 10, р ■ .1940654 М ..куиул..' иаблюд процент* наблюд ноблкш. ожидаем, частота .•V" <к 1 гл •v>< - .г :n^v*^ ***$. .^- • 6; 7, •а г-' & •.; • • т- 'Весить/, 203 383 525 532 408 273 139 45 27- 10 4 57 260 643 1168 1700 2108 2381 2520 ; 2565 ! 2592 2602 2606 2.18726 778972 14 69685 2014582 20 41443 15.65618 10.47583 533385 1 72678 103607 38373 15349 21873 99770 246738 44.8196 65 2341 80.8903 91.3661 966999 984267 ! 994628 99 8465 100 0000 546752 | 211 2739 408.1983 525 7812 5079257 392.5414 252.8071 139 5553 :: '] 67.4080 . I 28 9417 | 111835 ; 5 7086 ~i *И* Перем и VAH1 . распре НЕПАРАМ СТАТИСТ Верхняя раница Ьси-квадрат 13 56034, ее ■ 10, р ■ 1940654 *!♦>- «zife^^'»' mmftmm у '•Ъл&^&'Щ Ы\№У>?? ЬффгФ^ 54 6752 211 2739 408.1983 525.7812 507 9257 3925414 252 8071 139.5553 67.4080 28 9417 11.1835 5.7086 54.675 265 949 674147 1199.929 1707.854 2100.396 2353203 2492758 2560166 2589.108 2600292 2606.000 2 09805 810721 15.66379 2017579 19.49062 15.06298 9.70096 5.35515 2 58665 1.11058 .42915 .21906 2 0981 10.2053 25.8691 460448 65.5355 80.5985 902994 956546 982412 99.3518 99.7809 100.0000 I пчЛф.^Л i ' ' " 2 3248 -8 2739 -25.1983 -7812 240743 154586 201929 -5553 -224080 -1 9417 -1.1835 -1.7086 И По уровню значимостир = 0,194 можно сделать вывод о том, что данные не противоречат гипотезе о пуассоновском распределении. Вероятность ошибиться при отклонении гипотезы довольно велика, примерно 0,2. Риск ошибиться достаточно велик! Для построения гистограммы установите переключатель в положение Гистограмма.
190 Глава 4. Подгонка вероятностных распределений к реальным данным Нажмите кнопку График в диалоговом ощне Подгонка дискретных распределений. На экран будет выведена гистограмма с наложенным графиком ожидаемых пуассоновских частот. Орем я VAR1; раачикмтмиЕПуксома I -18642 юмаадрап 1154034. ее - 10, р - .1940654 600 г Проверим, как согласуются другие распределения с данными. В качестве примера рассмотрим биномиальное распределение. Шаг 1. Вновь войдите в стартовую панель модуля. Проведем для биномиального, распределения тот же анализ и сравним полученные результаты. В окне Распределение выберите биномиальное распределение. С JU Ь иj»4iniSiim^:. Г JUL С (hmvutvwum чивгты ft) Шаг 2. Нажмите кнопку Переменные и, как и в первом случае, выберите для анализа переменную varl. Шаг 3. В случае биномиального распределения также необходимо задать веса наблюдениям. Нажмите кнопку веса В в правом верхнем углу диалогового окна.
Пример 1. Подгонка распределения к данным: посещение непопулярного сайта 191 В появившемся окне Задание веса сделайте установки, как показано на рисунке ниже, где веса, в данном случае частоты, взяты из переменной var2. Нажмите ОК. IjT адм ч • Диады щмкнмг* w ^ •'■ \.ножямоачтобы ' .'•.1 ******■■..•.' Затем нажмите ОК в диалоговом окне Подгонка дискретных распределений. Шаг 4. Биномиальное распределение имеет один параметр — вероятность успеха/?. Программа оценит эту вероятость, используя метод максимального правдоподобия. Оцененное значение 0,35129 появится в верхней полосе таблицы. h МИп'И^ИН^Ч,- 'II ,!' 11'г ,■! д»*«* 1хи-квадрвт 383.0659, ее - 8. р - 0 000000 процент наблюл. наблюл ожидаем, частоте I,-.'--. . ,г .'.■л*ч-*лъ-. -Ъ4*-'.г?>ь ■: ■ %• ■ - * а ?♦ * б. 9. m Бвск*ть 203 383 525 532 408 273 139 45 27 10 4 ЗП 57 260 643 1168 1700 2108 2381 2520 2565 2592 2602 2606 218726 7 78972 14 69685 2014582 20.41443 15.65618 10 47583 533385 1 72678 1 03607 38373 15349 21873 9 9770 24 6738 448196 65.2341 80 8903 91 3661 96 6999 98 4267 99 4628 99 8465 100 0000 22 3126 132 9087 3598599 5846081 6331476 480 0021 259 9281 100 5392 27 2217 49137 5322 0262 Шаг 5. Обратите внимание на значение статистики хи-квадрат, число степеней свободы и уровень значимости в данном примере. Статистика хи-квадрат принимает очень большое значение, а именно 383 (см. заголовок таблицы).
192 Глава 4. Подгонка вероятностных распределений к реальным данным Число степеней свободы равно 8 (количество интервалов группировки минус один оцененный параметр). Из заголовка таблицы также следует, что гипотезу о согласии данных с биномиальным распределением можно отвергнуть на уровне 0,0000. Иными словами, отвергая гипотезу о биномиальном распределении, мы рискуем ошибиться с практически нулевой вероятностью. Таким образом, делаем вывод: данные абсолютно не согласуются с биномиальным распределением. Тот же результат можно увидеть, конечно, и на графике. Нажав кнопку График (см. окно Подгонка дискретныхраспределений), постройте гистограмму и график накопленных (кумулятивных) частот (выберите соответствующие опции в правой части окна). 1т11ГмЧ11П'!111|;л111Л||:т^|11Ч':1|;1м;|г:11*Дт1иа П«ри-1 VAR1 : рлспр«А«л«ми« Бимоиилльмо* р- .39120 хи-1МАрлт: 383.0060. со - 8. р - 0 00ООО0 Для того чтобы построить график распределения, установите переключатель в положение Кумулятивное распределение и нажмите кнопку График. Как видите, наблюдаемые частоты далеки от ожидаемых частот. Таким образом, биномиальное распределение не подходит для описания данных о числе посетителей нераскрученного сайта. Посещения нераскрученного сайта по сути являются редкими событиями, и для их описания следует использовать пуассоновское распределение. айв П«р«»1 VAR1 : рлопр«мл«ии«*иио«илльио« р- 36120 хи-олдрлт 383 0060. оо - 8. р - 0 ОООООО 3460780 10 Группл
Пример 2. Подгонка распределения к данным: посещение популярного сайта 193 ример 2. Подгонка распределения данным: посещение популярного сайта В течение нескольких сотен часов регистрировалось число посетителей популярного сайта. Результаты приведены в таблице: ^Посетители сайте г 4 S- 6 8 9 10 1 2 3 А 5 6 7 8 9 10 11 й v ;VVAR£.:,V • 12 . 108' 316 551 632 492 - 273 103. 24 13 2 Интерпретация этих данных проста: за 12 часов сайт не пометило ни одного человека (первая строка файла), за 108 часов — на сайте находился 1 человек (вторая строка), за 316 часов — 2 человека и т. д. Графически данные представляются в следующем виде: ItllHII'lllillUIIUIiyilllllB'llllliy'lHilllllllllllM^ Перем-я VAR1; распрядблениегБиномиальиое р - .Э9861 ЮМВДЦИ!: 4.159422, СС - 7, р - .7612366 700 Переменная, описывающая число посетителей, принимает дискретные значения. Спрашивается, какой вероятностный закон описывает эти данные? Проведем анализ в модуле Непараметрические статистики и подгонка распределений. Шаг 1. Откройте модуль Непараметрические статистики и подгонка распределений. Выберите опцию Подгонка распределения.
194 Глава 4. Подгонка вероятностных распределений к реальным данным В окне Дискретные распределения выберите биномиальное распределение (дважды щелкните мышью). IK Подгонка распределения С Непараметрические статистики <•* Непрерывные распределения: |— Равномерное |_.'' Экспоненциальное |,А ^ Гамма ]Л>, Лог нормальное \/\ Хи-квадрат j Другие ... Дискретные распределения: ШЯ Биномиальное Ji, Пуассона 'pli,,. Геометрическое [А Бернчлли Альтернативная подгонке распределений доступна: A]е моду» Анализ процессов (метод макс, греедоподобиядл* распределений Вейбуллз, экстремального, бете распределения..^ B) в Статистических графиках (В-В.МС), C) в модуле Анализ выживаемости. &JL Шаг 2. На экране появится следующее окно: Ifjj Подгонка дискретным распределений Саслредеяеиие: | Биномиальное В йеременная:|УАВ1 , Чис^о груше рО Нижняя граница: |0 Веэдияя граница: |М. ЗЗамечвык Табулирование Пай тя£l I данным основано на первых 6 V$rz Avr,JLmJ значащих цифрах; используйте ОСНО0НЫЕ СТАТИСТИКИ для построения стандартной таблицы частот. & ft Отмена Чисдо испытаний: |10. Щ Критерий согласия Колмогорове-Смирноеа ! (i Цат. J." С Да (грчгашроеаиные) С Да (непрерывное) График График распределения | •. (•• Гистограмма С ^чмчлятиеное распределение График исходных частот иди X (• <£астоты по строкам С Относительные частоты [X] Нажмите кнопку Переменные и выберите переменную varl для анализа. Выберите перемени*» д; J2VAR2 3VAR3 4VAR4 5VAR5 J6VAR6 7-VAR7 J8VAR8 9-VAR9 10VAR10 Г^п Отмене] | Выбрать все) Додроб. J IT ЙНФ.
Пример 3. Скачки вверх и вниз курса акций 195 Шаг 3. Нажмите кнопку веса В в правом верхнем углу диалогового окна Подгонка дискретных распределений. В появившемся окне Задание веса сделайте установки, как показано на рисунке ниже; веса, в данном случае частоты, взяты из переменной var2. Нажмите ОК. Затем нажмите ОК в диалоговом окне Подгонка дискретных распределений. 1 Задание веса ВЕЗ! :>ft#c и» паремчтой: | flK } | 1VAR2 | Огнен*! ^IfifiSi поле eeooa. чтобы t _ ! выорвгь переменную иэ ! СВЬЦСЯ |описк* л. Шаг 4. Программа вычислит оценку параметра биномиального распределения и представит результаты в следующих таблицах: t-IIH'll'li'i.lllB-N'lil'^l^nil'lll'III'l.Tflil-ll'Ill квадрат 4159422, ее ■ 7, р - .7612366 НЕПАРАМ СТАТИСТ. Верхняя границе процент •. йаб толкуй^;?; иавякмх ожидаем; частоте кумул. ожидаем. ^ат:.Д-\:лЛ 2. ■■..:■.■. 3. 4. 5. ':•' 6.- 7. 8. 9. Бвск-ть 108 316 551 632 492 273 103 24 13 2 [хи-квадрат 4.159422, се- 7, р-.7612366 шПеремяУАН! . распределение Бином НЕ ПАРАМ СТАТИСТ Верхняя граница "И- 1 12 120 436 987 1619 2111 2384 2487 2511 2524 2526 ие Бино .47506 427553 1250990 21 81314 25 01979 19 47743 10 80760 4 07759 .95012 .51465 .07918 миальное р- .4751 47506 17 2605 39 0736 64 0934 835709 94 3785 98 4561 99 4062 999208 100 0000 39861 156301 103 6004 3090114 5461903 6335527 503 9236 2783455 105 4258 26 2047 3.8598 2558 15 630 119230 428 242 974 432 1607 985 2111 908 2390 254 2495 680 2521 884 2525 744 2526 000 • (ЯЩПЕЗВ ожидаем, частоте куму л. ожидаем. процент- ожидаем. куму я. % ожидаем наблюд- ожидаем 2. Беск-ть га— 156301 103 6004 3090114 5461903 6335527 503 9236 2783455 105 4258 262047 38598 .2558 15630 119230 428 242 974.432 1607985 2111 908 2390254 2495 680 2521 884 2525744 2526 000 61877 410136 1223323 21.62274 25 08126 19.94947 11.01922 417363 1.03740 .15280 01013 6188 4 7201 16 9534 385761 63.6574 836068 94.6260 98.7997 99.8371 99 9899 100 0000 -3.6301 43996 69886 4.8097 -1.5527 -11 9236 -5.3455 -24258 -2 2047 91402 1 7442 >г Значение статистики хи-квадрат очень небольшое, всего 4,16. Вспомните, что небольшие значения статистики хи-квадрат свидетельствуют в пользу гипотезы.
196 Глава 4. Подгонка вероятностных распределений к реальным данным Вопрос, что такое большое и что такое небольшое значение статистики, снимается понятием уровня значимости. По уровню значимости р = 0,7612366 окончательно заключаем, что данные хорошо согласуются с гипотезой о биномиальном распределении. Мы настоятельно рекомендуем вам еще раз прочитать ту часть главы Элементарные понятия, где обсуждается понятие статистического критерия. Проиллюстрируем приведенные выше таблицы графиком кумулятивного распределения. Для этого установите переключатель в положение Кумулятивное распределение и нажмите кнопку График. 1т11ГмЧ|1||||1|иши^1^н1у;11|г||'1,1чиЯг|йщ Перемя VAR1; распределение:Биномиалыюе р - .39861 хм квадрат: 4.159422, ее - 7, р - .7612366 3000 , Ожидаемые Для получения простой гистограммы установите переключатель в положение Гистограмма. Нажмите кнопку График в диалоговом окне Подгонка дискретных распределений. На экране появится гистограмма наблюдаемых частот с наложенным графиком ожидаемых частот. \ЗШШШШШЖ ^ш Перем-я VAR1; распределемие:Биномиальное р - .39861 хи-юадрат: 4.159422, се - 7, р - .7612366 700 | Ожидаемые В качестве легкого упражнения мы рекомендуем вам попробовать подогнать пуассоновское распределение к данным о числе посетителей популярного сайта.
Пример 4. Количество покупок в магазине 197 Пример 3. Скачки вверх и вниз курса акций Ниже показан фрагмент файла, содержащего колебания курса акций в течение дня. Единица показывает, что курс пошел вверх (скачок вверх), 0 — курс акций пошел вниз (скачок вниз). В течение дня таких скачков может быть несколько сотен. Выдвигается гипотеза, что частота тех и других скачков одинакова. Как быстро проверить эту гипотезу в системе STATISTICA? 1000 0000 0 000 0 000 Toool 1000 1000 1000 0 000 1.000 0 000 1.000 0 000 0 000 Выделите данные и вызовите Быстрые основные статистики., Вы увидите следующую таблицу результатов: Точечная оценка частоты появления 1 равна 0,39, 95% доверительный интервал: @,292732,0,487268). Следовательно, гипотеза о том, что частота скачков уровня вверх и вниз одинакова, должна быть отвергнута. Пример 4. Количество покупок в магазине Ниже показан файл с информацией о числе покупателей разной категории в супермаркете. Шёх*> г Ч 2971 157 85 51 27 17
198 Глава 4. Подгонка вероятностных распределений к реальным данным Мы разбили покупателей на классы по числу сделанных покупок. К категории 0 относятся покупатели, сделавшие не более 4 покупок, к категории 1 — покупатели, сделавшие 5-6 покупок, к категории 2 — покупатели, сделавшие 7-8 покупок, и т. д. Найдем вероятностный закон, который описывает эти данные. Вы можете подготовить файл данных и повторить за нами все действия. Шаг 1. Откройте модуль Непараметрические статистики и подгонка распределений. Выберите опцию Подгонка распределения. В окне Дискретные распределения выберите геометрическое распределение (дважды щелкните на его названии мышью). BBS I у| х С Недареметрические статистики <? Поди Непрерывные распределения: оике распределения U* [■— Равномерное \_J Экспоненциальное [Л „ Гамма |/У_ Л or нормальное |Л„ Хи-квалрат IX4 Др^мв ... Дискретные распределения: | .illli, Биномиальное l.;i„, Пуассона 11.1 111. Вернул ли | Огаеиа . _ | Альтернативная подгонка распределений достали* A) в модуле Анали» процессов (метод макс правдоподобий дли распределении Вейбулл*. экстремального, бета распределения. Д B] • Статистических графиках fB-0, **}, C} в модуле Анализ & W ёа] Шаг 2. На экране появится следующее окно: дискретных распределений £аспред олеине: ] Геометрическое jg {Тереме*и»ая:| КАТЕГОР 3 Замечание: Таоа/июеени* «*»**•* оснрвено на первых 8 Нижняя гранил.»: \0 Вердняя границе: у Параметр р:} 4650324 Критерий согласия Колмогороеа-Сиириоеа С Да (группированные) С Не. (непрерывное) значащих цифрах; используйте ОСНОВНЫЕ СТАТИСТИКИ для построения i ш„ \ СЭ К]шв Ml j Отмена Граенех распределения ~ (• Гистограмма С .Кумулятивное распределение График исяоднык частот или X (• Н*ст0ты по строкам С Относительные частоты [Х\ Нажмите кнопку Переменные и выберите переменную КАТЕГОР для анализа. Шаг 3. Нажмите кнопку веса В в правом верхнем углу диалогового окна Подгонка дискретных распределений. В появившемся окне Задание веса сделайте установки, как показано на рисунке ниже; веса (в данном случае — частоты) взяты из переменной ЧИСЛО.
Пример 5. Подгонка распределения Вейбулла к данным об отказах 199 Нажмите ОК. Затем нажмите ОК в диалоговом окне Подгонка дискретных распределений. Ныберите переменим» для анализа АШШШГ |2 ЧИСЛО 3VAR3 4VAR4 SVAR5 J6VAR6 I7-VAR7 8VAR8 9-VAR9 10-VAR10 Г¥~1 Отмена | ]В,ы6р«ть аса) 1 П«Ф<* | НнФ. Шаг 4. Сиситема вычислит оценку параметра геометрического распределения и представит результаты в следующих таблицах. ерем я KAILI UP . р< шзшшзшш |хи-квадрат 5 380912. ее - 6. р » 4959796 Еащ нбблюд. Пр0ЦвНТ ; НввЛЮД, кумул. % иаблюа ожидаем частоте 'куму п. ожидаем процент ожидаем. 1. 1 г 4, "< 5. в. Бфск-ть 297 | 157 85 51 27 17 8 3 |.м»*й:Д. 297 454 539 590 617 634 642 645 4604651 24 34109 1317829 790698 418605 2 63566 1 24031 46512 460465 70 3876 83 5659 91 4729 95 6589 98 2946 99 5349 100 0000 299 9459 160 4613 85 8416 45 9225 24 5670 131426 7 0308 8 0882 299 9459 460 4072 546 2488 5921713 616 7383 629 8809 636 9118 6450000 4650324 24 87773 13 30878 711977 380884 2 03761 1 09005 1 25399 ^ £ ы* Перем н КАТ ЕГОР . pi шш [хи-квадрат; 5.380912. се ■ 6. р ■ 4959796 процент наблюл. ч куну л. Н наблюл. ожидаем частоте кумул. ожидаем процент ожидаем. кумул,?* ожидаем. наблкш,- ожидаем. веск-rw 4604651 24 34109 1317829 7 90698 4 18605 2 63566 1 24031 46512 46 0465 703876 83 5659 91 4729 95 6589 98 2946 99 5349 100 0000 299 9459 1604613 858416 45 9225 24 5670 131426 70308 80882 299 9459 460 4072 546 2488 5921713 616 7383 629 8809 636 9118 645 0000 4650324 2487773 13 30878 711977 3 80884 2 03761 1 09005 1 25399 46 5032 71.3810 84 6897 91 8095 956183 97 6560 98 7460 100 0000 -2 94589 -3 46133 -84161 5 07751 2 43296 3.85743 96915 -5 08821 у
200 Глава 4. Подгонка вероятностных распределений к реальным данным По уровню значимости р в 0,4959796 можно сделать вывод, что данные совместимы с гипотезой о геометрическом распределении. Иными словами, наш риск ошибиться составляет примерно 50%, если мы отвергаем гипотезу. Визуально качество подгонки можно увидеть на графике. Нажмите кнопку График, и следующая гистограмма появится на экране: hll'f'.Mrlll^'llMHI'lJI^I'ri ЗВЗЕШ КАТЕГОР; распределение • Геомефич. параметр - .46503 хиквадраг 5.380912, ее - в, р - .4959796 350 , — Ожидаемые Вы можете попробовать другие распределения для описания этих данных и убедиться, что они очень плохо подходят к ним. Итак, геометрическое распределение вполне адекватно описывает число покупателей разных категорий в супермаркете. Пример 5. Подгонка распределения Вейбулла к данным об отказах Одним из основных понятий качества продукции является ее надежность. Для оценки надежности и времени жизни разработаны различные статистические методы. Надежность продукции является важным показателем качества. Покупая магнитофон, пылесос, кофеварку, вы, конечно, хотите иметь представление об их надежности. Особенный интерес представляет количественная оценка надежности, позволяющая оценить ожидаемое время жизни, или, в инженерных терминах, время безотказной работы купленного прибора. Надежность связана с маркетинговой политикой, зная оценки надежности продаваемых вами бытовых приборов и объемы продаж, вы можете рассчитать количество гарантийных мастерских в городе. Пример из другой области позволяет по-иному взглянуть на ту же ситуацию. Предположим, вы летите на маленьком личном самолете с единственным двигателем. Тогда для вас жизненно важно знать вероятность отказа двигателя на различных этапах его эксплуатации (например, после 500 часов, после 1000 часов и т. д.) Очевидно, имея хорошую оценку надежности двигателя и доверительный интер-
Пример 5. Подгонка распределения Вейбулла к данным об отказах 201 вал, можно принять рациональное решение о том, когда следует заменить двигатель или отправить его на капитальный ремонт. Конечно, вы можете положиться на волю случая и летать, сколько угодно, однако цель нашей книги — научить вас рационально анализировать случайность. Обычно времена жизни описываются распределением Вейбулла (см. предыдущую главу), поэтому одним из основных этапов статистических процедур, связанных с оценкой надежности, является оценка параметров этого распределения. Для большинства исследуемых приборов функция интенсивности отказов имеет форму U-образной кривой: на ранней стадии жизни изделия риск выхода из строя (отказ) достаточно велик, далее интенсивность отказов уменьшается до определенного предела (оптимальный режим функционирования), затем вновь увеличивается из-за износа изделия. Например, автомобили в начале эксплуатации часто имеют несколько мелких дефектов и выходят из строя. После того как автомобиль прошел обкатку, риск поломки существенно уменьшается. Затем интенсивность отказов (выходов из строя) возрастает, достигая своего максимального значения, например, после 20 лет эксплуатации и 250 000 миль пробега, когда практически любой автомобиль выходит из строя. Распределение Вейбулла позволяет гибко моделировать возникающие на практике функции интенсивности отказов. Задавая разные параметры распределения, можно получить практически любые функции риска. Ранняя фаза кривой аппроксимируется распределением Вейбулла с параметром формы меньше У, постоянная фаза — распределением Вейбулла с параметром формы 1, а фаза старения или износа моделируется распределением Вейбулла с параметром формы больше 1. После того как на основе реальных данных оценены параметры распределения Вейбулла, можно вычислить различные характеристики надежности, например, когда откажет заданная доля тестируемых приборов. Функция надежности, обычно обозначаемая R(t), представляет собой вероятность того, что объект проживет больше t временных единиц. Формально функция надежности определяется равенством R(t)=1-F(t), где F— функция распределения времени жизни. Иногда функция надежности называется также функцией выживания. Цензурирование. В большинстве исследований по надежности не все объекты завершаются отказами. Иными словами, к концу исследования известно, что определенное количество приборов не отказало, но исследование завершено и точные времена жизни этих приборов неизвестны. Такие наблюдения называются неполными, или цензурированными. Заметим, что цензурирование может осуществляться разными способами, так же как имеется много различных планов тестирования приборов. Например, так называемое цензурирование типа I применяется в ситуации, когда заранее фиксируется время наблюдения отказов (допустим, мы берем 100 ламп и оканчиваем эксперимент, например, после 120 часов после начала). В этом случае время эксперимента фиксировано, и число отказавших (перегоревших) ламп представляет собой случайную величину.
202 Глава 4. Подгонка вероятностных распределений к реальным данным При цензурировании типа II заранее определяется доля отказов, но время наблюдения не ограничивается (например, мы проводим эксперимент, пока не выйдут из строя 50% компьютеров при данных критических условиях). Очевидно, что при таком подходе время, в течение которого проводится эксперимент, является случайной величиной. Можно задать также направление цензурирования. При испытании компьютеров или ламп цензурирование происходит в правом направлении по временной оси (правое цензурирование), потому что исследователь точно фиксирует начало эксперимента и знает, что неотказавшие компьютеры будут еще жить некоторое время после окончания эксперимента. Другой вариант возникает, когда исследователю неизвестно начало времени жизни объекта, например врачу известен момент поступления пациента в госпиталь с данным диагнозом, но неизвестен момент, когда данный диагноз был поставлен, и тем более неизвестно, когда болезнь началась. Такое цензурирование называется левым. Конечно, если тестируются старые компьютеры или мониторы, то это тоже пример левого цензурирования, так как не известен момент начала их эксплуатации. Наконец, возможны ситуации, в которых цензурирование происходит в различные моменты времени (многократное цензурирование) или только в один момент времени (однократное цензурирование). Возвращаясь к эксперименту с тестированием компьютеров в экстремальных условиях, заметим, что если эксперимент заканчивается в определенный момент времени, то мы имеем однократное цензурирование. Конечно, имеются нетривиальные ситуации, например, данные, собранные директором фирмы по продаже подержанных копировальных аппаратов. Балансируя между необходимостью продаж и выдачей гарантий покупателю, ему следует рационально организовать процесс продаж. Рассмотрим, как оцениваются параметры распределения Вейбулла в системе STATISTICA при простейшем правом однократном цензурировании. Данные содержатся в файле Dodson25.sta. Case 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 TIME 42.1 77.8 83.3 88.7 101.8 105.9 117.0 126.9 138.7 148.9 151.3 157.3 163.8 177.2 194.3 195.6 207.0 215.3 217.4 258.8 CENSORING Censored Complete Censored Censored Complete Complete Complete Complete Complete Complete Censored Complete Complete Censored Censored Censored Complete Censored Complete Censored
Пример 5. Подгонка распределения Вейбулла к данным об отказах 203 Запустите модуль Анализ процессов и повторите вслед за нами наши действия. I HIHMWIIHil'k за производственных процессов f-4-J Пианы выборочного контроля для различных распределений Шр Анализ пригодности процесса и доверительные интервалы jj Повторяемость и воспроизводимость измерений надежности, времена отказов и распределение Вейбулла 0 Данные I Ц1 Аft \ Шаг 1. Откройте файл Dodson25.sta, затем выберите Анализ Вейбулла... на стартовой панели. т Данньи TEtJDodson A991), р. X TIHE щ L 1 1 1 8. £ Щ Та] и ii ill Щ I 42, 77, 83, 88, 101, 105, 117, 126, 138, 148, 151, 157, 163, 177, 194, 195, 207, 100 800 300 700 800 900 000 900 700 900 300 300 800 200 300 600 000 Censore< Complete Censored Censored Complete Complete Complete Complete Complete Complete Censored Complete Complete Censored Censored Censored ComDlete IJ.I!ll.|ILI.Ili.LIIIHl!H.IJI!l.liJ.«I.IJIJ.IJ.IJUI.LHIIJ).l.l!IIIJ.H!l!lll Тип внавмае-*-—■■■■^■■~~ О Третированные j С. ВероотностныЛ график распределения ВеЙбдоа (дашше необязательны) |<У Список переценим! с j \Q 10|Йв''Н откаадеКд^еЛначало и коне*) иди «есть (доты) ! Н.. ft* Охиеиа ft отказов и индикатор денеярйроа^ания): | ffm Щ \ & & Времена отказов: TIME Индикатор двнздриооеания: CENS :^;г^::ж< £рдполных наблюдений: rCensoiedM й,..,,. :;f ^V- Код авнзарироаашпак наблюдении: ["Complete" Г Прибавить констант) к нулевым t откааоо/ценээр. | i Задайте коды паяных и .;. цензурированием — меблшеиии, . — По^ячаниюна >m Нулевые времена |3 отказов и • >Т цензурирования
204 Глава 4. Подгонка вероятностных распределений к реальным данным Рассмотрим опции окна. Тип анализа. Исходные данные — используйте этот диалог, если вы анализируете исходные времена отказов с цензурированием или без него. Группированные данные — используйте диалог для исследования агрегированных или табулированных времен отказов, например таблиц жизни. Распределение Вейбулла, вероятностный график — открывается диалоговое окно, в котором вы можете построить вероятностный график распределения Вейбулла, аналогичный нормальному вероятностному графику (графику на нормальной вероятностной бумаге в старой терминологии). В данном примере используйте анализ исходных данных. Времена отказов — эта опция выбирается в том случае, когда данные содержат действительные времена отказов. Единственная переменная для времен отказов (жизни), переменные с началом и концом, переменные с датами — опция выбирается в тех случаях, когда данные содержат даты с началом или концом каждого наблюдения. Из файла данных программа вычислит разность между временем конца и временем начала, чтобы получить чистые времена отказов для каждого наблюдения, и затем подгонит к ним распределение Вейбулла. Если выбран Список переменных с временами, программа ожидает ввода одной или нескольких переменных с временами отказов и дополнительного ввода индикатора цензурирования (группирующей) переменной, которая позволяет определить, какие времена полные, а какие цензурированы. Если выбрана опция Одна t отказов, две (начало и конец) или шесть (даты), то вы можете в первом списке переменных: 1) выбрать одну переменную с временами отказов, 2) выбрать две переменные с временами начала и конца (наблюдения объекта), 3) выбрать 6 переменных, которые также будут рассматриваться как времена начала и конца (как и в случае 2 выше). Эти 6 переменных рассматриваются как месяц, день, год начала и как месяц, день, год окончания испытания. Выберите переменные для анализа, цензурирующие переменные (индикаторы цензурирования) и коды. Затем нажмите ОК; по умолчанию программа вычислит оценки максимального правдоподобия параметров для двухпараметического распределения Вейбулла и перейдет в диалоговое окно Результаты анализа Вейбулла. Заметим, что если оценки максимального правдоподобия не существуют, процедура использует 0, 1, 1 для оценки параметров положения, формы и масштаба соответственно. Близкие процедуры содержатся в модуле Анализ выживаемости; для нецензу- рированных или полных данных можно использовать визуальные методы графики Квантиль-квантиль и Вероятность-вероятность (см. главу Визуальные методы анализа). Выберите переменную Time, содержащую времена отказов, и переменную Cens — индикатор цензурирования. Эта переменная содержит два значения, показывающие, полностью или нет наблюдались изделия до момента отказа. Заметим, что такая ситуация (наличие двух типов наблюдений) отличается от той, с которой мы имели дело в модуле непа-
Пример 5. Подгонка распределения Вейбулла к данным об отказах 205 раметрические статистики. Точно с такими же типами наблюдений мы имеем дело в модуле анализ выживаемости. Коды для полных и цензурированных наблюдений. Эта опция доступна, если выбран индикатор цензурирования. Определите коды или текстовые значения для полных (нецензурированных) и неполных (цензурированных ) наблюдений. Чтобы просмотреть все коды соответствующей переменной, дважды щелкните на поле ввода. Первые два различных значения, обнаруженных в индикаторе цензурирования, используются по умолчанию как коды для полных и цензурированных данных соответственно. Выберите Complete для полных времен и Censored для цензурированных времен. Нажмите ОК, чтобы начать анализ. Опция: Прибавить пост, к нулевым t отказов/цензур, значениям. Распределение Вейбулла ограничено слева, это означает, что все значения выборки должны быть больше параметра положения, по умолчанию равного 0. Если опция выбрана, программа перед подгонкой или построением графика заменит нулевые времена отказов константой из поля. Если опция не выбрана, все наблюдения с нулевыми временами отказов исключаются из анализа (рассматриваются как пропущенные данные). Шаг 2. По умолчанию программа вычислит оценки максимального правдоподобия для двухпараметрического распределения Вейбулла, предполагая, что параметр положения равен 0. В окне Результаты анализа эти оценки можно увидеть в зоне Значения/оценки текущих параметров. fjjfi Результаты лнили.ы Нейбцллн (исходные данные) Перемен.: TIME Ценз-кие: CEN3 N набл. : 20 Отказы: Censored Ценэурир: Complete Отказы: 9 D5.0%) Ценэурир: 11 E5.04) VI Форма* масштаб I \Л Форма, масштаб. М аисимиашоа чнсшо итаращ,ий^ J50 ■?V,г.< г.; W^^h^octicJ 00001 Щ шшлы*,^тшиишнылмшт ft f<гГ""''■ К'?У:*'"**&£* Wf^ft^i^fiTiMf. ^iEatMii Ориона! Настройки действуют ыт т#ф*ж с*рЬ*ге*толмюАл*шанокМГ1& O^vi'--.'■■>■■>'■ ■■ 3itayiiwii/tmaHiw oapaMtfrpoa * :S£&&3 Параметр положаии* 10 Параметр форм* |3.03409674 Параметр масштаба:" 1216.92726489 SI ] ffl ; ПараметруJM^flofcмиЫрйк*. \ 950 • Q: t отрада и Щ\. | В fo**» P*^^^^|f|i Фужния надежности (• Маде.пр*адопоАо6м«| С Нелараметричаские ^^■„и^. ^%^Щ¥Щ/^^Щщ %Фщр*.ЩщЩ*^^Р •> ^арематр ломдонйяг ;й О , Гра»1ас«аангца^цц^ , > Фянади* рмска {тхшсшШь\0 1Э<У Врем*/от1?аааы*^ •f»«^#? •л5 Г^'Щ^;^$Ш1 ., jjwjiHjji^^ii^wi^iiiwAiiiw wiiii iwwiii mi in тпмутщшмят h'iiiMjiihi!ГмиГ 1
206 Глава 4. Подгонка вероятностных распределений к реальным данным Оценки параметров. Окно результатов позволяет интерактивно провести подгонку к данным распределения Вейбулла с различными параметрами. После того как вы нажмете кнопку Форма & масштабу программа считает текущее значение параметра положения и вычислит оценки максимального правдоподобия параметров формы и масштаба. Если вы нажмете кнопку Форма, масштаб, положение, программа вычислит оценки максимального правдоподобия для трехпараметрического семейства. В любом случае оценки будут отображены в полях значения/оценки текущих параметров. Шаг 3. Просмотр результатов. Все опции, доступные в окне результатов на текущих значениях параметров, указаны в полях значения/оценки текущих параметров независимо от того, определены эти параметры пользователем или оценены программой (например, методом максимального правдоподобия). Однако стандартные ошибки функции надежности можно вычислить только для оценок максимального правдоподобия. Оценки максимального правдоподобия двухпараметрического распределения Вейбулла равны 3,034 и 216,9 для параметров формы и масштаба (см. рисунок). Вы можете сравнить эти оценки с оценками, построенными с помощью графиков: выберите опцию Непараметрические в рамке Дов. интервалы (нижний левый угол). Тогда все графики будут построены на основе непараметрических (ранговых) оценок функции распределения F(t), и результирующий график может быть использован для оценки параметров распределения Вейбулла. Нажмите кнопку График распределения и постройте график. £*$ График! График распределения при оценке надежности метод НОЮЕЗ TIME; Ценз-нив: CENS (Censored.Comptete) N-20 Лин. ф-ция: у--16.322+3.034 *x+eps Дов. интервал: 95.0% Параметры: Положен -0.0000 Форма-3.0341 Масшт-216.93 Этот график показывает наблюдаемые времена отказов, линейную подгонку и 95%-й непараметрический доверительный интервал функции надежности (более точно, log-log-преобразование; доверительный интервал показан прерывистой линией). Оценки параметров формы и масштаба вычисляются из коэффициента наклона и свободного члена линейной подгонки: параметр формы равен коэффициенту наклона, параметр масштаба оценивается как exp(-intercept/slope).
Пример 5. Подгонка распределения Вейбулла к данным об отказах 207 Эти оценки параметров очень близки к оценкам максимального правдоподобия. Так как точки достаточно точно ложатся на прямую, мы можем поверить, что распределение Вейбулла с оцененными параметрами вполне адекватно данным. Нажмите кнопку Функция надежности и доверительные интервалы, и вы увидите результаты в численном виде. '-'ii'ii.if'iiii^i'iii'iriiJiii-M^i^mi TIME. Ценэ-ние CENS (Censored.Complete) N-20 |Пораметры Положен -0 0000 Формо-3 0341 Масшт-216 93 ЭР) 000580 012573 016579 ♦95.0%; JSEL Нодажн -95.0% (надеж.) ♦95 0% (надеж) 079013 211317 231274 993111 946670 935840 920987 788683 768726 987427 Э83421 243124 310862 315961 508438 650744 747543 754712 715231 581980 488758 481659 491562 349256 252457 245288 853707 756876 689138 684039 Критерии согласия. Если вы нажмете кнопку Критерии согласия, то увидите таблицу со статистиками Холлендера—Прогиана или Манна—Шойера—Фертига и их уровнями значимости. Критерий Холлендера—Прошана. Этот критерий сравнивает теоретическую функцию надежности с оценкой Каплана—Мейера. Точные формулы вычисления достаточно сложны. Критерий Холлендера—Прошана применяется к полным, однократно цензурированным и многократно цензуриров^нным данным, однако имеет место недостаток этого критерия в некоторых случаях, например, когда данные сильно цензурированы. STATISTICA вычисляет значение критериальной статистики и двухсторонний уровень значимости р. Критерий Манна—Шойера—Фертига. Критерий был предложен Манном, Шойером, Фертигом в 1973 г. Нулевая гипотеза состоит в том, что данные имеют распределение Вейбулла с оцененными параметрами. Нельсон (см.: Nelson A982) Applied life data analysis. New York: Wiley) отмечает большую мощность этого критерия. Критические значения вычислены методом Монте Карло и табулированы для объемов выборки от 3 до 25; для больших объемов выборок критерий не применяется. зж АНАЛИЗ ПРОЦЕС TIME. Ценэ-ние CENS (Censored.Complete) N-20 Параметры Положен -0 0000 Форме-3 0341 Мвсшт-216 93 МаинвЧиойер»4)ертиго Ш р-85379 р>25
208 Глава 4. Подгонка вероятностных распределений к реальным данным Шаг 4. Оценки параметра положения. Хотя подгонка двухпараметрического распределения Вейбулла кажется очень хорошей, предположим, что у вас имеются некоторые доводы в пользу того, что параметр положения больше 0. Иными словами, вы уверены, что имеется интервал, в течение которого вероятности отказов нет. Оценим этот параметр положения. Нажмите кнопку R-квадрат и параметр положения. Этот график показывает зависимость коэффициента детерминации R-квадрат ©т параметра положения. Параметр положения и R2 TIME; Цем-ние: CENS (Centored,Complete) N-20 MaiccR2-.9454 Параметр положения: 5.000 10 15 20 25 Параметр положения Далее нажмите кнопку Форма, масштаб, положение, чтобы вычислить оценки максимального правдоподобия для трехпараметрического распределения Вейбулла. Для этих данных лучше применять более простую двухпараметрическую модель с параметром положения, равным 0. Шаг 5. Процентили и доверительные интервалы. Нажмите кнопку Проценти- ли и доверительный интервал, чтобы построить таблицу с процентными точками функции надежности. '^4ШЙ^^ &•*;** ЩШЩйЩ >ШШ&ь ^ifrw"^- 75.5931 81.5016 66.6969 91.3767 956561 996190 103.3240 1068141' 110.1223 113.2745 116.2913 1191895 121.9830 22 3916 31.5837 38.6205 44 5459 497635 544795 588162 62.8530 666449 70.2319 716441 76.9046 80.0319 83.0409 859439 88.7509 101 3052 113 7979 121 9878 128 2793 133 4817 137.9731 1419626 145 5792 148 9079 152.0084 1549242 157.6880 160 3250 162 8555 165 2956 167.6586
Пример 5. Подгонка распределения Вейбулла к данным об отказах 209 Таблица содержит процентили с приращением 1%: 1, 2,3,4 и т. д. Прокрутив таблицу, вы увидите, например, что оценка медианы равна 192,2, а 95% доверительный интервал имеет границы от 154,9996 до 238,437. Другими словами, можно ожидать, что 50% отказов происходит до момента времени t= 192,2 (с соответствующим доверительным интервалом).
Двумерный визуальный анализ данных Двумерный, сокращенно — 2М визуальный анализ, — это визуальный анализ данных на плоскости. В двумерном визуальном анализе используются разнообразные гистограммы, диаграммы рассеяния, вероятностные графики, линейные графики, диаграммы диапазонов, размахов, круговые диаграммы, столбчатые диаграммы, последовательные графики (графики последовательных значений) и т. д., позволяющие увидеть специфику данных. Гистограммы 50 60 70 80 90 100 110 120 130 140 150 Термин гистограмма ввел Карл Пирсон в 1895 году. Гистограммы позволяют увидеть, как распределены значения переменных по интервалам группировки, то есть как часто переменные принимают значения из различных интервалов. Особенно полезен этот график для большого числа наблюдений, например больше 100.
Гистограммы 211 Гистограмма наглядно показывает, какие значения или диапазоны значений исследуемой переменной являются наиболее частыми, насколько сильно они различаются между собой, как сконцентрировано большинство наблюдений вокруг среднего, является распределение симметричным или нет, имеет ли оно одну моду или несколько мод, то есть является мультимодальным. На простой гистограмме отображаются частоты значений одной переменной, а на составной можно отобразить одновременно частоты нескольких переменных. Например, показанная ниже составная гистограмма позволяет увидеть, как меняется соотношение между покупками мяса и колбасы в супермаркете. Из нее также видно, что доля колбас и мяса в дорогих покупках (на сумму более 300 рублей) минимальна. Ы11 ,411411! 3 ■ JDlxl Гистограмма покупок ■ магнии* • 5 Hiiilitli И КОЛБАСЫ_ sssa мясо 1ШШ итого Изменяя интервал группировки, можно провести более точную сегментацию рынка. шпвшвев 675 450 <-5О0 СУММА ПОКУПОК
212 Глава 5. Двумерный визуальный анализ данных швввшяпва ■ Jolxli Гисюграмма <- 250 E00,7501 B50.500] >750 СУММА ПОКУПОК 'Xt>v3 ^ 1Ла-у^. СШМДПСЖУГКЖ С помощью гистограмм можно проверить наличие у распределения тяжелых хвостов, что важно для актуарных расчетов. Гистограммы дают возможность визуально оценить сходство наблюдаемых распределений с теоретическими или ожидаемыми распределениями. Гистограмма, или распределение частот значений переменной по интервалам, представляет интерес по следующим причинам: О по форме распределения можно охарактеризовать природу исследуемой переменной (например, наличие двух мод — наиболее высоких столбцов гистограммы, или, как говорят, бимодальность распределения может означать, что выборка неоднородна и состоит из наблюдений, принадлежащих двум различным генеральным совокупностям); О многие статистики критериев основаны на определенных предположениях о виде распределения, например, на предположении нормальности; гистограммы помогают визуально проверить выполнение этих предположений. Часто первый шаг визуального анализа нового множества данных состоит в построении гистограмм для всех переменных. При этом выбираются различные по величине интервалы группировки. Гистограммы и описательные статистики Хотя некоторые (числовые) описательные статистики легче воспринимать в виде таблиц, общую форму распределения значений переменной лучше исследовать на графике.
Группировка 213 График дает качественную информацию о распределении, которая не может быть полностью выражена каким-то одним численным показателем. Например, общее асимметричное распределение дохода может показывать, что большинство людей имеют доход, находящийся гораздо ближе к минимальному, нежели к максимальному значению. Хотя эта информация содержится в коэффициенте асимметрии, ее легче понять и запомнить визуально. ЫМИ'Щ'МЦЦЧ ДОХОД СНМЬИ: ОКРУГ WILLBURN. ОСЕНЫ 993 г по ... 1 « пир к — п " '" " " - - - -- 1 » » • ' , мм На гистограммах также могут быть заметны «провалы», которые несут важную информацию о социальном расслоении группы покупателей или об аномалиях распределения дохода, вызванных, например, недавней налоговой реформой. Часто гистограммы применяются в маркетинге для сегментации рынка. Группировка Все окна Статистические графики системы STATISTICA, позволяющие строить гистограммы, содержат стандартный набор методов задания при построении гистограмм интервалов группировки. Диапазон значений переменной разбивается на интервалы (если переменная непрерывная) или категории (если переменная категориальная), для которых подсчитываются частоты, изображаемые в виде отдельных столбцов. Р'ЦИШ'!!!1! >50 <45;50) D0.451 05,40) i g GO*] ; 5 С**) : $ B0.25) 5 05.20] 5 00.15) E.10) @j5) <-0 С J JJLLi J i i LJ Щ\ i i Ю a 0 Э 0 4I i i 1 ! I i ! ! | | I i ' i ! ! i ! - I 0 5 0 8 0 71 0 80 9 0 1С Ю11 Ip'pfjlul 1 1 t Щ5ЖЙ | 1 on Ю13 I J I I I i li I i ] : j I ] l I : ! I ^ i ' ! I i Mi I j ! 1 I С 14 Ю1£ 0 180 170 Число Н*ВЛ
214 Глава 5. Двумерный визуальный анализ данных Например, можно построить гистограмму, на которой каждый столбец будет соответствовать интервалу из 10 единиц шкалы, используемой для представления переменной. Если минимальное значение равно 0, а максимальное — 120, то будет создано 12 столбцов. Кроме того, можно сделать так, чтобы весь диапазон значений переменной был разделен на указанное число интервалов равной длины (например, 10); в последнем случае, если минимальное значение равно 0, а максимальное — 120, каждый интервал будет равен 12 единицам шкалы. Можно выбрать и более сложный метод группировки. Например, можно применить неравные диапазоны с заданными пользователем границами, чтобы создать более понятные диапазоны или объединить выброс и увеличить читаемость средней части гистограммы. Диапазоны можно также создать, определив критерии включения и исключения с помощью логических операторов (например, первый столбец гистограммы может представлять людей, которые за последний год летали на самолете более 10 раз и не более 50% этих поездок связано с бизнесом и т. д.). Пример. Продвинутые возможности для визуализации группировки имеются в модуле Основные статистики и таблицы (см. диалоговое окно Таблицы частот). Шаг 1. Запустите модуль Основные статистики и таблицы. Откройте файл данных adstudy.sta из папки Examples. Внесите в этот файл следующие изменения: в пятой, седьмой и двенадцатой строке введите новое значение SPRITE в переменную ADVERT (см. рисунок). Теперь эта переменная принимает 3 значения: PEPSI, COKE, SPRITE. шшшщшвшшт [OtHDEl *♦ ***•* ■Ш*^Шко9п- С. Ивуег P. Yotjmg W riynd 4.tm*&-; Advertising Effectiveness Study. ■4> Я£1йЯК*9 ntk9\ HALE PEPSI HALE COKE TEHALE COKE HALE PEPSI HALE SPRITE TEHALE COKE TEHALE SPRITE HALE PEPSI ГЕНАЬЕ PEPSI HALE PEPSI TEHALE PEPSI haleJsprite! 9 6 9 7 7 6 7 9 7 6 4 7 1 7 8 9 1 0 4 9 8 6 6 3 6 1 2 6 0 3 2 2 2 6 3 8 8 9 5 2 8 2 6 3 8 5 7 Шаг 2. В стартовой панели выберите диалог Таблицы частот и нажмите кнопку ОК. | .»IIJ.i.liJ.liilHiICgJ^——7 Jjt Описательные статистики Корреляционные матрицы j7| t-критерия для независимы* выборок %н% t-критерия для зависимых выборок 25 Группировка и одиофакториая AN OVA Таблицы и заголовки ЗА Вероятностный калькулятор \\SJk Друие критерии значимости ЕГ Ртиона J &>А- jSSjJ&i Шаг 3. В диалоговом окне Таблицы частот нажмите кнопку Переменные и выберите первые 3 переменные из файла данных.
Группировка 215 Шаг 4. дом с ней. Выберите опцию Заданные группирующие коды и нажмите кнопку ря- ршвшшшяшшшшш (gg Q«>aHW—; ) 6EN0ER-MCASUR! 1* 1ДО J» I» .. Шаг 5. В появившемся диалоговом окне выберите те значения переменных, которые вы хотели бы отобразить на гистограммах. Сделайте это, например, так, как показано на рисунке. 6SMDER: MALE FEMALE AOVCRT:jPEPSI CORE MCASUBI: 0 5 Q* "UhtllMt»J Шаг 6. Сделав выбора нажмите кнопку OK в окне Коды для выбранных переменных. После этого вы вернетесь в диалоговое окно Таблицы частот. Шаг 7. В диалоговом окне Таблицы частот нажмите кнопку Гистограммы. Вы увидите появляющиеся одну за одной гистограммы на вашем экране. Обратите внимание, что на графике отбражаются не все значения переменных, а только те, что выбраны вами. GENOEffc Gemtor of the аиЬде» (May 1S, 19M). Цаяьм штегории
216 Глава 5. Двумерный визуальный анализ данных ?1 ADVfcHT Ad shown зашшжшкшш АО VERT: Ad shown to the subjects (M«y 15,1SW). Целые категории П'Р^Фик?? MIASIIH1 ПН C_1:2 G_1:3 Целые категории Подгонка теоретических распределений к наблюдаемым распределениям STATISTIC А позволяет сравнивать распределение наблюдаемых данных с распределениями: нормальное, бета- экспоненциальное, экстремальное, гамма- геометрическое, Лапласа, логистическое, логнормальное, Пуассона, Релея, Вейбулла. Q3BBBD ■ Jnlxli Гистограмма (RANDOM2 STA 7V478C) у-478* 1 • normal (х. 17 0711.6 538) 2 4 б 8 10 12 14 16 18 20 22 24 26 28 30 32 34 I 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 CATEGORY
Подгонка теоретических распределений к наблюдаемым распределениям 217 еашшягаяи ■ Jntxll Подгонке экспоненциального распределения к переменной: MEASUR4 | Простые гистограммы Простые гистограммы является обычными столбчатыми графиками распределений частот выбранной переменной. [Д Составные гистограммы Составные гистограммы представляют распределения частот для нескольких переменных на одном графике. Значения переменных откладываются по единой оси X, что облегчает визуальное сравнение распределения переменных. На составных гистограммах переменные представлены примыкающими друг к другу столбцами; поэтому для каждой категории строится несколько столбцов. Следовательно, подогнанные кривые могут либо точно подходить к соответствующим им гистограммам, либо быть сравнимыми друг с другом. ШЯ Гистограммы с двойной осью Y Гистограмму с двойной осью У можно рассматривать как комбинацию двух составных гистограмм. Можно выбрать два списка переменных. Будет построено распре-
218 Глава 5. Двумерный визуальный анализ данных деление частот для каждой выбранной переменной, но частоты переменных, введенных в первый список {Левая ось У), будут откладываться по левой оси У, в то время как частоты переменных, введенных во второй список {Правая ось У), — по правой оси У. ншннишп i.'ibixji Гистограмма с дюймом осью V MEASURE2 (Л) \ щ MEASURE3(П) ■ 1 И -и II г шй §1 ill wwwn ш ш Имена всех переменных из двух списков будут включены в условные обозначе- ния,-сопровождаемые буквой Л или Я, обозначающей левую или правую ось У соответственно. Этот график полезен для визуального сравнения распределений переменных с разными частотами. [5\] Висячие столбцы Гистограмма висячих столбцов является изысканным визуальным способом проверки нормальности распределения переменной, который помогает наглядно определить области, где возникают расхождения между наблюдаемыми и нормальными частотами. I'tll'r-l'I'I'HI'lll'll'fllU.B fllblxl В отличие от обычного способа наложения на гистограмму нормальной кривой, гистограмма висячих столбцов предлагает альтернативный способ, когда столбцы, представляющие наблюдаемые частоты для последовательных диапазонов значений, «подвешиваются» к нормальной кривой. Если исследуемое распределение приближенно нормальное, то нижние стороны подвешенных прямоугольников ложатся на одну прямую.
Диаграммы рассеяния 219 Пересекающиеся категории В системе STATISTICA можно задать логические условия выделения подгрупп. Формально могут возникнуть пересекающиеся подмножества (одно и то же наблюдение попадает в разные группы). Однако действует следующее правило: каждое наблюдение будет помещено только в одну подгруппу, а именно в первую из тех, условиям которой оно удовлетворяет. Поэтому наборы подгрупп (категорий), создаваемые по таким правилам, не будут пересекаться ни при каких условиях. Например, если к подгруппе 1 множества опрошенных отнесены мужчины, а к подгруппе 2 — опрошенные старше 30 лет, то полученная подгруппа 2 будет содержать только женщин (старше 30 лет), так как все мужчины окажутся в подгруппе 1. Пример: Подгруппа 1:Включ., если:\1<=10 Подгруппа 2: Включ., если: vl>10 AND v2 = 'YES' ЫШИИ'ИШ'Н Диаграммы рассеяния Двумерные диаграммы рассеяния используются для визуального исследования зависимости между двумя переменными X и У (например, весом и ростом человека, рекламой и объемом продаж и т. д.).
220 Глава 5. Двумерный визуальный анализ данных Данные изображаются точками в двумерном пространстве. Две координаты (X и У), которые определяют положение каждой точки, соответствуют значениям двух переменных. Если переменные сильно связаны, то множество точек данных принимает определенную форму (например, ложится на прямую линию или кривую, задаваемую определенным уравнением), как показано ниже на рисунке. ИЕЯИЯЕ2ЭЕ ЕВШ Диаграмма рассеяния двух сильно связанных пареиаиных 14000 12000 10000 8000 6000 4000 2000 0 -2000 •4000 ;...... ■ - I 0 V ._.]-— i—l- i—; — : i ' i —4—4- j—- ::x::j:::{z: т -t 1 — 4 1—!_...— ;..-._.!.. _]У%- ! I ; I ! ! ; -100 -80 -60 -40 20 40 60 80 Подгонка функций к диаграммам рассеяния помогает увидеть зависимости между переменными. Если переменные не связаны, то точки образуют «облако рассеяния» (см. ниже).
Однородность распределений двух переменных (формы зависимостей) 221 Однородность распределений двух переменных (формы зависимостей) Диаграммы рассеяния обычно используются для визуального исследования зависимости двух переменных (например, кровяного давления и уровня холестерина), поскольку они предоставляют больше информации, чем простое значение коэффициента корреляции. Например, отсутствие однородности в выборке, для которой была подсчитана корреляция, может исказить значение коэффициента корреляции. Предположим, вычисления производились для данных из различных экспериментальных групп, но этот факт не был учтен, то есть группировка не проводилась. Можно предположить, что экспериментальные действия в одной из групп увеличили значения обеих коррелированных переменных, и таким образом, данные из каждой группы образуют отдельное «облако» на диаграмме рассеяния (как показано на рисунке ниже). В этом примере высокая корреляция обусловлена наличием двух групп и не отражает действительный характер связи (точнее, ее отсутствие) между переменными. ООщзякорреляция г - 86410 _4о I ■ • • ' « ■ 1 :• -40 -20 0 20 40 60 80 100? При наличии определенных предположений о структуре данных и информации, а также о возможном способе разделения на группы попробуйте рассчитать корреляции отдельно для каждого подмножества наблюдений или используйте категоризованную диаграмму рассеяния. Другой проблемой, которая может быть исследована на диаграммах рассеяния, является нелинейность. Для исследования нелинейной зависимости между переменными не существует «автоматических» или простых в употреблении методов. Коэффициент корреляции Пирсона оценивает только линейные зависимости и именно по этой причине часто называется линейным; некоторые непараметрические критерии, такие как коэффициент корреляции Спирмена R, могут оценивать нелинейную зависимость, но только монотонную. Исследование диаграмм рассеяния позволяет определять формы зависимостей, чтобы потом можно было выбрать подходящий тип преобразования данных для их «линеаризации» или выбора подходящего нелинейного уравнения подгонки (например, вместо линейной зависимости использовать полиномиальную).
222 Глава 5. Двумерный визуальный анализ данных Выбросы Другое важное преимущество диаграмм рассеяния состоит в том, что они позволяют находить «выбросы» (нетипичные данные), которые искусственным образом увеличивают или уменьшают («смещают») коэффициент корреляции. 1тШ1Ш1111Т1Ш11ШЬ Корреляция г = 82842 Сильная корреляция обусловлена единственным выбросом Даже один выброс может значительно увеличить коэффициент корреляции между двумя переменными. Диаграмма рассеяния позволяет обнаруживать такие аномалии. Например, корреляция между двумя переменными на рисунке была бы близка к 0 при отсутствии выброса. Наличие этого выброса «искусственно» увеличивает значение корреляции. Средство Кисть позволяет интерактивно удалять выбросы и непосредственно наблюдать за изменением аппроксимирующей функции или линии регрессии. ЩЩ Простые диаграммы рассеяния Простая диаграмма рассеяния визуализирует зависимость между двумя переменными Хи У (например, весом и высотой). Данные изображаются точками в двумерном пространстве, где оси соответствуют переменным.
Выбросы 223 Простая диаграмма рассеяния (высота и аес) 210 205 200 195 S 190 о ш 185 180 175 170 165 ■- ■■- 8 ° ° — - . .* о- °в. о- ** ° - 9- ;г." 145 155 165 175 ВЫСОТА 00 185 195 Две координаты (X и У), которые определяют положение каждой точки, соответствуют значениям двух переменных. Если переменные сильно связаны, то множество точек данных принимает определенную форму (например, прямой линии или кривой). Если связи нет, то точки образуют «облако». |^р| Составные диаграммы рассеяния В отличие от простой диаграммы рассеяния, на которой одна переменная представлена по горизонтальной, а вторая — по вертикальной оси, составная диаграмма рассеяния включает несколько зависимостей: значения одной переменной (X) откладываются по горизонтальной оси, а по вертикальной оси откладываются значения нескольких переменных (У). Для каждой переменной У используется разный цвет и вид точек. Составная диаграмма рассеяния [-.. л Л !... I •°-.§ •set- • ■♦о •••• ^ОЛ* .да-- ■jjti; ;°o°22 B°S Oo- - - - - i 'lilt»»'"» r r ! °B°° „B -1 r*t • ♦ 40 45 50 55 60 65 70 75 • Y1 о Y2 * Y3 Диаграмма рассеяния составного типа используется для сравнения структуры нескольких корреляционных зависимостей путем изображения их на одном графике в одном масштабе. ЕЦ] Диаграммы рассеяния с двойной осью Y Диаграмму рассеяния такого типа можно рассматривать как комбинацию двух составных диаграмм рассеяния для одной переменной X и двух различных множеств переменных У. Для независимой переменной Xи каждой из переменных Устроится диаграмма рассеяния, но переменные из первого списка (называемого Левая ось У)
224 Глава 5. Двумерный визуальный анализ данных откладываются по левой оси У, тогда как переменные из второго списка (называемого Правая ось У) откладываются по правой оси У. На каждой из осей можно выбрать свой масштаб. Диаграмма рассеяния с двойной осью Y Y_1 (Л) Y_2 (П) Y_3 (П) Имена всех переменных У из двух списков будут включены в условные обозначения, сопровождаемые буквой (Л) или G7), обозначающей левую или правую ось У соответственно. Диаграммы рассеяния с двойной осью У можно использовать для визуального сравнения структуры нескольких корреляционных зависимостей путем изображения их на одном графике. При этом в силу независимости масштабов, используемых для двух списков переменных, этот график облегчает сравнение переменных, значения которых принадлежат разным диапазонам. \£?\ Частоты Эта диаграмма рассеяния позволяет наглядно изобразить частоты перекрывающихся точек для двух переменных, чтобы наглядно представить веса различных точек. Если для одного значения переменной X имеется несколько значений переменной У, то возникает необходимость использовать подобные диаграммы рассеяния. Подсчитываются и группируются частоты перекрывающихся точек. Размеры маркеров точек на графике соответствуют значениям частот. Диаграмма рассеяния частот • 1 наблюдение • 2-4 наблюдения • 5-7 наблюдений о 6-10 наблюдений о 11-13 наблюдений о 14-16 наблюдений . 40 О > 16 наблюден!
Выбросы 225 РП Квантили На графиках квантилей изображается зависимость между квантилями двух переменных, позволяющая визуально оценить сходство эмпирических распределений каждой переменной. UIMLJIIiMf а рассеяния квантиль к ват иль Диаграмма рассеяния квантиль-квантиль (IRISDAT.STA5V150C) y=-8,102*2,0rx*eps Если точки данных ложатся на линию регрессии, то можно сделать вывод, что две переменные имеют одинаковое распределение. ggg Диаграмма Вороного Эта особая диаграмма рассеяния одной переменной является в большей степени аналитическим средством, нежели просто методом графического представления данных. Пространство разделяется на области точек, максимально близких к наблюдаемым точкам, иными словами можно сказать, что строятся зоны влияния точек. ВШПШВШЕШЕ Мозаике Вороного
226 Глава 5. Двумерный визуальный анализ данных Обратите внимание, что на изображенной выше диаграмме оси одинаково масштабированы (минимум = 0, максимум = 10) и пропорции диаграммы таковы, что обе оси имеют приблизительно одинаковую длину. Разбиения для мозаичной диаграммы Вороного будут рассчитаны в предположении равных длин (и масштабов) осей; таким образом, пропорции диаграммы и масштабирование по умолчанию (например, автоматическое) могут привести к искаженной мозаичной диаграмме Вороного. Способы использования этого метода сильно зависят от областей исследования, однако во многих случаях к этой диаграмме полезно добавлять дополнительные измерения, используя категоризацию и выбор сложных подгрупп. Диаграммы рассеяния с гистограммами Этот тип статистических графиков представляет собой составной график с зависимостью между двумя переменными и распределениями частот для каждой переменной. 1ЯШ1ЧИ1|Ц1||Ц111ЛШЛ.Ч.Щ1Щ.ЧЛ11Л11 Диаграмма рассеяния с гистограммами ARISDAT STA 5V150с) -±Л*т 1 ^2ш. °яЪо СО ««ft*« ■ •■- 0.0 09 1.0 1.9 2.0 29 3.0 Э.9 4.0 49 9.0 9.9 00 0.9 70 79 0 18 Эв График состоит из простой .диаграммы рассеяния двух заданных переменных (X и У) и гистограмм распределений частот для переменных X и Y, изображенных соответственно вдоль осей X и У диаграммы рассеяния. Диаграммы рассеяния с диаграммами размаха Этот тип статистических графиков представляет собой составной график с зависимостью между двумя переменными и распределениями значений каждой из двух выборок (включая выбросы и экстремальные значения). Такой график особенно полезен при проверке по указанному пользователем критерию, являются ли отдельные точки данных выбросами или экстремальными значениями и можно ли их удалить из выборки. График состоит из простой диаграммы рассеяния двух указанных переменных (X и У) и диаграмм размаха для переменных X и У, изображенных соответственно вдоль осей X и У диаграммы рассеяния.
Нормальные вероятностные графики 227 {явавшпв Диаграмма рассеяния с диаграммами размаха (FACTOR STA 1 0v*1 00c) Нормальные вероятностные графики Эти графики позволяют визуально исследовать, насколько распределение данных близко к нормальному. ихи щш!тштшштяшт Нормальный |ероятностный график для нормальной переменной 90 110 Наблюдаемое значение Нормальный вероятностный график Стандартный нормальный вероятностный график строится следующим образом. Сначала все значения переменной ранжируются. По рангам рассчитываются Z-значения (значения стандартного нормального распределения) в предположении. Значение z. для^-го ранга переменной с N наблюдениями вычисляется по формуле: 2. = F-'[Cx;-l)/CxW+l)], где F1 — это обратная функция стандартного нормального распределения (преобразовывающая нормальную вероятность р в нормальное значение z). Значения z откладываются по оси У, наблюдения — по оси X. Если наблюдаемые значения распределены нормально, то все значения на графике должны попасть на прямую линию. Если значения не являются нормально распределенными, то будет наблюдаться отклонение от прямой.
228 Глава 5. Двумерный визуальный анализ данных Нормальный мроятностный график \ i нормально распределенной переменной (с постоянной вероятностью) \ 3 5 7 Наблюдаемое значение На этом графике можно визуально обнаружить выбросы. Если наблюдается очевидное несовпадение и данные располагаются относительно линии определенным образом (например, в виде буквы 5), то перед применением статистических методов, для которых существенное значение имеет нормальность распределения, необходимо каким-то образом преобразовать переменные (например, логарифмическое преобразование часто используется для того, чтобы «втянуть» конец распределения). Полунормальный вероятностный график Полунормальный вероятностный график строится тем же образом, что и стандартный нормальный вероятностный график, с тем отличием, что рассматривается лишь положительная часть нормальной кривой. Следовательно, по оси Убудут откладываться только положительные нормальные значения. В частности, полунормальное вероятностное значение z. для7-го упорядоченного значения (ранга) переменной с N наблюдениями вычисляется так: 2. = F~l[Ce х ЛГ+3 х;-1)/F х ЛГ+1)], где F~{ — снова обратная функция нормального распределения. lilllfJIIII'MHIlllll, I'M'J flf I'■".,.I,II,I НЛ 11,1 illl Полунормальный мроятностный график для нормальной переменной ::]:: .:.:. i -1 ■- - \ в ■} ■- ■ ...... -i^8. L^^. J\J±^f*\... | 1 Г .1 10 15 20 25 Наблюдаемое значение Этот график часто используется для исследования распределения остатков, если нужно игнорировать знак остатка, когда интерес вызывает распределение абсолютных остатков независимо от их знака.
Нормальные вероятностные графики 229 Нормальный вероятностный график с исключенным трендом Нормальный вероятностный график с исключенным трендом строится тем же образом, что и стандартный нормальный вероятностный график, с тем отличием, что перед созданием графика удаляется линейный тренд. t-il.HIU !;ЧШ1'№1'- ГТ'Г' I'J'hll'^l," 1Г",,' 1J1 MII'IJI1!—ЛдГНТ Нормальный вероятностный график \ для на нормально распределенной переменной (с постоянной вероятностью) I 3 5 7 Наблюдаемое значение В частности, на этом графике каждое значение (X) стандартизируется вычитанием среднего и делением на соответствующее стандартное отклонение (s). Нормальное вероятностное значение с исключенным трендом z. для у го упорядоченного значения (ранга) переменной с п наблюдениями вычисляется так: г. - F~l[C х;-1)/C х JV+1)] - (х-среднее)Д где.?-1 — это обратная функция нормального распределения, а5 — стандартное отклонение. Графики квантиль-квантиль График квантиль-квантиль (или кратко — график К-К) полезен для нахождения наиболее подходящего распределения из выбранного семейства распределений. ItlUM'iirM'llMI'Hl'lll'llliilNIIl График квантиль-квантиль для WEI8ULL (DISTRBS STA 8V300c) Распределение: ВейОулла A) у»0,013*>1.024«*м»р8 2 4 Теоретическая квантиль Вначале выбирается семейство распределений, внутри которого производится подгонка.
230 Глава 5. Двумерный визуальный анализ данных Чтобы оценить подгонку распределения, наблюдаемые значения упорядочиваются {х1 <... < хп), и по этим значениям (х.) строится обратная эмпирическая функция распределения. Затем к ней подгоняется линия регрессии. Если наблюдаемые значения попадают на линию регрессии, то можно сделать вывод, что они имеют заданное распределение. Уравнение линии подгонки (У=я + Ьх) дает оценки параметров а и Ь (где а — параметр сдвига, Ъ — параметр масштаба). Обычно квантильные графики строятся для наиболее употребляемых распределений: экспоненциального, экстремального, нормального распределений, распределения Релея, бета-, гамма-,логнормального распределения и распределения Вейбулла. Графики вероятность-вероятность График вероятность-вероятность (или график В-В) полезен для определения, насколько хорошо теоретическое распределение подходит для наблюдаемых данных. На графике В-В строится зависимость между эмпирической функцией распределения и теоретической функцией распределения для оценки подгонки теоретического распределения к наблюдаемым данным. Если все точки графика попадают на диагональную линию (со сдвигом 0 и наклоном У), то можно сделать вывод, что теоретическое кумулятивное распределение точно приближает наблюдаемое распределение. иаШ'Ш11,Ш|^ График вероятность-вероятность для EXPONENT (DISTRBS STA 6V300c) Распределение экспоненциальное @.827) 0 25 0 50 075 Теоретическая функция распределения Если точки данных не попадают на диагональную линию, то этот график можно использовать для наглядной проверки того, подходит ли распределение к данным (например, если точки располагаются в форме S относительно диагональной линии, то может потребоваться преобразование данных для того, чтобы привести их распределение к нужному виду). Для построения этого графика должна быть полностью задана функция теоретического распределения. Следовательно, параметры распределения должны быть либо определены пользователем, либо вычислены по данным (для получения дополнительной информации о параметрах см. описание соответствующего распределения).
Диаграммы диапазонов 231 Вообще говоря, если наблюдаемые точки имеют выбранное распределение с соответствующими параметрами, то они попадут на прямую линию на графике В-В. Заметьте, что для получения используемых здесь оценок параметров (для наиболее подходящего распределения из семейства распределений) также можно применять график квантиль-квантиль. Диаграммы диапазонов На диаграммах диапазонов представлены диапазоны значений или столбцы ошибок, относящиеся к определенным точкам данных, в форме прямоугольников или отрезков. В отличие от стандартных диаграмм размаха, диапазоны или столбцы ошибок не вычисляются по данным, а определяются исходными значениями выбранных переменных. ШППЕШШЕЗЕ2 ЕсШ' Диаграмма диапазонов для переменной V2 (цена BNM) 66 | 62 I 58 I 54 50 46 I tJI.I:.1:1; .; ! !..: : : tj1:..! !.! ! I i ! | i ! ! 12 3 4 5 7 8 9 10 11 12 13 14 День торгов ZL Верх/ниж о засечки Обычно горизонтальные диаграммы диапазонов используются для изображения временных промежутков, а не изменчивости; их также рекомендуется использовать, если у диапазонов очень длинные метки, потому что на горизонтальных диаграммах диапазонов метки не нужно переносить (как в случае, когда длинные метки расположены вдоль оси X). I IIIIIМИНИIIIII ГНИ I ■■■■■■—1 Средние температуры (макс в июле) и крайние значения температур для выбранных городов Wichita Dubuque Oes Moines Indianapolis Chicago Boise Honululu Atlanta Miami Key west Jacksonville Washington Wilmington Harford Denver San Francisco LosANgeles Little Rock Phoenix Juneau Mongomery Mobile Вертикальные диаграммы диапазонов часто используются для представления данных рынка, торговли и т. д.
232 Глава 5. Двумерный визуальный анализ данных Диаграмма диапазонов (STOCKS STA 7И200с) 122Ш I 1 I I I I I II I I I I Диаграммы размаха На диаграммах размаха (термин введен Тьюки в 1970 году), или так называемых графиках ящики-усы, диапазоны значений выбранной переменной (или переменных) строятся отдельно для групп наблюдений, определяемых значениями кате- горизующей или группирующей переменной. Центр (например, медиана или среднее) и статистики диапазонов или вариации (например, квартили, стандартные ошибки или стандартные отклонения) вычисляются для каждой группы наблюдений. uaut Средние обчамы продаж по округам 140 130 Выбрось со  И 10° go tpwmm* 10ЧП 60 jj<T . :fi: 1|J::. i -t ft __ ____\^ T i о 4 i 8 _4-._-r ... HZ Макс баэ аыбросоа; Мии баз аыбросоа CD 75% 25% NORTH SOUTH WEST EAST CENTRAL ° М«Аиаи» На графике может быть представлено более одной зависимой переменной для возможности сравнения распределений результатов соответствующих измерений по группам. Распрадаламие даум иэмарамим • трал rpynnai < мадиака; прямоугольник 29%, 73%; отрозос: мим баз аыбросоа. uaic баз аыбросоа \ о ■ JL т А • о 1 ^^ т А ^ :т
Диаграммы размаха 233 Диаграмма размаха 4UU0 3500 3000 2500 2000 1500 1000 500 0 ■500 | 1 а 1 CD 25%-75% Если изменить разметку осей, то можно увидеть следующую картину: Диаграмма размаха 1000 900 800 700 I 600 500 400 300 200 100 О ' ....?= bL_^_J ZH cz_ □ 254-75% о Медиана Из этой диаграммы размахов видно (данные носят модельный характер, но в них отражена реальная ситуация), как распределены покупки колбасы и мяса в супермаркете в течение дня. Диаграмма СУММА показывает, как распределена сумма всех покупок, сделанных клиентами. Очевидно, что вариабельность покупок колбас больше вариабельности покупки мяса. Половина покупателей производят покупку колбас в очень узком диапазоне (типичный покупатель). Диаграммы диапазонов отличаются от диаграмм размаха тем, что для диаграмм диапазонов диапазоны для построения определяются значениями выбранных переменных (например, одна переменная содержит минимальные значения диапазонов, а другая — максимальные значения диапазонов), в то время как для диаграмм размаха диапазоны вычисляются по исходным значениям переменной (например, стандартные отклонения, стандартные ошибки или исходные диапазоны). Как правило, диаграммы размаха применяются в двух случаях: а) для сравнения диапазонов значений отдельных выборок или категорий наблюдений (например, типичная минимаксная диаграмма для акций или товаров или агрегированные диаграммы последовательностей данных с диапазонами) и б) для сравнения распределений или вариаций результатов в отдельных группах или выборках
234 Глава 5. Двумерный визуальный анализ данных (например, диаграммы размаха, представляющие среднее в виде точки внутри прямоугольника, стандартные ошибки — в виде прямоугольника, а стандартные отклонения от среднего — в виде более узкого прямоугольника или отрезка). Диаграммы размаха, показывающие вариацию значений, дают возможность визуализировать и быстро оценить силу зависимости между группирующей и зависимой переменными. В частности, предполагая, что зависимая переменная распределена нормально, и зная, какая часть наблюдений попадает в интервал, например, ±1 или ±2 стандартных отклонения от среднего, можно легко оценить результаты эксперимента и показать, что около 95% наблюдений в экспериментальной группе 1 принадлежат к диапазону, отличному от диапазона значений, куда попадают примерно 95% наблюдений в группе 3. [Р71 Простые диаграммы размаха Простые диаграммы размаха используются для представления и исследования диапазонов значений переменной при категоризации с помощью другой переменной. Когда выбрано более одной зависимой (то есть У) переменной, будет построена последовательность графиков (по одному для каждой выбранной зависимой переменной). И Составные диаграммы размаха В отличие от простых диаграмм размаха, на которых представлены диапазоны значений одной переменной, составная диаграмма размаха изображает (на одном графике) диапазоны значений нескольких переменных. ■Jolx! Диаграмма paauaia объемов продаж по округам Медиана. Прямоуг 25%. 75%. Отрезок Мим без выбросов. Маге без выбросов ■ Медиана, продажи 1991 а Мвдиаиа. продажи 19921 Для каждой переменной используется и указывается в условных обозначениях свой маркер точек, шаблон заполнения и цвет. Этот тип диаграмм размаха используется для сравнения диапазонов значений нескольких переменных (или нескольких функций) путем представления их на одном графике, использующем общие шкалы (например, сравнение нескольких одновременных экспериментальных процессов, социальных явлений, цен акций или товаров, форм кривых текущих характеристик и т. п.). Столбчатые диаграммы 2М столбчатые диаграммы представляют собой последовательности значений в виде столбцов (одно наблюдение представлено одним столбцом). Если вы-
Столбчатые диаграммы 235 брано более одной переменной, то каждая диаграмма может быть изображена отдельно или все диаграммы могут быть представлены на одном графике в виде групп столбцов (одна группа для каждого наблюдения). Например, для этого множества данных будет построена следующая столбчатая диаграмма. ОБЪЕМЫ ПРОДАЖ (РАЗДЕЛЕНИЕ УСЛУГ) Следует отметить, что для изображения столбцов ошибок, связанных с отдельными измерениями (например, стандартных ошибок, вычисленных по данным или зафиксированным ранее границам диапазона), следует использовать диаграммы диапазонов или диаграммы размаха. СТД Простые столбчатые диаграммы Для выбранной переменной строится простая столбчатая диаграмма (если выбрано более одной переменной, то для каждой переменной из списка строится отдельный график). Столбчатая диаграмма
236 Глава 5. Двумерный визуальный анализ данных |Д Составные столбчатые диаграммы На составных столбчатых диаграммах (на одном двумерном графике) показаны группы столбцов для многих переменных (одному наблюдению соответствует одна группа); один столбец группы представляет одну из выбранных переменных. Benton Cannon Carrol Cumberland Cheatheam Ш PT.POOR OHD PT.PHONE Ш PT RURAL Значения всех исследуемых переменных откладываются по единой оси У (или оси X, если выбрана горизонтальная ориентация), что облегчает сравнение анализируемых переменных. Линейные графики (для переменных) 2М линейные графики представляют собой двумерные линейные графики одной или многих переменных, на которых отдельные точки соединены линиями. Линейные графики дают простой способ наглядного представления последовательности большого числа значений (например, рыночных цен на акции за некоторое число дней); ХУ-графики трассировочного типа (см. ниже) могут быть использованы для изображения пути (вместо последовательности).
Линейные графики (для переменных) 237 Линейные графики могут также быть построены для непрерывных функций, теоретических распределений и т. п. Ниже показано несколько таких графиков. PJ ( роФик.4 Граф nept ЦЕНА НА НЕФТЬ Моширов М б«реяь) 5*г • ГЧ ^ • gssssssss <ы^ тгы ^т f*^ ^ si? Даты (и* переменной: DATE) tsssssssslssslsslssisiis Даты (и» переменной: DATE) • - - ЦЕНА Д.РУБЛЬ Если имеется лишь несколько наблюдений, то лучше использовать вертикальную столбчатую диаграмму, хотя значительным исключением из этого правила являются графики различий между средними некоторого количества групп. Криеея операционных характеристик Границы контроля ВГК * 3 0000*Сигме. НГК«.3 000*Сигме . .. L, ^ . ■ г*?*Гч^. :.. : >^Ч ■>...: V\\\ \ '-• ' * №■; ' N^ •••• *■■■ v-\\ ■••*■■■'■ • i- \v\.\\; ^х Vх- V ^ v*:V^ •>*.v. ■*. •vv-V ^^ ч-:-^ .>>n ^T^irt >»» ■ ifll— — . i- *^«. — -.. ■^ ^ -- - «. __ .... .... •• -; , ^ .... 100 200 300 400 5 00 600 Отношение стенд, отклон для старого и ноаого процессов (переменней - • NO -•• N-2 — N-S SIZE)
238 Глава 5. Двумерный визуальный анализ данных Если в последовательности очень много наблюдений и они различаются, то необходимо сглаживание для обнаружения общей структуры последовательности данных. Простейшей формой сглаживания является агрегирование, когда вместо исходных данных изображаются средние последовательных множеств из п наблюдений. На агрегированных линейных графиках диапазоны значений изображаются отрезками. О 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Ю0 ! Агрегирование также может быть использовано в качестве средства уменьшения количества точек, дающего возможность представить на одном графике больше данных, чем в любом другом случае (при данном разрешении монитора или принтера). |37| Простые линейные графики Простые линейные графики используются для представления и исследования последовательностей значений (обычно когда порядок значений является существенным ). ОЗВШИаВВШШВ График переменной SERIES.G Число пассажире»! за месяц (• 1000) : _J Li l JLLi JL1JJLA Также типично применение линейных последовательных графиков при построении графиков непрерывных функций, таких как функции подгонки или теоретические распределения. Заметьте, что пустая ячейка данных (то есть пропущенные данные) «разрывает» линию. |gffl Составные линейные графики В отличие от простых линейных графиков, на которых представлена последовательность значений одной переменной, на составном линейном графике изобра-
Линейные графики (для переменных) 239 жаются несколько последовательностей значений (переменных). Для каждой переменной используется и указывается в условных обозначениях свой шаблон линии и цвет. R8S88S888gg8§S8S88§ Этот тип линейных графиков используется для сравнения последовательностей значений нескольких переменных (или нескольких функций) путем изображения их на одном графике, использующем один общий масштаб (например, для сравнения нескольких одновременных экспериментальных процессов, социальных явлений, цен акций или товаров, форм кривых текущих характеристик и т. п.). QI Линейные графики с двойной осью Y Линейный график с двойной осью У можно рассматривать как комбинацию двух по-разному масштабированных составных линейных графиков. Для каждой выбранной переменной используется свой шаблон линии, в то же время все переменные, выбранные в списке Левая ось У, будут откладываться по левой оси У, а переменные, выбранные в списке Правая ось У, будут откладываться по правой оси У.
240 Глава 5. Двумерный визуальный анализ данных Имена всех переменных будут указаны в условных обозначениях вместе с буквой (Л) для переменных, относящихся к левой оси У, и с буквой G7) для переменных, относящихся к правой оси У. Линейный график с двойной осью У можно использовать для сравнения последовательностей значений нескольких переменных, накладывая их линейные представления на один график. В то же время, в силу независимости шкал, используемых для двух осей, этот график может облегчить сравнение «не сравнимых» другим способом переменных (то есть переменных со значениями в разных диапазонах). [/у] Трассировочные XY-графики Трассировочные XY-графики требуют выбора по крайней мере двух переменных {X и У). На трассировочных графиках сначала строится диаграмма рассеяния двух переменных, а затем отдельные точки данных соединяются линией (в порядке их считывания из файла данных). В этом смысле трассировочные графики визуализируют «путь» последовательного процесса (движение, изменение явления во времени и т. п.). li?H Агрегированные линейные графики Агрегированные линейные графики изображают последовательность средних для последовательных подмножеств выбранной переменной. Можно выбрать число последовательных наблюдений, по которым будет вычислено среднее (параметр Индекс), а при необходимости диапазон значений в каждом подмножестве будет выделен значками типа отрезков. \ Arptmpot-ениыЙ лмиейный график трех процессов
Линейные графики (профили наблюдений) 241 Агрегированные линейные графики используются для представления и исследова- I ния последовательностей большого числа значений. Следует отметить, что в модуле Временные ряды содержится большой набор процедур сглаживания и фильтрации данных (например, скользящее среднее, скользящая медиана, 4253Н-фильтр и др.). Линейные графики (профили наблюдений) 2М линейные графики (профили наблюдений) представляют собой двумерные линейные графики одной и нескольких переменных. В отличие от простых линейных графиков, где значения одной переменной изображаются в виде одной линии (отдельные точки данных соединены линией), на линейных графиках профилей наблюдений значения выбранных переменных для наблюдения (строки) изображаются в виде одной линии (то есть один линейный график создается для каждого выбранного наблюдения). \ Линейный график (NEWSTA lOfMOc) ] $ ! " ; 44 \ '■ IS \ ' 3JQ \ \ " ' 2Л МТ&ШВ<е PRUDCNCE SOOABLITY ММЮТОСвМ WTWOVWICN Линейные графики профилей наблюдений дают возможность наглядно представить значения для наблюдения (например, значения для нескольких критериев). Q Простые линейные графики (профили наблюдений) Простые линейные графики используются для представления и исследования последовательностей значений (обычно когда порядок значений является существенным). Обратите внимание, что пустая ячейка данных (то есть пропущенные данные) «разрывает» линию. ISffl Составные линейные графики (профили наблюдений) В отличие от простых графиков профилей наблюдений, на которых представлена последовательность значений одной переменной, на составном линейном графике изображаются несколько последовательностей значений (переменных). Для каждой переменной используется и указывается в условных обозначениях свой шаблон линии и цвет. Этот тип линейных графиков используется Для сравнения последовательностей значений нескольких переменных (или нескольких функций) путем изображения их на одном графике, использующем один общий масштаб (например, для сравне-
242 Глава 5. Двумерный визуальный анализ данных ния нескольких одновременных экспериментальных процессов, социальных явлений, цен акций или товаров, форм кривых текущих характеристик и т. п.). Последовательные/наложенные графики Все типы графиков из этой группы используются для представления последовательностей значений. В этом отношении они сходны с линейными графиками. Фактически если для построения выбрана только одна переменная, то отображение данных будет идентично представлению на линейных графиках. В то же время, наложенные графики позволяют реализовать более разнообразные способы графического представления (зонные, ступенчатые, столбчатые диаграммы и др.). Единственное значительное различие между представлениями данных на рассматриваемом типе графиков и на линейных графиках проявляется, когда для построения выбирается более одной переменной. На линейных графиках каждая переменная будет построена независимо от других; так, например, если две переменные имеют одинаковые значения для наблюдения 3, то в этой точке (наблюдение 3) две линии пересекутся или перекроются. В то же время, наложенные графики «складывают» соответствующие значения последовательных переменных (из выбранного списка). Объединенный доход из трех источников [ ^ ^ ^ д ^ ^ ^ ] I Е2Я sources Так, на этом графике точка, отвечающая наблюдению 3 для второй переменной, будет соответственно выше, чем для первой переменной. Переменные складываются в том порядке, в каком они были выбраны. Благодаря такому наложенному представлению значений последовательных переменных линии (или шаги, области, столбцы и т. д.) последовательных переменных никогда не будут перекрываться, если они больше 0. Такая интерпретация влечет ограничение, касающееся пропущенных значений в изображаемом множестве данных. А именно — положение каждой точки данных на графике для каждой последовательной переменной (из выбранного списка) является суммой ее значений и соответствующих значений (то есть значений для того же наблюдения) всех «предшествующих» переменных в списке. Следовательно, если хотя бы одно из предшествующих значений пропущено, сумму нельзя вычислить, и график в этой точке будет «разорван». Таким образом, во множествах
Последовательные/наложенные графики 243 данных, выбранных для наложенного представления, не должно быть пропущенных данных (исключая данные для последней переменной). Эти типы графиков используются для представления последовательностей значений выбранных переменных. Однако наложенный вид графиков (применяемый при выборе более одной переменной) специально разработан для представления большой категории множеств данных, в которых последовательные переменные представляют части («порции») целого. Например, каждое наблюдение может обозначать ВНП за один фискальный год, а каждая переменная — сумму в долларах, поступившую из каждой отрасли промышленности и из других источников товаров и услуг. Если такие данные были бы представлены на наложенном столбчатом графике, то получившаяся высота каждого столбца обозначала бы суммарный ВНП, а каждый из вложенных сегментов столбца показывал бы относительный вклад соответствующей отрасли. Если переменные, представленные на графике, отражают проценты и/или в сумме дают одно и то же значение (например, 100%) для каждого наблюдения, то суммарная высота графика будет постоянной для всех наблюдений. НаложанмыА графи* (BLEN01 .ЭТА 10*4 Ос) ЩЩ Линейный график На этом типе графика последовательности значений каждой переменной будут представлены последовательными линиями, расположенными одна над другой. ! ""'■■-•-.! — var_3 | \ ! | \ | | VAR_2 О 1 2 3 4 5 6 "■■ VARJ
244 Глава 5. Двумерный визуальный анализ данных |jg Зонный график На этом типе графика последовательности значений каждой переменной будут представлены последовательными областями, расположенными одна на другой. .1 н mi \\\\uv\]\шшашшшшшшишшшшшшшшшяшши, JU3J1 Смешанный линейный график На этом типе графика последовательности значений, выбранных в первом списке переменных, будут представлены последовательными областями, расположенными одна на другой, а последовательности значений, выбранных во втором списке переменных, будут представлены последовательными линиями, расположенными одна над другой (над областью, отвечающей последней переменной из первого списка). хшшжшшшшшвшшшшшшшшшшшшш^ Простой смешанный линейный график
Последовательные/наложенные графики 245 | Ступенчатый график На этом типе графиков последовательности значений каждой переменной будут представлены последовательными ступенчатыми линиями, расположенными одна над другой. |-ЦЩ»ЦЦШ1 шпаЩ Простой наложенный ступенчатый график | Ступенчатый зонный график На этом типе графиков последовательности значений каждой переменной будут представлены последовательными ступенчатыми областями, расположенными одна на другой. шинии па Простой ступенчатый зонный график ! 10
246 Глава 5. Двумерный визуальный анализ данных Ей| Смешанный ступенчатый график На этом типе графика последовательности значений, выбранных в первом списке переменных, будут представлены последовательными ступенчатыми областями, расположенными одна на другой, а последовательность значений выбранных во втором списке переменных будет представлена последовательными ступенчатыми линиями, расположенными одна над другой (над областью, отвечающей последней переменной из первого списка). ggg] Столбчатая диаграмма В данном случае последовательности значений каждой выбранной переменной будут представлены последовательными сегментами вертикальных столбцов, расположенных друг на друге. шшшшшпшшшшяшшшшашшшшщ Простая наложенная столбчатая диаграмма : 12
Круговые диаграммы 247 Круговые диаграммы Круговая диаграмма (термин был впервые использован Хаскеллом в 1922 году) является одним из наиболее часто используемых графиков для представления пропорций. В зависимости от выбранного типа графика на круговой диаграмме будут изображаться или исходные значения, или частоты особых категорий значений (как те, которые можно изобразить на гистограмме). Щ* Круговые диаграммы частот В отличие от круговой диаграммы значений этот тип круговой диаграммы (иногда называемой частотной круговой диаграммой) интерпретирует данные так же, как и гистограмма. Все значения выбранной переменной группируются по выбранному методу категоризации, а затем относительные частоты изображаются в виде круговых секторов пропорциональных размеров. и 11ЛШННИШ! шшшяшшшшшшшшшшштсшм Круговая диаграмма предпочтений типов быстрого питания НттЫмдт, 4i.2 % Расположение значений, представленных на графике, зависит от метода категоризации и происходит по той же схеме, что и для гистограмм. Щ Круговые диаграммы значений Последовательность значений переменной будет изображена в виде последовательных круговых секторов; размер каждого сектора будет пропорционален соответствующему значению. Значения должны быть больше 0 (нулевое и отрицательные значения не могут быть представлены в виде круговых секторов). Круговая диаграмма эиачвиий метками секторов являются значения и соответствующие проценты
248 Глава 5. Двумерный визуальный анализ данных Этот простой тип круговой диаграммы (иногда называемый круговой диаграммой данных) интерпретирует данные самым непосредственным образом: одно наблюдение соответствует одному сектору. Шаблоны круговых секторов, используемые для этого графика по умолчанию, можно регулировать в диалоговом окне Шаблоны специальных графиков по умолчанию. Щ Многоцветные столбчатые диаграммы Многоцветная столбчатая диаграмма служит для изображения того же типа данных, что и описанная выше круговая диаграмма значений, однако последовательные значения выражены высотами вертикальных столбцов (разных цветов и видов), а не площадями круговых секторов. Откуда поступают деньги ИСТ0ЧИИ1И ллатажай за мазиачаимыа ла«аретаа • США Откуда поступают деньги Источии(и платежей за назначенные лмаретаа • США Преимущество этих диаграмм перед круговыми диаграммами состоит в том, что они дают возможность более точного сравнения представленных значений (например, трудно сравнивать маленькие круговые секторы, если они не являются соседними). Этот тип графика может также иметь преимущества перед простыми гистограммами (где для всех столбцов используется один цвет и шаблон заполнения) в случаях, когда требуется быстрая идентификация определенных столбцов. Диаграммы пропущенных значений и интервалов Диаграммы пропущенных значений и интервалов дают возможность исследовать шаблон расположения или распределение пропущенных данных и/или заданных пользователем точек «вне диапазона» текущего множества (или подмножества) наблюдений. Этот график применяется в разведочном анализе данных для определения количества пропущенных данных (и/или данных «вне диапазона»), а также для выяснения, является ли их распределение более или менее случайным или в их расположении можно обнаружить некоторую закономерность.
Графики функций пользователя 249 itimiiHiiiwiii Графин Наблюдение 1 Нвблед»>т§11 Наблюдение 21 Наблюдение 31 Наблюдаиие 41 Наблюдем** 51 НабЛЮД*ИИе61 J. Наблюден** 71 Наблюдай** 81 Наблюдение 91 или интервальных денных (MOFLOT 8TA101VI 00с) . Г ~ .• t . • VAR1 VAJM1 VAA21 VAR31 VAJU1 VAR61 VAAC1 VAK71 VAR01 VAK&1 WlllJIIIHHHIIIIllil'IIHnilll'lJ'llillMHLIIH Го*фик пропущенных или интервальных данных (MOPLOT STA101V100с) Неблюдение Наблюдай** Наблюдение 91 VAM1 VAH11 УАЮ1 VAK31 VA*41 VAJW1 УАЙ61 УАЛ71 VAR81 УАЯ01 В сущности, они представляют собой «карту» файла данных (или его частей) и позволяют исследовать структуру пропущенных данных, очень маленьких значений, больших значений и т. п. Категоризованный формат дает возможность сравнивать такие образцы для определенных подмножеств данных. График пропущенных или интервальных данных (MDPLOT STA1 oi v*1 00c) Наело****) 41 , ;h3SS23J[ isSHHiii iiiiiiHSi пшт Набпюдаии*1 нЯюа«ииа31 «EKE?, нЯяхттЫ САТ1ФОКГ 1 Г5~ CATCOOftY. 2 МШНП! Щ1ШШ iliiliiiil Графики функций пользователя В отличие от большинства других типов графиков, для 2Мграфика функции пользователя не требуется выбирать переменные; вместо этого для построения графика программа запросит ввод формулы. Эта процедура создает графики, основанные
250 Глава 5. Двумерный визуальный анализ данных не на значениях переменных в файле данных, а на заданных пользователем формулах (то есть пользовательских функциях), например: Ы1Ш1И1Ш11 miiwini'iin'iii д. ,'{^Ди4иММ*4МЙми1 \?-9**?&тЯ /.<•••■;.:.: { •"'-• ' •'"•'" ' ЫфукЬШ Ж- щямшш ЛИ*-»- 1! , &\ &УММ»|; ; Ящ1ктр>«..| Следует отметить, что для других типов графиков наряду с разнообразными возможностями настройки параметров также предусмотрена возможность наложения пользовательской функции. Например, аналогичные результаты построения функций можно получить при помощи регулирования соответствующих параметров настройки для других типов двумерных графиков. При наложении функции на график диапазоны осей графика автоматически подгоняются к соответствующим диапазонам значений переменных. Для рассматриваемого типа графика можно явно указать диапазоны значений в диалоговом окне определения графика, которые не будут зависеть от множества данных. Например, можно установить минимум и максимум для обеих осей (X и У) равными О и 100 соответственно. стттигя1д,|1Р.111Р.|. ■■■■niiiiijiiiiiH о .' о yS*^ ООО 0 ^ */"*— Г t |Пользо1ательская ] наблюдаемые данные \ •{функция подгонки | < (построенная) функция[ 1 \ \ Обычно эти графики используются для исследования функциональной зависимости (например, для проверки соответствия теоретических моделей экспериментальным данным).
6 Трехмерный визуальный анализ данных Трехмерный визуальный анализ позволяет анализировать данные в трехмерном пространстве, например, строить трехмерное изображение последовательностей исходных данных (наблюдений) для одной или нескольких выбранных переменных. Выбранные переменные представляются по оси Y, последовательные наблюдения — по оси X, а значения переменных (для данного наблюдения) откладываются по оси Z, как показано ниже: t%m -щщш -Щ!штшшшшш*$1Ш№-;; ЗМ последовательный график И 10 4 п 1| 14 Б00| 500 000 1 -1 PI *1 HEIGHT 1 12.000 13.000 15.000* Такие трехмерные графики используются для визуализации последовательностей значений нескольких переменных. По своей идее они сходны с составными линейными графиками, с тем лишь отличием, что для ЗМ диаграмм исходных данных ленты, линии, параллелепипеды и другие трехмерные представления значений каждой переменной не перекрываются (как на двумерном графике), а «раздвигаются» в трехмерной перспективе. lilll'li'llliTI.'OIIJfllfirV,1 ЗМ посл»домт»Лкмым гр»фи« (PAY-PLAN STA 20V1 ?С)
252 Глава 6. Трехмерный визуальный анализ данных ЗМ диаграммы исходных данных применяются как для отображения данных, так и для аналитических исследований. Наиболее типичным приложением ЗМ диаграмм исходных данных является наглядное представление имеющейся информации (например, о ценах, о росте населения, о взаимосвязи объемов продаж и прибыли). Такие графики позволяют просто и эффектно представить последовательности наблюдений, таких, например, как различные типы временных рядов. I н innIImi in ■■■■■■■■■■ ini I Основное преимущество трехмерных представлений перед двумерными составными линейными графиками заключается в том, что для некоторых множеств данных при объемном изображении легче распознавать отдельные последовательности значений. При выборе подходящего угла зрения с помощью, например, интерактивного вращения линии графика не будут перекрываться или «попадать друг на друга», как часто бывает на составных линейных двумерных графиках. Трехмерные диаграммы также используются в аналитических целях при исследовании входных данных, имеющих матричный формат. ГП5Ш I Для интерактивного просмотра поперечных сечений таких трехмерных представлений можно использовать метод динамического расслоения. TRIAL 21 (all braces removed except for Q-12)
Трехмерный визуальный анализ данных 253 Заметьте, что для детального исследования изображения отдельные зависимости (то есть переменные) на графике можно выборочно выделить цветом. Для этого нужно нажать левую кнопку мыши в любом месте выбранной зависимости. Гистограмм Atyi мр«м*ниы1 ACHTEMS.STA ICVIOOc) Процесс «просвечивания» дает возможность временно отобразить (с помощью подсветки) целые серии данных, даже если они почти полностью закрыты другими данными. Столбчатая диаграмма Этот последовательный график представляет отдельные значения одной или нескольких серий данных по оси Хв виде серий трехмерных столбцов (параллелепипедов). Все серии отделены друг от друга промежутками вдоль оси У. Высота каждого столбца по оси Z отвечает значению соответствующей точки данных. Простая ЗМ диаграмма размаха
254 Глава 6. Трехмерный визуальный анализ данных Щ Блоковая диаграмма Этот последовательный график представляет отдельные значения одной или нескольких серий данных по оси X в виде серий «трехмерных блоков». Все серии отделены друг от друга промежутками вдоль оси Y. Высота начала каждого блока по оси Z отвечает значению соответствующей точки данных. |Ц Ленточная диаграмма Эта диаграмма представляет отдельные значения одной или нескольких серий данных, по оси Хв виде серий «лент» в трехмерном пространстве. шш Простая ЗМ ленточная диаграмма Все серии отделены друг от друга промежутками вдоль оси Y. Высота начала каждой ленты по оси Z отвечает значению соответствующей точки данных. Щ| Линейный график Этот последовательный график представляет отдельные значения одной или нескольких серий данных по оси X в виде ряда непрерывных линий в трехмерном пространстве. Простой ЗМ линейньм графим
Трехмерный визуальный анализ данных 255 Все серии отделены друг от друга промежутками на оси Y. Высота начала каждой линии по оси Z отвечает значению соответствующей точки данных. |Ц Диаграмма всплесков Данный последовательный график представляет отдельные значения одного или нескольких наборов данных по оси X в виде серий «всплесков» (точек с перпендикулярами, опущенными на плоскость основания). Простая ЗМ диаграмма всплесков Все серии отделены друг от друга промежутками вдоль оси Y. Высота каждого перпендикуляра по оси Z отвечает соответствующему значению серии. [ Дискретная карта линии уровня Этот последовательный график можно рассматривать как двумерную проекцию ЗМ ленточной диаграммы. '•"» !"•»■■""» Асига Honda ISUZU Nissan MitSub Olds vw Ford Buick Chrysler Dodge Eagle Corvette Porsche Toyota Audi BMW Mercedes vorvo Mazda Pontiac Saab '•£ &£* *4 *•' PRICE Совместные ACCELER результаты BRAKING НИ^^Ии ill ,i i ii i i ^^|^^^^^^^Ш &*4 .* .p »щдщ| ^Шв^^^^ГГ^^^Т^ HANDLING MILAGE ИЕЕш CD -3331 □ 2 833 □ 2 1Э4 tZ3 1 4ЭО C3-0737 Е2Э о сев В oeeo I ■ 13SB I H 2067 ■ 27X На этом графике каждая точка данных представлена в виде прямоугольной области; значениям (или диапазону значений) точек данных соответствуют различные цвета или шаблоны (цветовые шаблоны описаны справа от графика). Значения из одной серии представлены по оси Х> а сами серии откладываются по оси Y.
256 Глава 6. Трехмерный визуальный анализ данных Щ График поверхности На последовательном графике к точкам исходных данных подгоняется сглаженная сплайнами поверхность. Простой последовательный график поверхности Последовательные значения каждой серии откладываются по оси Х> а сами последовательные серии представлены на оси Y. ИМ Карта линий уровня Карта линий уровня представляет собой двумерную проекцию сглаженной сплайнами поверхности, подогнанной к исходным данным. Простая карта линий уровня Последовательные значения каждой серии откладываются по оси Х> а сами последовательные серии представлены на оси У. Гистограммы двух переменных Трехмерные, или ЗМ, гистограммы двух переменных используются для визуализации табулированных значений двух переменных или для визуализации таблиц сопряженности двух переменных. Их можно рассматривать как сочетание двух простых гистограмм (то есть гистограмм одной переменной), соединенных таким образом, чтобы можно было исследовать частоты совместного появления значений двух переменных.
Гистограммы двух переменных 257 I.IIII.UII1IIUIIHII. „1.Ц.Ш11!.11Ш1Л111 Гистограмма д»ух переменных (SPORTS.STA 14V100с) Распределение частот на трехмерных гистограммах вызывает интерес по двум причинам: О по форме распределения можно сделать вывод о природе исследуемой переменной (например, если распределение бимодально, то можно предположить, что выборка не является однородной и состоит из наблюдений, принадлежащих двум совокупностям, которые приблизительно нормально распределены); О многие статистики основаны на определенных предположениях о распределениях анализируемых переменных; ЗМ гистограммы двух переменных помогают проверить выполнение этих предположений для пары переменных. ЗМ гистограммы и кросстабуляции ЗМ гистограммы двух переменных предоставляют ту же информацию, что и таблицы сопряженности. Хотя некоторые (числовые) данные по частотам легче воспринимать в виде таблицы, общая форма и глобальные описательные характеристики распределения двух переменных легче исследовать на графике. Более того, график дает качественную информацию о распределении, которую нельзя полностью выразить каким-то одним показателем. Например, асимметричное распределение двух переменных — скрытых откликов и времени реакции (в эксперименте измерения времени реакции) — может проистекать из изменений поведения субъектов при усталости. Mg"\il'*'li Ж jh-sJ
258 Глава б. Трехмерный визуальный анализ данных Категоризация значений Все процедуры построения гистограмм имеют стандартный набор методов категоризации, или разбиения наблюдений на группы. Систематично методы категоризации изложены в отдельной главе. Согласно этим методам, диапазон значений каждой из двух выбранных для графика переменных разбивается на категории (классы), для которых подсчитыва- ются частоты, отображаемые в виде отдельных трехмерных столбцов. Например, можно построить трехмерную гистограмму, на которой каждый столбец будет соответствовать 10 единицам шкалы, используемой для переменной; если минимальное значение равно 0, а максимальное равно 120, то будет построено 12 рядов столбцов. В качестве другого примера можно разделить диапазон значений переменных на определенное число равных интервалов (например, 10); в последнем случае, если минимум равен 0, а максимум равен 120, то каждый интервал будет равен 12 единицам шкалы. Существует возможность проводить и более сложную категоризацию. Так можно создать неравные интервалы группировки, задавая их границы (например, для создания легко интерпретируемой картинки или для связывания выбросов и улучшения представления средней части гистограммы, в которой сосредоточена большая часть наблюдений). Диапазоны также могут быть созданы с помощью логических выражений (например, первый столбец гистограммы может представлять людей, которые в прошлом году путешествовали самолетом более 10 раз, и тех, кто проводит более 20% времени в деловых поездках и т. п.). Различные способы категоризации на одном графике Для каждой из двух переменных, распределение которых представлено на графике, могут быть использованы различные методы категоризации, как показано на следующей ЗМ гистограмме двух переменных значений времени реакции и условий эксперимента. РАСПРЕДЕЛЕНИЕ ВРЕМЕНИ РЕАКЦИИ усямал: ooiniiit урмамь. ■ мрааяьим «•»•. ' ■ аи*мя мм ( В частности, на этом графике распределение времен реакции (непрерывной переменной, категоризованной путем разделения всего диапазона значений на 12 интервалов равной длины) представлено для трех условий эксперимента (дискретной переменной с тремя уровнями, имеющими разные метки: Основной — BASEy Нормальный — NORMAL и Двойной — DOUBLE). Запомните, все элементы графика можно изменить, щелкнув, например, на нем правой кнопкой мыши и вызвав контекстное меню графиков.
Гистограммы двух переменных 259 £*ьа«.тнр<«*г«> ваиим* грмь#« v. Сглаживание распределений двух переменных Процедуры сглаживания для ЗМ гистограмм двух переменных позволяют подгонять поверхности к трехмерным изображениям данных частот двух переменных. Так, например, каждая трехмерная гистограмма может быть превращена в сглаженную поверхность. Это представление нецелесообразно использовать для простых категоризованных данных (таких, как изображенная выше гистограмма). РАСПРЕДЕЛЕНИЕ ВРЕМЕНИ РЕАКЦИИ (А12) условия: - основной уровень, - нормальная доза, - двойная доза Однако этот способ может оказаться ценным средством для исследования сложной структуры частот. 1-IdIkI УРОВНИ НАСЫЩЕНИЯ (мг/смл) x ЧИСЛО ОГРАНИЧЕНИЙ ...,-- т—Т СГЛАЖЕННАЯ ГИСТОГРАММА ^ А***^ ОБОЗНАЧЕНИЯ ГП из CZD □ си сиз УШ шз вш вв 0 545 0 991 1 436 1 882 2 327 2 773 3 218 3 664 4 109 4 555
260 Глава 6. Трехмерный визуальный анализ данных Он позволяет обнаруживать закономерности, менее заметные на стандартной трехмерной гистограмме, например «волнистую» поверхность на показанном выше рисунке. ЗМ диаграммы диапазонов Подобно статистическим 2М диаграммам диапазонов трехмерные диаграммы диапазонов отображают диапазоны значений или столбцы ошибок, соответствующих определенным точкам данных. ЗМ диаграмм* диапазоне* (RAN0ES1 STA1 evi 4c) I Диапазоны или столбцы ошибок не вычисляются по данным, а определяются исходными значениями выбранных переменных. Для каждого наблюдения строится один диапазон или столбец ошибок. Переменные диапазона можно понимать как абсолютные значения или как значения, отвечающие отклонениям от средней точки. На графике можно представить одну или несколько переменных. В основном диаграммы диапазонов используются для изображения: а) диапазонов значений для отдельных элементов анализа (наблюдений, выборок и т. д.) или б) вариации значений в отдельных группах или выборках (последнее имеет смысл, когда величины вариации получены при независимых измерениях; иначе более целесообразно использовать ЗМ диаграммы размаха, которые вычисляют вариацию для выборок, представленных на графике). Некоторые из этих приложений кратко описаны в разделе ЗМдиаграммы размаха. Основное различие между диаграммами диапазонов и диаграммами размаха состоит в том, что на диаграммах диапазонов все значения, определяющие диапазоны («средние точки», минимум и максимум), не вычисляются по данным, а являются исходными значениями переменных. Когда на графике нужно представить только одну переменную, обычно достаточно воспользоваться 2М диаграммой диапазонов; на этом графике также можно представить несколько переменных (путем сдвига изображений так, что для каждого наблюдения будет отображено последовательно столько диапазонов, сколько переменных используется для анализа). Тем не менее ЗМ диаграмма диапазонов часто является более подходящим способом представления диапазонов нескольких
ЗМ диаграммы диапазонов 261 переменных на одном графике, так как она не «разбивает» строки пиктограмм, представляющих отдельные классы или переменные. Дизгоамма диапазонов (RANGES 1 sta 16VUc) После создания графика можно изменить его расположение и вид отдельных элементов. Для этого нужно открыть диалоговое окно Общая разметка: ЗМграфики (с помощью двойного щелчка мышью на фоне графика или из графического выпадающего меню Разметки) или диалоговое окно Размещение ЗМ графика (с помощью команды контекстного меню, вызываемого правой кнопкой мыши для конкретной зависимости, или из графического выпадающего меню Разметки). |5 Точечные диапазоны На статистической ЗМ последовательной диаграмме диапазонов такого типа диапазоны изображены в виде маркеров точек (соединенных линией). Для каждого наблюдения строится один диапазон. Переменные диапазона можно понимать как абсолютные значения или как значения, отвечающие отклонениям от средней точки в зависимости от текущего значения параметра Тип (значения диапазона).
262 Глава 6. Трехмерный визуальный анализ данных Граничные диапазоны На статистической ЗМ последовательной диаграмме диапазонов такого типа диапазоны представлены двумя непрерывными линиями (верхние и нижние диапазоны). Средние точки изображены в виде маркеров точек, соединенных линией. tsmaaQEHSSzeasss ЕШШ ЗМ диаграмма диап*эоиоа (RANGES1 STA 16v*Uc) Переменные диапазона можно понимать как абсолютные значения или как значения, отвечающие отклонениям от центральной точки, в зависимости от текущего значения параметра Тип (значения диапазона). Щ Диапазоны ошибок На статистической ЗМ последовательной диаграмме диапазонов такого типа средние точки изображены в виде маркеров точек, а диапазоны — в виде столбцов ошибок. Для каждого наблюдения строится один столбец ошибок. JfHti-l'IWllWII it-flii lih'iiiY ОвШ; ЗМ диаграмма диапазонов (RANGES1 STA 16v*14c) I Диапазоны ошибок Переменные диапазона можно понимать как абсолютные значения или как значения, отвечающие отклонениям от центральной точки, в зависимости от текущего значения параметра Тип (значения диапазона). j Диапазоны двойных лент На статистической ЗМ последовательной диаграмме диапазонов такого типа диапазоны представлены двумя лентами (верхние и нижние диапазоны).
ЗМ диаграммы диапазонов 263 I.HHMI шпини тли и... ЗМ диаграмма диапазонов (RANGES1 STA 1&V*i4c) Переменные диапазона можно понимать как абсолютные значения или как значения, отвечающие отклонениям от средней точки в зависимости от текущего значения параметра Тип (значения диапазона). Средние точки на графике не изображаются (они могут быть показаны на одном из первых трех типов диаграмм диапазонов). «Летящие ящики» На статистической ЗМ последовательной диаграмме диапазонов такого типа диапазоны представлены в виде «летящих ящиков». Ящики не закреплены на плоскости, а как бы парят в пространстве. В ряде случаев такие графики чрезвычайно эффектны для зрительного восприятия. 2E3SS СьШШ| ЗМ диаграмма диапазонов (RANGES1 STA 16v*Uc) Переменные диапазона можно понимать как абсолютные значения или как значения, отвечающие отклонениям от средней точки, в зависимости от текущего значения параметра Тип (значения диапазона). Средние точки на графике не изображаются (они могут быть показаны на одном из первых трех типов диаграмм диапазонов). | «Летящие блоки» На статистической ЗМ последовательной диаграмме диапазонов такого типа диапазоны представлены «летящими блоками».
264 Глава 6. Трехмерный визуальный анализ данных ЗМ диаграмм» диапазонов (PAN6ES1 STA 16v*Uc) ееш Переменные диапазона можно понимать как абсолютные значения или как значения, отвечающие отклонениям от средней точки, в зависимости от текущего значения параметра Тип (значения диапазона). Средние точки на графике не изображаются (они могут быть показаны на одном из первых трех типов диаграмм диапазонов). ЗМ диаграммы размаха Подобно статистическим 2М диаграммам размаха на ЗМ диаграммах размаха диапазоны значений выбранной переменной строятся отдельно для групп наблюдений, определяемых значениями категоризующей (группирующей) переменной. Центральная тенденция (например, медиана или среднее) и диапазон или вариационные статистики (например, квартили, стандартные ошибки или стандартные отклонения) вычисляются для каждой группы наблюдений, а стиль изображения определяется Типом графика. iiiiiiiiiHHMrrrn ЗМ диаграмма размаха Медиана. Размах 26%. 75% *.~^ ЗМ диаграммы диапазонов отличаются от ЗМ диаграмм размаха тем, что на диаграммах диапазонов диапазоны представлены значениями выбранных переменных (например, одна переменная содержит минимальные значения диапазонов, а другая — максимальные значения диапазонов), а для диаграмм размаха диапазоны вычисляются по значениям переменных (например, стандартные отклонения, стандартные ошибки или минимальные и максимальные значения).
ЗМ диаграммы размаха 265 Как правило, диаграммы размаха используются в двух случаях: а) для изображения диапазонов значений для отдельных наблюдений или выборок (например, типичная минимаксная диаграмма для акций или товаров или агрегированные последовательные графики данных с диапазонами) или б) для изображения вариации значений в отдельных группах или выборках (например, диаграммы размаха, изображающие медиану или среднее для каждой выборки в виде точки внутри «летящего» столбца ошибок, а также стандартные ошибки или квартальный размах, представленные в виде «летящих ящиков»; см. рисунок ниже). ЫШ.В.Ш! ГГЧГТЧ""! ■ Jbfxl Результаты экспаримамта 2А Медиана. Рима* 26%. 75% Диаграммы размаха, показывающие вариацию значений, легко позволяют оценить и «интуитивно представить» силу связи между группирующей переменной и одной или несколькими зависимыми переменными. В частности, предполагая, что зависимые переменные нормально распределены, и зная, какая часть наблюдений попадает, например, в интервал ±1 или ±2 стандартных отклонения от среднего, можно легко понять результаты эксперимента и сделать вывод, что, например, результаты примерно в 95% наблюдений в экспериментальной группе 1 принадлежат диапазону, отличному от диапазона значений порядка 95% наблюдений в группе 2. Когда на графике нужно представить только одну переменную, обычно достаточно воспользоваться 2М диаграммой размаха; на этом графике можно также представить несколько переменных (путем сдвига изображений отдельных «ящиков» так, что для каждого наблюдения будет изображено последовательно столько «ящиков», сколько переменных используется для анализа). Тем не менее для представления нескольких переменных на одном графике более подходящей является ЗМ диаграмма размаха, так как она не «разбивает» строки пиктограмм для каждой переменной. Например, это часто делает более ясной схему расположения средних и стандартных отклонений или квартальных размахов в выбранных категориях.
266 Глава 6. Трехмерный визуальный анализ данных | Граничные диапазоны На статистической ЗМ диаграмме размаха вычисленные по исходным данным диапазоны (например, квартили) представлены двумя непрерывными линиями (верхние и нижние диапазоны). liM^llillWI1",1 ТГ ЗМ диаграмма размаха (CLASSES STA6v*50c) Медиана. Размах 25%. 75% Средние точки (средние значения или медианы) отображаются маркерами точек и соединены линиями. (Д Диапазоны ошибок На статистической ЗМ диаграмме размаха такого типа средние точки (вычисленные по данным средние значения или медианы) изображены маркерами точек, а вычисленные диапазоны (например, квартили) представлены столбцами ошибок. ьшш,н1'Ь1ивав ЗМ диаграмма размаха Медиана, Размах Среднее • Ст откл. Среднее * Ст откп ггш:ь Диапмоны ошибок Для каждого уровня независимой (группирующей) переменной рисуется один столбец ошибок. j Точечные диапазоны На статистической ЗМ диаграмме размаха такого типа средние точки и вычисленные диапазоны (например, квартили) представлены тройками маркеров точек (соединенных линией).
ЗМ диаграммы размаха 267 Ш11ЖШ11Г1 ansa ЗМ диаграмма разили (CLASSES STA6v*S0c) Мадиама, Размах 25%. 75% Для каждого уровня независимой (группирующей) переменной строится одна тройка значений. [ Диапазоны двойных лент На статистической ЗМ диаграмме размаха такого типа вычисленные диапазоны (например, квартили) представлены двумя лентами (верхние и нижние диапазоны). ЗМ диаграмма размаха (CLASSES STA 6v*50c) Срадмв»,Раэмам Ср«дм»#-Ст ош.Сради***Ст ош На диаграмме этого типа средние точки не изображаются. Чтобы их показать, необходимо перейти к одному из первых трех типов диаграмм размаха (см. выше). ; «Летящие ящики» На статистической ЗМ диаграмме размаха этого типа вычисленные диапазоны (например, квартили) представлены в виде «летящих ящиков». ЗМ диаграмма pwuaia (CLASSES STA 6у*50с) Медиана, Размах Мим . Макс
268 Глава 6. Трехмерный визуальный анализ данных На диаграмме средние точки не изображаются. Чтобы их показать, необходимо перейти к одному из первых трех типов диаграмм размаха. Щ «Летящие блоки» На статистической ЗМ диаграмме размаха вычисленные диапазоны (например, квартили) представлены в виде «летящих блоков». ЗМ диаграмма размаха (CLASSES STA6**51ir) Мадмача Разин Мин . Маге "Лотящио" блоки I > На диаграмме средние точки не изображаются. Чтобы их показать, необходимо перейти к одному из первых трех типов диаграмм размаха. ItIiIIIUUII'I irflLJMLI ЗМ диаграмма р Медиан* 24 Г 20 1в \г в 4 1 '• "* *х"***\ • ^^>i*A\ - л*>**\ ,^\ лх**° ^~ »ua.a (CLASSES STA6»-50c) j Разма. Мин Мак < • ' ' ' > НгЧг^ . | {мшШ' ' в-lTTW > ("Летящие" блоки j к!Ги м Ы'\ л Если увеличить установленное по умолчанию значение поля Х@%), то между отдельными «летящими блоками» появятся разрывы, как показано выше на графике. x|ff Всплески При выборе этого режима точечные диапазоны или столбцы ошибок будут соединены с основанием графика линиями. ItI.'HiMHIIJI'III.IiIWIII ЗМ диаграмма разиаи Модиама. Раэиа! 5%. 95* 80Г ,
Трехмерные диаграммы рассеяния 269 Трехмерные диаграммы рассеяния Трехмерные диаграммы рассеяния (называемые также XYZдиаграммами рассеяния) представляют собой наиболее простой тип трехмерных зависимостей. Как правило, они используются для визуализации связей между непрерывными переменными. Д**ыв WSDATSTA5V 150с (Fisher, 1936) LENGTH ft WflOTN Of Sf PALS AND Pf TALS C types О 7*{ a* ««•И 1ИЙА1.ГГ A •»•«*« Хотя можно найти различные применения трехмерных диаграмм рассеяния, тем не менее их основное преимущество состоит в наглядном представлении сложных взаимосвязей между несколькими переменными. Рассмотрим простой пример из области маркетинга. Предположим, за определенный период времени (в различное время суток) проводились исследования цены и предложения товара. Если построить на графике значения трех этих переменных {Price, Supply и Hour), то можно выявить сложные многомерные интерактивные связи, которые практически невозможно обнаружить при численном анализе данных. яшшшшшшшшшшштяшшшшшяшшшшш ^^^^^^Г-ТЯ«-Ч| JPPLY vs. PRICE vs. HOUR OF TRADING о 1.11 0» *, о7 1°> о о о о СХЕМАТИЧЕСКОЕ 1 i ИЗОБРАЖЕНИЕ "ШАБЛОНА" ' °o / о e e /o I t .' 9 ° / ■ ■ 0 | ; o:o ° / о ! о °o o" -'<'•'> ° о г О ><■ ■ ' -.« ■ -.* , 0$ \ оч •-■"ч* ~" о "■'.. - ' '>. 1 W-;'i>>>. .- ••.;.-■ ".-'о':-. ! ** >t " ' ' ~ ' J^s : ч^^■■■--••>/•>>,^;, 1 псо?там?08АШОс 1 i 0 ЧИСЛО СДЕЛОК (ml П-2Н) | |
270 Глава 6. Трехмерный визуальный анализ данных Например, можно установить, что взаимосвязь усиливается во второй половине дня (становится теснее связь между ценой и предложением товара). Однако по форме графика также видно, что эта связь не сохраняется при низком уровне предложения (то есть при малых значениях переменной Supply). Часто такие сложные взаимосвязи легче выявить на графике, чем при использовании численных методов, особенно в случае криволинейных зависимостей. Выделение кластеров и подмножеств на выборке из неоднородной совокупности Существует и другая область разведочного анализа данных, где могут быть полезны XYZ диаграммы рассеяния. Это те случаи, когда ожидается наличие групп наблюдений, которые могут быть выявлены только при исследовании распределения одновременно по трем переменным. Например, на следующей XYZ диаграмме рассеяния показаны «классические» данные по классификации ирисов (Fisher, 1936; файл Irisdatsta), которые вклютают наблюдения различных видов ирисов. ГЗСШД ГЧ1 1'Ч!11,1Ш!1Ш2ШШИИИИадЕЗ| Данные IRISDAT.STA 5v • 150с (the 'classic* IRIS data set. Fisher 1936) LENOTH l WIDTH OF SEPALS AND PETALS C types of Ins) Из графика видно, что, построив зависимость ширины лепестков от их длины и ширины чашелистиков, можно сделать вывод о том, что выборка неоднородна. ЫШИИИЦ Iff. ИМ fJ^JJ, ,111Ж11111ЖДИИМИШ1 : Данные. IR1SOAT.STA Sv * 160с (the 'class*' IRIS data set. Fisher 1936) LENOTH * WIDTH OF SEPALS AND PETALS C types of Ins) На приведенном выше графике, где подмножества маркированы, легко выделить различные виды ирисов. Изучение результатов многомерного анализа Часто XYZ диаграммы рассеяния используются в статистике для наглядного представления результатов многомерных методов исследования, таких как факторный
Трехмерные диаграммы рассеяния 271 анализ и многомерное шкалирование. Например, построение на трехмерном графике наблюдений с метками, являющихся трехмерным решением задачи многомерного шкалирования, может помочь в определении величин и классификации отдельных наблюдений. Ок( 1 о» QQQQI эмчате 'I 0.2 &% 4-« шттшяшт шШШшшшшшшшшшшшшшшшшшшш^^шшшшшшшшшшшип II льная конфигурация (файл данных NATIONS STA, ЗМ решение) Г 1 <* ^ч^ ^>^Чу^ о^^ о-*" Ч, « и» Т °ECYPT ° f i ° 1: RUSSIA YUGOSLA» '. CONGO i СивАр с 1 FRANCE ' ■ 9 ■"AM. f ! ' ° J^ -** Чг ' j>^^ ^ ^v, ' _->^*^>'^*»,*ь Вращение Общая проблема трехмерных диаграмм рассеяния — перекрывающиеся точки, которые затрудняют изучение графика. В некоторых случаях при очень большом числе наблюдений график почти невозможно понять, если смотреть на него под одним углом зрения. Поэтому при исследовании таких трехмерных графиков особенно полезно показанное ниже интерактивное вращение изображения на экране.
272 Глава б. Трехмерный визуальный анализ данных | Диаграмма рассеяния Этот простой тип XYZ диаграммы рассеяния отражает взаимосвязь между тремя или более переменными в трехмерном пространстве, при этом каждой точке соответствует тройка координат X, YnZ. Простая ЗМ диаграмма расояиия Заметьте, если выбрано более одной переменной Z, то будет построено несколько XYZ диаграмм рассеяния для различных наборов данных (соответствующих нескольким переменным Z), которые будут маркированы разными значками. fjyQJSSEDE 66 [ г*\ шшшш '. ' ; х 1 ■ .' ' • осе»» 0^, ' 7 1' ;Lt ■ с [■■ , ??°" «, ' ' •.Г.-; '< ЩШШШШ Ц Ц | 1 Данные набор 1 из файла даиньгх IRANDSTA/n^TBH || о MEASURE3 о MEASURE4 о MEASURE5 i ♦ MEASURES | |Ц Пространственный график С помощью этого графика можно реализовать различные способы представления ЗМ диаграммы рассеяния. Для этого предусмотрена возможность расположения плоскости Х-У на выбранном пользователем уровне вертикальной оси Z (которая проходит через середину плоскости). ЗМ диаграмма рассммия (SPIRAL STA 1№*44м) VAR_3 (Z) 5 5 сжэ
Трехмерные диаграммы рассеяния 273 Хотя пространственные графики используются для тех же типов данных, что и XYZ диаграммы рассеяния, их представление может облегчить исследование некоторых трехмерных наборов данных. Рекомендуется сопоставлять данные отдельным осям на графике таким образом, чтобы переменную, структуру связей которой необходимо выделить, обозначить как Z. Тогда, перемещая плоскость XY вдоль оси Zh интерактивно вращая изображение, можно попробовать найти такой уровень Z, на котором изменяется структура связей между X и У (или X, YnZ). Если ожидаемое изменение структуры слишком сложно для его исследования в одном «сечении», можно воспользоваться спектральным графиком, который позволяет наблюдать несколько сечений. Однако поскольку на спектральных графиках представлен набор двумерных сжатых изображений трехмерных данных, здесь могут быть потеряны некоторые действительные трехмерные характеристики, которые наблюдаются на пространственных графиках. Другое приложение пространственных графиков — наглядное представление плотности и направленности отклонений от определенного уровня (уровня отклонений). ||$ Спектральная диаграмма Первоначально этот тип графиков применялся в спектральном анализе для исследования нестационарных временных рядов, например речевых сигналов. На горизонтальных осях можно откладывать частоты спектра и последовательные временные интервалы, а на оси Z — спектральные плотности для каждого интервала. На этом типе графиков трехмерное пространство разделено на области, в которых данные «сжаты» в соответствующие спектральные плоскости. Обратите внимание, что для построения функциональных зависимостей (таких как в спектральном анализе) необходимо упорядочить данные таким образом, чтобы переменная У содержала категоризующую информацию (то есть была группирующей переменной). Спектральные диаграммы имеют явные преимущества перед обычными ЗМ диаграммами рассеяния, когда необходимо исследовать, каким образом изменяется взаимосвязь между двумя переменными при различных значениях третьей переменной. Это преимущество ясно видно на приведенных ниже двух изображениях одного и того же набора данных.
274 Глава 6. Трехмерный визуальный анализ данных Значения переменных X и Z интерпретируются как координаты X и Z каждой точки, а значения переменной Y разделены на равноотстоящие группы, соответствующие положениям последовательных спектральных плоскостей. Е 09 * 07 £ 05 1 03 • < 01 THIRD . PHASE Спект ральное представление "двойного эхо" v==--=^ SECOND ~v FIRST 35 <* " 15 25 05 5 TRIAL LENGTH l.loixri 65 Число спектральных плоскостей можно задать в поле редактирования Число плоскостей диалогового окна параметров графика или после построения графика в диалоговом окне ЗМ графики: дополнительные свойства. Спектральные графики имеют два основных применения. Первое из них — это исследование функций или последовательно распределенных величин в трехмерном пространстве (например, график спектральных плотностей, определенных для последовательных интервалов времени). В то же время спектральные диаграммы являются «действительно трехмерными», а не последовательными графиками, и на них могут быть представлены три переменные, содержащие не равноотстоящие данные (например, периодограммы с упорядоченными по времени, но не равными интервалами).
Трехмерные диаграммы рассеяния 275 Другое применение данных графиков — «расслоение» (или «сжатие») диаграмм рассеяния для выявления скрытых структур при разведочном анализе данных. In^«: Е ш в 1: о 5 *' SCA1 Ml, «0 . •*' .-lb-; п SATURATION (mfl/cm' \ J с JO ) *А* • ■ $-' • ♦ • • ,J ' игао! FITHRCPUCATION Аяммые собрамы АО смены Фм/ътров •* ! " WEIGHT Если предполагается согласованная взаимосвязь между тремя переменными и особенно если ожидается, что связь между двумя переменными (XhZ) различна на разных уровнях третьей переменной (У), то для исследования этого явления вполне можно использовать спектральные графики. Упростить анализ поможет выбор числа спектральных плоскостей (см. выше) и интерактивное вращение. Заметим, что практически такой же ряд двумерны» изображений можно получить с помощью категоризованных графиков рассеяния, где X и Z — отображаемые переменные, а У— категоризующая переменная, разбитая на несколько интервалов (число которых равно числу спектральных плоскостей). Если вас интересуют подробности расположения данных на отдельных спектральных плоскостях, то проще использовать категоризованные диаграммы рассеяния (по сравнению с трехмерными спектральными графиками). Однако с помощью таких категоризованных графиков нельзя получить цельное трехмерное представление исследуемых данных, которое может быть полезно для понимания их структуры. Спектральные диаграммы можно использовать для исследования однородности, поскольку такое свойство, как однородность, трудно изучать на других типах графиков (например, можно исследовать зависимость дисперсии от значений переменной У или распределения выбросов). [ Диаграмма отклонений На этом типе графиков точки данных (заданные координатами X, У и Z) представлены в виде «отклонений» от определенного базового уровня на оси Z. В Простая диаграмм* отклонений (Точки данным показаны как отклонения от г«100)
276 Глава 6. Трехмерный визуальный анализ данных Диаграммы отклонений похожи на пространственные графики. Однако на них, в отличие от последних, «плоскость отклонений» «невидима» и не обозначена положением плоскости Х-У (эти оси здесь всегда находятся в стандартном нижнем положении). С помощью диаграммы отклонений можно исследовать природу трехмерных наборов данных, изображая их в виде отклонений от произвольного (горизонтального) уровня. Как упоминалось выше, такой метод «сечения» может выявить динамические связи между исследуемыми переменными. Графики поверхности Для построения поверхности используется подгонка по точкам трехмерного графика рассеяния. Такое представление, как и ЗМ диаграммы рассеяния, позволяет выявить скрытую структуру данных и взаимосвязи между тремя переменными. ЗМ Ф*«« пмюяиостм (AOSTUDV 8TA 25fTS<M Графики поверхности используются в разведочном анализе данных, как и описанные в предыдущем разделе трехмерные диаграммы рассеяния. Кроме того, они полезны для наглядного представления результатов анализа, таких как подгонка пользовательской функции или кластерный анализ. В промышленной статистике графики поверхности обычно используются для представления центрального композиционного плана эксперимента. Здесь экспериментатором задаются конкретные систематические значения двух (или более) переменных для оценки их влияния на некоторые зависимые переменные, представляющие интерес (например, прочность синтетической ткани). IiIIIL ■IL'JIUIIII.'liHlllllllNII. II,11,111 llllllJiHjNlIf,!,1!! IJIIIIII'll'llllilliUlJ.J „I'"III IHUIiJulfll Граф,* nottpxMOCTK «ля УЕВ no парам» ■»■« TX > DtOWgS I \ Греф» поверхности «л« VgLDno nap >.,»■ »i,i TH€ > C«*«S 2"B-0) Зассларияаит naptore пор«дм I 2**B-0) Централ*»** еост»§иои *спаримаит »торогопоо*А«а Сра*иаа-«4 733Э Силум-965Э20 С§ч«ви-МИО0 I Cpa*«aa »вЭ «33 Сигма ■ 4 ЗЮ93 Ci члаи • вт 3750
Графики поверхности 277 i.m-i ■.i.i.iJ.ii.iiiiiiiimjiiin..i..j.iuiiJ.! ПШ1 im.ii,. juui Греф.* поверхности дп« YElb no переменч» TMC A 06GPEES □ 76145 □ 77 291 □ 78 436 1 179 581 □ 80 726 □ 81 872 ЕЭ 83 017 Ш 84 162 вгэкэоб ■■86 453 2**B-0) Цв»<тр«'ъ*««>| составной мспарммент • торого пор*А«в Среднее -63 8633 Смпм - 4 Э929Э С* чпеи . 87 3750 | 9*1 в» 5* '..!•• r"'!--:t! -H ' ■• j s^fSraOPSwfeb* ^^^v7\/0?vrm?>8^ k ХлЛАлЛЗгс**^"^ V. V^A^P^" * ] N* iS. " J*&\. ' ^^ 1 \%<^> * o.>^>' С помощью таких экспериментов можно обнаружить сложные нелинейные взаимосвязи между переменными. Часто такой график бывает полезно вращать для более явного проявления характеристик поверхности (например, конкретных выпуклостей и впадин) или скрытых сторон. ЫИНИНДШП ■ .IQlxil Дяммы* T12.STA10W100* *Ц4 "^<+ . о>4' Швеи* Ш 7эгэв Ш 77Э8Э eaei <71 □ ввавв □ еотов ■193 874 а в7 041 а 1свош a loe 17© а но 294 а П4 412 а П89ВО О 122 647 О 12в7вв О 130882 ■ tuut (.<#> Линейное сглаживание Трехмерная диаграмма рассеяния аппроксимируется линейной функцией (например, Z = a + bX + cY). Iilll, HIT ,1Я КЗЗШ] Л***ймот сгмживамм помрхиостм Фумю**: z*83.8834»1 384*nO 362*y f'f "'*""'"">••■••• H 81111 H 81 480 ■181850 Ю 62.220 □ 82 5W CD 82 969 ■183 329 Bl 83898 ■184088 В184 4Э8 ■184 808 ■186.177 ■185 547 EZ3 85 917 CD 86286 CD 86 «58 9* 90 * fi r»
278 Глава 6. Трехмерный визуальный анализ данных ^ Квадратичное сглаживание Трехмерная диаграмма рассеяния аппроксимируется полиномом второго порядка. Квадратичное сглаживание поверхности Функция z-87.375-1.384%-Ю362*у-2144*х*х-4 875*х>3094» ■■ 76.603 ■177308 ■I 76.409 Ш 79212 ОвОЯ15 CZJ 60*19 ■B61J622 ■162.425 ■1 83226 ■164.031 ■184 834 ■185637 ■186440 Ш 67243 £3 88.046 □ 66.649 а Сглаживание методом наименьших квадратов Поверхность аппроксимируется методом наименьших квадратов с весами, зависящими от расстояния (влияние отдельных точек уменьшается с расстоянием до поверхности). тштшштшштш^^ 11 lliniiililMLfl : вШ 4.824 ■: Ш 0.353 ; шш 1529 ES3 2.706 СП 3.682 СП 5.059 : РЛ 6235 ■■ 7.412 ■■ 8.566 ■1 9.765 ■110941 : Ш12116 ; ■113294 ЕЕЗ 14.471 СП15А47 CZJ16824 ■1 аыия Сглаживание по методу наименьших квадратов •г УЧрщ^^^^^в^^^ 18ГГ1 тШШШ* 1*| ф г # в ^ г ^Я^Ш^ШШшш ' \ ^^ШЯ^^^шшВшэ£Я1^^^ш ■_ Щг^ЩЯШу* 1- 1|Ш»/./о/7^кТ. /о: >- с» ^ ^ .inixji <Щ* Экспоненциально взвешенное сглаживание с отрицательным показателем Поверхность аппроксимируется в координатах XYZ методом экспоненциально взвешенного сглаживания с отрицательным показателем (влияние каждой точки экспоненциально уменьшается с расстоянием до поверхности).
Графики поверхности 279 ЫГ",'1111II1,! СД 1'£Тп1»|| Экспо»«мцимьно-ммш«имо« сглажгаани* ■1-0182 ■I 1636 ■1 3456 ШЗ 5 273 □ 7091 CD 8909 ■110 727 ■1 12 545 ■114 364 ■1 16162 I4& Сглаживание сплайнами Поверхность в координатах XYZ аппроксимируется бикубическими сплайнами. IillУ,' 1ШII", I1 ЩЩШШШШШШШШШШШШЩ Сглажимим сгмкАиами ■I 3642 ■I 5077 ■I 6513 ШЭ 7949 CZJ 9386 ЕЗ 10821 ■I 12257 ■113.692 ■I 15.128 ■1 16.564 us« Другая функция Можно самостоятельно задать математическое выражение для описания поверхности. . М -2401 Ш-2Д68 ' Н| .1733 • ЕЭ-1»7 О и ом ■ CZ3-07» . Ш-оэм м-оово ■1 0774 : Ш 0400 • ■■ ojo : ■§ ют ■■ 1412 1 да it46 : CD 22» CD 261S ; Ш~~ 5 ЗМ гр*фмк помркностм (FILE3.STA WWSSn) i«2*»in(x)* 94ot(*)+.3"*in<yL\7*cot(y) ...,-!-та; +;"г..-.г> 3-S 1 75 и аз .1.5 Л ' • /А' |щ\;--| '•-- г ^^ННМЕ^ЛРювАокзЯХ^^^НнМк ' ^ ^Р^^ВёЕИ^ЯНИШ^И^НРШ! гКЭ^^Нйпз^ЧВКЛ'-кол.:/ . .•-^^З^ЯИаа^жЧквг4^ . •4*^^11 ^^^^•^**Ц*^|^^^;^'*^>^^ ^^?ч?^^^г]Г ~^>-Z> "-ч1 '. J i ^О ^ **** чв» 3 Обратите внимание, что заданная таким образом поверхность не будет аппроксимировать данные, а будет просто нарисована поверх них.
280 Глава б. Трехмерный визуальный анализ данных Карты линий уровня Карты линий уровня создаются путем подгонки трехмерной функции поверхности к трехмерной диаграмме рассеяния. Получившиеся в результате контурные линии (то есть линии равной «высоты») проектируются на плоскость X-Y. ищдП ■ -IQlx|| Д»ииы« CONTOUR STA 5v • 150с Подобно графикам поверхности, карты линий уровня используются для выявления взаимосвязей между тремя переменными. Как и графики, описанные в предыдущих пунктах (трехмерные диаграммы рассеяния и поверхности), карты линий уровня находят свое применение в исследовательском анализе данных. 2ЭНПШВЖ ■ J»M фтт~ iSSKKft—JBS5353fCT^r
Трассировочные графики 281 Кроме того, они полезны для наглядного представления результатов исследований, таких как подгонка пользовательской функции. Они менее эффективны по сравнению с графиками поверхности (описанными ранее) для быстрого наглядного представления полной пространственной структуры данных. Однако преимущество состоит в том, что карты дают возможность с большой точностью исследовать форму поверхности. Карты линий уровня представляют собой серию неискаженных горизонтальных «сечений» поверхности. Трассировочные графики Как и на ЗМ диаграммах рассеяния, каждая точка данных на трассировочных графиках располагается в трехмерном пространстве в соответствии со значениями переменных X, У и Z (которые интерпретируются как координаты). Затем эти точки последовательно соединяются линией (в соответствии с их расположением в файле данных), чтобы показать «след» (трассу) какого-либо процесса (например, движения, изменения чего-либо со временем и т. п.). Даммы*: SPlRAl.STA 10п**4н Наилучшим примером трассировочного графика является траектория объекта в трехмерном пространстве. В общем случае с помощью трассировочных графиков можно изучать процессы, при которых переменные изменяются одновременно в трех измерениях при последовательном наблюдении. ДШЯВЮДИ ШИН III II1 ИЩЩШШУМИ Характеристическая спираль
282 Глава 6. Трехмерный визуальный анализ данных Отличие нескольких трассировочных графиков состоит только в том, что на них можно отображать одновременно ряд «траекторий» для списка переменных Z Трассировочный график процессов А1 А5 ШИЕЕШ1 *\ fvT^^ 4 Г ffjj- Г\^ -о- А1 -о- А2 A3 -— АД -— А5 Примером набора данных, который можно сравнить с траекторией, служит любой многомерный временной ряд. Предположим, в большом городе каждый месяц в течение нескольких лет измерялись температура, уровень загрязнения и содержание озона в воздухе. Так как эти переменные по своей природе цикличны (например, зимой в северном полушарии холодно), то возникает характерная картина, которая, в то же время, имеет сложную структуру. С помощью таких графиков можно также изучать зависимость от времени цен на товары или макроэкономических показателей. Другое приложение таких графиков — это создание точных «трехмерных рисунков» (с помощью задания координат в трехмерном пространстве) для таких объектов, как границы контроля или выделенные области. Обычно трехмерные объекты, нарисованные с помощью трассировочных графиков, можно вращать и изменять в перспективе. Обратите внимание, что такие объекты не могут быть нарисованы в интерактивном режиме, поскольку не существует способа контроля третьей размерности («глубины»). Рисование "перспективы" с помощью трассировочных графиков ЕЭШ& Если какое-либо наблюдение содержит пропущенные данные (например, не все три координаты X, Yи Z, а только две из них), то линия трассировочного графика будет разорвана. Это свойство можно использовать для создания отдельных объектов (как показано ниже).
Тернарные графики 283 гтгтт^ртж. шили и ни. tffmwHTTW-^ Рисование нескольких сегментов Тернарные графики Тернарные графики используются для исследования связей между несколькими переменными, когда сумма значений переменных постоянна для всех наблюдений. Обычно такие графики применяются при экспериментальном исследовании зависимости отклика от относительного содержания трех компонент смеси (например, трех химических соединений), при этом соотношение компонент изменяется с целью определения его оптимального значения. Тфрмвриый график (MDOURE5.STA 4л~12н) valOSti+MTy+l ВВГиОВВ*жфу*0 364*z«0.42V* На тернарных графиках для построения зависимости четырех (или более) переменных (компонент X, Y и Z и откликов V1, V2 и т. д.) используется треугольная система координат на плоскости (тернарные диаграммы рассеяния или линии уровня) или в пространстве (тернарные трехмерные диаграммы рассеяния или поверхности). При построении тернарного графика относительная доля каждой компоненты (для каждого наблюдения) ограничена их общей постоянной суммой (например, 1). При создании графика масштаб долей по умолчанию изменяется таким образом, чтобы эта сумма была равна 1 для каждого наблюдения. Предположим, имеется смесь, состоящая из трех компонент: Л, В и С. Любая трехкомпонентная смесь может быть обозначена точкой в треугольной системе координат, заданной тремя переменными.
284 Глава 6. Трехмерный визуальный анализ данных Например, возьмем 6 следующих трехкомпонентных смесей: А I 0 0 0.5 0.5 0 В 0 1 0 0.5 0 0.5 С 1 0 0 1 0 0.5 0.5 1.11111.1.1111М11И1Ш1!11111.Ш1..1111.11ЦП.11ЯИМ1 Тернарный график (NEW STA Юп'Юи) ♦0 5.5} (.5.5.01 Ю.1 Л} Сумма компонент в каждой смеси составляет 1,0, и эти значения могут рассматриваться как доли. Если отобразить эти данные на обычной трехмерной диаграмме рассеяния, то окажется, что они образуют треугольник в пространстве. Правильной смеси будут соответствовать только точки, находящиеся внутри треугольника, где сумма значений компонент равна 1. Поэтому для отображения соотношений компонент достаточно просто построить треугольник на плоскости. Три компоненты представлены осями, которые проходят из вершины треугольника до середины противоположного основания (медианами треугольника), и положение каждой точки определяется значениями, отложенными по соответствующим осям. Присмотревшись к графику, вы легко заметите, что в вершинах треугольника имеется лишь одна ненулевая компонента смеси, тогда как на сторонах треугольника — две компоненты не равны нулю, а одна компонента нулевая. iiiiii'iiiiiniiui мдявша Тернарный график ( | (.5Л.5)/ч^ (NEW STA 10л10н) f «0.0.1) | Ось компоненты "С" | JX {0.5.5} £ | Ось компоненты "8" ] ••ад г ,S.L ■ р-,щ \
Тернарные графики 285 Тернарные графики можно проиллюстрировать следующим примером, рассмотренным в работе Вайнера (Wainer, 1995). Тесты Национального бюро по развитию образования (National Assessment of Educational Progress (NAЕР)) для студентов показали наличие трех уровней образованности: Высшее/Профессиональное (AdVanced/Prvficient), Среднее (Basic) и Неполное среднее (Below Basic). Результаты, полученные в различных регионах, могут быть изображены на тернарном графике, где по каждой из трех осей отложена доля студентов соответствующего уровня образованности. На показанном выше графике (Wainer, 1995) видно, что 37% студентов штата Айова (Iowa) имеют Высшее (AdVanced) или Профессиональное (Proficient) образование, 44% — Среднее (Basic) и 19% — Неполное среднее (Below Basic). Для сравнения, только 1% студентов Вирджинских островов (Virgin Islands) имеют Высшее (AdVanced) или Профессиональное (Proficient) образование, 12% — Среднее (Basic) и 87% — Неполное среднее (Below Basic). Вайнер также обсуждает другое интересное применение графиков в треугольных координатах. Подобный график был использован для изучения доли голосов, отданных за каждую из трех британских политических партий на всеобщих выборах в 1987 и 1992 гг. Заинтересованные читатели найдут подробную информацию в работе: Wainer A995). Visual re delations, Chance, 8, p. 48-54. Ill 2M диаграмма рассеяния На этих графиках треугольная система координат используется для построения зависимости трех (или более) переменных (компонент X, Y и Z) на плоскости. ы111|шШп1111Уг11^111]Ш1Ш1имгВ1а Тернарный графи* - 2М диаграмма рассеяния COMPONENT С COMPONENT A COMPONENTВ
286 Глава 6. Трехмерный визуальный анализ данных На приведенном графике изображены точки, соответствующие долям переменных-компонент (X, Y и Z). Щ ЗМ диаграмма рассеяния На этом типе тернарных графиков в треугольной системе координат в трехмерном пространстве строится зависимость четырех (или более) переменных (компонент X, У и Zn откликов V1y V2 и т. д.) — тернарные трехмерные диаграммы рассеяния или графики поверхности. шиаш Тернарный график* ЗМ диаграмма рассаяиия 1 IV^ На этом тернарном графике отклики ( V1, V2 и т. д.), соответствующие определенным долям переменных-компонент (X, У и Z), откладываются в виде высот точек. Щ Поверхность Здесь на трехмерном тернарном графике поверхность представляет собой результат подгонки к набору данных из четырех координат. Тарнариый граф*! • Поверхность ■ ■ ■в о □ □ н н н н ■ 4300 4 700 4Q0O 5 100 9300 9300 9 700 9000 в 100 в 300 • шт Щ| Карта линий В данном типе тернарных графиков трехмерная поверхность (подогнанная к набору данных из четырех координат) проектируется на плоскость в виде линий уровня. ItlllBN'HllMIW MllllllHM«laNl Тарнарный график • Карта пиний COMPONENT С 4 700 4000 5 100 зэоо 6 300 5700 0000 0 100 еэоо
Тернарные графики 287 Д Зонная карта На этом типе тернарных графиков трехмерная поверхность (подогнанная к набору данных) проектируется на плоскость в виде карты зон. I IIII III I II —■■ Тернарный графи» • Карта линий уроаия (зоны) COMPONENT С С OMPONE NT A COMPONE NT 8 III Трассировочный график В данном случае можно исследовать связи между четырьмя и более переменными (X, YyZn V1, V2 и т. д.) с помощью соединения точек на графике в той последовательности, в какой они расположены в файле данных. fCTM.JI|imiJll!>JJ!!llJJJJ..JIlimi!illlHlMMJoixl| Тернарный графи* • Трассировочный графил I Кроме перечисленных выше вариантов, после построения графика в диалоговом окне Общая разметка можно также выбрать следующие типы графиков. ЛЦ Пространственный график Этот тип тернарных графиков предлагает особенный метод представления трехмерных диаграмм рассеяния с использованием плоскости Х- Y-Z (определенной в треугольной системе координат), которая располагается на заданном пользователем уровне вертикальной оси У(эта ось проходит через середину плоскости). UUIKIIillMlllliyJIIf.N'llllf.tifllliHMJuial Тернарный графи» • Простраистаамыый графш М 4 500 Н 4 700 Н 4 900 Н 5100 ЕЭ 5Э00 □ 5 500 □ 5 700 Н 5 900 ■I 6 100 Н 6Э00 Н 6 500 Н 6 700 Н 1ыш»
288 Глава 6. Трехмерный визуальный анализ данных Уровень расположения плоскости X-Y-Zможно подобрать таким образом, чтобы разделить пространство X-Y-Z нз. значимые части (например, для выделения различной структуры связей переменных). ЦЦ Диаграмма отклонений Эта диаграмма похожа на пространственный график, но на ней не отображается плоскость, от которой отсчитываются отклонения. fTffBII'llHIIIIIII-llil'JIILtillllllll, ТариармыА график • Диаграмма отклонений trf'f ■ft \ Подгонка Приведенные ниже четыре уравнения регрессии можно использовать для подгонки зависимостей на тернарных графиках. Обратите внимание, что уравнения получены из стандартных полиномов с учетом ограничения на значения компонент (X, У, Z), сумма которых для каждого наблюдения равна постоянной величине (например, 1,0). Простейшая модель первого порядка: V=a + blxX+b2xY+b3xZ с ограничением Х+ Y+Z= 1, может быть построена с помощью умножения коэффициента а на 1=X+Y+Z\ V=axX+ax Y+axZ +bix X+Ь2х Y+b3xZ Это выражение можно упростить: V- (а+Ы) х X + (а+Ь2) х Y + (а+ЬЗ) х Z или записать таким образом: V=bYxX+bTxY+b34xZ Ниже перечислены доступные в STATISTICS функции полиномиальной регрессии: О Линейное сглаживание (полином первой степени): V=b\xX+b2xY+b3xZ О Квадратичное сглаживание (полином второй степени): V=b\xX + b2xY+b3xZ+b\2xXxY+b\3xXxZ + b23xYxZ О Полное кубическое сглаживание: V=b\xX+b2xY+b3xZ+b\2xXxY+b\3xXxZ+b23xYxZ+b\2xX x Ух (X-Y) + b\3xXxZx (X-Z) + Ь23 х YxZx(Y-Z) + М23хХх УхZ
Трехмерные категоризованные графики 289 О Специальное кубическое сглаживание: V=b\xX+b2xY+b3xZ+b\2xXxY+b\3xXxZ+b23xYxZ+b\23xXxYxZ Трехмерные категоризованные графики Этот тип статистических графиков позволяет создавать трехмерные категоризованные диаграммы рассеяния (и трассировочные графики), карты линий уровня и поверхности. При этом используются заданные категории выбранной переменной или другие способы логической группировки наблюдений. lifiMWWU fn'liV.IIIHHrCT^T ЗМ пространственный график по Temperature X(слева) Прочность 1 Y(справа) Прочность 2 2 (верти*) Сопротивляемость High На графике представлена та же информация, что и на трехмерном графике рассеяния, графике поверхности или карте линий уровня, за исключением того, что здесь для каждой заданной пользователем группы или категории показан свой график. Основной смысл таких графиков — упростить сравнение групп или категорий, отражающих связи между тремя или более переменными. В общем случае трехмерные XYZ графики отображают динамические связи между тремя переменными. С помощью различных способов категоризации данных можно исследовать связи в определенных группах данных. Например, положительная взаимосвязь между возрастом, состоянием здоровья и удовлетворенностью жизнью наблюдается при опросе женщин, но не мужчин. Соотношение между Age (X). Health Status (Y). и Life Satisfaction (Z) GENDER MALE z = б 572«0 356**-0 52Гу GENDER FEMALE 2 = 3 008-Ю Э86*к«0 09в*у ** GENDER MALE GENDER FEMALE ■i ^ш ■i ■i ИЯ ЕШ ПЗ m rsa BB ■i ■i ■i ■■ ■■ ■■ 1 948 2 359 2 771 3 182 3 593 4005 4 416 4 828 5 239 5 651 6 062 6 474 6885 7296 7 708 8119
290 Глава 6. Трехмерный визуальный анализ данных Поскольку категории создаются с помощью логических условий, которые определяют подгруппы, то можно пойти дальше и построить другие графики — разделив группу мужчин на одиноких или разведенных и женатых, можно выделить в отдельную группу одиноких мужчин с высокими доходами и т. п. Из приведенных ниже категоризованных графиков поверхности (и соответствующих им карт линий уровня) можно сделать заключение о том, что задание величины допусков на приборе не влияет на исследуемую взаимосвязь между результатами измерений (Dependl, Depend2 и Height), за исключением случаев, когда эта величина <3. Имеет смысл только диапазон допуска <-3 (Т STA 277гГ29000м) ш Дипамш «аптс*а 4W> Дипамш аапума a ei Дипамм аол*с*а A4 1С] it fl О 12 1 Долам» аолума AС 18| ESS! ч^> 1 Дигамм аол»со Дотах». аоя,со П2.14] Дипамм аол*" • 18 I Иногда карты линий уровня легче анализировать, чем графики поверхности (что хорошо видно из следующего примера). EEE3I Имеет смысл только диапазон допуска <-3 (Т STA 277гГ29000м) Таким образом, ЗМ категоризованные графики представляют собой мощный исследовательский инструмент для изучения сложных взаимосвязей между переменными и группами наблюдений. |jj Категоризованная ЗМ диаграмма рассеяния На этом типе графиков отображаются связи между тремя переменными (представляющими координаты X, У и Z (вертикаль) в трехмерном пространстве), разде-
Трехмерные категоризованные графики 291 ленными на категории с помощью группирующей переменной или путем задания подгрупп. паи iliTiiijiiiiiinm,Biilifiii'Hiiliimuiiiy.iitin.HifO Уровень Discharge от Weight и Saturation Четыре сегмента Й '!-■ '''•'■V I: hit II Х**Ч5> |Ц Категоризованный пространственный график В данном случае в одном графическом окне строится несколько пространственных графиков (для групп категоризованных данных). гшшпш imjmui 11, ,■ дедш Уровень Discharge от Weight и Saturation Четыре сегмента HI Категоризованная спектральная диаграмма На этом типе графика трехмерное пространство разделено на области, в которых данные «сжаты» в соответствующие спектральные плоскости. Уровень Discharge от Weight и Saturation Четыре сегмента ШУ
292 Глава 6. Трехмерный визуальный анализ данных ЛР Категоризованная диаграмма отклонений На этом типе графиков точки данных (заданные координатами X, У и Z) представлены в виде «отклонений» от определенного базового уровня на оси Z 1.1пЫ| Уроммь Discharge от Wnght и S»tu'»lion ЧфТырв CtfMtMT» tATUMATKM \ Категоризованный график поверхности С помощью этой функции будет построена поверхность (методом сглаживания или по заданному математическому выражению) для категоризованных данных. Уроммь D<»ch»rgt от Wtighl и Situation Ч#тыр# с*гм»мт» Карта линий уровня Карта линий уровня — это проекция трехмерной поверхности на двумерную плоскость. На ней линиями обозначены одинаковые «высоты» (равные значения переменной Z). вши IJoMl СЛ<ХЯ 0*OUP.l r^ ОЖХР 0*OUP_3 О «фи. Cf ACTOR 6TA 1 Tp'JOOh) Ч»»ш сгп*ж ow<x»> о*ол>_г 43 <8S «03*0 S6Q00 »2?Э OMMP OROUPJ
Категоризованные тернарные графики 293 | Зонная карта На таком графике одинаковые «высоты» (значения переменной Z) на поверхности (зоны между контурными линиями одинаковой высоты, см. предыдущий тип графика) показаны областями одинакового цвета и вида. имлпА пилит!и..щ ц ■ -1оЫ ЭМ категоризомнный график CFACT0R STA17п*200н) Отр эксп-1звеш стаж 120 , 30 45 OROUP1 OROUP.3 Категоризованные тернарные графики Категоризованные тернарные графики используются для исследования взаимосвязей между тремя и более переменными, когда три из них представляют собой компоненты смеси для каждого значения группирующей переменной (то есть между ними существует жесткая связь, заключающаяся в том, что их значения в сумме дают постоянную величину для всех наблюдений). IfilUlHIIlvi1 Д Тернарным график (DENSITY STA 5п*500н) г,.„**« IDlNSIIYSTASn-bOlM tcmpcrat г*'с TtMPtRAT гв'с TEMPERAT 20-С ^0 2К'ш^27УуОПГг.|45ri>0M4YM304Yf9S74V|'t TEMPERAT 22- С v. 0 ИГш-О 347', 0 М'г.У KtV,.1 W4V|.2 СГ,'1 9 Wi'i'i TEMPERAT 24-С v. 0Ю2*ш-0 40У, 0022't'O 33tV,.l W2VlI22«Y*-3*M"«V» TEMPERAT 2«'C v.0 02«*i-O0SrfO27S,:0 52r.VO22«,i-:O75V».t775,iY: TEMPERAT »C v.0*ri 005^.0274": 10в4,ш,,.0$О,ш,»1077,,,»ЧI25,ш,|*»
294 Глава 6. Трехмерный визуальный анализ данных 5ШШШПЯШН Тернарный график (DEN8ITY 8ТА 5гГ500м) TEMPERAT: 2tPC v*0.2l5^*0 273V0.1iy2«1 Дбв^уОМД^М 304«Г**5.в74-*Тг TEMPERAT: 22»C 4MM81V0.347Y0.1M*2*1.161*xV1.184VZ«2123V^5.195Vyi TEMPERAT: 24»С vMM02^0.403>0.022^*O.331YV1.3MVz*1.22eV2-3 259W2 TEMPERAT. 28* С ^O.028V0 ОвГуО 276^0 527VV0 226Y2-0.75VM 775VT2 TEMPERAT: 28*C ¥*0.187>0 051V0.274«M 084W0.613V2-1 077V2-0.125VV*l На тернарных графиках для построения зависимости четырех (или более) переменных (компонентов X, Y и Z и откликов V7, V2 и т. д.) используется треугольная система координат на плоскости (тернарные диаграммы рассеяния или линии уровня) или в пространстве (тернарные трехмерные диаграммы рассеяния или поверхности). При построении тернарного графика относительная доля каждой компоненты (для каждого наблюдения) ограничена их общей постоянной суммой (например, 1). По умолчанию при создании графика масштаб долей изменяется таким образом, что эта сумма для каждого наблюдения становится равной 1. В вершинах треугольника имеется только одно ненулевое значение компонент смеси. На категоризованных тернарных графиках для каждого уровня группирующей переменной (или заданной пользователем подгруппы) строится отдельный график. Все эти графики располагаются в одном графическом окне для сравнения групп данных (категорий). Обычно такие графики используются в экспериментах, где отклик зависит от относительного содержания трех компонент (например, трех различных химических соединений). Причем это соотношение варьируется с целью определения его оптимального значения (например, при исследовании смесей). Эти типы графиков могут быть также использованы в том случае, когда необходимо сравнить группы или категории данных при наличии жестко заданной связи между переменными. ЩЩ_ Категоризованная 2М диаграмма рассеяния На таких графиках треугольная система координат используется для построения зависимости трех (или более) переменных (компонент X, Y и Z) на плоскости.
Категоризованные тернарные графики 295 i'Jabti шал ?М диаграмма рассеяния 0СТЕЯО1 » П ТЕМР1ЛАТ Я С схтспш ТЕМРСЯАТ ЭОС Здесь изображены точки, представляющие собой доли переменных-компонент (X, YnZ). Щ 3M диаграмма рассеяния Для данного типа тернарных графиков в треугольной системе координат в трехмерном пространстве строится зависимость четырех (или более) переменных (компонент X, У и Zh откликов V1, V2 и т. д.) (тернарные трехмерные диаграммы рассеяния или графики поверхности). паоЕшшп ПЩИИЩННШЯИ TfMFCHAT MC \ * о ' ТОИРСПАТ »С ■■■■■иимшиишившишиг^ге**1»! ■и^и^ии^и^ииШ^ШШ I" jfi ••• ' ПМРСЖАТ ЯС 1 \ IV ?■ l \ TtMPCTAT Я С На этом тернарном графике отклики (V1, V2 и т. д.), соответствующие определенным долям переменных-компонент (X, У и Z), откладываются в виде высот точек. |gl Поверхность Здесь на трехмерном тернарном графике поверхность представляет собой результат подгонки к набору данных из четырех координат.
296 Глава 6. Трехмерный визуальный анализ данных ЦЦ Карта линий В этом типе тернарных графиков трехмерная поверхность (подогнанная к 4-мерному набору данных) проектируется на плоскость в виде линий уровня. сашш Катагоризоааммал тармармал карта пиний уровня оссяог остслсм ССТЕЯО' «« 21 тсмр«лат тес сстерш остслы ss г) TCMPf ЛАТ Я С остсяаг Щ Зонная карта В данном случае трехмерная поверхность (подогнанная к 4-координатному набору данных) проектируется на плоскость в виде карты зон. вшшт Категоризоеаммал тармармал карта областей ОСТЕМШ OCTtRQJ CCTTR01 И 21 TCMPWAT П С <х*г*аг CCTCRQi SS 21 ЧМРСЯДТ Я С 0СТСПО2 I Трассировочный график С помощью таких графиков можно исследовать связи между четырьмя и более переменными (X, У, Zn V1} V2 и т. д.) путем соединения точек в той последовательности, в какой они расположены в файле данных. Категориэоеаммый тармармый трассировочный график
Категоризованные тернарные графики 297 Щ Пространственный график Этот тип тернарных графиков реализует специальный метод представления трехмерных диаграмм рассеяния с использованием плоскости Х- Y-Z (определенной в треугольной системе координат), которая располагается на заданном уровне вертикальной оси У (эта ось проходит через середину плоскости). Категори»оеаииый тернарный пространственным график Ък£* темреват го с ТЕМРЕВАТ П С ТЕМРЕВАТ » С ТЕМРЕВАТ 39 С Уровень расположения плоскости Х- Y-Z можно подобрать таким образом, чтобы разделить пространство X-Y-Z на значимые части (например, для выделения различной структуры связей переменных). Щ Диаграмма отклонений Эта диаграмма похожа на пространственный график (см. выше), но на ней не отображается плоскость, от которой отсчитываются отклонения. тшшшшшшшяшшшшшшж Категоригоеаииая тернарная диаграмма отклонений temperat го с £> ТЕМРЕВАТ 30 С Подгонка Приведенные ниже четыре уравнения регрессии можно использовать для подгонки данных на статистических, категоризованных или пользовательских тернарных графиках. Обратите внимание, что эти уравнения получены из стандартных полиномов с учетом ограничения на значения компонент (X, У, Z), сумма которых для каждого наблюдения равна постоянной величине (например, 1,0). Например, простая модель первого порядка: V=a + blxX + b2xY+b3xZ
298 Глава 6. Трехмерный визуальный анализ данных с ограничением X+y+Z=l может быть построена с помощью умножения коэффициента а на 1 =Х+ Y+Z: V=axX + axY+axZ+blxX + b2xY+b3xZ Это выражение можно упростить: V= (а+Ы)хХ+(а+Ь2) х У + (я+63) xZ или записать таким образом: V=bV хХ+62' хУ+63'xZ Ниже показаны доступные функции полиномиальной регрессии: О Линейное сглаживание (полином первой степени): V=blxX + b2xY+b3xZ О Квадратическое сглаживание (полином второй степени): V=blxX+b2xY+b3xZ+bl2xXxY+bl3xXxZ+b23xYxZ О Полное кубическое сглаживание: V=blxX+b2xY+b3xZ + bl2xXxY+bl3xXxZ+b23xYxZ + 612 хХх Ух (X-Y) + b\3xXxZx (X-Z) + 623х YxZx (Y-Z) + 6123 хХх YxZ О Специальное кубическое сглаживание: У=61хХ + 62х У+63 xZ +612 хХхУ+613 xXxZ +623 xyxZ + 6123xXxyxZ Можно задать пользовательскую функцию. Однако такие функции не подгоняются к данным, а лишь накладываются на график. Графики пользовательских функций В отличие от других типов графиков, здесь не нужно выбирать переменные. Вместо этого программа попросит вас ввести формулу для построения графика. В этом режиме можно построить график не по значениям переменных файла данных, а по заданной пользователем формуле (то есть отобразить пользовательскую функцию), например: Г»—ш »учм« (AOSTUDVST* ЗбпЧОн) ]
Матричные графики 299 На данном типе графика можно в явном виде задать диапазон изменения переменных. Например, можно задать минимальное и максимальное значения для обеих осей (X и У) равными соответственно 0 и 100. Есть два основных варианта применения графиков функций, заданных пользователем. Наиболее очевидный — исследование конкретной функциональной зависимости (например, проверка соответствия данных конкретной теоретической модели исследуемого процесса или явления). Другое направление — это разведочный анализ данных, когда необходимо изучить форму функциональной зависимости в различных диапазонах значений аргумента. Следующим шагом такого исследования, конечно, является статистическая проверка качества подгонки функции к конкретным данным. Матричные графики Матричные графики используются для графического представления зависимостей между переменными некоторого множества в виде матрицы обычных двумерных графиков. Чаще всего в качестве матричных графиков используются диаграммы рассеяния, их можно рассматривать как метод визуализации корреляционных матриц исследуемых переменных. П SCATTER STG Корреятцж {SCATTER STА 80п00и) Диаграммы рассеяния для 5 испытаний .cgqQoq-c ТЕ6Т_3 '•C^si основные ^-^ТГ^ СТАТИСТ. ..— .Л* вшв г^Ш Отмеченные корреляции $н«чимы »м уровне р <.060 М*1М (Построчное удаление ПЖ) **»П* TOTJ» ■ЯШ TEST 5 тшл I test j .71 -.73 .78 1.М И .73 И 1.М .43 .46 -.31 .05 .07 -.07 i&№j .43 .06 .46 .07 -.31 -.07 1.М .17 .17 1.00 На приведенном графике для каждой пары переменных построена диаграмма рассеяния с изображенной на ней прямой линейной регрессии. Матрицы диаграмм рассеяния могут быть не только квадратными (как на приведенном рисунке), но и прямоугольными, если были выбраны два списка переменных (по аналогии с прямоугольными матрицами корреляции). Если исполь-
300 Глава 6. Трехмерный визуальный анализ данных зуется квадратная матрица, то на диагонали вместо диаграмм рассеяния будут построены гистограммы для соответствующих переменных. Подобные графики предоставляют эффективный способ визуального анализа зависимостей между исследуемыми переменными. Например, с их помощью из набора переменных легко выделить переменные, которые не коррелируют с другими переменными. 11 НШШШ'М, |'|4HF.HU.llli < IИШ——ЕШШ! Корреляции между 5 объектами 1ТЕМ_1 ~р^ ^Ж! Ж :******".! 1ТЕМ_2 --00000— \*%М&. \ >*&£?-: П0~ Раслеределение оОьекта 4 отлично от нормального, а его соотношение с ддоими объектами нелинейна ГГЕМ_3 1 -Ffflrw, у&&^ рш^ т ITEM 4 ILL... г^^х; Г ITEM_3 Матрицы линейных графиков Рассмотренные выше матрицы диаграмм рассеяния обычно используются для графического представления зависимостей между некоторыми случайными переменными. Для изображения многоступенчатых процессов применяются, как правило, матрицы линейных графиков. 1И1МШ11 НИШ \ЩЩ У1ИШ1,НДШШ,ИИДШ11 График 5 временных рядов от Time, логарифма Time и кв. корня из Time Например, на построенных матричных графиках изображено несколько различных зависимостей переменной У (состояние процесса) от одной переменной X (времени); таким образом, на одном рисунке может быть построено сразу несколько изучаемых процессов (временных рядов). Типичным применением матричных графиков является одновременное изображение на одном графике распределений анализируемых переменных и зависимостей между ними.
Матричные графики 301 i.iiiii.iiui.iiiiu!i.i.i.iiiiiii.iiiiiiii.iuiiimnji!HiiM I.IdMI WORKJ 1 WORK 2 1 WORK_3 1 Hoeevjl Jflk._| MOe8Y_2| NOME J ~| .BqQbQo.. I HO€_2 | моме_з1 MTCCEL 2 1 WORK J 1 .eelaj X ^ j№ | ^ 5и •#1 •$Й •#] -?*и ^ Матричная диаграмма (FACTOR.STA ЮпМООн) умолк_2 1 j£\ y\ Ж\ s&\ s& ГТ^ ■w) Щ ~W\ **' W0RK_3 1 ..Ото. J ■ж\ 5^ \/A \*&\ ^ p^fj h$&"| L***] \j& H068YJ 1 •-Г #r\ ^ И ЙЕ c#" W $r X ^ Hoeev_2 1 .оЙв... ш w\ И и [71 И и f#j 0 [Z MOMEJ 1 .bJbQo.J ф&!Г ''ф\ Wr\ #^: •J**"' x **r jf I3ft" H0ME.2 *$aH 5f] "ГРуС H^J L^'1 5?; 7 w w_ \**F M0ME_3 j '5*ver* |4ijS^| £$H [J^l H \/\ [^ ЙЕ мкса 1 I .Ж. | #] >j #j >1 Й Й я и Г/] ^ MfcCEL 2 1 «#1 '^f'\ &\ У\ ^ $& #: # ^ [/ Это бывает полезно при выборе масштаба измерений или проведении разведочного анализа данных (например, обработка анкет, экономической информации, данных о контролируемом процессе и т. д.). liH^IHAimillil'i'lHIII'fllHlilH IHANDOM S1A ЛГ4/Ни| Нелинейные зависимости (Матрица рассеяния 5x5) mm ;i& <=Т! тЪ" "¥ m ЗсасваоосасаЫ При проведении разведочного анализа данных бывает необходимо изучить влияние отдельных наблюдений, удовлетворяющих некоторому условию, на общий вид зависимости между переменными. Это можно сделать с помощью логических условий выделения подмножества наблюдений для построения матричного графика.
302 Глава б. Трехмерный визуальный анализ данных 11.1 II', .1,1'111,114., Ma три** диацимм» («BOAT STA Sn*1 SOi) чкн т 7к' т. №. #? И i -#* f * *Ч • vM*SCTOSAa and *ИИ 4 «С-ЛЛМЯМС and <«<1М • Н-ТОШаМ/апй^ИИ | Матрица рассеяния На этом матричном графике представлены двумерные диаграммы рассеяния, на каждой из которых значения переменной из строки используются в качестве координат X, а значения переменных из столбца — в качестве координат У 1ЙШМИШЙ ваонш! Квадратная матрица рассеяния И Ш ЯИЯШШПШаЗШ Прямоугольная матрица рассеяния Ft! L..!.i L i. Гистограммы, изображающие распределения каждой переменной, расположены на главной диагонали матрицы (в квадратных матрицах) или по краям (в прямоугольных матрицах). | Матрица линий При выборе этого типа графика создается матрица линейных (то есть непоследовательных) ХУ-графиков (подобно матричной диаграмме рассеяния), на которых отдельные точки соединены линиями в порядке их появления в файле данных. Гистограммы, изображающие распределения каждой переменной, располагаются на главной диагонали матрицы (в квадратных матрицах) или по краям (в прямоугольных матрицах).
Матричные графики 303 ::№Ш *Ш»Ш*& iff L£* £?А 't 8w*tCW Я W КЗ Квадратная матрица линий VAR1 SJlQOOOOj / J /у] 1.0 F 1Л1.1..11|1и.|1Ц||Ши1.||,.Ц|,!1И05Ш| Прямоугольная матрица линий DDLJoa. odddJqdl OOQOQtlOQ dQQQDDQ Q_0_QQQy | Матрица столбцов На этом графике матрица состоит из столбчатых диаграмм, на которых представлены проекции отдельных точек данных на ось X (показывающие распределение максимальных значений). | Ы*<ъюш(# шШШШйпЖШШ&ЪШЧЫ"' Квадратная матрица столбцов -UIIJ.I|J.I.I.|l|JI.UIJUIIIIIUI»liWTM Прямоугольная матрица столбцов :еlsl.il U00.0J ввтЛт yQOQQQQ jlil.i ..ggill G_Q_0QQU a Si Гистограммы, изображающие распределения каждой переменной, расположены на главной диагонали матрицы (в квадратных матрицах) или по краям (в прямоугольных матрицах). Подгонка функции к данным \/ Линейная подгонка Линейная функция (Y = а + ЬХ) подгоняется к точкам каждой двумерной диаграммы рассеяния. Параметры а, Ъ оцениваются методом наименьших квадратов. Заметьте, что прямая не проходит через наблюдаемые точки, а располагается максимально близко к ним (выбором а, Ь минимизируется сумма квадратов расстояний от точек до прямой). То же относится к другим линиям (см. ниже).
304 Глава 6. Трехмерный визуальный анализ данных ЫРЛ.ЛНШ 'IHIUIII.IMIMI Матрица рассеяния с линейной подгонкой VAR1 1_1йВВ000 ^П *>^\ ^\ \.^\ VAR2 I Q_Q_QQQ0i U^ \'У [>Г^\ FF I VAP3 I | bbOqbJJ \^\ [•^ \^- \^f VAR4 \(*~ Логарифмическая подгонка К данным подгоняется логарифмическая функция вида: y = qX[lognx]+b, где основание логарифма (п) выбирается пользователем (по умолчанию используется натуральный логарифм по основанию е, где е = 2,71...). KIPJJ HI ИМ.. I .111111 UHIT^l Матрица рассеяния с логарифмической г>одгомгой VAR1 1_УВ0В000| /^~\ ^-г\ У^"\ |^И I VAK2 I |0_0_BB0UU \^<\ \^\ \^\ [>^\ 1 v*' \/^ [ VAP3 ] [qqIqbJ-OJ \>г^\ |.^>г VAR4 0000_и000 \=£J_ Экспоненциальная подгонка По данным подбирается экспоненциальная функция вида: у = bx exp(qxx) Матрица рассеяния с экспоненциальной подгонкой VAP1 1_1в0ОВ00 >^'\ ^\ ^'\ 1^1 | VAR2 1 0_0_000li \^\ \^У\ \^\ \г^\ 1 VAP3 I 1ав1вв-1-1 .^ U^" .-^ \^Г VAP4 1oqqb_UqqD
Матричные графики 305 \&{ Подгонка сплайнами В данном случае производится сглаживание данных бикубическими сплайнами. lilillilWIflliHIM'WIil Матрица рассеяния с подгонкой сплайнами VAR1 VAR2 0_В_00й1 VAR4 |ч/\ Полиномиальная подгонка Здесь методом наименьших квадратов данные аппроксимируются полиномом вида у = bn + btxx + bnxx2+ b0xx3+...+ Ъ ххп, J 0 1 I 3 п ' где я есть степень полинома A<я<6). Степень полинома может быть выбрана. lillflllll.ll|l|lllll|'fnll!4lllliHI,ll'mMII Матрица рассеяния с экспоненциальной подгонкой VAR2 й_0_000| VAR3 [4v Подгонка методом наименьших квадратов Кривая подгоняется к координатам данных с помощью процедуры сглаживания методом взвешенных относительно расстояния наименьших квадратов (влияние отдельных точек уменьшается с увеличением горизонтального расстояния от соответствующих точек на кривой).
306 Глава б. Трехмерный визуальный анализ данных Матрица рассеяния с подгонкой наименьшими квадратами VAR1 1 I.Ibbbbbb 1 ^~~*\ / ~~ /И /j^_\ ~^П /^ \^У\ VAR2 0_0_000ii 1 ~~~71 [<<^7liJ 1 /1 \^^ \г—/\ Г~~~У\ \( \ VAR3 оо1вв-1_1 Г~~уП |./^^~- L^ll 1 ^-""l \/ I 1 ' /1 1/^^ VAR4 |0Q0Q_UQqO | [ 1*4, Экспоненциально взвешенное сглаживание Кривая подгоняется к координатам X, У данных с помощью процедуры экспоненциально взвешенного сглаживания с отрицательным показателем. blnlllll'lllllll'IIIIBIiLlBIIIIIIBIIJIIIIllllllll Матрица рассеяния с экспоненциально-взвешенной с отрицательным показателем подгонкой VAR1 1-1вввооо 1 /^~\ .—^1 у^\ | v/1 ——^ [ VAR2 1 0_0_000ii U-^1 Lx . i^'l |r<"^- 1 И"Л VAR3 |оо1вв-1-11 i-^^l ^^ \^^ \/^~ \-^ I VAR4 100O0_iaai Влияние отдельных точек уменьшается с увеличением горизонтального расстояния от соответствующих точек на кривой.
7 Визуальный анализ категоризова н н ых данных Как всегда, мы начинаем главу с обзора всевозможных графиков, преследуя очевидную цель — дать читателю максимально полное представление о способах визуализации категоризованных данных с тем, чтобы привести к осознанному, а не спонтанному выбору необходимого метода. Дополнительный материал и примеры содержатся также в других главах по визуальному анализу. Вначале поймем идею категоризованных графиков. Что такое категоризованные графики? Категоризованные графики, также называемые Casement plots (см. фундаментальный труд по визуализации Chambers, et al., A983) Graphical methods for data analysis. Belmont, CA: Wadsworth), позволяют визуализировать категоризованные данные, иными словами, данные, разбитые на группы (категории) с помощью одной или нескольких группирующих (категоризующих) переменных (от английского categorized variables — категориальные переменные). В качестве группирующих переменных обычно используют категориальные (см. описание типов переменных в главе Элементарные понятия). Отметим, что разбиение данных на группы и проведение анализа внутри групп является чрезвычайно важным приемом анализа, постоянно используемом в практической работе. Например, известный прием сегментации рынка представляет собой частный случай категоризации. Итак, с помощью группирующих переменных наблюдения из исходного файла данных разбиваются на несколько однородных групп (например, клиенты супермаркета разбиваются по уровню дохода или по признаку: имеет — не имеет машину), и для каждой группы строится свой график, показывающий специфику данных. Так как групп несколько, то создаются серии двумерных и трехмерных графиков (гистограммы, диаграммы рассеяния, линейные графики, графики поверхности и др.), по одному для каждой выбранной группы — category случаев (непересекающихся подмножества наблюдений). Например, такими группами могут быть пользователи Интернет из Нью-Йорка, Чикаго, Далласа или Москвы, Санкт-Петербурга и Смоленска. Такие «составные» графики помещаются последовательно, один за другим, на экране компьютера, позволяя сравнивать данные в каждой группе (например, в группе городов или среди клиентов с разным уровнем дохода). Часто удобно собрать категоризованные графики в один составной график, для чего в STATISTICA имеются все необходимые средства.
308 Глава 7. Визуальный анализ категоризованных данных Для выбора групп обычно предоставляется широкий набор опций, наиболее типичная из которых использует категоризующю переменную, то есть переменную, производящую разбиения на группы своими собственными значениями, например, переменная Город — City с тремя значениями Нью-Йорк — New York, Чикаго — Chicago и Даллас — Dallas, На следующем графике показаны гистограммы модельной переменной, измеряющей уровень стресса жителей в трех городах США. Взглянув на графики, можно сделать вывод, что стресс людей, живущих в Далласе, более равномерно распределен, чем стресс жителей Нью-Йорка или Чикаго (данные носят модельный характер). H.$togr»m JJ2 S»*reporled STRESS J„ CITY DALLAS Очевидно, что вместо одной группирующей переменной можно использовать две или больше. Далее показаны графики с двумя группирующими переменными. Такие категоризованные графики можно рассматривать как «кросстабуляцию» или «сопряжение» графиков (сравните с таблицами сопряженности). На них каждая из зависимостей представлена на пересечение одного уровня одной группирующей переменной (например, Город — City) и одного уровня другой группирующей переменной (например, Время — Time). Таким образом, имеем 6 графиков C уровня переменной Город умножить на 2 уровня переменной Время). Histogram J_12 StN-rtporttd STRESS J„ CTTY CITY CITY NEW.YORK CHICAGO DALLAS Добавление второго фактора (второй группирующей переменной) показывает, что схемы сообщений о стрессах в Нью-Йорке и Чикаго на самом деле очень сильно различаются, если принять во внимание Время опроса. Иными словами, суще-
Категоризованные графики и матричные графики 309 ственно зависят от того, когда именно проводился опрос, утром или вечером. Заметьте, что в Далласе фактор времени суток вносит незначительные изменения. Рассмотрим также модельные данные о работе в Интернете пользователей из различных городов (фрагмент файла см. ниже): ГОРОД ВРСУТОК 1L 1Н_ II 11 IL i6_ 17 питер питер москва питер питер москва москва москва москва москва москва питер питер питер москва питер питер День^ Вечер Вечер Вечер День Вечер Вечер Вечер Вечер Вечер Вечер _Утро _Утро Вечер Ночь Вечер Вечер 1Щ2^9 46 20 31 24 58 35 16 22 41 8 28 24 20 12 33 15 Ниже показан категоризованный график, позволяющий визуально представить интенсивность работы в различных городах в зависимости от времени суток. itiriJimiiHMi'PiiiB Гистограмма (catlnteri.STA 10v*100c) ■ JQlxl ir 1 GO О wrm Г7ГГ77Л УТЛ \ ? E Ч Ч E 5* 8 8 ? Щ! ц ц[Ц! ц % S Санкт Питер бург Москва Время работы Л- т im Ж т т Г КТ7Э ?fulfils v *SS8f£ Смоленск Категоризованные графики и матричные графики Внешне матричные графики похожи на категоризованные, однако матричные графики строятся для одних и тех же подмножеств наблюдений, тогда как категори-
310 Глава 7. Визуальный анализ категоризованных данных зованные графики строятся для разных, более того, непересекающихся групп наблюдений. Наличие непересекающейся группы наблюдений и составляет главную особенность категоризованных графиков. Собственно, идея в том и состоит, чтобы разбить данные на естественные группы и визуально исследовать зависимости между группами. В категоризованных графиках нужно указывать, по меньшей мере, одну группирующую переменную — grouping variable, которая содержит информацию о групповой принадлежности каждого наблюдения (например, Чикаго — Chicago, Даллас — Dallas). Эта группирующая переменная не будет непосредственно включена в график, не будет отображаться на нем, но будет служить критерием разбиения наблюдений на группы. Выше мы познакомились с категоризованными гистограммами — гистограммами, построенными отдельно для каждой группы наблюдений, определяемой значениями группирующей переменной. В основном гистограммы используются для того, чтобы исследовать распределение значений переменных. Например, гистограммы показывают, какие конкретно значения или диапазоны значений исследуемой переменной встречаются наиболее часто, как отличаются значения в разных интервалах, сосредоточено или нет наибольшее число наблюдений вокруг среднего или медианы, имеет ли место симметрия распределения и т. д. Гистограммы также используются для оценки сходства (согласия) наблюдаемого или эмпирического распределения с теоретическим распределением. Существуют две основные причины, по которым гистограммы представляют интерес. О С помощью гистограммы можно выяснить существо исследуемой переменной (например, как распределены пользователи Интернета по возрасту, полу, профессии, просматриваемым сайтам). О Множество статистик основано на определенных предположениях о распределении анализируемых переменных, например, временные интервалы между заходами на сайт могут иметь гамма-распределение, и гистограмма помогает проверить эти предположения.
Гистограммы и описательные статистики 311 Если вы описали тип распределения переменных, то можете построить математическую модель и провести нужные расчеты. Часто в качестве первого шага в анализе нового набора данных следует построить гистограммы для всех переменных и всех наблюдений и далее подходящим образом их категоризовать. Гистограммы и описательные статистики Категоризованные гистограммы — Categorized Histograms предоставляют информацию, схожую с описательными статистиками (например, среднее, медиана, минимальное значение, максимальное значение и т. д.). Несмотря на то что некоторые (числовые) описательные статистики легче читаются в таблице, общий вид и глобальные описательные статистики проще исследовать визуально. График предоставляет качественную информацию о распределении, которая не может быть полностью представлена одним или двумя параметрами. Например, общее асимметричное распределение дохода может показывать, что большинство людей имеет доход, который гораздо ближе к минимальному значению диапазона дохода, чем к максимальному. Кроме того, при разбиении по половому или этническому признаку эта характеристика распределения дохода может оказаться более выраженной в определенных подгруппах. Хотя эта информация будет содержаться в коэффициенте асимметрии (для каждой подгруппы) при представлении в графическом виде на гистограмме, она обычно распознается и запоминается более легко. Имея свой сайт, вы анализируете статистику посещений и по гистограмме определяете пик интереса к сайту в течение суток. Гистограмма может также показать «изгибы», которые представляют важную информацию об определенной социальной стратификации исследуемого поколения или аномалий в распределении дохода в конкретной группе, вызванной, например, налоговой реформой.
312 Глава 7. Визуальный анализ категоризованных данных Категоризация значений в каждой гистограмме Все процедуры гистограмм, доступные в STATISTICA, предоставляют большой набор способов разбиения данных на группы. Эти методы категоризации разделяют весь диапазон значений переменной (от минимума до максимума, если переменная числовая) на некоторое число групп или диапазонов, для которых подсчитываются частоты (просто считается количество значений, попавших в данный диапазон). Далее полученные частоты представляются на графике в виде отдельных столбцов или полос. Например, можно создать гистограмму, на которой каждый столбец будет представлять диапазон из 10 единиц шкалы, которая используется для представления переменной; если минимальное значение равно 0, а максимальное — 120, то будет создано 12 столбцов. Кроме того, можно сделать так, чтобы весь диапазон значений переменной был разделен на указанное число интервалов равной длины (например, 10); в последнем случае, если минимальное значение равно 0, а максимальное — 120у каждый интервал будет равен 12 единицам шкалы. Имеются опции, которые поддерживают более сложные категоризации, например, позволяют создать неравные диапазоны с заданными пользователем границами для каждого диапазона (чтобы создать более понятные диапазоны или объединить выброс и увеличить читаемость средней части гистограммы). Диапазоны можно также создать, определив критерии включения и исключения с помощью логических операторов (например, первый столбец гистограммы может представлять людей, которые за последний год летали на самолете более 10 раз, причем не более 50% этих поездок были связаны с бизнесом). Категоризация значений в составных графиках Составные графики можно создать для уровней категоризующей переменной (например, переменной пол или переменной стресс, характеризующей различные уровни стресса).
Категоризация значений в составных графиках 313 Значения непрерывных переменных (например, возраст, доход, цена) можно разбить на заданное число интервалов или создать группы наблюдений с помощью логических условий. шшшвшшшш Error Scores Dy Treatment The distribution of error scores is clearly different for females Treatment does not seem to effect tnis difference Последняя возможность особенно эффективна, так как позволяет провести разбиение на группы с помощью «правил», которые используют более одной переменной, с заданием логических соотношений между этими переменными (например, таким способом можно выбрать группу, состоящую из всех людей мужского пола старше 30 лет и играющих в гольф и не любящих попсу). В качестве еще одного примера рассмотрим данные, характеризующие стресс женщин. Значения первой переменной описывают семейное положение опрошенных женщин, значения второй переменной измеряют уровень тревоги. Известно, что личностная тревожность представляет собой устойчивую склонность личности воспринимать жизненную ситуацию как угрожающую и реагировать на нее соответствующим образом (см., например, Кокс Т. A981) Стресс). Обычно используют шкалу тревожности: низкая тревожность, умеренная и высокая. Для простоты ограничимся шкалой «низкая — высокая» тревожность. Файл данных показан ниже. тем! :зняЧ enl STA 1Un - Шн Стресс женщин СЕМ ПОЛ; ,Л2; • 1к 2 1 J. % 10 EGA П_семья Н_семья Н.семья Н_семья П.семья П_семья П_семья Н_семья П_семья Н семья Высокая Низкая Высокая] Низкая Высокая Низкая Низкая Высокая Низкая Высокая Откройте окно Галерея графиков, в котором выберите статистические катего- ризованные графики (левое меню) и гистограммы (правое меню). Сделав выбор, нажмите кнопку ОК.
314 Глава 7. Визуальный анализ категоризованных данных Wtffl \ПР Стат. 2М график* №JF Стат. ЗМ посяедоеате/ 1£* Стат. XYZ графики Стат $2 Стат. пиктографики QQ Диаграммы рассеяния Нормальные вероятностные графики OQ Графики каеитияь-кеектияь |(Х] Графики ■ Ли О Пустые графические с £3 Пояь: яоковые статистические графики SJ Стат. графики пользователя ? Обеор I "•' $•] "' 1 ^ 1 Отмена Гистограммы чlcт0г гммграьфиы) строятся отдально дд* каждой XX Круооые диаграммы |СХЗ Д"*П>- nponyaiwiiH эиеч №§ Категориэоеаииые XYZ графики Категориэоееииые тернарные графики Ш'ООрвКЭЮГСЯ >|илис] *)д*я cpHjuanwnuftfpyn В появившемся далее окне нажмите кнопку Переменные, чтобы выбрать переменные для графика. Выберем в качестве группирующей переменной семейное положение женщины. Значения этой переменной разбивают данные на две группы: женщины, живущие в полной семье, и женщины, живущие в неполной семье, включая одиноких женщин. Анализируемой переменной будет переменная тревога, выбранная в третьем столбце. штштшшт ъщуцщхптлшшял 2ТРЕ80ГА 3VAR3 4VAR4 5VAR5 6VAR6 7VAR7 B-VAR8 9VAR9 10VAR10 1-СЕМ ПОЛ 2ТРЕ80ГА 3VAR3 4VAR4 5-VAR5 6VAR6 7VAR7 8VAR8 9VAR9 10-VAR10 1 СЕМ ПОЛ Ullllllll нИ» 3VAR3 4VAR4 5VAR5 6VAR6 7VAR7 8VAR8 9VAR9 10-VAR10 Категории по X: Категории по V: Переменные: Далее сделайте установки для настройки графика, как показано в окне 2Мка- тпегоризованные гистограммы. ъжхттттттш Qj3 С Диве?» Ло«1сош«:| У^: "к^х^шцпоя ' . К«т. Y: ифГ - ■ ittxii JEL g» ]] Отмена) ЬиетармпвХ •- ;:--;--jKaWopHMneX : Пера» яичаш; CEMJIOfl . С ■;гг| С Коде С «жа II С.^атфгорик [То" г Ж ГИСТОГРАММА ' Перящцц»; ТРЕВОГА • <• йштлл «мем Р* Дето Г Накоялемиечастот гОоьУ:|м J Г Интервал междя стояками Г* Показать проценты д:^.-а:ж:у:...у:::аи>та-rrrr-vrifiM"iVi-i v -r •ir-v"..-:.-:jmw::::M-V4---'-iinv »«;цць»;и.ч.тл
Категоризованные гистограммы и диаграммы рассеяния 315 Возможны два способа размещения гистограмм на графике в зависимости от выбора, сделанного в опциях Размещение этого диалогового окна (см. графики ниже). Низкая Высокая ТРЕВОГА \Ш СЕМ_ПОЛ: Псвмь* i EH СЕМ_ПОЛ: Н_свмья j Из графиков видно, что уровень тревоги женщин в неполных семьях выше, чем в полных. Насколько значимо это различие, можно оценить с помощью специальных статистических критериев, например с помощью критерия хи-квадрат. В данном примере это различие небольшое, однако и число наблюдений мало. Если бы подобное различие (одно наблюдение) имело место для 100 респондентов, то, очевидно, мы отнесли бы его за счет случайной ошибки и не приняли бы во внимание. В этом и состоит существо дела: если визуально вы видите отчетливый эффект, то его не имеет смысла доказывать статистически; если эффект не столь ясен, то применяют статистические критерии. Категоризованные гистограммы и диаграммы рассеяния Эффектным приложением методов категоризации для непрерывных переменных может оказаться представление связей между тремя переменными на плоскости.
316 Глава 7. Визуальный анализ категоризованных данных Наверняка приведенный нами пример визуализации удивит даже искушенных аналитиков. Ниже показана диаграмма рассеяния для двух переменных Load 1 и Load 2. Теперь предположим, что необходимо добавить третью переменную (Output) и рассмотреть ее распределение на различных уровнях совместного распределения Load 1 и Load 2. Этого можно достичь, например, с помощью следующего графика. LOAD 2 V LOW 1П IM Histogram (LOADS STA 1CV100O {'■•■•.... ■ . ,.•" Ltd-'-1 I JU I k- [•::: - :: 2? 8 « 4 :;--*"*--.d ■Ь"нй H Iff! k. ■:.-._:: | l 1Ш1 1 i jrfL 1 !-'-:.d .•' 1 rmT, 60 80 100 120 60 60 100 120 60 80 100 120 60 80 100 120 60 80 100 120 LOA01: LOA0 1: LOAD 1: LOAD 1: LOAD 1: V LOW LOW MEDIUM MlOH V HlOH OUTPUT На графике значения переменных Load 1 и Load 2 разбиты на 5 уровней, и для каждой комбинации уровней построена гистограмма переменной Output. Подгонка теоретических распределений к наблюдаемым распределениям Функции подгонки распределений STATISTICA, встроенные в гистограммы, позволяют сравнивать распределение наблюдаемых данных с такими распределениями, как нормальное, бета-, экспоненциальное, экстремальных значений, гамма-, геометрическое, Лапласа, логистическое, логнормальное, Пуассона, Релея и Вейбулла.
Подгонка распределений к множественным гистограммам 317 11Ж1Ш11Ц|||||11.1.1111МЦи.|111Ш111111 Histogram wttn Normal Curve for 2 Groups v &8.&8j£88SSR Л v &8.&&&8JSSSR л Control Group Eiptrimtntal Group Test Score Это наиболее часто возникающие на практике распределения, и проверка согласия с ними данных иногда представляет интерес. Обратите внимание, что программа STATISTIC А также включает специальный модуль подгонки распределения (см. Непараметрическая статистика и подгонка распределений), который предоставляет широкий набор теоретических функций распределения, графиков и статистик для проверки согласия исходных данных с выбранным распределением. Подгонка распределений к множественным гистограммам Несколько архаичный термин «множественный» в анализе данных часто эквивалентен слову «несколько» или «много», таким образом, множественная гистограмма означает всего лишь, что несколько гистограмм отображены на одном графике. При построении нескольких гистограмм на одном графике переменные представлены смежными полосами, поэтому для каждой группы (обычно построенной вдоль горизонтальной оси X) строится несколько полос. Аппроксимирующие кривые могут либо точно соответствовать гистограммам, либо быть сравнимыми друг с другом. шшшшшшшт MuHipl» Histogram г - я^ЛлЧЩ 1 Hv I Ш н I 0 Щ 1 |\\ \| ЕЗЗ CLASS A ess class в Н CLASS С Н CLASS D Гч^. Поскольку множественные гистограммы создаются для визуального сравнения распределений в разных группах, например мужчин и женщин (а не для анализа качества подгонки для отдельных переменных), то STATISTICA использует вто-
318 Глава 7. Визуальный анализ категоризованных данных рое решение: ожидаемая теоретическая кривая будет «прикреплена» к числовым значениям (а не к меткам групп) оси X. На практике это обычно не влияет на объяснение графика, то есть очевидное отклонение переменной от ожидаемого распределения по-прежнему будет очевидно. Если вам нужно «прикрепить» функции распределения к меткам групп, то можно изменить соответствующие формулы, так что подогнанные распределения будут сдвинуты по оси X, чтобы компенсировать сдвиг столбцов гистограмм. Категоризованные диаграммы рассеяния 2М диаграммы рассеяния используются для визуализации зависимости между двумя переменными X и У (например, вес и рост, цена и качество). В диаграммах рассеяния отдельные данные представлены точками в двумерном пространстве. Две координаты (X и У), определяющие расположение каждой точки, соответствуют определенным значениям двух переменных. Если две переменные сильно связаны, то точки имеют некоторую систематическую форму (например, группируются вдоль прямой линии или гладкой кривой). Если переменные не связаны, то точки образуют круглое «облако» (более подробно см. главу Элементарные понятия). Readings of 2 Gages m 6 Locations Категоризованные диаграммы рассеяния предоставляют мощные исследовательские и аналитические методы исследования соотношений между двумя и более переменными в различных подгруппах. Cattgonztd Scatltrplot Groups 1-16 (Л * Ц\ т ...^НI щ и-^И 1 ш ,,-f) 1 ш -Л PRESSURE
Нелинейная зависимость 319 60 70 60 90 100 ПО 120 130 140 60 70 80 90 100 110 IS 130 140 Malt* Performance 1 Нелинейная зависимость Нелинейность — это другая сторона зависимости между переменными, которую можно исследовать на диаграммах рассеяния. Для измерения нелинейных зависимостей между переменными не существует простых в использовании тестов: стандартный коэффициент корреляции Пирсона г позволяет измерять линейную зависимость, а некоторые непараметрические корреляции, такие как корреляция Спирмена R, позволяют измерять также монотонные нелинейные связи. Исследование диаграмм рассеяния дает возможность определить форму зависимости, так что в дальнейшем можно выбрать соответствующее преобразование данных, чтобы «линеаризовать» зависимость или выбрать соответствующее уравнение для нелинейного оценивания. т ттштгшшшшт R«l*0««h<p of 2 M«»*ur«m*nt« m 3 OfOup» ЕЩ . ^яМ&? ■**>**-* M«t*ur«m*nl \ Sceeerpiot Prediction of Final Pertormanct by Gfade GRADE. А у - 0.1344).Т2Г 1-1 ^ee-l*2»1 Л1ГI АЭЧ)Л11-l*44) J4Tl***tp» GRADE: В у - 0.241*1 ХЖ'хЛ И4*1*24).10Г 1Лв»1>*0в*1А4-0.1§2*1Л**#р» GRADE: Су- 4XЯA-^ЛЩrx^OO\Чrx•W>M^x*УOarx*A4Mrx^Ъ+^*% GRADE: D у • 0 OJ7*OAJri4>.4661t*2.0.00rжЛЭ*0ЛГ1Л*»0.0Г1Л6*«р*
320 Глава 7. Визуальный анализ категоризованных данных Категоризованные вероятностные графики С помощью категоризованных вероятностных графиков можно определить, насколько близко распределение переменной следует нормальному распределению в различных подгруппах. ъшшш Detrended Могли» РгооаойЛу Plot varS ii *-*- {с •1 4 ——г Н.^ 1. -——J I л I Категоризованные нормальные вероятностные графики представляют эффективный инструмент для проверки нормальности распределения данных в отдельных группах. I^QDBSQDDOD Normal Probabftty Plot by Group Final Performance Scores m Eacn E>$«nment* Group 65 75 85 95 105 115 125 1Э5 65 75 95 95 105 115 125 1Э5 Normal dutnoubon values Rectangular distribution values Если подгонка в основном неверна и данные образуют какую-либо ясную форму (например, букву 5) вокруг прямой линии, то переменную, возможно, необходимо каким-то образом преобразовать до того, как она будет использована в процедуре, предполагающей нормальность (например, логарифмическое преобразование часто
Категоризованные графики квантиль-квантиль 321 используется, чтобы «втянуть» конец распределения (см. Neter, Wasserman, and Kutner A985) Applied linear statistical models: Regression analysis of variance and experimental designs, Homewood IL: Irwin). Нормальные вероятностные графики без тренда строятся так же, как и стандартные нормальные вероятностные графики, за исключением того, что линейное смещение (тренд) убирается до того, как строится график. Detrended Normal Prooaoility Plot ■j£*/V*4 66 75 85 96 105 115 126 135 55 75 86 96 105 115 125 1Э5 Normal distribution values Pectangjiar distributor! values Это часто «разбрасывает» график, что позволяет пользователю легко обнаружить отклонения от нормальности, например, если распределение равномерное, то возникает S-образная кривая. Категоризованные графики квантиль-квантиль Категоризованные графики квантиль-квантиль (К-К) используются для поиска наилучшего распределения в заданном параметрическом семействе распределений. DtttntxAon Ravtwe* OROUP 1у»-00Э2»ОГх*»р» oroup. 2 г-о 065 «о eervw 88-3 « * «8 9 58-« « Г «8 / Thtwelieel OutnM* Вначале нужно выбрать, какое из теоретических распределений аппроксимирует данные. Так как выбранные семейства вероятностных распределений зависят от параметров, например, среднее и стандартное отклонение для семейства нормальных распределений, то задача состоит в том, чтобы оценить неизвестные параметры по имеющимся наблюдениям.
322 Глава 7. Визуальный анализ категоризованных данных Чтобы оценить аппроксимацию или качество подгонки наблюдаемых данных теоретическим распределением, наблюдаемые значения переменной (х1 < ... < хп) упорядочиваются, строится вариационный ряд, а затем эти значения (лг.) строятся по обратной функции распределения вероятности, обозначенной как F1 (точнее, F~1 (г - rankad/n + п X где F~1 зависит от распределения, a rankad. и nad. задаются пользователем). На графиках проверка согласия проводится визуально. Если наблюдаемые значения попадают на линию регрессии, то можно сделать вывод, что наблюдаемые значения согласуются с выбранным распределением. Уравнение аппроксимирующей линии ( Y=a + их, приводится в заголовке АЧК*-гра- фика) дает оценки параметров {а и 6, где а — параметр положения, Ъ — параметр масштаба) распределения. Категоризованные графики вероятность-вероятность Категоризованные графики вероятность-вероятность (В-В) используются для определения того, насколько хорошо определенное теоретическое распределение аппроксимирует наблюдаемые данные. CaUgonzad ProbabiMy РгоЬаЫПу Plot Ditlnbutwn B«D ош оде аш a»e too om on oao ore «o Th«o*tical cumuUti* fetnbuhon На В-В-графике наблюдаемая эмпирическая функция распределения (доля значений переменной < х) сравнивается с теоретическим (предполагаемым) распределением. Если все точки графика ложатся на прямую с тангенсом угла наклона 1, то можно заключить, что теоретическое распределение хорошо аппроксимирует эмпирическое распределение. Чтобы построить такой график, нужно полностью задать теоретическую функцию распределения. Поэтому параметры распределения должны либо быть заданы пользователем, либо оценены. Категоризованные линейные графики На линейных графиках отдельные точки соединены линиями. Линейные графики предоставляют простой способ визуального представления последовательности большого числа значений (например, уровня цен на бирже за несколько дней).
Категоризованные прямоугольные диаграммы 323 Опция категоризованных линейных графиков — Line Plots используется, если нужно посмотреть эти данные, разбитые группирующей переменной на группы (например, цены при закрытии по понедельникам, вторникам и т. д.) или другими логическими критериями, включая одну или более переменных (например, цены при закрытии только в те дни, когда индекс на двух других биржах и Dow Jones поднялся по сравнению с остальными расценками при закрытии). Short-Term Bank Balances. U S Capital oy Quarter (X11Q Cnart G2) |]*,<^r.tp-.u^44-f:iJ 2nd Quarter | itJt.i-t'P Г... i ». , t-;-,-i-| SiiliiiHHiHi Sii8l2HtiiUtS iH-TA4i;l :ГГ?1**- ....... H+* S8igi2iitil8H8 SliSiiSitiUSsc -o- D l> Hwl И dHwwtw wMn ««r«w— • 01. ttnm SI mum«ncee wMwui м«мпи ■*- 01a. Final hhomI ftlor» В системе STATISTICA можно экспериментировать с различными стилями визуализации категоризованных последовательностей значений, изменяя Тип графика — Graph Type в диалоговом окне Разметка графика — Plot Layout. Методы сглаживания Процедуры сглаживания доступны также и для категоризованных линейных графиков, например, как показано на следующем рисунке: О S Ю 1S » И 30 * 40 45 Ю И «О О S 10 15 » И » Эв 40 45 50 55 «0 Sequential Meawrement Sequential Measurement No Shock Random Shock Категоризованные прямоугольные диаграммы На прямоугольных диаграммах — Box Plots (термин впервые использовал известный статистик Тьюки (Tukey) в 1970 г. — см.: Tukey J.W. A972) Some graphic and semigraphic displays. In7 Statistical Papers in Honor of George W. Snedecor;
324 Глава 7. Визуальный анализ категоризованных данных ed. Т. A. Bancroft, Arnes, I A: Iowa State University Press, p. 293—316) диапазоны значений выбранной переменной (или нескольких переменных) строятся отдельно для групп наблюдений, определенных значениями категоризующих переменных. Положение центра данных (медианы или среднего) и диапазон вокруг него, а также, например, квартили, стандартные ошибки или стандартные отклонения вычисляются для каждой группы наблюдений. На приведенном графике видны выбросы (в данном случае точки, отстоящие больше или меньше, чем в 1,5 раза по отношению в межквартильному диапазону): имвшашдш Categorized Box Plot *l 11 $&&$\ га \у*н Si*4 fijfj i$j? ~1~ NorvOutli«r Мак Non-Outlur Mm CD 75% 25% <> Median о Outliers (*i 5 * Interqu^i-tiie Pang») SAMPLE ID A lo 4) Однако на следующем графике нет очевидного выброса или экстремальных значений. BARLEY HEEDS НО RAIH. Во* Plot (BARLEY STA 7v*9000c) IE NorvOutlur M.n/Mix CZI 75% • M«d.»n 15ШРШШ11AШ{||аа1й;йШ jjlllllllllll MiJiHMiHiHffliH IMiffllSlifflliMIJSil COUNTRY SWEDEN COUNTRY UK. COUNTRY FRANCE virr COUNTRY GERMANY COUNTRY POLAND J= Для прямоугольных диаграмм существует два типа приложений: а) отображение диапазонов значений для отдельных объектов наблюдений (например, обычная минимаксная диаграмма — MIN-MAXplot для акций или товаров, или составные последовательные графики — sequence data plots с диапазонами) и б) отображение изменчивости данных в отдельных группах или примерах (например, диаграммы «ящики и усы» или диаграммы размахов, в которых среднее — это точка внутри «ящика», плюс-минус стандартная ошибка «ящик», а плюс-минус стандартное отклонение от среднего — более узкий «ящик», или, как иногда говорят, пара «усов»). Прямоугольные диаграммы позволяют быстро вычислить и «интуитивно представить» силу связи между группирующей и зависимой переменной. Предполагая, что зависимая переменная распределена нормально, и зная, какая часть наблюдений попадает, например, в ±1 или ±2 стандартных отклонения от среднего, можно легко вычислить результаты эксперимента и сказать, напри-
Связанные графики 325 мер, что около 95% наблюдений в экспериментальной группе 1 принадлежат диапазону, отличному от 95% наблюдений группы 2. Кроме того, можно строить так называемые усеченные средние значения (trimmed means), исключая заданный пользователем процент наблюдений из экстремальных значений. Связанные графики pjjl «Ящики и усы», или диаграммы размаха Этот тип статистических категоризованных графиков по умолчанию помещает «ящик» вокруг центра (то есть среднего или медианы), который представляет собой выделенный диапазон (то есть стандартную ошибку, стандартное отклонение, минимакс или константу), и «усы» снаружи «ящика», которые отображают другой выбранный тип диапазона. ! ; 1 I ', \ 1 О >*% varM SeaM Sy**o*c v«rM SimM Sy**otc X% Mtltt F«m«l«t ■ m<t. Reasoning Ширину «ящика» и засечек «усов», конечно, можно менять. laTffi «Усы», или диаграммы диапазонов В этом типе прямоугольных диаграмм диапазон (то есть внутригрупповая стандартная ошибка, стандартное отклонение, минимакс или константа) представлен «усами» (отрезком прямой с засечками на обоих концах). щшшшшавяшшшиш^шшшшщ Final Results oyGenaer V«rM S«M Sy**o*C V«M S«M Sv**e«C NorvOH» Mn MdM F«m«l«f ■ Г1ЦЩ- Reasoning И «Ящики», или прямоугольники В этом типе прямоугольных диаграмм вокруг средней точки (то есть среднего группы или медианы) помещается «ящик», который представляет выбранный диапа-
326 Глава 7. Визуальный анализ категоризованных данных зон (внутригрупповая стандартная ошибка, стандартное отклонение, минимакс или константа). 11ШШ<И1Ш1П1111ШШ1ШЦ Final Results by Gender i: q: Reasoning (jg| Столбцы В этом виде прямоугольных диаграмм для представления средней точки (среднего группы или медианы) используются вертикальные столбцы. ШШШШП11111Ш111МФ Final Resu«s by Gender 140 г 120 100 80 I E 60 ;..,.t ..... 2 Males 2 3 Ftmaltt НОГ^ОМШШ> Reasoning Можно создавать другие типы прямоугольных диаграмм, изменяя типы зависимостей соответствующих компонент графиков.
Категоризованные круговые диаграммы 327 Верхние и нижние засечки В этом виде прямоугольных диаграмм «засечки» на «усах» не симметричны, а сдвинуты влево, представляя традиционный график «цен на акции». Вож Plol (EXP STA 8v8c) 10 14 10 в 2 i i |...1...т... И! мах BEFORE AFTERJ AFTER_2 BEFORE AFTERJ AFTER.2 OROUP: EXPERIMENTAL GROUP CONTROL TIME Категоризованные круговые диаграммы Круговые диаграммы являются одним из наиболее часто используемых форматов графиков, которые используются для представления пропорций или значений переменных. Market Shares of ACME Stores in Selected Markets Kansas City Major Competitors a - Jones Mart В - Shopping Empire С - Shopping ideas D- East Cost Wares E - Discount Outlet F • Mikes Mall Построенные категоризованные круговые диаграммы всегда будут рассматриваться как частотные —frequency круговые диаграммы (в противоположность круговым диаграммам данных). Этот тип круговых диаграмм иногда называют частотной круговой диаграммой — frequency pie chart. Относительные частоты представлены как секторы круга пропорциональных размеров. Поэтому круговые диаграммы предоставляют альтернативный гистограммам метод визуализации данных.
328 Глава 7. Визуальный анализ категоризованных данных Секторы круга можно пометить числовыми или текстовыми значениями; метки могут включать непосредственные или относительные значения частот. Круговые диаграммы рассеяния Полезным приложением категоризованных круговых диаграмм является представление относительной частоты распределения переменной в каждой точке совместного распределения двух других переменных. Следующий график наверняка удивит вас. шшш * * * т 3 • 3 - а • сз - сз • э « э - n ~ • и 1 ШШШШ7\ ш L1 correlates with L2. and L1*L2 affect the QUALITY [ Ф © Ф • И 2 © © © Ф Ф • 11 J © © © © • © U 4 © Ф © © © © и 1 О ф ф ф © и 1 о о © © © и 7 о 1 О о о о © © о 1 © и • QUALITY: О нюн ф мсошм ф LOW И И • 11 1 Обратите внимание, круги нарисованы только в тех «местах», в которых есть данные. Поэтому приведенный выше график выглядит как диаграмма рассеяния (переменных L1 и L2) с отдельными кругами в качестве указателей точек. Кроме информации, содержащейся в простой диаграмме рассеяния, каждый круг показывает относительное распределение третьей переменной на соответствующем месте (например, Низкое — Low, Среднее — Medium, Высокое качество — High Quality).
Категоризованные трехмерные графики 329 Представленный график служит прекрасным образцом совмещения диаграмм рассеяния и круговых диаграмм. Он также показывает, в каком направлении следует двигаться в визуальном анализе данных, чтобы получить действительно эффективный результат. Категоризованные диаграммы пропущенных данных и диаграммы диапазонов Эти графики позволяют определить шаблон распределения пропущенных данных и заданных пользователем точек, лежащих «вне диапазона», для каждой категории наблюдений. Mawngor Rang» Ml «tat ГМХЧ.СТ STA 101v*10Oc) См Я Сам Л Сам 91 Сам 01 Сам»1 Сам 01 • ' \ о 0 о " fc, °<.о т оо в 1. —s—в ' «У МШШП iiMiiififf Н?ШШ! САТЮОЯТ О НШШ1! iiffiifiif siifififii САТ1О0ЯТ Э CATI90*V в Подобные графики используются в разведочном анализе для того, чтобы определить протяженность и «выход из диапазона» данных. В большинстве процедур пропущенные данные удаляются, используя попарное или построчное удаление пропущенных данных или подстановку среднего значения вместо пропуска. Категоризованные трехмерные графики К этому типу относятся трехмерные диаграммы рассеяния (пространственные графики, спектральные графики, диаграммы отклонения и трассировочные графики), диаграммы линий уровня и графики поверхности для наборов случаев, заданных определенными группами выбранной переменной или группами, определенными заданными пользователем условиями выбора случая (наборы можно определить с помощью логических выражений, использующих любые переменные текущего набора данных). Информация, представленная на этом графике, в точности та же, что и на нека- тегоризованной трехмерной диаграмме рассеяния, или диаграмме линий уровня, или графике поверхности, за исключением того, что для каждой заданной пользователем группы наблюдений строится один график.
330 Глава 7. Визуальный анализ категоризованных данных Основное назначение данного графика — облегчить сравнение групп или категорий независимо от соотношений между тремя или более переменными. |ХAИ1) Ftbnc Strength 1 I Y (nyhl) Fabric Strength 2 |Z (vertical) Cruth Rt«nl»nct j Hign Low В основном трехмерные XYZ графики обобщают соотношения между тремя переменными. Различные способы, которыми могут быть категоризованы данные, позволяют посмотреть состав этих соотношений с помощью какого-либо другого критерия (например, групповой принадлежности). _ИН^ННН Щ7Щ 1 Ooiythe TOLIHAWCI <-J matter* (TSTA277V29000C) ш TOlXftANCI «*M«C ИХ ш ТОИЛАИС1 ЯАММ ТОИЛЛМС1 MAN»! Г* 1в| ш ТОС1ЯАМС1 ПАИ»! О 3| т ТОСЯНАИС! ЯАМ«4 •VUI т TOCMANCI HANOI ре 1*1 ш TOlf (UNCI ЯАМ41 ш TOHftAMCf MAM«f ш TOUIUNCI KAN > 1* I 1 ни Заметьте, что эффект более заметен, если переключиться на режим отображения линий уровня.
Категоризованные тернарные графики 331 ГГАПУПСА: B»tk toMci w»4 Tttta» _Ш1 т. САТЮСАСДС «^ ш< 'У >:U, CAT1Q8UWCSG Щ <Л CAT1MUW.CSG £*] J. jlL . It CAT10SP€C«C CAnotuacsc «]1 ^? ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ шштл \ Щ Н '14 -Ь С S Й #• & С в- й V>*^- V*^£- V^.^5- V1? Категоризованные тернарные графики Категоризованные тернарные графики можно использовать для исследования соотношений между компонентами смеси, сумма значений которых равна константе, для каждого уровня группирующей переменной. AAA шШ. В *гя 5 S« ■В чи ■В Лот пмгстдт »• с т»шггь4виг^2тгг*иг.-^а*;;4П^чТ7Ч-шЧ; to^wat if с ^•mr.4»rr«j»«4i»4>.>««ir«-n«rrl^4ar«vi TEMWRATWC *-01»11МK4Гуо1МТ1 H14V1 IWVMinYMIMVy» TEMPSRAT ?4*C *»010J*»0 40J>00ir*»0 33lW1 J6?Vfl ?MVr3?W*Yz T6MPERAT WC *»0 02T»-0OMV0Jrr>-0 5inrVO2?ev*Of5Vl-1 **Y* TEMPf RAT JTC*0 11Г*.0О51 V0 JT4«M <*4**V011 ГУМ OfРуЧ-О 1 MiryT
332 Глава 7. Визуальный анализ категоризованных данных На тернарных графиках для построения четырех (или более) переменных (компоненты Х} Y и Z, отклики V1, V2 и т. д.) в двух (тернарные диаграммы рассеяния или линии уровня) или трех измерениях (тернарные графики поверхности) используются треугольные системы координат. В-категоризованных тернарных графиках для каждого уровня группирующей переменной (или заданного пользователем набора данных) строится один составной график, и все составные графики отображаются на одном экране, чтобы можно было производить сравнения наборов данных (групп). Типичным приложением этих графиков является эксперимент с результатами, зависящими от относительных пропорций компонентов, входящих, например, в состав нового лекарства, моющего вещества или духов, которые варьируются с целью определения оптимального состава. Этот тип графиков также можно использовать в случаях, когда соотношения между связанными переменными нужно сравнить внутри групп данных.
8 Пиктографики На статистических пиктографиках наблюдения или отдельные испытания представлены в виде символов со многими элементами. 4 ***** £ т ъ- т ивг»п Ifin Выбор*» по округам i*i[7|*!!*i 1*- 1«п» "*"■ °л*»п Oar* AtV>% &»!•* Mud* ••гтоьг Arelw ёмин* t*r*or *>: ■№ 3 Условные обозначения (ПОЧвСОвОЙ ПР#П1в) Потребление Розничная продаж* Домашнее юэяйстде Занятость пресулиость Обраэоааиие налоги Стоимость недвижимости Кечестао жизни □ Сильный рост ■'.'.'; Умеренный рост или мат роста Основная идея использования пиктографиков состоит в представлении отдельных наблюдений в виде некоторых графических объектов, где значения переменных соответствуют определенным свойствам или размерам этих объектов (как правило, одно наблюдение равно одиному объекту). Это соответствие таково, что внешний вид объекта изменяется в зависимости от набора значений. Даииыа ICONS STABOn* 30м Условные обозначения (почвеоаойстрелм) Потребление Домашнее хоэяйстао Занятость Преступность Образование налоги Стоимость недвижимости Качество жмзни Таким образом, появляется возможность однозначно «идентифицировать» объекты по набору значений. Изучение таких пиктограмм помогает обнаружить специфические наборы простых соотношений и взаимосвязей между переменными. Анализ пиктографиков В идеальном случае анализ пиктографиков осуществляется в пять этапов. 1) Определяется порядок анализируемых переменных. Очень часто наилучшим решением является случайная последовательность. Можно также попробовать ввести переменные в порядке их расположения в уравнении множественной регрессии в зависимости от величины их факторньйс нагрузок на интерпретируемый коэффициент или использовать аналогичные многомерные методы. Это иногда позволяет упростить и сделать «однородным» общий вид пиктограмм, чтобы облегчить задачу распознавания не слишком
334 Глава 8. Пиктографики отличающихся друг от друга картинок. В то же время, использование таких методов может усложнить задачу поиска некоторых взаимозависимостей. На этом этапе невозможно дать никаких универсальных рекомендаций, кроме совета попробовать самый быстрый метод (случайный выбор порядка) до того, как применять более сложные методы. 2) Проводится поиск любых возможных закономерностей, таких как сходство между группами пиктограмм, выбросы или специфические соотношения между элементами пиктограмм (например, «если на пиктограмме звезды первые два луча длинны, то один или два луча с другой стороны пиктограммы обычно коротки»). На этом этапе рекомендуется использовать пиктографики кругового типа. 3) Обнаруженные закономерности описываются в терминах используемых переменных. 4) Для проверки найденной структуры соотношений переменные сопоставляются с другими элементами пиктограмм. Например, можно попытаться переместить связанные элементы пиктограммы ближе друг к другу, чтобы упростить дальнейшее сравнение. В некоторых случаях в конце этого этапа рекомендуется исключить из рассмотрения переменные, не вносящие заметного вклада в исследуемую структуру. 5) Для проверки и количественной оценки обнаруженной зависимости или хотя бы некоторых ее параметров используется, например, регрессионный анализ, нелинейное оценивание, дискриминантный или кластерный анализ. Классификация пиктографиков Большинство пиктографиков можно отнести к одному из двух типов: круговому или последовательному. Круговые пиктограммы Круговые пиктографики {звезды, лучи, многоугольники) имеют форму «велосипедного колеса», где значения переменных изображаются в виде расстояний между центром («втулкой») пиктограммы и ее углами. Такие пиктограммы полезны при поиске взаимозависимостей между переменными, поскольку они хорошо отличаются и идентифицируются по внешнему виду, который в свою очередь определяется конфигурацией значений изучаемых переменных. Сродни* J АЛЛ» ; * St Maarten : * St Lucia Пучши* Карибски* остром >нач«мия по 6 порммтрам (по чкоаоА стреле) *V«-I 2ф: St Johns Jamaica Martinique St юоэ Barbae» ^ ^ 1 St Croot С ос ото j
Классификация пиктографиков 335 Чтобы перевести эти «приблизительные соответствия» на язык конкретной модели (в терминах соотношений между переменными) или чтобы проверить конкретные предположения, полезно переключиться на один из последовательных пиктографиков, использование которых может оказаться более эффективным в том случае, когда уже известно, что нужно искать. Последовательные пиктограммы На последовательных пиктографиках {столбцы, профили, линейные графики) отдельные пиктограммы представляют собой небольшие последовательные графики (разных типов). ГИППЧНТЯПР tlllMiT*¥IIMlC Среди Агиоа ill St Maarten L_L St Lucia шяшшшшшатттятттш^шшшшш HiiM» iliilllMllihMMiiliBUSMBW Лучшие Карибе*)* остро»* *e значения по 6 napautTpMi (no часом (Столбцы) it. 1 . i Г St jonns St Kins If! 1 Jl 1 Jamaica St Croix L i Martinique Л стрелке) Barbados II. Cocomo 1 Значения следующих друг за другом переменных отображаются на этих графиках расстоянием между основанием пиктограммы и последовательно идущими точками последовательности (например, высоты столбцов на показанном выше рисунке). Такие графики могут быть не столь эффективными на начальном этапе анализа, поскольку пиктограммы могут не слишком отличаться друг от друга.Тем не менее, как было указано выше, они могут пригодиться для проверки определенной гипотезы или для описания модели в терминах соотношений между конкретными переменными. Круговые диаграммы Пиктографики в виде круговых диаграмм занимают промежуточное место между пиктографиками двух упомянутых выше типов; все пиктограммы имеют одинаковую форму (круг) и разделены на последовательно идущие друг за другом части в соответствии со значениями переменных, следующих друг за другом. гяшчвпгплмя iHlllliWlUMm Ср#дми« лЬ (9 Ааюа St Maarten . \9 St Lucia Лучшие Карибски* остро* а значения по 6 параметрам (по часовой стрелка) I (Круговые диаграммы) -f-V ifaa. • St Jonns (J Jamaica Martinique St К1П5 St Cro« /Ш \ W i Bamaaos j Cocomo
336 Глава 8. Пиктографики Несмотря на их форму, с точки зрения функционального использования, такие пиктографики скорее можно отнести к разряду последовательных. «Лица Чернова» Этот тип пиктограмм образует отдельную категорию. Разные наблюдения здесь схематично представлены в виде лиц. При этом выбранные переменные соответствуют конкретным элементам (чертам) лица. В силу уникальных свойств таких диаграмм некоторые исследователи рассматривают их в качестве основного многомерного метода исследований, способного выявить скрытые взаимосвязи между переменными, которые невозможно было бы отыскать, применяя любой другой метод. Это утверждение, однако, очень похоже на преувеличение. пшшшшшшшшшшшшшшшшшшшщ Лучшие Карибские острова | Средние значения по 6 параметрам (по часовой стрелке) I (Лица Мерное.) : ф <ф Ф ф \ Агиоа St Johns St Kitts Barbados I St Maarten Jamaica St Crow Cocomo j : <& ® St Lucia Martinique I Заметим, что метод «Лиц Чернова» довольно сложен, а его использование требует проведения большого числа экспериментов по сопоставлению черт лица с исходными данными. Пиктографики применяются, как правило, в двух случаях: 1) когда нужно выявить характерные зависимости или группы наблюдений и 2) когда необходимо исследовать предположительно сложные взаимосвязи между несколькими переменными. В первом случае пиктографики используются для классификации наблюдений аналогично кластерному анализу. Предположим, было проведено анкетирование артистов с целью изучения их личных качеств. Пиктографики помогут определить, существуют ли естественные группы артистов, отличающиеся определенными закономерностями полученных баллов за ответы на различные вопросы. Например, может оказаться, что некоторые артисты — чрезвычайно творческие личности, при этом они недисциплинированны и независимы, в то время как представители второй группы хорошо образованны, дисциплинированны и уделяют большое внимание успеху у публики. Второй тип применений — исследование связей между несколькими переменными — больше напоминает факторный анализ, то есть его можно использовать при исследовании вопроса о зависимости переменных. Предположим, изучалось мнение группы людей о различных марках автомобилей. Несколько человек заполнили детальные анкеты, оценивая различные свойства различных автомобилей. В файле данных записаны средние оценки по каждому из свойств (рассматриваемых как переменные) для каждого из автомобилей (рассматриваемых как наблюдения).
Классификация пиктографиков 337 При изучении «Лиц Чернова» (где каждое лицо представляет мнение об одном из автомобилей) может оказаться, что улыбающиеся лица обычно имеют большие уши, при этом если цене соответствует «величина» улыбки, а динамическим качествам — размер ушей, это «открытие» означает, что быстрые машины дороги. Разумеется, это очень простой пример, однако при анализе реальных данных применение этого метода может сделать более очевидными сложные взаимосвязи между переменными. «Лица Чернова» На данном типе диаграмм для каждого наблюдения рисуется отдельное «лицо». Значениям выбранных переменных ставятся в соответствие форма и размеры конкретных черт лица (например, длина носа, угол наклона бровей, ширина лица). Iilll" ' 1111 НИ" I1 шшяяяшшяшшяша Лица Чернова Acura Audi BMW Buick Corvette Chrvsler Dodge Ф ® § ® ® ® § Eagle Ford Honda Isuzu Mazda Mercedes Mltsub i ® Nissan § Olds § Pontiac # Porsche Ф Saab § Toyota § wv Звезды График с пиктограммами в виде звезд — это пиктографик кругового типа. На таких графиках для каждого наблюдения рисуется отдельная пиктограмма в виде звезды, при этом относительные значения выбранных переменных для каждого наблюдения представляются длинами соответствующих лучей (порядок следования которых зафиксирован: по часовой стрелке начиная от луча, направленного вертикально вверх). Концы лучей соединяются линиями. ''■""""""Ill ; ^27 Acura Dodge Mercedes Saao Звезды Audi Eagle 2а MltSUO Toyota BMW л Ford Nissan VW Buick Е7 Honda Olds VOrVO A Corvette ^7 isuzu Pontiac 23 Chrysler Mazda A Porscne
338 Глава 8. Пиктографики Лучи График с пиктограммами в виде лучей — это пиктографик кругового типа. На нем для каждого наблюдения рисуется отдельная пиктограмма, напоминающая солнце, при этом все лучи имеют одинаковую длину и каждый из них представляет одну из выбранных переменных (порядок следования которых зафиксирован: по часовой стрелке, начиная от луча, направленного вертикально вверх). Точки на лучах, определяемые относительными значениями соответствующих переменных, соединяются ломаной линией. inn mm 11 иншаавд—— Лучи Acura i * Dodge ] тк Mercedes * Saab Audi •к Eagle -к MltSUO -b Toyota BMW * Ford Ж Nissan -k vw Buick * Honda ^r Olds * votvo ~k Corvette -k isuzu -h Pontiac Chrysler ~h Mazaa -k Porsche [ Многоугольники График с пиктограммами в виде многоугольников — это пиктографик кругового типа. Здесь для каждого наблюдения рисуется пиктограмма в виде многоугольника. Относительные значения выбранных переменных для каждого наблюдения представлены расстояниями, отсчитываемыми от центра диаграммы до последовательно идущих вершин многоугольника (по часовой стрелке, начиная с направления вертикально вверх). ■ Jolxll Многоугольники Corvette Chrysler Oodge Eagle Toyota Круговые диаграммы Графики с пиктограммами в виде круговых диаграмм — это пиктографики кругового типа (см. предыдущий раздел). Значения переменных для каждого наблюдения изображаются в виде секторов (по часовой стрелке, начиная с направления вертикально вверх). При этом относительные значения выбранных переменных определяют углы раствора соответствующих секторов.
Классификация пиктографиков 339 i лит шишшши.шши Ualsfl Круговые диафаммы Acura Audi BMW Buick Corvette Chrysler # • • Ф Ф Ф Isuzu Ф Nissan Olds ф Dodge Eagle Ford Honda Isuzu Mazda Mercedes Mitsuo Nissan Olds Pontiac Porsche Saao Toyota WV Volvo м% Столбцы График с пиктограммами в виде столбцов — это пиктографик последовательного типа. Для каждого наблюдения рисуется отдельный график; относительные значения выбранных переменных соответствуют высотам последовательных столбцов. iiir и и,' 11^,и1дди—^—нежа Столбцы I -8I1B allL ailla ll8eO.lL ilia Acura Audi BMW Buick Corvette Chrysler ] ilia 1 L „ll .Ills ll EJll Dodge ! illia Eagle Ford .lis ills Honda isuzu Mazda ] .IIS illJ ill Mercedes Mrtsub Nissan Olds Pontiac Porsche ] Nllln-IlL iIIsJIIb Saab Toyota wv Volvo i Линии Графики с пиктограммами в виде линий являются пиктографиками последовательного типа. l-IDixij Mercedes Mitsuo Nissan Olds Pontiac Porsche Saab Toyota WV Volvo
340 Глава 8. Пиктографики Для каждого наблюдения рисуется отдельная ломаная линия; при этом относительные значения выбранных переменных для каждого наблюдения соответствуют высотам последовательных точек излома. *£* Профили Графики с пиктограммами в виде профилей — это пиктографики последовательного типа (см. предыдущий раздел). Для каждого наблюдения рисуется отдельный график. Относительные значения выбранных переменных соответствуют высотам последовательных пиков сечения, ограниченного снизу базовой линией. I in in iii пни w \шшяшшшшашшшв\ Профили I Acura Audi BMW Buick Corvette Cnrysier
9 Примеры визуального анализа и настройки графиков в STATISTICA Пример 1. Настройка двумерных и трехмерных графиков В данном примере описываются способы настройки графиков в системе STATISTICA с использованием диалоговых окон Общая разметка и Размещение графика. Настройка двумерных графиков В примере использован файл Poverty.sta из набора примеров, поставляемых с системой STATISTICA, в котором содержатся сравнительные данные результатов переписи 1960 году по 30 случайно выбранным округам США. В качестве названий элементов введены названия округов. Ниже показана часть файла. POVERTY STA8n» ЗОн (Predictors of poverty ■^■^^^Н ■№ "-' '2. •:'':-::;^v vk • -^ -*r ■■'.. •'•'••:-Л'::::- ХШШ'Ф. •■ 7- HI3E3 *$• •.".'••;*.. .*:£№*» -1 Cannon Carrot Cnftttheeflt Cumber** DiK«to Dytr ОЫоп . Or**** HiwKnft" Htywowf Htray . -.8 9.6 40.0 8.4 3.5 3.0 7.1 13.0 10.7 -16.2 6.6 LLL 400 710 1610 500 640 920 1890 3040 2730 1850 2920 1070 19.0 26,2 18.1 15.4 29.0 21.6 21.9 18.9 21.1 23.8 40.5 21.6 1,09 1.01 ,40 .93 .92 .59 .63 .49 .71 .93 .51 .80 82 66 80 . „ „ . 65 64 82 85 78 74 75. 100 70. '. !1 °° 74 73. 52. 50. 71. 71. 64. 58. 33,5. 32.8 33.4:' 27,8 27,9 33,2^ 30.8 32.4 29.2 28.7 25.1 35.9 360 193 3080 592 2 230 3978 9816 1137 992 10723 .J 3129^1 Предположим, что необходимо построить график, отражающий информацию о количестве семей, живущих ниже уровня бедности (PtJPoor), о количестве жителей, имеющих телефоны (Pt_Phone), и о количестве сельского населения (Pt_Rural). Для начала построим несколько линейных графиков.
342 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Построение нескольких линейных графиков по умолчанию В любом из модулей системы STATISTICA откройте файл Poverty.sta. Затем с помощью кнопки Галерея графиков Q (или из основного меню Графика) выберите пункт Статистические 2М графики — Линейные графики (для переменных). ДО Стат. ЭМ посяодовате f££ Стат. XYZ графики I Стат. матричные графики |ф£Стат. пиктографией |Ц£ Стат. катетеризованные графики графики | lei* £3 Пястые графические окна IQD Гистограммы 1[^] Диаграммы ра Qjj Диагр. рассеяния с гистограммами 01 Диагр. рассеяния с диагр. размаха ЕыЗ Нормальные вероятностные графики JL••';■ I Графики кваитияь-кваитияь 11 I Графики вероятность вероятность |0?Э Диаграммы диапазонов О Диаграммы размена JQ Столбчатые Уди ШВШшШШ itjff] Линейные графики (профили неб вид.)* Посведоватеяы ££ Кряговые диаграммы |Г**1 Диагр. пропящ. знач. i :&{$#&& Появится диалоговое окно 2М линейные графики. Затем нажмите кнопку Переменные и выберите три переменные для построения зависимостей PtJPoor, Pt_Phone и Pt_Rural (чтобы выбирать переменные в произвольном порядке, при нажатии на имя переменной удерживайте нажатой клавишу CTRL). В поле Тип графика приведен список доступных для построения линейных графиков. По умолчанию выбирается первая строка списка (простой линейный график одной переменной). Если в данный момент нажать ОК, то для каждой из переменных будет построен один график, то есть три отдельных графика последовательно, один за другим после нажатия кнопки Еще в графическом окне.
Пример 1. Настройка двухмерных и трехмерных графиков 343 «fiilHljipjpiuf Так как цель данного примера — воспроизвести все три зависимости на одном графике, в диалоговом окне 2Млинейные графики необходимо выбрать строку Составной. Тогда диалоговое окно 2Млинейные графики будет выглядеть следующим образом: HJ.I'IMIflllW ЕШ fi* ¥§^й^Чъ '^—l Для вывода установленного по умолчанию графика нажмите (Ж itiiwrnan; 110 90 70 50 30 10 -10 1-lolxi Линайный график (POVERTY 8TA 8V30C) I ' ' t ' ' I 1 ■ .PHONE 1 • •■ PT_RURAL I
344 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Удаление кнопок Еще и Выход Если продолжить работу с данным конкретным графиком, может возникнуть необходимость убрать кнопки Еще и Вых. из левого верхнего угла графического окна. Для этого нужно нажать на кнопку Вых. (после нажатия кнопки Еще вновь появится диалоговое окно 2Млинейные графики). Изменение размеров (пропорций) графического окна Показанный выше график имеет размеры, установленные по умолчанию. При изменении размеров графического окна оно по умолчанию сохраняет свои пропорции, то есть вертикальные и горизонтальные размеры меняются одновременно. Этот режим (установленный по умолчанию) действует до тех пор, пока нажата кнопка |Ш Фиксировать пропорции. Если нажать кнопку Изменить пропорции |Ц то так называемый коэффициент разрешения может быть изменен — например, графическое окно можно сделать квадратным: HESHEEZaSZ Линейный график (POVERTY STA 8V30c) 110 <■■■■■■■■■■■■■ M - r О i « »» n ' i i e « V*-\ j ♦•'to -6^.- ■/*** • •,...©•* fl DO " ♦ О ° fl PT_P00R PT.PHONE PT RURAL Отметим, что установки по умолчанию для пропорций графического окна могут быть изменены в диалоговом окне Отображение графика (оно вызывается из выпадающего меню Вид). Прерывание построения графика Программа автоматически перерисовывает график, чтобы отобразить на нем изменения, внесенные вами. Для сложных графиков с несколькими зависимостями процесс перерисовывания занимает определенное время. Рисование графика можно прервать, щелкнув левой клавишей мыши где-либо на экране. Программа закончит рисование текущего элемента, затем песочные часы исчезнут и полный контроль над настройкой всех параметров будет возвращен пользователю. Как правило, в этом случае график оказывается незаконченным. Завершить процесс перерисовывания можно, слегка изменив размеры графического окна или сделав любые другие изменения, требующие перерисовывания графика.
Пример 1. Настройка двухмерных и трехмерных графиков 345 Просмотр данных Нажмите кнопку Qj на панели инструментов, чтобы вызвать Редактор данных графика. Это можно сделать и другими способами, например: 1) выбрав команду Редактировать данные из выпадающего меню Разметки или 2) щелкнув правой кнопкой мыши где-либо на фоновой поверхности графика, на каком-либо условном обозначении или на одной из линий, а затем выбрав строку контекстного меню Редактировать данные графика. Напомним, что на двумерных графиках каждая зависимость (в данном случае линия) представлена парой столбцов X и У. Каждая пара Х-У соответствует точке на графике. В этом редакторе можно изменять данные, удалять точки, добавлять строки или новые зависимости; все сделанные изменения будут отражены на графике после того, как будет нажата кнопка Перерисовать или кнопка Выйти+пере- рисовать на панели инструментов. Кроме того, в меню имеется много возможностей для изменения представления чисел в Редакторе данных графика. К примеру,
346 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA нажмите кнопку Ширина столбца [ ширины. ), чтобы вызвать диалоговое окно Настройка Введите число 3 в поле Десятичные разряды и нажмите ОК. n»*i*b* гр#»** (POVERTY STA 8v30c) Щ?5Щ^ M^L C*vw СтЫ CHmumi* Owbwiend 0«* to* ** Siwon йтю H»*k* . Нщыьой 2.000 1 3,000 4,000 5,000 6,000 7,000 6,000 9,000 10,000 11.000 12.000 ] hLL... iiiiL .J9.000 26,200 18.100 15,400 29,000 21.600 21,900 18.900 21,100 23,800 40.500 21,600 Ш ■' W_PH0«- . tK.^>> 1,000 2,000 3,000 4,000 5,000 6,000 7,000 8.000 9,000 10,000 11.000 12,000 „Л,^, 82,000 66,000 90,000 74,000 65,000 64,000 82.000 85.000 78,000 74.000 69,000 85,000 Jfc rum* .tbiMkfifoi 1.000 2.000 3.000 4,000 5.000 6.000 7.000 8.000 9.000 10,000 11.000 12.000 ■%. 74,800 ioo.ooo 69.700 100,000 74,000 73.100 52.300 49.600 71,200 70,600 64,200 58,300 Теперь все данные в редактируемой таблице имеют три десятичных знака. Можно изменить также шрифт и размер шрифта (используйте меню Сервис — Экран). Для продолжения работы с графиком щелкните в любом месте графического окна, чтобы вынести его на передний план (сделать активным), или закройте Редактор данных графика. Основные соглашения по настройке графиков Средства настройки графиков доступны из выпадающих меню Правка и Разметки, а также с клавиатуры (кроме того, они могут быть записаны в виде макрокоманд и/или поставлены в соответствие кнопкам на панели инструментов Кнопки автозадач). Кроме того, есть способы быстрого изменения элементов графика, не требующие выполнения большого количества действий (нажатия кнопок мыши, выбора меню и т. д.). Существуют два основных правила редактирования графиков. О Для выбора конкретного способа настройки объекта (или элемента графика) щелкните правой кнопкой мыши на этом объекте и выберите тип настройки из контекстного меню. О Чтобы получить доступ к наиболее общим (установленным по умолчанию) способам настройки объекта (или элемента графика), дважды щелкните по объекту. Например, чтобы изменить тип линии, дважды щелкните на соответствующей линии; для изменения заголовка дважды щелкните по заголовку; чтобы изменить
Пример 1. Настройка двухмерных и трехмерных графиков 347 масштаб, дважды щелкните по оси; чтобы изменить линии направляющей сетки, сделайте двойной щелчок по линиям, и т. п. Изменение заголовков Для редактирования заголовка сделайте двойной щелчок мышью в его зоне. шшшшшшшшшшшшшшшшшшшшшшшшшшжшщ Как видно из диалогового окна Правка заголовков, всего можно ввести 11 заголовков: 5 верхних и по 2 для каждой из остальных осей. Каждый заголовок может иметь собственный шрифт и размер, а также, как показано в последующих примерах, может включать символы форматирования для записи индексов, степеней, условных обозначений, уравнений аппроксимирующих функций и т. д. Эти символы легко вставляются со встроенной панели инструментов Формат. Возможен и другой способ: сделав двойной щелчок на фоновой поверхности окна, можно вызвать диалоговое окно Общая разметка 2М графиков, в котором тоже есть режим редактирования заголовков. После ввода заголовка нажмите ОК, чтобы перерисовать график. Например, для следующего графического окна были введены две строки заголовков.
348 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA ыглцнии'иц Линейный график трех демографических показателей для 30 выбранных округов 110 90 70 50 30 d ■ Дх1 -о- PT.POOR •■о- РТ PHONE о РТ RURAL Диалоговое окно Размещение 2М графика Как видно из графика, процентные данные, отражающие долю «бедных» потребителей, расположены в основном ниже значений для переменных Pt_Phone и Pt_Rural Для каждой из зависимостей масштаб может быть подобран отдельно и указан на левой или правой оси У. Можно добиться «лучшего представления» переменной Pt^Poor, если установить для нее отдельный масштаб вдоль правой оси У, включив при этом автоматический режим оптимального масштабирования. Основные параметры отдельных зависимостей (в данном случае линейных графиков) задаются в диалоговом окне Размещение графика, причем для каждой из них открывается отдельное окно. Чтобы вызвать его для переменной PtJPoor, щелкните правой кнопкой мыши где-либо несоответствующей линии (или на условном обозначении этой зависимости). слов j Линейный график трех демографических показателей | дпя 30 выбранных округов | 110 | ......... . Р-, ,■,.,,.,,,,,;, 90 70 ' 50 j \ 30 i \ \ 10 \ -10 i * * в Ъ-о с о < Затем выберите строку контекстного меню Изменить размещение зависимое- гпи(ей).
Пример 1. Настройка двухмерных и трехмерных графиков 349 дошр, дел. обозначения - \ |PT_POOR ITTxl! 1..,_..,„. г £ft ■**** уЁ£ Ступенчатый график |Ц|1 Мииимакс диагр. по X ]■£ Мииимакс. диагр. по Y ill»* Стодбч диагр. поХ ]|а* Стодбч. дмагр. по два оси Y. IJ3 Стодбч. диагр. по пр. оси Y |РТ Стодбч. диагр сееркч JV* Стодбч. диагр. отклонения ■ •ид диаграммы :«СТ«Л*ЩЫ , ;Н-:Я1М11;;^.'- " : Г ПрДМОГОДЫДЖЫ |отрв»ки |; ; аШпс - - -<■• - *t# - * * доверительный интервал <* Вмжд. Построение графика, масштабированного вдоль правой оси Y Практически в центре появившегося диалогового окна находится поле, обозначенное как Ось Y. Состояние переключателей этого поля определяет, относительно какой из осей Убудет построен график. Пометьте поле Справа, чтобы график переменной Pt__Poor масштабировался вдоль правой оси Y. Изменение фиксированных условных обозначений В левом верхнем углу диалогового окна находится поле Фиксир. усл. обозначения. Тест в этом поле определяет обозначение данной зависимости на графике. Далее в этом примере это условное обозначение будет преобразовано в пользовательский текст, который может быть помещен в любую область графического окна. Пока же заменим имеющееся обозначение более информативным (например, Процент), а затем во второй строке условного обозначения запишем бедные семьи G7). (П) добавлено, чтобы показать, что этот график относится к правой оси Y. Это добавление будет сделано автоматически, если в момент создания графика установить параметр С двойн. осью Y. ГгТх1| £ИШМ» УСЛ. ОБОЗНАЧЕНИЯ ™ ШАБЛОНЫ ПОДГОНКА ! Процент |П) А» 1 th.' 1т т Тоэдм '• Дчиим Обдаете 1 il Tt*ig>i»H»at ЬУ, Диаграмма рассеяния 1,,-Ml J.H.UJMI — Й"* Ступенчатый гравии [fit Мииммакс. диагр. по X Мииммакс. диагр. по Y III! Стодбч. диагр. по X fcj» Стодбч. диагр. по два. оси Y_J J3 Стодбч. диагр. по пр. оси Y f^f Стодбч. диагр. сверх* •в** Стодбч. диагр. отклонения «| ■ ■■1Г:.йг9*9т. ;. \<i$: < С. ПрД1 мегояы—ш ВИД ДИАГРАММЫ Штреэки Л_ ' Тишид^ттштолшЛ f Отмене ■абдви Л:.*** И, ОСЬУ П|>»и<дудад<< | Сдадаатая » *fl Метки < аядаюс С*р« ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ Г'кА 'I
350 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Для того чтобы изменить обозначения других зависимостей, для каждой из них также необходимо вызвать диалоговое окно Размещение 2М графика. Например, чтобы вызвать диалоговое окно Размещение 2М графика для второй переменной (Pt_Phone), нажмите на кнопку Следуюгцая » (в правом верхнем углу диалогового окна). Теперь введите другое Фиксир. усл. обозначение и сделайте то же самое для следующей зависимости. Закончив изменения, нажмите ОКи вернитесь к графическому окну. шшливЕшггшшшшшшшшшшшшшшшшшшшшшшз. Процент бедных семей (П) Процент семей с телефоном Процент сельских семей Изменение обозначений осей Как и было задумано, на графике произошло два изменения. Во-первых, длинные условные обозначения стали более информативными и, во-вторых, график «процента бедных семей» стал более растянутым вдоль оси Y. Поскольку эта зависимость построена теперь вдоль правой оси У, то на этой оси должны быть и соответствующие обозначения. Если сделать двойной щелчок на правой оси У, то появится диалоговое окно Параметры оси: Y правая. Линейный график трех демографических показателей для 30 выбранных округов
Пример 1. Настройка двухмерных и трехмерных графиков 351 Для каждой из осей можно вызвать подобное диалоговое окно (чтобы перейти к следующей или предыдущей оси, используйте поле Ось в верхней части этого окна). Чтобы включить поле Значения на оси для правой оси У, надо нажать переключатель Числовые. Обратите внимание, что значение параметра Мин., которое выбирается автоматически {Разметка оси: Авто), равно 10. Таким образом, координата У пересечения с осью X соответствует не 0, а 10 процентам. Очень часто необходимо показать, что позиция, интуитивно принимаемая за ноль, вовсе не соответствует нулевой отметке на графике. Это можно сделать, введя «разрыв шкалы» на данной оси. Разрыв шкалы по оси X на графике будет выглядеть следующим образом: L„ I I I I |_ 500 600 700 Чтобы ввести разрыв шкалы для правой оси У, поставьте галочку в соответствующем поле (в нижнем левом углу диалогового окна), при этом установленное по умолчанию положение места разрыва шкалы оставьте неизменным. Теперь установите режим разметки оси Ручная/0, а значения параметров Макс, Шаг и Мин. сделайте равными соответственно 45, 5 и 11 (ввод значения 11 для параметра Мин. приведет к тому, что минимальное значение не будет показано, потому что оно находится за местом разрыва). Нажмите ОК, чтобы увидеть изменения на графике. Теперь введенный на графике разрыв шкалы «предупреждает» наблюдателя о том, что начальная точка правой оси Уне соответствует нулю процентов. Масштабирование осей Выбор масштаба по левой оси У тоже не является оптимальным, в данном конкретном случае минимум шкалы соответствует значению -10. Так как на графике представлены значения в процентах, то ноль был бы более подходящим значением
352 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA для минимума. Сделав двойной щелчок на левой оси У, вызовем диалоговое окно Параметры оси: Yлевая. Предусмотрено несколько режимов разметки оси: Авто, Авто/0, Ручная и Ручная/О. Если выбрана разметка Лето, то программа сама выбирает минимальный и максимальный отчеты на шкале так, чтобы все точки на графике были видны. Если выбрать режим Ручная, то параметры Макс, Шаг и Мин. будут определяться пользователем. Режим масштабирования с привязкой к нулю (/0) Режим разметки /0 определяет, где расположена «привязка» относительной шкалы. Объясним это на коротком примере. Предположим, вручную установлены следующие параметры шкалы: минимум — 3, шаг — 5 и максимум — 25. Если для этой оси применить ручную разметку, то метки и риски будут расположены соответственно в точках 3, 3+5=5, 3+5+5= 13,18 и 23. Как правило, желательно иметь «четкую привязку» меток шкалы к нулю. Если включить режим Ручная/О, то метки и риски на оси окажутся на позициях 0+5=5, 0+5+5= 10,15,20,25 и т. д. Заметим, что режимы Ручная с параметром Мин., равным 0, и Ручная/0 {Manual/0) эквивалентны. Для рассматриваемого в примере графика наиболее подходящий разметкой (так как все значения представлены в процентах) будет следующая: Ручная/0 со значением параметра Мин., равным 0, с параметром Шаг, равным 10, и параметром Макс, равным 109. Установите эти значения и нажмите ОК, чтобы увидеть изменения на графике.
Пример 1. Настройка двухмерных и трехмерных графиков 353 ШЕПЕЯЖПЕ Линейный график трех демографических показателей для 30 выбранных округов с с ртэио jr, с а» его >с </> с с а> > fopScTRftLoccofco^ooub о 2 Процент бедных семей (П) Процент семей с телефоном Процент сельских семей Перемещение условных обозначений Введенные нами условные обозначения оставляют на графике много свободного места. В системе STATISTIC А условные обозначения могут быть как фиксированными (закрепленными, как в настоящий момент на данном графике), так и преобразованными в пользовательский текст, который можно перемещать, редактировать, как и другие графические объекты. Щелкните правой кнопкой мыши на условных обозначениях и выберите пункт Переместить условные обозначения из контекстного меню. шмшшшшшшшшшшшшшш Линейный график трех демографических показателей для 30 выбранных округов ■ JQlxl 2£ О^а+ст^у^ь» обр»!»>«■« | семем е телефоном Процент сельских семей
354 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA тшшшвшшшишшш^ш^шшшшшшшшщ Линейный график трех демографических показателей для 30 выбранных округов Теперь условные обозначения преобразованы в пользовательский текст, а место, где они ранее располагались, занято графиком. Чтобы вернуться в фиксированный режим, щелкните правой кнопкой мыши где-либо на фоновой поверхности окна и в контекстном меню выберите Фиксированные условные обозначения (например, можно поместить в свободном месте над условными обозначениями какой-нибудь поясняющий текст). Условные обозначения в заголовках Для удаления какого-либо пользовательского объекта, такого, например, как текст, выделите его (щелкнув по нему кнопкой мыши) и нажмите клавишу Del (или выберите команду Вырезать объект из меню, вызываемую правой кнопкой мыши). Теперь откройте диалоговое окно Общая разметка 2М графиков. Для этого сделайте двойной щелчак где-либо на фоновой поверхности графика (или выберите пункт Общая разметка из контекстного меню после щелчка правой кнопкой мыши на фоновой поверхности графического окна). Удачным местом для условных обозначений была бы нижняя область графического окна Нажмите на стрелку в поле Заголовки и выберите строку Нижняя осьХ2.
Пример 1. Настройка двухмерных и трехмерных графиков 355 Управляющие символы Специальное форматирование текста на графиках системы STATISTIC А осуществляется с помощью последовательности управляющих символов, которая всегда начинается символом @. Эти управляющие символы позволяют включать индексы, степени, подчеркивание и т. п. в любой заголовок или пользовательский текст. Для включения в текст условного обозначения используется следующая последовательность управляющих символов: @L[номер зависимости]. Например, если написать в поле заголовка @L[1], то в самом заголовке на графике будет показано условное обозначение первой из зависимостей. Теперь в поле заголовка Нижняя ось Х2 введите следующую строку: @L[1]-% Poor (П) @L[2]-% Phone @L[3]-% Rural. ншпвЕягша ШтЩ -—-"■'■"" ■"""' Ъш грлиржж 11|Ч||!||Нф':^~ уголовки \.^. Диаграмма рассеяния fc£J Ступенчатый график «J рк Декартовы Hj .^»*г<3>*а?ири*} [71 Я»* flK tl 1 Нижняя ось X 2: @L|1 ] X Pool . ~jjj ^» ир*^т *9> М«тш деичьпс |@Ц1] X Роем (П) <*Ц2)Х Phone @ЦЗ] X Rmal оси ГП Рам** M**fetf31 g Р<ан«Г1и1оас1Ру«иая jjj> Струве [ЛП] Границы контроля ] I Y еяеве „^ (^ jg Ти№ | Пмнейная ]Y справа - Сверх, М|*: 1° 3 П% Параметры оси Внутри; э Нажмите (Ж, чтобы увидеть изменения на графике. ;1т1МШ'1Н- да Линейный график трех демографических показателей для 30 выбранных округов СС75С-0-а)г; С I) l^-D >С W С С HI >С= >>С )г. > С О) q О) > и<3 ?^5| -% бедных (П) о-- -%стелефоном -■•»■•■ -% сельских Отметим, что тот же результат можно получить, не удаляя обычный текст условного обозначения, а переформатировав его (например, в одну строку текста) и поместив в нижнюю часть графика (предварительно увеличив нижний отступ,
356 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA чтобы для дополнительного текста было достаточно места, как это сделано в последующих примерах). Представление графиков различных типов Попробуем представить данные о проценте «бедных» потребителей не в виде линейного графика, а в виде гистограммы. Тип всех зависимостей на графике может быть одновременно изменен в диалоговом окне Общая разметка 2М графиков. Изменить тип одной зависимости можно в ее диалоговом окне Размещение графика. Вызовите диалоговое окно Размещение графика для первой зависимости (% Poor), щелкнув на ее условном обозначении (или на самой линии) правой кнопкой мыши и выбрав пункт Изменить размещение зависимости (ей). Теперь щелкните на значке Столбч. диагр. по X в поле Тип графика, а затем нажмите ОК, чтобы увидеть изменения на графике. ишз ;ДОКСИР» ОСЛ. ОБОЗНАЧЕНИЯ j Процент \[& Диаграмма рассеяимя j4 У££ Ступенчатый график 1Ш Мииимекс. диагр. по X Hfr Мииимакс. диагр. no Y {ц| Столбч. диагр. по X У»:ч Столбч. диагр. по пев. оси Y__ JJJjJ Столбч. диагр. по пр. оси Y гП* Столбч. диагр. сверх) ■р* Столбч. диагр. отклонений <г ШАБЛОНЫ Области ВИД ДИАГРАММЫ (• Столбцы С Линии , С Отрезки Ц0ДГ0Н1СА Нет 1 Пользовательская Отмене Шаблон Общая разметка Параметры Предыдущая « •0£bY •<* Слева Сяедшдщея» ) ^ Кру- диаграмма О Прлмоуольникн ;; С Справа j »., Ы!„яылтшш | Отрезки 2$ ЭЛЛИПС г :- •"-"""-- <• Выкл. С Доверительный С Размах Ширина: ргг— ^ Шаблон Козооццнент: 10 95 Щ ДОйЕРИТЕЛЬНЫЙ ИНТЕРВАЛ • " , :.-.x<^.Bwk«..-v 5^ Шаблон I ■';.;:.;- .C>iwt ЩшШ" 100 90 80 70 60 50 40 30 20 10 0 Линейный график трех демографических показателей для 30 выбранных округов <> * ч; • Р. • 5Ю.-о-° 5 P"-q 45 40 35 30 25 J20 15 Е S3 >бедных(П) j с телефоном о- - % сельских
Пример 1. Настройка двухмерных и трехмерных графиков 357 Как видно, ширина столбцов на этом графике оказалась не очень удачной. Так как этот параметр (ширина столбца) является характеристикой только одной из зависимостей (Зависимость У), то именно для нее нужно опять вызвать диалоговое окно Размещение графика. В диалоговом окне Общая разметка 2М графиков величина шага по оси X установлена равной 1 (это окно можно вызвать, дважды щелкнув мышью на оси X). Следовательно, если установить ширину столбцов гистограммы равной 0,8, то они будут занимать 80% ширины интервалов по оси Ху но при этом еще будут разделены промежутками. Установите параметр Ширина в поле Вид диаграммы равным 0У8 и нажмите ОК, чтобы увидеть результаты изменений. ПШПШШШЕИ^^ШШ^^^ШШШШШШШШ*}\ Линейный график трех демографических показателей §И - % бедных (П) ••°" - % с телефоном •■•*•■ - % сельских Изменение стиля обозначений Представление гистограммы по данным о проценте «бедных» потребителей все же не очень удачно, поскольку она закрывает два других линейных графика. По-видимому, можно решить эту проблему, сделав гистограмму прозрачной. Чтобы изменить стиль любой линии, точки или самого графического окна, дважды щелкните на нужном элементе, в данном случае — на любом из столбцов гистограммы. Сначала нажмите на поле Шаблон и в открывшемся списке стилей выберите «пустой» (второй сверху).
358 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA *P*i^*№lWn *ii&? 'А8& Обратите внимание, что теперь стали доступны два режима: Непрозрачный и Прозрачный. Если включить режим Прозрачный, то «сквозь» гистограмму будут видны даже линии направляющей сетки. В данном случае достаточно включить режим Непрозрачный. Теперь нажмите ОК, и график будет изменен. вГ"|1р<К>м*4 Пикейный гра+м* Линейный график трех демографических показателей для 30 выбранных округов 100 90 80 70 60 50 40 30 20 10 0 Ч/о V <>.'.. О o.rf а S6IS**fcS Я о is OJ 1Л ТЭ £■> С Я • Yd 'Л / о \, *•' • - to- • • rj О О П ш л i о £ t и ^ * 2 5 £ ел ,л э^Э S-3 ^1^: I 1 - % бедных (П) -°-- - % с телефоном ^; - % сельских Настройку шаблонов линий, точек, заголовков, обозначений осей и других элементов графика можно продолжить (для этого нужно дважды щелкнуть мышью на соответствующем элементе). Сохранение графика Для сохранения итогового графика воспользуйтесь кнопкой Сохранить файл Щ на панели инструментов или выберите пункт Сохранить из основного меню Файл. Графические файлы системы STATISTICA (с расширением *.stg) используют свой графический формат, который сохраняет все сделанные настройки. Поэтому после открытия графического файла его настройку можно продолжить с того самого места, где она была прекращена. График может быть записан и в других форматах, таких как Метафайл или Растровое изображение^ В формате Растрового изображения график представляется в виде последовательности точек, поэтому редактировать его заголовки или условные обозначения будет уже невозможно.
Пример 1. Настройка двухмерных и трехмерных графиков 359 Формат метафайл Windows сохраняет некоторую «структурную» информацию о графике (текст, обозначения и др.), и его можно редактировать в некоторых других приложениях. Печать графика (предварительный просмотр печатной страницы) В любой момент график может быть напечатан с помощью команды Печать графика из меню Файл, при этом появляется диалоговое окно Печать графика. DBBBB Принтер: Текущий принтер (HP latmJtt 6t (реи' ustftvERSHP u а |LPT1:JJ fl* Zl J ь*т' Г Падет» • фа*4 Примечание Дли печати иогроврачнмс обьфкпт для i ия сгори драйверов принтер» иаобюаимо ждем* рмн» Я«нвГ¥ШрмФТОб Т а»Турв в графическом режима*. на Можно распечатать график, минуя этот этап, с помощью кнопки Печать панели инструментов. Чтобы посмотреть, как график будет располагаться на странице, и установить нужные поля, можно включить режим Предварительный просмотр из основного меню Файл. При этом появится диалоговое окно Предварительный просмотр. Чтобы увидеть размеры полей, нажмите на кнопку Поля. Дчип» 11 Поав } Закрыт* j Лк#вв«р| ? I ■да«л Ш1Р №|рН||Ч|1!1Ш«|»«)«И Поля можно установить, переместив соответствующую линию в нужное положение. Обратите внимание, что выбор Альбомной ориентации в меню Принтер приведет к автоматическому изменению диалогового окна Предварительный просмотр.
360 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Линейной 'сэфи« 'ре« демографически» показа'еяеи ДЛЯ 30 вЬ<вр«нмЫ1« 0«Ру!Хв шЬ ПЗ - % Оедиьи (П) о - ч с телефоном о -Ч сельских * Размеры этого окна можно изменять, используя в том числе и полноэкранный режим просмотра. Просмотр графика в том виде, как он будет напечатан (режим WYSIWYG) При настройке сложных графиков желательно, чтобы пропорции графического окна на экране в точности соответствовали тем, которые сформируются при его печати. Такой режим получил название WYSIWYG (What You See Is What You Get). Из меню Вид выберите пункт Пропорции страницы при печати, чтобы сделать пропорции графика соответствующими печатной странице. Например, если в диалоговом окне Принтер предварительно выбрана Книжная ориентация, то на экране появится соответствующее изображение графика. Линфйный график трех демографически» понэаилай для 301ыбранных сирутси 45 ] • % бедных (П) • о • . % с телефоном ♦ - % сельских
Пример 1. Настройка двухмерных и трехмерных графиков 361 Теперь все введенные ранее параметры графика показаны на экране именно так, как они будут напечатаны. Настройка трехмерных графиков В этом примере, как и для двумерных графиков, будет использован файл Poverty.sta. Создание и настройка трехмерного графика рассеяния проводится с помощью диалоговых окон Общая разметка ЗМ графиков и Размещение графика. Создание графика по умолчанию Из Галереи графиков или меню Графика выберите пункт СтатистическиеXYZграфики — Диаграммы рассеяния. Появится диалоговое окно ЗМ диаграммы рассеяния. 4$$ Пространственный график Спектральная диаграмма JjJJ' Диаграмма отклонении Нажмите на кнопку Переменные и выберите в качестве X переменную Pt_Poot% в качестве У — Pt_Rural} а в качестве Z — Age (средний возраст в соответствующем округе). Затем нажмите на кнопку Параметры. Появится диалоговое окно Статистические графики: параметры. Для того чтобы на графике были показаны названия округов, задайте режим Имена наблюдений в поле Метки наблюдений. наблюдения я* ОПТИМИЗАЦИЯ ; (• Вымечена ОТОБРАЗИТЬ: Метки наблюдений • • • I (• Нет Г Имена наблюдении С Ларем.: |РОР_СН* Р? lexer май деты на ост ftf Уравнение алпроксимируощеи функции Р А/трокс. Функция в вмяв пользовательского текста : Г Длинные «слоеные ооознеченмя подгрупп Г Заголовок задания: | Г Заголовок графика: I *___«____________ Нисдо десятичных знаков в «алией категория: [3 W Другие параметры настроили Р? Всо"|Гат^лто|в7л| наиааягся в диелоговь» окнах Х^шая •■••■•~*?ятегя разметка'и Раэмеше>*« графике'. 6* которые вызываются из графического окна Отмена ] ОРИЕНТАЦИЯ ОСЕЙ X-Y <е* Стандартная .; С Обратная СИСТЕМА КООРДИНАТ 2М ГРАФИКА: : (• Декартова С Поеярнал С Со сжатием ПОДИНОМИАЛЬНАЯ ПОДГОНКА . Порядок полинома: Г 2 С 3 Г 4 (• 5 : ЛОГАРИФМИЧЕСКАЯ ПОДГОНКА Основание: (• 10 Г в Р? {{оказать кнопки не последнем графике Показать индикатор состояния: | Авто 7| Добавить к меню как график пользователя Затем нажмите ОК, чтобы вернуться к диалоговому окну ЗМ диаграммы рассеяния.
362 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA !&SW*»«fe ф Пространственный гра+нк ДО Спектральная диаграмме •****. £$ Диаграмма отклонения 4№КЛвйЛ*<Нв' I Снова нажмите ОК, чтобы построить трехмерную диаграмму рассеяния. Нажмите Вых. для удаления кнопок Еще и Вых. шшакашггввв ЗМ диаграмма рассеяния (POVERTY STA 8V30c) Чтобы избежать наложения меток (как это произошло на данном графике), можно использовать режим Фильтры изображения. Просмотр данных графика Как и в предыдущих примерах, для начала посмотрим данные графика. Для этого надо вызвать Редактор данных графика. Например, щелкните правой кнопкой мыши на какой-либо из точек и выберите Редактировать данные для зависимости (ей) или нажмите кнопку Редактор данных графика (Щ на панели инструментов. В Редакторе данных графика показаны три столбца (X, Y и Z) для каждой зависимости. ШИРДЛИ1№|Т||*!и Cannon Cwl ChaathaajR Cunte!** D*4fc От G**rt Qs—r+ ' ***** Hayy»OOd Ноту Houtton LJ ЗМ диаграмме рассеями« 19.00 26.20 18.10 15.40 29.00 21.60 21.90 18.90 21.10 23.80 40.50 21 60 25.40 (POVERTY' i*p#«*p«»*»«*r ::. У 74.80 100.00 69 70 100 00 74.00 7310 52.30 49.60 71.20 70 60 64 20 58 30 100 00 2 33 50 32.80 33 40 27 80 27 90 33 20 30 80 32 40 23.20 28.70 25Ю 35 30 31 40 Ж ■**
Пример 1. Настройка двухмерных и трехмерных графиков 363 В данном случае это одна зависимость. При выборе более чем одной переменной Z в диалоговом окне ЗМ диаграммы рассеяния в Редакторе данных графика будет несколько зависимостей из трех колонок. Как обычно, на этом этапе данные можно изменять, добавлять новые зависимости, изменять представление данных в редакторе и шрифты. Редактирование меток наблюдений Предположим, что особый интерес представляют округа Jackson и Shelby. В данный момент на графике трудно что-либо разобрать, поскольку многие названия перекрываются. Поэтому нужно удалить все не представляющие интереса метки, чтобы «упорядочить» график. Для редактирования меток точек: 1) дважды щелкните на одной из них или 2) щелкните на любой из них правой кнопкой мыши, выберите пункт Изменишь размещение зависимости (ей), в появившемся диалоговом окне Размещение графика выберите пункт Метки данных. В любом из этих случаев появится диалоговое окно Метки точек данных. ! г * ■ • ■ fl* t Отмой» &%*i№ Для обозначения точек на графике помимо Текстовых меток можно использовать и значения координате, Yили Zили любую их комбинацию. Чтобы вызвать диалоговое окно Правка текстовых меток, нажмите кнопку Правка. 1 2 3 4 5 6 \7 8 9 10 11 12 13 Н i^enton Cannon Carrol Cheatheam Cumberland OeKalb Dyer Gibson Greene Hawkins Haywood Henry Houston Humphreys 4 Д; % '*i j .:.! Удалите все метки, Kpouejackson и Shelby.
364 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA III" ИНЬГ " IUI 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Jackson Shelby 1 ±1 J zl там rJjdi2J Нажмите ОК, снова появится диалоговое окно Метки точек данных. Чтобы увеличить размер шрифта (например, выбрать Arial полужирный 12), нажмите кнопку Шрифт. РЯД АаВЬБбЯя Ярмфг TftMT*». Ои испой»»»пся turn imh»i как я«»кр«и. гж и и* принтер. Нажмите ОК, чтобы увидеть изменения на графике. ЗМ диаграмма рассеяния (POVERTY STA 8V30c) Jackson Теперь здесь хорошо видны две конкретные точки.
Пример 1. Настройка двухмерных и трехмерных графиков 365 Редактирование заголовков Как и в предыдущих примерах, для редактирования заголовка дважды щелкните на нем мышью. Появится диалоговое окно Правка заголовков. Правка заголовков '>. 4*ГвйЬвО*2^ ||ЗМ диаграмма рассеяния (POVERTY ST A 8v0c) Aft| •1ШШГ^ 3*^i'<-w ^r ;>:0а»22:" j Ниже показаны несколько возможных заголовков. Г*|ГраФик1 JM диаграмма рассеяния HREI Демографические данные по 30 выбранным округам Диаграмма рассеяния возраст и процент бедных и сельских семей Изменение масштаба Как и в предыдущих примерах, по двум горизонтальным осям выбран не очень удобный масштаб. Поскольку переменная Pt_Rural выражена в процентах, то более подходящим здесь был бы интервал от 0 до 100 (а не от 10 до НО). Дважды щелкните на этой оси, чтобы вызвать диалоговое окно Параметры оси: Y.
366 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA 1«в|и - % Вставить "И'; Псмюдоми* 3 точки («мш*] Мине: | •*C f Г" Обратная ммим "Si "Hi В поле Разметка оси выберите режим Ручная с параметрами Мин. = 0, Шаг = 20 и Л/якс. - 100. Вращение трехмерного графика Все трехмерные графики в системе STATISTICA могут быть повернуты в пространстве вокруг любой из трех осей. Также может быть изменена перспектива. Выберите команду Вращать из меню Вид. Появится диалоговое окно Перспектива и вращение. Другим способом это окно можно вызвать, нажав кнопку Вращение графика (ЛУ на панели инструментов. tim4^\ii?m:^mfv^mi'm^mmt^ Демографические данные по 30 выбранным округам Диаграмма рассеяния возраст и процент бедны» и сепьски* семей Пиктограмма (упрощенное изображение графика) позволяет предварительно наблюдать за изменяющейся ориентацией графика и перспективой. Для вращения графика в горизонтальной плоскости используется горизонтальная линейка прокрутки, для вращения в вертикальной плоскости — правая линейка прокрутки (вверх-вниз). Левая линейка используется для управления перспективой. Перспектива определяет, насколько «близко» находится трехмер-
Пример 1. Настройка двухмерных и трехмерных графиков 367 ный график. Далее на рисунке представлен крайний случай, когда левая линейка прокрутки установлена в самое верхнее положение. Мы видим график словно через сильную широкоугольную линзу. шшшшшашшвш i.iaixil Демографические данные по 30 выбранным округам Диаграмма рассеяния: возраст и процент бедных и сельских семей На следующем графике перспектива выключена (левая линейка прокрутки находится в самом нижнем положении). График виден как бы через телеобъектив. iTirfl;il4iiJi!iirim;i|li ■ -1П1Х1 Демографические данные по 30 выбранным округам Диаграмма рассеяния возраст и процент бедных и сельских семей ... ■ ' Jacktorv *гь <^; Когда нужные пространственная ориентация и перспектива наконец выбраны, закройте диалоговое окно Перспектива и вращение. График будет перерисован. Диалоговое окно Размещение графика Для вызова диалогового окна Размещение графика щелкните правой кнопкой мыши где-либо на поверхности графического окна. Из контекстного меню выберите пункт Изменить размещение графика.
368 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA В диалоговом окне Размещение графика проводится настройка параметров конкретной зависимости. Например, с помощью кнопки Точки можно изменить значки на диаграмме рассеяния. (Напомним, что это диалоговое окно вызывается также, если дважды щелкнуть на любой точке графика.) Выберите, как показано выше, в качестве значков треугольники и установите ихразмер равным 8 (поле Точки). Затем нажмите ОК, чтобы закрыть окно Шаблон точки. Теперь нажмите кнопку Перпендикуляр. Здесь можно выбрать стиль для вертикальных линий, которые соединяют точки с плоскостью X-Y. Чтобы увидеть изменения на графике, выберите сплошную линию. Нажмите ОК, а затем еще раз ОК в диалоговом окне Размещение графика. Все эти изменения появятся на графике, как показано ниже. Демографические данные по 30 выбранным округам I Диаграмма рассеяния возраст и процент бедных и сельских семей
Пример 1. Настройка двухмерных и трехмерных графиков 369 Диалоговое окно Общая разметка ЗМ графиков Теперь сделайте двойной щелчок где-либо на поверхности графика, чтобы вызвать диалоговое окно Общая разметка. По обычным правилам, установленным в системе STATISTICA, функции этого диалогового окна относятся ко всему графику в целом. Смысл большинства из них понятен по названиям. Подгонка поверхности к диаграмме рассеяния Выберем, к примеру, в поле Тип графика строку График поверхности для того, чтобы заменить диаграмму рассеяния. Заметьте, что изображение в левом верхнем углу тоже изменилось и соответствует новому типу графика. Нажмите ОК, чтобы перерисовать график. HIIIL'IB ГГЧЩ'ЖЦШ Демографические данные по 30 выбранным округам Диаграмма рассеяния: возраст и процент бедных и сельских семей ■I 22,961 ■I 23,921 ■I 24,992 ■1 25,942 О 26,903 (ZD 27,784 Ш 29.724 Ш 29,695 ■I 30,645 ■I 31.606
370 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA В диалоговом ошеЗМ графики? дополнительные свойства, которое вызывается с помощью двойного щелчка на поверхности графика, выбираются параметры подгонки поверхности. Во-первых, на приведенном выше графике метка Shelby «затенена» поверхностью. ШтрихоJ^f здесь можно изШени-рь или сделать поверхность полностью прозрачной. Нажмите кнопку Показагрь сцрытое, чтобы сделать поверхность прозрачной, то есть чтобы сделать видимым все, что находится за ней. В результате поверхность на графике станет «сетчатой». Нажмите ОК, чтобы закрыть это диалоговое окно. Теперь на маленьком графике в диалоговом окне Общая разметка будут видны результаты изменений. 17ЛП1 стиль поверхности- W-' 1 А* 1 j| fHt> | ET^|Cz33i22S2. Лето ' Sfmm *»t»mttbo _ И ^Ы)НТУРПОВЕРХН0СТИ\ Г. Ирщ» у I20 Щ *er2*- ' Чцслоспектральных плоскьсглЛ:[5 | Перемещение условных обозначений Удалите из графического окна условное обозначение поверхности, которое теперь потеряло смысл. Щелкните правой кнопкой мыши на каком-либо условном обозначении и выберите в контекстном меню пункт Удалить условные обозначения линий уровня. шшашвмшж IJaMl Демографические данные по 30 выбранным округам Диаграмма рассеяния: возраст и процент бедных и сельских семей <**> »s> #
Пример 1. Настройка двухмерных и трехмерных графиков 371 Число сечений поверхности Число сечений, по которым строится данная поверхность, устанавливается в диалоговом окне Общая разметка. Чтобы вызвать его, дважды щелкните по поверхности графического окна. Измените параметры Число сечений для Хи Уна 30 и 30. Для более точной подгонки поверхности в поле Подгонка (поверхности и контуры) выберите пункт Сглаживание сплайнами. Теперь график будет выглядеть следующим образом. ГЗ График 1 ЗМ диаграмма рассеян ■ -1PIXI Демографические данные по 30 выбранным округам Диаграмма рассеяния: возраст и процент бедных и сельских семей <v* Обратите внимание на то, что показанный выше график повернут так, чтобы поверхность была лучше видна. Изменение пропорций осей (пропорции трехмерной ячейки) По умолчанию трехмерный график располагается в кубической ячейке, то есть длины всех осей для него равны. Иногда желательно изменить эти пропорции. Например, на этом графике хотелось бы «растянуть» точки вдоль плоскости X-Y. Другими словами, хотелось бы удлинить осиХи У относительно оси Z. Это можно сделать с помощью диалогового окна ЗМграфики: дополнительные свойства, которое уже использовалось в этом примере. Снова вызовите диалоговое окно Общая разметка и нажмите кнопку Дополни- тельно... (заметьте, что прежде это окно вызывалось с помощью двойного щелчка мышью). Затем введите в поле Пропорции осей X: 2 и Y: 2. Нажмите (Ж, чтобы закрыть окно ЗМ графики: дополнительные свойства, и снова ОК, чтобы закрыть окно Общая разметка. Обратите внимание на то, что такой же результат можно получить, оставив без изменения значения для X и У (то есть У), но изменив значение для Z с 1 до 0,5.
372 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA тшт чтшшш УРЯ ЗРЕНИЯ ПРОПОРЦИИ ОСЕЙ X: F.287436 g !;..£ JT" Y! |э 287344 Щ 2; 7.221119 •2t- СТИЛЬ ПОВЕРХНОСТИ |——-1 &«ртяк <8, 3*г*нвнивя С Слммшюя ■ ^ ■* i]]c*"*[i [ЩРОВНИ ПОВЕРХНОСТИ/КОНТУРА J:(»Arra Нис«> уровне* |l 0 Щ ЛИНИИ ПОВЕРХНОСТИ КОНТУР ПОВЕРХНОСТИ ,: С Дмпм • < « ' >ц 1! ! Раостоту от 'цмн, 2: I rlF^^^^ilm^M^^^ ц*"" шшяииши ^■^мвнвшвявШвшкзшз Демографические данные по 30 выбранным округам Диаграмма рассеяния: возраст и процент бедных и сельских семей 36! 34 32 S 30 m 28 2в 2* '"' Г ^\ *^* к-^,^^ ^^ и§^ "Ч-, Представление трехмерных аппроксимирующих функций в заголовках Предположим, хотелось бы найти простую линейную взаимосвязь между долей бедных потребителей, долей сельского населения и средним возрастом. Можно аппроксимировать данные плоскостью, а полученные линейные оценки параметров вынести в заголовок графика. Дважды щелкните на фоновой поверхности графического окна. Появится диалоговое окно Общая разметка. В поле Подгонка (поверхности и контуры) выберите пункт Линейное сглаживание, а параметр Число сечений верните к значениям, установленным по умолчанию (X: 15 и Y: 15). Нажмите (Ж, чтобы вернуться к графическому окну. Управляющие символы С помощью управляющих символов может быть настроен практически любой текст на графике (заголовки, метки, пользовательский текст и др.). К примеру, текст может включать индексы, показатели степени, подчеркивания и т. д. Для появле-
Пример 1. Настройка двухмерных и трехмерных графиков 373 ния в заголовке графика уравнения аппроксимирующей функции одной из зависимостей используйте следующие управляющие символы @F[номер зависимости]. Дважды щелкните на первом заголовке, в строку Заголовок 1 введите текст Функция: @F[1]n нажмите ОК. ШВШВ !щф*»*мя: ели PT.RURAL IjpfPOOR ^..лЩ Теперь вернитесь к диалоговому окну Правка заголовков; запись в нем изменилась: {z=28.748+0.049*x+0.086*y@}. Этот текст можно редактировать, менять его шрифт и т. п. Обратите внимание, что часть текста заголовка внутри фигурных скобок ({}), ограниченная символами @, автоматически обновляется системой STATISTICA; она изменится, например, если отредактировать данные или уравнение функции. После удаления фигурных скобок и символов @ эта запись будет восприниматься как обычный текст. t*^ Г рафик 1 ЗМ дискрс Функция z=28,748+-0,086*x+0,049*y
374 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Функция 9П1 ]<z-28.748*0.049-k*-0.086X?) f ju^w^ewi»*e«w?tf4 У | lYl IVlYrnrtTfl-ffriYir -llVlVll RURAL PT_POOR E Y.ftWiitttrr. ешййй;.;" ;:,, .,. Пример 2. Подгонка функций, увеличение и закрашивание Построение диаграммы рассеяния В любом модуле (например, Основные статистики и таблицы) откройте файл Poverty, sta. Из меню Графика выберите Статистические 2М графики —Диаграммы рассеяния. Задайте в качестве переменной X — Popjchng (изменение численности населения), а в качестве У — Pt_Poor (процент бедных потребителей). >ша^ШШ |Г7П Составной ВЕН \г ■' | Квантили Диагр. Вороного 1С [^ Экспоненциальная [^Сплайны КЛ Поямюмиаяьная |Х Нами, квадраты 12ч. Отр. эксл.-взаем. ДО Другая «дикция • :%*.:^;<2":у^ Я|Цг**1 нет ''^Яг*' ' Нажмите OK По умолчанию будет построена диаграмма рассеяния с графиком линейной регрессии. Нажмите кнопку Вых., чтобы удалить из графического окна кнопки Еще и Вых.
Пример 2. Подгонка функций, увеличение и закрашивание 375 I.U..H, ,Ш1,,., 1ЯШт Диаграмма рассеяния (POVERTY STA 8V30O у-2в.1ев-0.4ОГ'*»»р« Приближение полиномами Как уже обсуждалось в предыдущих примерах, на двумерном графике рассеяния можно построить аппроксимирующую функцию для каждой зависимости в отдельности. Щелкните где-либо на графике правой кнопкой мыши и выберите из контекстного меню пункт Изменить размещение графика. ■тга| 3&И1ХИР WCit ОБОЗНАЧЕНИЯ ШАБЛОНЫ IS! T«*m ПОДГОНКА 3 Пот^мж* £в ш*т О&ллсяы 1г Тип£р**»«к ЩВР S S3 Н? Степеичатый гра»«» Ц£ Мммимакс дмагр по X имммаяс. дмагр по Y liji СтоабЧ дмагр. по X gj£ СтоябЧ дмагр. по нее. < Д СтоябЧ дмагр. (ПГ Стоабч. дмагр. V* Стоабч. дмагр. пр. осм Y *ид диаграммы (• Столбам СПшш > Н°Р>У СОгр*тм \*~ Параметры Л_ ОИщат рмиетда [ .Прууущаяi<_< | #* Spy, дмагцми<■[ I Отреяки ЩмрмжС |0 2 «• Мабави I I ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ "■! Г Вид. Вместо установленной по умолчанию линейной подгонки выберите в поле Подгонка пункт Полиномиальная. Обратите внимание, что с помощью расположенной в этом поле кнопки Параметры можно задать степень полинома. ОПТИМИЗАЦИЯ Я; 100 < СТЕПЕНЬ ЦОЯИНОМА Г2 Га ..Г4 <?* ; ОСНОВАНИЕ ДОГАРИФМА г?ю гФ РАЗРЕШЕНИЕ ЛИНИИ ПОДГОНКИ •• • *•" Нарм. Г Выеадае Г Очам» емеадее Г Преданное
376 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA По умолчанию используется полином 5-й степени. Теперь закройте это диалоговое окно (нажмите ОК). Прежде чем продолжить построение, выберите доверительный интервал. Для этого установите переключатель в поле Доверительный интервал в положение Вкл. ШВЕЗЗЯЙ £ИКСИР. УСЛ. ОБОЗНАЧЕНИЯ АВ ШриФх 1 \УЪ Линейный график $** Ступенчатый график jfjft Минимакс. диагр. по X Минимакс. диагр. по Y iltl Столб*, диагр. по X Ьг Столбч. диагр. по лее. оси Y.. JU Столбч. диагр. по пр. оси Y рГ Стоябч. диагр. сверху ' Стоябч. диагр. отклонений ШАБЛОНЫ : ft» Тоуи ££ Дмиии йОДГОНКА , |\А Полиномиальна! ^9> м itfxii "Zll ИДЯ Области ВИД ДИАГРАММЫ <* Стояокы С Линии С Отрезки С Прямоугольники J 1 Пользовательская } Отмена Шаблон J Обцая разметка Параметры Предыдущая« } OfibY Сяедяощая » - #*> &рул диаграмме j С Справа Отрезки *;|; j££ • Шаблон ДИИ1И1 [j -Si Цеткида Ширина: 02 ЭЛЛИПС <• Выкл. С Доверительный С Раамах S2; Шаблон | Коэффициент: fo95 Ц г ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ " ~ , С Выкл. <? вид. \ ^2. Шаблон Ярове!»»: |0 95 Выйдите из диалогового окна Размещение графика, включив диалоговое окно Общая разметка. шшшешпшш ГЩ J^^'i^irill. ~ 1нп графика: %М |Ш! Диаграмма рассеяния 1J2S Линейный график jjlftf Ступенчатый график fl* Отмене {графике ЗАГОЛОВКИ | Заголовок 1: Диаграмма рассея. Декартовы »| К*гилг<>ри»-гаич | f^l Динии сетки | t **1 Цетки данных | гам j Диаграмма рассеяния (POVERTY STA 8v'30c) 0CJ4 - CD Рамки .... QT} Границы контроля j Макс,: [**§ Разметка оси: \**™ ZJ . '■ Ь*Р*** | Y слева 1ас р"П Q Тип:] Линейная " Ч ' I1 ЗЗ j Y справа а Сверку Мми': F* 0 ТП Параметры оси |н£ри: а Здесь видно, что запись уравнения новой функции автоматически обновляется, потому что во второй строке заголовка введен специальный управляющий символ @F[1] (использование специальных управляющих символов для форматирования рассматривалось в примере 2). Теперь нажмите (Ж, чтобы увидеть результат на графике.
Пример 2. Подгонка функций, увеличение и закрашивание 377 1,Ш.М|И1,|Щ|Ц|мшяир. Диаграмма рассеяния (POVERTY STA8v*30c) у25.864.0.в7,к*0.ОО2,хЛ2*4.313«-4,к-9*в.Звв#-5,«М.1 ТвЭф-в'.^*»?! В итоге в заголовок помещены оценки параметров функции, а на графике показана 95% доверительная полоса. Интерактивное удаление выбросов (Закрашивание) Нажмите кнопку панели инструментов Кисть [QJ. Форма курсора изменится и будет соответствовать показанной на кнопке. Появится диалоговое окно Закрашивание. ЕВ5ВЗЯШШ1 iimiiiH»VHj'¥" » РА. Зависимость 1 3 | С Огшщтп* Mtfep - !* Выберите режим Операция — Выключить (чтобы исключить из рассмотрения закрашенные точки) и включите режим Автообновление, как показано выше (чтобы действия кисти сразу отображались на графике). Теперь подведите курсор к точке в правом нижнем углу графика, чтобы она оказалась в центре перекрестья.
378 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Щелкните левой кнопкой мыши, и соответствующая точка будет удалена с диаграммы рассеяния, кроме того, изменятся и параметры функции, записанной во второй строке заголовка. Диаграмма рассеяния (POVERTY STA 8v*30c) y-24.4Q00.407,**0.045,**20.0CW,xA3-1.007г4'х*«**1.030» 5'*»«*«pf Таким образом, инструмент Кисть позволяет интерактивно удалять выбросы с диаграммы рассеяния и наблюдать соответствующее изменение аппроксимирующей функции. В Редакторе данных графика удаленные выбросы выделяются другим цветом. fiento* ' •" Carttw* Carrol ■ IJU."Hl»ieJ.JOl Диаграмма рассеяния (Р у-24.499-0.407-х*0.045-хЛ (Ж::Д«втв) 13.70 •0.80 9 60 кпайа1 4:i-v: Cumberland DeKdb Dyer 6fe$or> Greene H**ttt Ш 8.41 3.50 3.00 7.10 13.00 10.70 *4t pttttMH • • -Y- • 19.00 26.20 18.10 IS 40 29.00 21.60 21.90 18.90 21.10 23.80 XI ZJi
Пример 2. Подгонка функций, увеличение и закрашивание 379 Чтобы «снять выделение» точки (то есть поместить ее обратно на график), поместите курсор на соответствующую строку в окне Редактор данных графика и на его панели инструментов нажмите кнопку Показать идентификаторы точек графика Щ. В появившемся диалоговом окне: 1Ж1ШШТТР1г111 ШТЩ Um*# jCheathee» ■■х."а<...^<:"-'^>п^>1жг ■А"Длл:-й ■- у ^ измените статус выбранной точки. Выделение будет снято. Нажмите на панели инструментов кнопку |Пврдр«с*>е*ть1 и ранее удаленная точка вновь появится на графике. Увеличение Увеличение — это весьма полезный инструмент для подробного изучения выбранной области графика, в частности, когда необходимо удалить отдельные точки. Если, например, на диаграмме рассеяния есть области «скученности» точек, то можно увеличить эту область, чтобы идентифицировать отдельные точки. Нажмите кнопку Увеличение (<§j, при этом курсор на поверхности графика примет форму лупы. Подведите его к центру той области, которую вы хотели бы увеличить, и щелкните левой кнопкой мыши. Если щелкнуть левой кнопкой мыши еще раз, то данная область снова увеличится.
380 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA шшшмшшвшшшшш ° N. О ^ ч ч :Л'"'; • " в ; ч * ^ О ННШЙМНЙННННСжЗЖ^) i j 'Чч О ] ' * * ч ^\ ! m.Tl , -шиЛ ,„■ J Каждый щелчок левой кнопкой мыши приводит к увеличению соответствующей области примерно в два раза. Для просмотра графика в режиме увеличения можно использовать линейки прокрутки. Нажмите кнопку Подобрать область графика и поля QQ, и вы сможете рассматривать график, как через увеличительное стекло. Чтобы снять увеличение, нажмите кнопку Уменьшение (€Ц и щелкните на соответствующей области графика. Заметим, что после нескольких успешных операций увеличения и уменьшения положение графика в графическом окне может измениться. Для восстановления первоначального вида графика используйте команду Восстановить исходные настройки в меню Вид. График будет вновь перестроен в соответствии с параметрами, заданными по умолчанию.
Пример 2. Подгонка функций, увеличение и закрашивание 381 Пропорции прш %4j0 при п ' eytortwKvw НвЛрашММИЙС*** :■' OW4 0*в рСССЯмий (POVERTY STA 8И30О ШШШЕЕ^а Диаграмма рассеяния (POVERTY STA 8V30c) y«24 J0e0.407,K*0.04e*xA2 0.CXL,x*3-1.007t-4V*4»1.03et-5,x*e*tpf Рисование пользовательской функции Снова вызовите диалоговое окно Размещение графика и нажмите в нем кнопку Пользовательская. Откроется диалоговое окно Задание функции пользователя. Задайте, например, экспоненциальную функцию: у = 25.183*ехр(-0.016*х). Е ^ -* ■ ; ' ш Ж ЕВ| •Принте няи. -^у.^,^. ,~..,■.„■..-.,..-. г Д>у-*римзммю>юст»с4ргущиг<иХ :y»2>*iinW '• Л*"*» I Трепwpjwoи»юимост»скгунтптчнХыУ;г:*Ъ»*вЫ^ . j .— Операторы ♦."-*;•>>»<<» о «nd la (not ~ |J l~~ К«мст»«ты Р>-11415.:Ы,Ы*&П& to •; К«ммвмгари»ог<№ля*геят«1чм)йемпйгой:»4(А2;ео1мчп1 ' Основ** «^икцмс Л», «ceot, *c*v «ct«i e«. «eeh , до, teg. toald fajuiainurt*. «9t Ш*ЛшЬ,- ./;,--'■ <"■' i ***, идем♦ иИ**?*"?!' «к •*■*•" •w ''•'•■■ v-w- • •;•• • * •• -• • ? r***p»*ne»«* Mtbinom. Much* d©, ««on.***» *. aamma. tfewfc feet**, log», kv*«m. помм! ..|.. р«Шо, poU$on. Kilfgh» tmos«. ttafeJ I g* : Mxi«iTvp»*rftoeU^fcn^taM^.icr^ * .,.-*-""' f, tgaiwr* доо. ikpiaoc, logic lognonn wwi*l ^v>: ran <p«e(a jpowtcrt. iuefcigH. «rfuderi. *wfeJ ' |MB[ i Обрягиые 4>?«iu«c «bete, veaucty. *ch»2. *емроп : "'"" **dtm*. vf. vgmma. vtaptoc*, vtooij. viognotm vncwnal, vpveto. v«*4*gh. vtluefan». vwahl : Дм рвэмь* »«*♦«*« и* рахых мг«гори». грьфшт мспо/мдйгк :° ! <рмрп1Н#дгврпЙ1.^илм#5»арпП.и<01аеп|1Д^ flwtpw» 25.183'в«р( 0jI6'«J
382 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Нажмите ОКв этом диалоговом окне и в диалоговом окне Размещение графика. Заданная функция будет нарисована на графике (соответственно будет обновлен и заголовок). Обратите внимание, что в данном случае функция просто накладывается на график. Чтобы найти пользовательскую аппроксимирующую функцию для данной зависимости, необходимо использовать модуль Нелинейное оценивание. Диаграмма рассеяния (POVERTY STA 8V30c) y-25.iey«xp<-o.oiea>o Добавление зависимости Для каждой зависимости на графике можно найти только одну аппроксимирующую функцию (или наложить на нее только одну функцию). Поэтому для построения нескольких функций нужно создать дополнительные зависимости. Для этого выполните следующие действия. Нажмите кнопку Редактор данных графика (Щ (или вызовите его другим упоминавшимся выше способом). Из меню Правка выберите пункт Добавить зависимость. В этом диалоговом окне сохраните все установки по умолчанию (нажмите ОК). При этом будет добавлена новая зависимость (в показанном ниже Редакторе данных графика добавлены два пустых столбца). ВЗИРИРН Irflriiiiirii Сшровп С** СЬмЛмт Cumberiand 0*#* Оу* Gbw* &#** H«*»tt Hqifwood : H«rw ыЛ тми мям i « Диагр»»м рассеямм (POVERTY STA8v30c|~ у-25.183-е«р(Д016*х| —Jj LIjBm^ix 1370 -0.80 9.60 40.00 8.41 3.50 3.00 710 13 00 1070 1620 6.60 . .:«ХЪ\ 1 19,00 26.20 18.10 15.40 29.00 21.60 21.90 1890 21.10 23,80 40.50 21,60 ^ Диаграмм» pexwii • ГХ>Г-: ,•: .-у :•, L I и
Пример 2. Подгонка функций, увеличение и закрашивание 383 Теперь щелкните правой кнопкой мыши на первом столбце и из контекстного меню выберите пункт Размещение графика. В этом диалоговом окне для зависимости 1 снова выберите полиномиальную подгонку. Затем нажмите кнопку Следующая ». Появится диалоговое окно Размещение графика для второй (новой) зависимости. --• ШТЩ &ИКСИР. «СП. ОБОЗНАЧЕНИЯ L бе •4 <i:f.< (ШАБЛОНЫ \ \v Toy* ДОДГОНКА Нет Лг J!L Т\от$!пт*гтт>с**л 0£**стм . f{ Ttajt £fMH*MftAX у *"* Пврамггрм 3 р ИУ Ступенчатым график (|Ц Нимммакс. дмагр. по X М шишаке, дмагр. по Y bill Стоабч дмагр по X |а»" Столбч. дмагр. по лее Д Столбч. дмагр. по пр. I(Т Стоябч. дмагр. саархч *У* Стоябч дмагр отклонения ocmY. >cmY гВИД ДИАГРАММЫ , .-. ^ „,—- . , t(» СТОЛО** -1- — • - i СяОДЖЕ»*»>> | ! С Пряиоур<1>11мк>1 j/^ 1 'Отразим 2J ЭЯДИПС ~ :гТ™ ; *j' Л Вмк*> Г Дмицмгммш» Г ; Ш {руг. диаграмм* i""*1* v*\ ' |*1* MjffftM; . ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ 2SS ■абмм] <?8ы С#дяМу Здесь выберите пункт Другая функция и снова определите ее следующим образом: у = 25.183*ехр(-0.016*х). 8мдмт« фяижкмк у-25 183*вхр@ 016*х) Закройте диалоговое окно Задание функции пользователя и откройте диалоговое окно Общая разметка. В этом диалоговом окне Общая разметка: 2М графики выберите в списке Заголовки строку Заголовок 3. Пользуясь введенными ранее правилами, запишите в качестве заголовка: Функция 2: @F[2]. Для построения графика нажмите ОК: \штшткшш Диаграмма рассеяния (POVERTY.STA 8v*30c) Функция 2 у = 25,18Э'ехр(-0,016*к) «в i POP_CHNO
384 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Теперь на графике изображены как пользовательская функция, так и подгоночный полином. Пример 3. Динамическое закрашивание (Кисть) Как правило, режим Динамическое закрашивание используется на матричных графиках для пробного анализа данных. При этом вместо закрашивания определенного диапазона значений переменной (с целью исследования влияния различных областей на функцию распределения) можно ввести автоматическое движение кисти (в форме прямоугольника или лассо) и наблюдать «результат». Область закрашивания определяется на одном из графиков матрицы и автоматически перемещается вдоль него (горизонтально, вертикально или в обоих направлениях). Когда в область закрашивания попадают группы точек этого графика, то выделяются соответствующие точки на всех других графиках матрицы. Файл данных В этом примере использован файл данных IrisdaLsta с классическим отчетом Фишера A936). В нем приведены данные о длине и ширине лепестков и чашелистиков трех сортов ирисов (Setosa, Versicol, Virginic). Часть этого файла приведена ниже. ТЕКСТС f£» *, •«,•■• 6 ;• Г,'.,;., %;„, «ft?. EC Fisher A936) ins data length & width of sepals and petals Ш+11ШЩ S&PAUMO [ 5.0) 3.3 6.4 2.8 :'»C<*-*;c.W* 1.4 5.6 6.5 23 4.6 6.7 3.1 5.6 6.3 2.8 5.1 4.6 3.4 1,4 6,9 3.1 5,1 6.2 72 4.5 5.* 3.2 4.8 4.6 3.6 1.0 3 types of Ins ™ ретА1У«р 1 «щурь .2 SETOSA 22 VIRGINIC j 1.5 VERSICOL 2.4 VIRGINIC 1.5 VIRGINIC .3 SETOSA 2,3 VIRGINIC 1.5 VERSICOL 1.8 VERSICOL j 2 SETOSA m Построение матричного графика Откройте файл данных IrisdaLsta, выберите из Галереи графиков или меню Графика пункт Статистические матричные графики. Появится диалоговое окно Матричные графики. С помощью кнопки Переменные выберите все переменные. Нажмите ОК, чтобы закрыть диалоговое окно выбора переменных. В поле Подгонка выберите строку Линейная. Снова нажмите ОК для построения матричного графика и удалите кнопки Вых. и Еще, нажав кнопку Вых.
Пример 3. Динамическое закрашивание (Кисть) 385 Матричная диаграмма ARISDAT STA5v*150c) Aff^ 11 •^■ЙЛ''' II PETAUEN || .4^11| ~~Т *j+*\ || . «гиМ^*-» II У —свУиед II iH^^ J J r ^i^ll>^ II V^L™ II >^ Нажмите кнопку (Щ панели инструментов. Появится диалоговое окно Закрашивание. Затем в качестве типа wwcmw выберите Прямоугольник и включите режим Движение (см. следующий рисунок).
386 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Курсор примет форэду перекрестья. Теперь на одном из графиков матрицы можно выбрать прямоугольную область. Для исследования и сравнения связей между четырьмя характеристиками ирисов (Sepallen, Sepalwid, Petallen и Petalwid) трех различных сортов (Setosa, Virginic и Versicol) выберите одну группу точек на правом верхнем графике (представляющем один из сортов). Когда вы отпустите кнопку мыши, прямоугольник начнет периодическое движение по этому графику. При этом на всех остальных графиках будут выделяться соответствующие точки. ■ Jplxll Матричная диаграмма (IRlSDAT STA5v*l50c) SEMUfN 1 <^^ч ~^**\ и*^ Й»г1 [ IfMLWIO 1 F^CTl р^ \у^\ г^^*ч 1 *F»*Xt* |Q_»Dq= 1^1 1 ^\ Ir- ! 1и^1 p^-^Wkji: 1 >^l 1 freiwio 1 1 ..—s-1 Ш ш \^ и Ш11ТТЦ 0_l__Q ШпШЩ Матричная диаграмма 0RISDAT STA 5v'150c) aDBEl. Ж **^ Ж. jDa». л*а*- ^ ^ Jn. ^ ^ L^H^ >** 'FTM.WIO Id Btd Г PF3 Omm | r = o*iw i Lb ^ д л«« - «r-r jj im «»«.»«■■■« !4.i I"" Скорость и направление движения при динамическом закрашивании задаются в диалоговом окне Движение. Такая динамическая визуализация позволяет выявить разнообразие связей для каждого сорта ирисов. Например, когда прямоугольная область закрашивания проходит через первую группу (как показано выше), то выделение соответствующих точек позволяет судить о различной величине и направлении связи между параметрами Sepalwid и Petallen, Sepalwid и Petalwid. Закрашивание в редакторе данных графика В системе STATISTICA применяются два метода закрашивания: с использованием инструмента Кисть Я в графическом окне или соответствующей кнопки в Ре-
Пример 4. Связывание и внедрение 387 дакторе данных графика. Если точки данных выбраны в режиме закрашивания (то есть маркированы, помечены, выключены или подсвечены), то их координаты представлены различными цветами в Редакторе данных графика. Этот Редактор предоставляет «командную» среду, где можно напрямую присваивать атрибуты точкам, не выбирая их предварительно, а используя кнопки панели инструментов, диалоговое окно Идентификаторы точек на графике, контекстные меню или команды выпадающего меню Правка. Таким образом, операции закрашивания имеют здесь тот же статус, что и режим Автообновление в процедуре закрашивания. При этом текущая операция будет выполняться после каждого выбора атрибута, и точки, заданные с помощью курсора (как отдельные точки, так и выделенные блоки), будут сразу же маркироваться, помечаться, выделяться и т. д. Заметим, что точки данных графика могут иметь больше одного атрибута (например, они могут быть одновременно маркированы и подсвечены), при этом в Редакторе данных графика они отличаются лишь различными цветами и в соответствии с этим отображаются на обновленном графике (после нажатия кнопки Перерисовать или Выйти и перерисовать). О В Редакторе данных графика можно управлять атрибутами точек (маркиро - ванная, помеченная, выключенная или подсвеченная) с помощью специальных кнопок панели инструментов или команд меню. О Точки данных (значения), выбранные с помощью закрашивания (то есть маркированные, помеченные, выключенные или подсвеченные), отображаются в Редакторе данных графика различными цветами. Пример 4. Связывание и внедрение В этом примере будет показано, как поместить график системы STATISTICA в другое графическое окно или в какое-либо приложение Windows, используя средства OLE. При вырезании (удалении) или копировании графика или другого выделенного объекта (такого как пользовательский текст, метки, вставки или рисунки) он помещается в буфер обмена (Clipboard). Для совместимости с другими приложениями Windows помимо объекта в собственном графическом формате системы STATISTICA в буфер копируется метафайл, а также растровое и текстовое представления. Растровые изображения В растровом изображении не хранятся никакие логические (структурные) компоненты графика. При вставке в другой график оно просто передает образованное из точек (пикселов) отображение графического окна. Метафайлы Windows («картинки») В отличие от растрового изображения, этот формат сохраняет некоторые структурные компоненты графика. Формат метафайла Windows хранит картинку в виде набора описаний или определений всех компонент графика и их параметров
388 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA (например, сегментов линий, шаблонов заполнения, текста и его характеристик и пр.). Поэтому формат метафайла предоставляет более гибкие возможности для настройки и преобразования графика в других приложениях Windows. Например, открыв график в формате метафайла в программе Microsoft Draw, его можно «разобрать», выделить и изменить отдельные линии, заполнение, цвета, отредактировать текст и изменить его параметры и т. п. Заметим, что не все программы обеспечивают возможность полноценного редактирования метафайлов, например, программа Microsoft Draw не поддерживает режим вращения текста. Собственный графический формат системы STATISTICA Записанный в этом формате график при вставке его в другое графическое окно сохраняет все свои структурные компоненты и объекты таким образом, что они распознаются системой STATISTICA. Поэтому при копировании или обмене графическими объектами (или целыми графиками) между окнами этот формат выбирается по умолчанию, чтобы в дальнейшем можно было продолжить редактирование (включая настройки графиков системы STATISTICA в других приложениях, куда они помещаются средствами OLE). Копирование и вставка графических объектов В этом примере использован файл данных Factor.sta. Откройте этот файл в одном из модулей системы STATISTICA (например, в модуле Основные статистики и таблицы). Из меню Графика или Галерея графиков выберите пункт Статистические 2Мграфики — Диаграммы рассеяния. В диалоговом окне 2М диаграммы рассеяния в поле Тип графика: выберите строку Составной. Затем нажмите на кнопку Переменные и выберите в качестве переменной X — Work_1> a Work_2 и Work_3 — в качестве переменных Y. Нажмите ОК, чтобы закрыть диалоговое окно выбора переменных. Нажмите ОК, и на экране появится график.
Пример 4. Связывание и внедрение 389 HWTJI'PIMriHWJI'l! Диаграмма рассеяния (FACTOR STA1 0v*1 00c) ^0 'a work.3 Щелкните правой кнопкой мыши на одном из условных обозначений и выберите из контекстного меню пункт Переместить условные обозначения. Диаграмма рассеяния (FACTOR 8TA10V*100c) Теперь условные обозначения преобразованы в пользовательский текст. Если дважды щелкнуть на них, то в Редакторе текста графика можно будет увидеть текст условных обозначений и управляющие символы. *.тмитшшш1мттш1*т "ЯЗ В окне редактора уберите из текста символ перевода строки (поместите курсор в конец первой строки и нажмите клавишу Del). Две строчки в записи условных обозначений превратятся в одну. Можно поместить четыре дополнительных пробела между условными обозначениями первой и второй зависимости и заменить сим-
390 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA волы табуляции (@Т[6]) пробелами. Поскольку условные обозначения не уместятся в одну строку, то табулятор не сможет гарантировать одинаковый интервал между символами и текстом. Щ m. woRK_?es ei|2j work_3 Щ\ Ш Ш шг ^^^Г^ММ-Ы\шШы\ыК-%\шМш в зй Нажмите ОК, чтобы увидеть на графике измененные условные обозначения. Диаграмма рассеяния (FACTOR STA10V100с) о г 0 оо ° В ' 1 о * о о ° . ...о о *JA -^1 оо о ° о о о 1 "! ' ............ ff 4 Зо влК^о о T^l»' ; °о 8 °° о о ° о 1 >0v WORK_2 'о. WORK_3 I Текст расположен не в центре рамки, потому что в первоначальной записи условных обозначений присутствовали символы межстрочного интервала (@S). Дважды щелкните на условных обозначениях и удалите символы @5. Нажмите ОК, чтобы вернуться к графическому окну. Теперь дважды щелкните на условных обозначениях в виде пользовательского текста, затем нажмите CTRL+C или кнопку Я, чтобы скопировать пользовательский текст в буфер обмена, и закройте Редактор текста графика. Диаграмма рассеяния (FACTOR STA 10V100с)
Пример 4. Связывание и внедрение 391 Вставка в виде текста С помощью двойного щелчка на заголовке графика вызовите диалоговое окно Правка заголовков. Для вставки поместите курсор на пустое поле Заголовок 2 и нажмите комбинацию клавиш CTRL+V или кнопку [Щ1 на встроенной панели инструментов. Ш 2Ш£ : Загоаач*!; , £ Jet W0RK_2 Дмаграина рассеяния (FACTOR.STA lOv'IOOc) OK Г7Тх1| 3 eL|2| W0RK_3 >X#JWORK_1 >X2: | ДвмйОсьУ1: J Левая ось Y 2: [ Qpa*M«e»Y1: J Паевая oc* Y 2: Г Ы ...._ Ag|. fie) Отмена Нажмите (Ж, чтобы увидеть итоговый график. Iillf|lll4'"r,l"i4hll,l Диаграмма рассеяния (FACTOR STA 10V100с) >V WO"K_2 о. WO*K_3 Теперь условные обозначения помещены в заголовок. Вставка в виде растрового изображения Чтобы выделить условные обозначения в виде пользовательского текста, снова щелкните мышью, поместив над ними курсор. Затем из меню Правка выберите команду Вырезать (можно осуществить эту операцию и другими способами: с помощью комбинации клавиш CTRL+X, кнопки панели инструментов или команды Вырезать контекстного меню). Согласно пояснениям во введении к данному примеру теперь пользовательский текст помещен в буфер обмена в четырех разных форматах: как обычный текст, как растровое изображение, как метафайл и как собственный графический объект системы STATISTICA. Из меню Правка выберите режим Специальная вставка. В диалоговом окне Специальная вставка выберите формат Растровое изображение. Включите режим Поместить по умолчанию.
392 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA .. • ■ !,i» >.I.inIад;мдй >iw«ни > ввцн ШБ : , J>o.wokk_2 awoWK.3|iMa расСвяния (FACTOR STA 10V100c) ^Ot WORK.2 " o. WO«K_3 140 i WORKJ Теперь вставка имеет вид обычных условных обозначений в виде пользовательского текста, но на самом деле это не так. Программа воспринимает ее как набор точек, то есть растровое изображение. Щелкните на объекте правой кнопкой мыши и выберите из контекстного меню пункт Свойства объекта (или дважды щелкните на объекте, или выделите объект и нажмите комбинацию клавиш ALT+ENTER). В появившемся диалоговом окне удалите метку около слов Исходные пропорции (чтобы можно было менять размеры объекта, не заботясь о сохранении перво-
Пример 4. Связывание и внедрение 393 начальных пропорций). После закрытия этого диалогового окна объект можно перемещать и изменять его размеры. Диаграмма рассеяния (FACj растягивание растровых рисунков искажает изображение (например, данный текст) WORKJ Очевидно, что при растяжении или сжатии растрового изображения каждая точка соответственно перемещается, вызывая искажение текста. Вставка в виде собственного графического объекта системы STATISTICA Выберите из меню Правка пункт Специальная вставка, а затем режим Внутреннее описание системы STATISTICA. ШВВШШЕВВШЯ Диаграмма рассеяния (FACTOR STA1 0v*1 00c) "ЧХ. WORK_2 * о. WORK_3 Первоначально этот объект выглядит как растровое изображение. Дважды щелкните на нем. Вы увидите, что размеры шрифта изменить нельзя. Вместо этого откроется окно Редактор текста графика. Таким образом, система STATISTICA воспринимает это изображение как собственный графический объект и, следовательно, позволяет его редактировать любыми доступными средствами. Чтобы изменить размер условных обозначений, необходимо выбрать Шрифт большего размера, например Anal Bold 20. Ниже показан график, получившийся после внесения изменений.
394 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Йиммяг ;:Г:г?&й^ twcT н* графике fro- |P£iMKN ";38ЯК Р«*М ■ : |ИIГоризонтальная *\- \ '•• ••.- ■ ■ ■ ■.■.■ ■■■!■■ ■.■_■ ■ о■ ■ ■ ■ ■ ■...... „пил.!;:I. .п.,..,.-. ...п i л, ..и тт.л л»[ррюшгтт*::<- Попарптля* , Г* Дцнаии*. «мим!"Г"Здеир» яо*ож«ми»: Р ftwMewrwvrm дочт* »и*> Г*Дрттатсть поуио^иаомо Диаграмма рассеяния (FACTOR STA 10V100с) >Оч WORK.2 * о. WORK_3 130 120 110 100 on Ж) 70 |^WORK_2 -*-.. WORK_3| <... 0 0 0 -*»*& .—Г^ о У " О о -° ;-о-оЛй i о ° о; °о -Jgcg&g Оо-.У. ..0о,..Р *й*1 ■■.•«-.■ о о ° 0 О О о 9 ft). 0 ' ls*~ "о— ; о о о Сетка Для выравнивания положения текста и других графических объектов используется функция Направляющая сетка из выпадающего меню Вид (она вызывается также с помощью комбинации клавиш CTRL+G). | Диаграмма рассеяния .ТACTOR STA 10у*100с) >0kV*CRK_3 ♦ -•«■■ wosK_a -
Пример 4. Связывание и внедрение 395 Имеющаяся на графике сетка позволяет очень точно размещать различные объекты (например, текст). Эта сетка не выводится на печать. Удалить ее можно, снова выбрав пункт Направляющая сетка (то есть удалив метку около названия функции или нажав комбинацию клавиш CTRIAG). Для настройки сетки (ее начала и интервалов) нажмите кнопку панели инструментов §Ц или выберите из меню Вид команду Прикрепить к сетке. При этом также появится возможность прикреплять к узлам сетки объекты (для точного размещения). При перемещении и изменении размеров объектов режим прикрепления к сетке можно легко включать и выключать клавишей TAB. Функции клиента и сервера в OLE Теперь удалите все графические объекты, помещенные в этом примере, на диаграмму рассеяния. Сам этот график будет вставлен в трехмерную гистограмму. Этот пример продемонстрирует, как система STATISTICA может являться одновременно клиентом и сервером в методе OLE. Создание трехмерной гистограммы Из меню Графики выберите пункт Статистические ЗМ последовательные графики — Гистограммы двух переменных. Выберите в качестве переменных Work_1 и Work_2. Нажмите ОК для построения гистограммы двух переменных. Внедрение диаграммы рассеяния Щелкните на предыдущем изображении диаграммы рассеяния. Затем из меню Правка выберите команду Копировать (или нажмите комбинацию клавиш
396 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA CTRL+C). Снова щелкните на гистограмме и теперь из меню Правка выберите пункт Специальная вставка. Как и в случае пользовательского текста, возможен выбор из нескольких графических (файловых) форматов. При выборе формата Растровое изображение изменение размеров внедренного графика, как и в случае пользовательского текста, приводит к искажению изображения (см. ниже). UIHnilJlHI4MI',ilflHlII,llU"Jlllri *Щ&0^ Выберем вместо этого собственный графический формат системы STATISTICA. Ржзшввяшвр» Mm in i it*"mMAmnmm 4WVVWU ^wm«x (FACTOR STA 1<V100c) ъшФШ,
Пример 4. Связывание и внедрение 397 Поскольку этот формат установлен по умолчанию, то достаточно просто выбрать команду Вставить или нажать комбинацию клавиш CTRL+V. Редактирование внедренного графика Щелкните на внедренном графике правой кнопкой мыши. В появившемся контекстном меню будут показаны все доступные функции редактирования. Внедренный график рассматривается как связанный объект, то есть с ним можно обращаться как с исходным графиком. Если дважды щелкнуть на нем, то он будет стандартным образом открыт по соглашениям Windows о связывании и внедрении объектов OLE. Сделайте нужные изменения и выйдите из режима редактирования с помощью команды Закрыть и вернуться из меню Файл. Все изменения будут отображены на внедренном графике. Внедрение или связывание графиков из файлов Можно осуществить процедуру внедрения или связывания графиков из имеющегося графического файла. Например, сохраните диаграмму рассеяния в виде собственного графического файла системы STATISTICA (например, в виде файла Scatter.stg). Затем щелкните на трехмерной гистограмме и из меню Вставка выберите пункт Объект (или нажмите на панели инструментов кнопку Вставка объек- таЩ). В диалоговом окне Вставка выберите вкладку Объект из файла, при этом в списке Тип объекта укажите График STATISTICA. Проверьте также, включен ли режим Связь с файлом. В этом режиме связанный график будет автоматически обновлен при изменении и сохранении исходного графика. В списке Имя файла выберите предварительно сохраненный файл Scatter.stg. Нажмите ОК, и в левом верхнем углу картинки появится график из этого файла.
398 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA . " ******* &<**>*•»«*СПЖ«г» «•»*«*) Ц. Ф^ЗР*?* Автоматическое обновление связанных графиков Теперь вернемся к диаграмме рассеяния и удалим весь пользовательский текст и заголовки (выделим их щелчком мыши, а затем нажмем Del или используем команду Вырезать в меню Правка). l«imji|M«IMI!li».I.IIII.IJ.IU4Jlll)l шх (FACTORSTA 10»*100е) Ш0Ф На рисунке видно, что связанный график был автоматически обновлен. Управление несколькими графическими объектами Если на экране находятся одновременно несколько непрозрачных графических объектов, то важно, чтобы они были расположены в нужном порядке. Рассмотрим, например, построенную ранее трехмерную гистограмму с внедренным графиком. Ниже показан этот график после добавления к нему стрелки и пользовательского текста.
Пример 4. Связывание и внедрение 399 В данном случае желательно нарисовать стрелку и пользовательский текст поверх связанного графика, потому что иначе они не будут видны. В настоящий момент элементы графика изображены в правильной последовательности. Но в следующем параграфе просто с целью демонстрации мы покажем, каким образом вынести этот график на передний план, то есть нарисовать его в последнюю очередь. Изменение очередности изображения графических объектов Кнопки панели инструментов Вынести на передний план и Перенести на задний план Ю1^1 предназначены для соответствующего перемещения выбранных (выделенных) графических объектов. Щелкните на связанном графике, чтобы выделить его, а затем нажмите кнопку Вынести на передний план. Гистогрятм дшух мрммимых Теперь внедренный график закрывает стрелку и часть пользовательского текста. Можно снова поместить его на задний план (в исходное состояние), нажав кнопку Перенести на задний план.
400 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Управление графиками системы STATISTICA в других приложениях Windows средствами OLE В этом примере будет показано, как связать график системы STATISTICA с другим приложением Windows, используя метод Связывания и внедрения объектов (OLE). В данном случае график будет связан с документом, предназначенным для редактирования в программе Microsoft Word. Связанный таким образом график системы STATISTICA может редактироваться внутри другого приложения с использованием инструментов настройки системы STATISTICA (если это приложение поддерживает средства OLE). Сначала построим в системе STATISTICA приведенный ниже график. Предположим, данный график необходимо включить в документ, редактируемый в программе Microsoft Word. Ниже показана та часть «отчета», в которую должен быть помещен график. ЫоМ «60 G0,80] (90,100) A10;120) A30,140] F0;70) (80.90) A00.110] A20:130] » 140 WORKJ При исследовании удовлетворенности работой и досугом было получено несколько неожиданных результатов Однако перед представлением интерпретаций полученных результатов будут рассмотрены распределения ключевых итоговых показателей П И Респредепение переменной W0PK_f можно представить следующим обрезом 4I 1 Распределение этой итоговой переменной близко к нормальному распределению 1
Пример 4. Связывание и внедрение 401 График системы STATISTICA нужно вставить между вторым и третьим абзацами текста (после слов следующим образом:). Связывание графика системы STATISTICA Сначала откройте систему STATISTICA и постройте необходимый график (например, такой, как показано выше). Затем скопируйте его с помощью комбинации клавиш CTRL+C или команды Копировать из меню Правка. Переключитесь на документ Word и поместите курсор в то место, с которым должен быть связан график (в конец второго абзаца). В программе Microsoft Word выберите из меню Правка пункт Специальная вставка. ш ("{•дож | Рисунок Том**»* рисунок |Алпарвтно-немеисимыи точечном рисунок [метафайл window (EMF) Р;-/-?'<!:'^;'.:''-^^ ~j: Г^шц»'4И»к»..:;.:: •» ППыъ! <WHew»ecrwoрц»ацю»*т»«п> м*График ?.:v?*^4&^4<*&«i Редактор Microsoft Word распознал в буфере обмена график системы STATISTICA. Следовательно, по умолчанию график будет помещен в документ как График STATISTICA. Для вставки графика нажмите ОК. Обратите внимание, что таким же образом можно просто вставить график в документ (нажав CTRL+V), поскольку формат График STATISTICA стоит первым в списке форматов буфера обмена (Clipboard). Mi«^^^ m щтщмШЧ»' =*S интерпретаций по пуме иных результатов будут рассмотрены распределения ключевых итоговых показателей П Распределение переменной WORK_ 1 можно представить следующим образом Ц Итогом* гистограмм» для п»р»м«ййой W0RK_1 30 г I i ы МйШаШ 60 G0.80] (90.1001 A10,120) A30140) (80.70] (80.90] A00.110] A20.130] » 140 WORKJ f Распределение этой итоговой переменной близко к нормальному распределению П пгз^шгу^ * j»wrj8ri г^жутч; rriw wtmm шр>:як1|1тш№ш
402 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Редактирование связанного графика Предположим, вы решили включить в показанный выше график краткое описание переменной Work_1. Для редактирования графика дважды щелкните по нему, при этом автоматически запустится система STATISTICA, где будет открыто данное графическое окно. Можно убедиться, что при этом здесь в меню Файл появились новые пункты. = 60 G0.80) (90.100) A10.120) A30.140) F0.70) (80.90) A00.110) A20.130) > 140 WORKJ Обратите внимание, что система STATISTICA «знает», что данный график внедрен в документ Microsoft Word. Таким образом, сделав необходимые настройки, можно закрыть систему STATISTICA и вернуться в Word (Закрыть и вернуться...), обновить график в программе Word и продолжить редактирование в системе STATISTICA (Обновить...) или выйти из системы STATISTICA и вернуться в программу Word (если график был изменен, то система STATISTICA спросит, нужно ли обновить его в документе Word). Предположим/к графику добавлен следующий пользовательский текст. iriii'rifiiiini.fiHi'itiMi-f.ia'.fi Итоговая гистограмма для переменной WORK_1 30fi «=60 G0.801 (90.100] A10.1201 A30.140| F0.70] (80.90] A00.110] A20.130] »140 WORKJ В меню Файл выберите команду Выйти и вернуться в Microsoft Word. Теперь в документе Word содержится обновленный график.
Пример 5. Добавление заданных пользователем статистических графиков 403 Я'ЯИПГИТМШ '.ТЭ**** 0»** ** lw*,« '**«» 6mm 1*им Оки» J fflOwe П£мш2Г 'нтррпретации rvjnyj* нньг»-ре1упь*^в'оудутра^с"мс*трш>г ;'':ч :: распределения кпючевы* итоговых показателей Ц Ра<: пред с пение переменной WWK_ f mowmo представить спедующим образа Ц Итого»»* mtion»ut«>y<» п»р«м«Ш'ОД WORK_1 «i«ra>i»i 00| A10 1 Ml A30.1*01 A00 1101 A201ИЧ «1*0 Распределение этой итоговой переменной бпиэко * мормапьюму распредепениюЦ id» i Nitt w mv** ctt *•« Как видно из рисунка, на графике, внедренном в документ Word, присутствует новый текст. Пример 5. Добавление заданных пользователем статистических графиков в окно Галерея графиков и в меню Графика STATISTICA позволяет включать в пункт меню Графика дополнительные типы графиков, определенные пользователем. Это очень удобно при построении типовых графиков с конкретными параметрами настройки. Кроме того, определенные пользователем графики, а также типовые настройки могут быть поставлены в соответствие кнопкам на панели инструментов Кнопки автозадач. Предположим, что в процессе контроля качества обычно производится 25 серий измерений, в каждой из которых берется по 5 образцов продукции. При этом каждый раз по этим данным строится минимаксная диаграмма одного и того же типа. В этом случае для экономии времени целесообразно включить этот конкретный тип графика со всеми его настройками в список графиков, определяемых пользователем. Этот список вызывается из меню Графика (в подпункте Статистические графики пользователя). шттт&ьшш ft> ■**»«* »wimi»
404 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Файл данных В этом примере используется файл данных Pistons.sta. В нем содержатся результаты измерений диаметров поршневых колец, 25 серий измерений по 5 колец в каждом. Часть этого файла представлена на рисунке. ГчЕ HHOlSizes of ЭНЙЧ Щг, 5"!! Hi in £>• JsL T.^i I* >* и АР Ж UL iL i$ Q. 1 x'J SAKPtE 9 1.000 1.000 i.ooo[ 1.000 1.000. 2.000 2.000 2.000 2.000 2.000 3.000 3.000 3.000 3.000 3.000 л nnn ИСЕИ] piston iT| 74.030; 74.002: 74.0191 73.992 74.008;; 73.995 73.992 74.001 74.011 74.004 73.988, 74.024/ 74.021: i 74.005 74.002 . Определение параметров графика Откройте файл Pistons.sta и выберите в меню Графика пункт Статистические 2М графики — Диаграммы размаха. Появится диалоговое окно 2М диаграммы. шшщщ ЕШ] щшг;" ЦП Состою* ^Г^щ тт:^;Ш-Щ &.$$& Нажмите кнопку Переменные и выберите переменную Samples в качестве кате- горизующей в поле Группы на диаграмме, а в качестве второй — переменную Size. Нажмите ОК, чтобы закрыть диалоговое окно выбора переменных. На этом минимаксном графике должны быть показаны средние значения, стандартные отклонения и интервал (максимум и минимум) для каждой серии замеров. Поэтому в списке Средняя точка выберите строку Среднее, в списке Прямоугольник — Ст. откл.у а в списке Отрезок — Мин-макс. Затем в поле Группы на
Пример 5. Добавление заданных пользователем статистических графиков 405 диаграмме поставьте переключатель в положение Коды, нажмите кнопку Задать коды и выберите их значения с 1 по 25. И наконец, нажмите кнопку Параметры и установите режим Текст или даты на осях. Закройте диалоговое окно Статистические графики: параметры. Теперь диалоговое окно 2М диаграммы размаха выглядит следующим образом: ж [7>Л Отрезки Прямоугольники JLJ \Щ Столбцы -■-группы иаШ^гранйё^ ;ф ntp*M*MM^SAMr^;..•••.■:■'.. * С Km* •' *т".'.•>';•'.• ^.^ • -•••-•• "■■■■"■■ ш J:. [523 СоставноА -. Груюы; SAMPU '■■"••■•'•'.••''/••"•.:■•''';•. ,'•>•' ПерамчндЛ: SI2K • ■J, » ) ffi [| Отмена | CpiwieeCt.oTKA : Срелй^т^шУ^-- .1? •■х..*:?*Г • 1 |Ст. откя. il! 31 jСреднее Г ОбЧедмидинеядоядрсия ] 31МЦМНИИК 1 Мин-макс л! ]Друел:|нет '■"Щ *. £а сденгом ^ ;f # -:.) ■ '| 1 j Г C'CntiMjKftMnieM^--^:-'; / -.] B3 Г Сояяццит» средни» то«иш {Выбр. и кр. точки 15 Mc**^^ToW |Г| Создание нового графика пользователя Все эти настройки могут быть сохранены в виде пользовательского графика, который представляет собой таблицу графических стилей. Нажмите кнопку Параметры и снова откройте диалоговое окно Статистические графики: параметры. 0*; [ОПТИМИЗАЦИЯ ~ '| Су ftUMMMOl j/,"-:-' i j: ftjMWi^&*»*** н/ р"» Щ] \ • &*: I* ^ОТОБР^ТЬ;:" [<• НетГ Име»«наЛлюде«мй С Ляре*.; (SAMPLE j.) |У|1е»^млм'деУы'н4'^мц ГУ1 ;Н>$ЛЮДЕНИЯ"^^.д^ : '■ Ж Шов иабдвдетд ; *«^»сдвдие*гое**©Ы1акХ№«ая еая..^ ждагеяаа.; -pga*^ й Размещение rpe**dV г- \ □ |«1Гор(ыв»*«>^«тОйИ1»грАФичесг.ог<> L Отмен» J У : owe. "'•' |Р елороогимиругшеД «нуждим ГА«1рокс4^нк4«я.етв М Длинные «слоеные | Г Заголовок «дммик j • Г* Зеголоео* срвФнкд: J ••"::•;... (• Стдндартнал • . О Обратная СИСТЕМА КООРДИНАТ 2* ГРАФИКА:f- ■■<• Дек «ртов* Г Полярная С Со сжатиям ПОЛИНОМИАЛЬНАЯ ПОДГОНКА ! Порядок, полинома: С 2 ГЗ С 4 «5 годыммктпмьсдого гедсг»,.,««. ~.......— -^ '"'"'" ордгр^-!Й;:#:^ ПОДГОНКА <• 10 Г в • (ST £|ок«9«ть киопкм на последнем графика категорий: ]3Щ Показать индикатор состояния: |Авто HI Добавить к > Нажмите кнопку Добавить к меню как график пользователя, при этом откроется диалоговое окно Новый график пользователя.
406 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA РОэ*ттъгр—т***т В данном примере установите режим Сохранить текущие переменные с определением графика. (Здесь можно изменить имя файла и каталог, в котором он должен быть сохранен.) В поле ввода Название пункта меню введите название графика для его обозначения в списке меню Графика (в подпункте Статистические графики пользователя). Назовите этот тип графика, например, Контроль качества. Закройте это диалоговое окно (нажмите ОК)> и заданная диаграмма будет построена. П Ср»*м»#*Ст crin 2 4 б • 10 12 14 18 И 20 22 24 SAMPLE Выбор заданного пользователем графика Закройте модуль системы STATISTICA, в котором вы работали, а затем откройте его опять. Если открывать модуль с помощью кнопки Переключатель модулей системы STATISTICA, то все его настройки вновь будут установлены по умолчанию. Откройте файл Pistons.sta, если он еще не открыт по умолчанию. Предположим, что этот файл теперь содержит новые данные, полученные по той же схеме (то есть в первой переменной записаны 25 идентификационных кодов, а во второй — результаты измерений). Чтобы построить этот предварительно определенный пользователем график, выберите в меню Графика подпункт Статистические графики пользователя. Со1<»спю»р<опра»елош^стдг | ЗМ помри юсп» (по*» homhww поуоимн П|«тогр4*ик8о«хн*6лк!вений 1 Как видно, к этому списку добавлен ранее сохраненный график пользователя Контроль качества (в том случае, если вы не добавляли в это меню другие графики, график Контроль качества может оказаться единственным в этом списке). Теперь выберите его, при этом появится диалоговое окно 2М диаграммы размаха.
Пример 5. Добавление заданных пользователем статистических графиков 407 шшяшаа ШгЩ В этом диалоговом окне сохранены и автоматически воспроизведены все настройки, включая выбор переменных и кодов. Чтобы построить график, подобный предыдущему, достаточно нажать ОК. Диаграмма размаха (PISTONS STA 2V125с) 74.04 7403 74.02 74.01 74.00 73.00 7Э.ев 73.07 73.00 г 0 11 13 15 17 10 21 23 25 8 10 12 14 18 18 20 22 24 m Млс Мим CD cptA*tt*CT о CptAntt-Ст CptftMtt oti отт Просмотр и редактирование списка графиков пользователя Для просмотра и редактирования списка доступных графиков пользователя выберите в меню Сервис пункт Пользовательские графики. Чтобы уюрщючит» <У*ссж гркцко», вмените ймемиг* I (фИДОСТрвК&«ВК«М«*К1««Г»*?ОММ»СТ« .. i ' . и ,1 меяад строками. *ум шявп** «• ламмтмт*
408 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA Можно изменить порядок графиков в списке. Для этого нужно выбрать строку (строки) для перемещения и щелкнуть на новом месте расположения. Кроме того, можно добавить новые графики (если они предварительно сохранены как графики пользователя в файле с расширением *.sug)y изменить названия или присвоить их заново. Ненужные графики можно удалить. Удаление графика из списка на данном этапе не означает удаление файла, содержащего параметры графика (файла с расширением *.sug). Операция Удалить стирает имя графика из инициализационного файла системы STATISTICA Statist.ini. Позже этот график снова может быть занесен в инициализационный файл (с помощью кнопки Добавить), и опять появится в меню Графики пользователя.
Описательные статистики Дескриптивные, или описательные, статистики рассматривались в главе Элементарные понятия анализа данных. Здесь мы покажем, как вычисляются дескриптивные статистики, и уделим особое внимание описательным статистикам для группированных данных. Дескриптивные статистики очень важны, так как они позволяют в удобной компактной форме описать исходные данные. Представьте, вы издаете журнал и вам нужно описать читательскую аудиторию. Вы проводите анкетирование читателей и просите их указать: пол, возраст, уровень образования, доход и другие параметры. Затем вы вычисляете описательные статистки и находите, что основную аудиторию составляют мужчины в возрасте от 32 до 47 лет, имеющие доход свыше а долларов, образование высшее, женщины от 27 до 35 лет, имеющие доход свыше Ь долларов, образование среднее и т. д. Разнообразные графики помогают вам визуально представить результаты, которые являются основой для проведения издательской политики и анализа. Заметим, что различные способы построения таблиц, описанные в главе 11, также чрезвычайно полезны для анализа подобных данных. Мы будем работать с файлом Adstudy.sta, который находится в папке Examples и поставляется вместе с системой STATISTICA. Этот файл выбран специально для того, чтобы вы могли повторить наши действия и далее самостоятельно проводили описательный анализ собственных данных, так как позволяют установить связь между, например, возрастной категорией и читаемым материалом. Файл Adstudy.sta содержит 25 переменных и 50 наблюдений. Эти данные были собраны путем социологического опроса в одном рекламном исследовании, где мужчины и женщины оценивали качество двух рекламных роликов. Каждому респонденту случайным образом предлагался на просмотр один из двух рекламных роликов (ADVERT: 1 - Coke*, 2 - Pepsi*). Затем респонденты оценивали привлекательность рекламы по 23 различным шкалам (с Меры 1 — Measur 1 до Меры 23 — Measur 23). В каждой из шкал респонденты могли дать ответы по десятибалльной шкале, то есть выставить от 0 до 9 баллов. Пол респондента кодировался: 1 — МУЖЧИНА, 2 - ЖЕНЩИНА. Нажмите кнопку Описательные статистики. Далее нажмите кнопку Переменные и выберите переменные для анализа. ю
410 Глава 10. Описательные статистики <£«** Qpmk« |иа &*то £pt+*A fiojartc flwo j ■ Jtfixj AI)SIUDYSTA?bn-bOM шишштшшвт Advertising Effectiveness Study 2* [Г] Щ Ц S Г 6 ] 7 [ a 19 1 10 ] 11 j 12 I 13 I 1. ►Г " |въаоя8Ы1СЛ ~ }8мбор:8ЫКЛ |В*с£ЫКЛ ( В данном случае выберите все переменные. После нажатия ОК в окне выбора переменных диалоговое окно Описательные статистики будет выглядеть следующим образом: H'L'lliHil-lWII'lil'l ЁЗ Дар» иии»—: | ВСЕ Подобные опмсетел i статистики ОПЦИИ •:•••.••:•.: ;",v ;■;•;•••.;•■■■;. ■:■; Г Построчное удаление ПД Г* Отображать А****** и» юна перемети» Г* Вычисления с поеымюнмои точиостыо. ■ Распределение -""■* -—' ^—-- ~—=• '—-* •-—=-=-- Статистики -— -■..-■.— . Р Медиана и доартили V Доверит, гренмды средни» Иитереал: ]95^[Ц* VI Драхме статистики I IB №1 Отмене Ittl&ftl ,'£* .е-ео<ск«ш Программы j Г* Ожидаемые нормальные частоты ■'■■'■';■. \ Г »^»итерие ■*пмро-«ижа W •' £р*лпмро»к* (• Число интереелое: |10 С Целые интерееем (категории)|. \ЙЩ Диеп>ме»вр*дмааадляос»я паранаткд 1, §§ ^агоридооыиело диаграммы раамава □ □ - 1 '.. *Г!."! "" '"""'. "I"!!! .""j Нормальные еероодмостиые графики ] Полуиормальныа вероятностные греелеш | ГП Нормальные еероетиостмые граечеш бее тренда | ЕВ32И iIi/ЗМ рассеяния || с именами ] §§ Матричный | рассеяния ][ с именами | 1^ Поеедоюсть ] ,ЕЩ 88 1§ Катвгормэоеанные графики средник | Кахегориооеаниые гистограммы | (Сатегориеоеаниые нормальные графики | 881Сатегори9оеанные диаграмме! рассеяния ] 18? ЗМ гистограммы j По умолчанию таблицы результатов окна Описательные статистики содержат средние значения, число наблюдений без пропусков N, стандартные отклонения, а также минимальные и максимальные значения для выбранных переменных. С помощью кнопки У задаются условия выбора наблюдений.
Описательные статистики 411 * о < ><ш >»N0TAN0Oft £* >7<t OB *VttS4 <nf *<>0 В окне Условия выбора наблюдений можно задать правила выбора наблюдений из файла данных. Таким образом, будут анализироваться не все наблюдения, а только те, которые удовлетворяют заданным условиям. Кнопка В позволяет ввести веса, таким образом могут быть введены, например, группированные данные (см. пункт Как проверить нормальность наблюдаемых величин в главе Элементарные понятия анализа). 222!!!!ЭВЭЭЗННННВННСЕЕЕЗ Д*С И» tWpliWIHOft | Щ 1 1к« :Т5=Т '. ЯИПРФЪ Л((ЯМЯИИМ М> Г дал огмж* Нажмите кнопку Другие статистики, чтобы открыть окно Статистики, в котором можно выбрать различные описательные статистики. Вы можете выбрать любой набор статистик из предложенного списка. В нашем примере оставьте выбор статистик, сделанный по умолчанию, и нажмите кнопку Подробные описательные статистики для построения таблицы результатов. I % ХЬ ШI УСА: frrwm***:Ы4в-Шт * ** *M*wix* Г* Сттшщптш nmilkn <и>'« Г 9 * яйшчт.грттщ* mm е Г ОштЛттттт*,мт.т,шч» # ы, Г К»мг. шц» ишидт» К—м» Г Нмшни* cm" "w"*:':'*'"::*' * Г Кмтммм*имм> 1ЙН| Диаграмма рммщадяк га i ым«ц||пча омом тктттящт Дмгм* «не*»*»»** сгеияикк i :(fH С- *и мыв имтямммы fnwrwoDMtl fcwiiHX» гмствгр w<m у fwnwrp^HNM
412 Глава 10. Описательные статистики ADVERT MEASWRl XEA5UR3 ХЕА51ШЗ MEASUR4 KEASURS HEA5UR9 HE4S0R1Q 50 50 50 50 50 50 50 50 50 50 50 SO 440000 460000 900000 540000 140000 520000 960000 840000 4 660000 3 720000 4 160000 3 940000 000000 000000 000000 000000 000000 000000 000000 000000 000000 000000 .000000 000000 000000 000000 000000 000000 000000 000000 000000 000000 000000 000000 000000 000000 501427 503457 2 366863 2 887058 2 725615 2 659139 2 633846 3.019393 2 495792 2 806988 3.046309 3 053335 Графиком по умолчанию для этой таблицы результатов является гистограмма с наложенной на нее нормальной кривой. Этот график обычно используется для того, чтобы представить, как распределены значения переменной, а также для визуальной проверки нормальности исходных данных (подробно гистограммы описаны в разделах книги по визуальные методам анализа данных). Для построения графика щелкните правой кнопкой мыши в любом месте таблицы результатов (например, на среднем значении переменной Measur 7) и в появившемся контекстном меню выберите построение графика Гистограмма/нор- мальн из меню Быстрые статистические графики. Такая же гистограмма может быть построена после нажатия кнопки Гистограммы в разделе Распределение окна Описательные статистики. Этот раздел также позволяет анализировать распределение частот для каждой выбранной переменной (при этом происходит построение по одной таблице результатов или гистограмме на каждую переменную). В этом окне возможно также вычисление некоторых специальных критериев нормальности и использование настроек категоризации изучаемых данных. ал ■ klDIXll MEA8UR7 К-С d« 16433. р< 16 ,Л*лли#фороа p« 01 Ожим«иы« Норимльм ицы(х <■ граница)
Описательные статистики 413 Окно Описательные статистики предлагает большое количество графических процедур для проведения визуального анализа распределений переменных и корреляций между ними. Например, нажмите кнопку 2Мрассеяния (с именами), чтобы получить наглядное представление о характере зависимости между двумя переменными. При использовании опции с именами программа располагает на диаграмме имена наблюдений рядом с соответствующими им точками. Вы можете построить матрицу диаграмм рассеяния, нажав кнопку Матричный. гтшят штш^шшшшяш^яшшштяшшштшштшшттшшлттшяттш^шттт flllimiliimwMiiiiiiriiiiiii^^ 2М диаграмма рассеяния MEASUR1vs MEASUR2 9 7 : > ОС и 5 : Z { 3 j 1 Р Squre С Mayer О О М Quick J Owen 0 Leno О О О М ONei В Quaie A Sm*h О О О Е Bynurn L.Hosen F East H Morrow N Segal 0 0 0 0 0 J Oury R Irving M Crow J Harper 0 0 0 О U. Andy S Brd 0 0 R.Jerm К Small C.CW О 0 0 T.Bush F.Wnd 1 Ned 0 Bos« 0 0 0 0 0 Hogen M West 0 0 I Mynard D Young M Oood 0 0 0 1 1 3.5 7 MEASUR1 D Frynd 0 M Brown 0 N Luce 0 S Reber 0 J Liu 0 J.Baker 0 9 —■' '' HHLbJJbUUmJI 11 I UIIIII..|llllWlll!llll.|l|l|lii|IUIIIIIlHai.miLI ■ Корреляции (C0BBS.8TA 21п*400м) Ш-Q J^>" •V?" ОСУУ0УС_о Кнопка Поверхность предназначена для построения поверхности в пространстве (по умолчанию второго порядка), приближающей значения выбранных переменных.
414 Глава 10. Описательные статистики U».H..|l|lLl.l.UJ.IH!l.liJl.lJ.I.I.IJII.I.I.l.l.lU Поверхность второго поряака VAR1 vs VAR2 vs VAR3 Н 98.621 Н 99 059 Ш 99.497 Ш 99 935 CZ3 100 372 I 1100 81 Ш 101 248 Н 101 686 tm 102124 Н Ю2 562 Также возможно построение категоризованных диаграмм размаха, гистограмм, диаграмм рассеяния и вероятностных графиков. Наконец, есть возможность построить ЗМ гистограммы двух переменных для изучения двумерного распределения выбранных переменных. Этот график обычно используется для описательных целей, а также при проведении разведочного анализа данных; однако иногда он может быть полезен при проверке нормальности двумерного распределения. ьншиниг S MEASURE I MMEASURE2 ЗН гистограмм* для : HIASURI1 и HIASURI2 Число мабл. Корреляции Корреляции измеряют степень зависимости между переменными. В файле данных имеем несколько шкал (переменные Measur 1 — Measur23). Вначале проверим, не коррелируют ли между собой оценки в различных шкалах, другими словами, не измеряют ли некоторые шкалы, по сути, одни и те же
Корреляции 415 свойства объекта. Если окажется, что некоторые шкалы зависимы, мы просто сократим анкету, выбросив из нее лишние пункты. Вначале вычислим корреляции по всем наблюдениям, далее рассмотрим внут- ригрупповые корреляции, то есть корреляции внутри групп. Вообще, вычисление корреляций наряду с группировкой и построением таблиц — стандартный первый шаг всякого исследования, связанного с анализом данных. В стартовой панели Основные статистики и таблицы выберите процедуру Корреляционные матрицы и щелкните ОК (или можете просто дважды щелкнуть на процедуре Корреляционные матрицы). |Ш критерии Л*» не» ЕЭ t-*P**epMft для j jJJ Группировка и одио+акториая AN OVA Таблицы частот Таблицы и заголовки \lSMk Вероятностный калькулятор 0Е*\ Другие критерии значимости : {У Данные жш&&{ После выбора этой процедуры откроется диалоговое окно Корреляции Пирсона. £3 Корреляции Пирсона jj5jj Клтцьнтрт* [<*т спмсо*|:■ {И Прдмочс метро** (ем списка) ■■ | [В • jfijcf >' } :'' ■ . vi:''^^"'V U^y**}* " ДВ Сохранить матриц [ Отмена | ц|ав Отображать - •**—~~*-.а*~- (• &орв\ метраже, (еше*.: я\ 11 рТ Построчно* удойна*» П Д С Корр. мвтрицч (отоорвжлть рм N) \\Г Отображатьммниыеимена nepeetj Г Подробичю тебанач реауцгто» Е3 2М • -- ■_ ^ ,:r :^;#|pf 3 Матричный I 39 Катетор. янаграша* рассеяния 1^3М j taJE" Поверхность ЗМ гмстогрлммы ]Ь*в1*^*эн>мддеик«)ррелйииии^ модул Клаогерный еиалиь Да* начислений множественной корреляции и частные коррелят *сг»яьэ^г# модуль Мнс>«роаг§енна«реги»осий. ' ^?:.Д-^''--К''' Вы можете выбрать переменные как из одного списка (то есть матрица будет квадратной), так и из двух списков (прямоугольная матрица). В данном примере для простоты выберем все переменные для анализа. Однако следует помнить, что корреляции Пирсона больше подходят для переменных, измеренных в количественных шкалах. Для номинальных переменных, таких как GENDER, ADVERT, применяются другие методы исследования зависимости (см. главу Построение и анализ таблиц). Итак, хотя формально корреляции вычисляются для всех переменных, мы сосредоточим свое внимание на корреляциях между Measur 1 — Measur 23.
416 Глава 10. Описательные статистики г auvi н г I Ml ASIJII1 4MIASUH? SMI AMIII.1 Ь MlASUH4 /MIA'.UHS В MLASUHB «JMIASUH/ 10MIASUHB II Ml Л",НИМ i? mi asiihio Доироб. »» t Нажмите OK, чтобы вернуться в диалоговое окно Корреляции Пирсона, ж-.\-™ъ&ш**<& си :< ОСНОВНЫЕ ]Омм«чемиые корреляции значимы не уровне р < .05000 $ II СТАТИСТ |Н'50 (Построчное удаление ПД) Та Вы можете указать уровень значимости {альфа — 0,05 по умолчанию) для выделения значимых коэффициентов корреляции в таблице результатов. Чтобы изменить уровень альфа, щелкните по кнопке Параметры на панели инструментов таблицы результатов и откройте диалоговое окно Уровень значимости. Введите в это окно уровень значимости 0,001 и щелкните ОК. Шш 177x1 ■• Веедите жимишь яиееммовзд {еяьфв! ami jmmmjmmimr \ OOll ев в*
Корреляции 417 Легко обнаружить высокие корреляции (например, корреляция между Мерой 5 — Measure и Мерой 9 — Measur 9 равна — 0,47). Такая высокая отрицательная корреляция показывает, что две шкалы оценок могут измерять одну и ту же характеристику зрительного восприятия рекламы (хотя одна мера этой характеристики возрастающая, а другая — убывающая). Две опции из диалогового окна Корреляции Пирсона позволяют получить таблицу данных с коэффициентами корреляции, а также более подробными статистиками (например, р-значение, число пар N, ^-коэффициент детерминации, £-зна- чения и т. д.). Когда вы выберете установку Корр. матрицу (отображать р и N), вместе с коэффициентами корреляции будут также выведены р-значения и число пар N наблюдений, по которым они вычислены. Данная опция полезна, если в данных есть пропуски и нужно точно знать объем выборки. Выбор опции Подробную таблицу результатов в диалоговом окне Корреляции Пирсона возможен только при выборе 20 или меньше переменных для анализа, так как для каждой корреляции автоматически будет выводиться большое количество информации. После выбора этой опции будет построена таблица результатов, содержащая соответствующие описательные статистики, коэффициенты корреляции, ^-значения и число пар N, а также наклон и отрезок регрессии для каждой переменной.
418 Глава 10. Описательные статистики Эту опцию следует использовать только для отдельных корреляций (но не для подробного анализа), потому что в этом формате для каждого коэффициента корреляции будут заняты 22 ячейки таблицы результатов; таким образом, для матрицы корреляций 20x20 получится таблица результатов с 8800 ячейками. Вы видите, что корреляция между Measur 5 и Measur 9 действительно значима (р=.0006). Это говорит о том, что ошибка, связанная с принятием гипотезы о независимости, составляет 6 из 10 000. После того как получена оценка корреляций, посмотрим зависимости на графиках. Чтобы визуализировать значения корреляций между переменными, можно построить график корреляций. Если щелкнуть по соответствующему коэффициенту корреляции (-0,47) правой кнопкой мыши, то появится меню: ■■■■■■■■■■■■■■пщщ! [Отмеченные корреляции значимы на уровне р < 00100^* (Построчное удаление ПД) доШЩШящдарШЁ&яЩ 10 -SL 12 1 00 05 03 -.08 - 07 -.33 ; 05 1.00 00 23 09 1-27 03 00 1 00 08 -.01 ЩЩШШШШГШШШШ £3 Ошь**»мье*и* графики » JA Быстрые основ»** crimen**... Ш Сп<11иФйк*ииистфйбцД~' 1 Иместро**.. ф Нвжиромгьаыдоянио» Ю ^<по/нигы'сгвиа«рти^>омт1»б«1сж * Ы Стлгистикябяокл по столбцам > gQJ Сw>cn*w блекл по строкам • ► X Ы*ж* СМ«Х (& £рпиров«г^ CW+C (& Концхимп» содержание , ф Bcr<***> V*.**-* 0 О^^сшгь Del 1 03 l 1.00 ; 05 l - 09 17 ! 11 1 - 02 : 15 . -.11 11 jSH Теперь перейдите в подменю Быстрые статистические графики и выберите Диаг. рассеяиия/довер. Будет построен график с параметрами, заданными по умолчанию (диаграмма рассеяния для выбранного коэффициента корреляции с прямой регрессии, доверительная полоса 95% и уравнение регрессии в заголовке). QBE Дме#.* Отмеченные корреляции значимы но уровне р < 01000 N■50 (Построчное удаление ПД) MEASUftlO :MEASUfm :MEASUR1? KCASUR13 MEASUR14 MEASUR15 MEASUfit? MEASUftlj MEASUFH8 MEASUR19 -24 09 -01 -12 14 -21 11 25 00 06 j йшрт+* р*т т* йпл MEASUflS g 2U гметогр»** no MEASUftS ДО г>югогр»»« n»ME*SUft$ 3 /Wjj«wM»<>ft3M4rtno^ftASW»$ '/" I Вямигностньй гдоик по М£А$Ш$ > Q<*«h^M€ASW5mM£ASU*3 J Ыятр"**я «натр»*» рассмим... p 00 03 15 08 07 h 32 23 22 16 02 Unix» -07 09 -01 03 1 00 05 *Д -09 17 11 -02 15 -11 11 <* >П
Корреляции 419 ft STATISTICS Основные ст. файл Оравкд Вид Встаем £«амвткм ^н**© Графика £*р*ис Qkho 2 l.lfflxl гёШИ^ГА^ШУ* $ |Д Ш*Ш* шм Шштшш Advertising Effectiveness Study. Г|»1Й»|#«*Ш»Й f«**ив* »»? Д*дее... Этмеменные корреляции значимы на уровне р < 01000 sj-50 (Построчное удаление ПД) В. Brown С. Науес В. «est Ь. Young S. Bird Ь. Flypd J. Oeen HAI tehai Перемен hai MEASUR7J hai MEASUR8 TEHAI JJgJj^Jgj0| [fehai M£ASUR10: hai MEASUR11 tehai MEASUR12 C. Clint G. Вовв hi I l.».M.!l!IHlU.UII:L|llMII.UIIlLII.UJ.I.[i|!I.IJWHPi MEASUR9 v» MEASUR5 (Постро^юе давление ПД) MEASUR5 - 5 Б404 • .4039 ■ MEASUR9 Корреляция г ■ • 4672 пл| яга а г В. Мог со v I hai MEASUR13 Г. E*st fehai MEASURE hai MEASUR1& | hai MEASUR16 2 hai MEASUR1? 2 MEASUR18 MEASUR13 ко- loo о [■" ' - .О О О . • О * г-^-^_ *'•••? ° * V О <^""^^-_" °" " - - О О О I ° "°" ""■"•-.. '"° • - - L . . о "^--T^S"-—^_© | О о "* -.. о ♦■ [■ о -о • о о* %--.-р- I о о о о 3 5 7 MEASUR9 Регрессия 95*дое*р \1ШШШШ№Ш1*\\ {Готов* * |в*ак*ПРИНТТг* |Вы6ор.ВЫКЛ |ВасВЫМ1 [ Мы вернемся к этому примеру и рассмотрим зависимость между Measur 5 и Measur 9 для группированных данных. А сейчас опишем некоторые возможности для настройки построенного графика зависимости. Если вы щелкнете где-нибудь на свободном месте снаружи осей графика, появится меню глобальных опций. l..l,..nvi,UII.LI.lllllll.LII,l,LI,i Ml >Ц1М ,,,,!■ HIASUR9 v§ HIASUBS (Построчно* ул*л«мм« ПД) MASVRS - 5.6404 - .4039 * HIA3UH9 Корреляция: г ■ -4672 HjpWHHT» ра»«ш«*и графим.. ■йшжмралвгъй—*т ура»**-,- • Задать щнйсиъ трюьцл/дрм''.,. о о Мстив**» а—та «она-•. '■<■ -5^"' Врана* объект.*. в' * •. Вставить о {атававатьтраздах, Л1чат*гра«*а Ъвфтвырьтт • i Дана ат урана ' : v' Jj * Большинство основных настроек формата графика доступно в диалоговом окне Общая разметка (см. выше первую опцию контекстного меню).
420 Глава 10. Описательные статистики feJfcL [ MEASUR9 vt. MEASUR501ocr|MHMM уимии* ПД) 1*=х^5*;«% \ Ниже показаны основные соглашения по использованию мыши для настройки графиков. Вычисление описательных статистик для группированных данных Развитие сюжета далее довольно естественное. Вначале мы вычисляем описательные статистики и корреляции для всего массива данных, затем для групп данных. Оказывается, что зависимости в группах данных существенно отличаются от за-
Вычисление описательных статистик для группированных данных 421 висимостей в исходном массиве данных. Сравнивая полученные результаты, приходим к мысли, что группировка — это действительно то, чем следует заниматься на первых этапах дескриптивного анализа данных. Например, врач проводит группировку пациентов по полу, возрасту, заболиваниям; экономист группирует людей по уровню доходов; инженер по контролю качества группирует причины, вызывающие смещение качества производимой продукции. Проводя группировку, мы стараемся выделить группы однородных объектов (исходные реальные данные, как правило, неоднородны) Вы можете воспользоваться методами кластерного анализа для лучшего понимания структуры данных и разбиения их на одноролные группы. В системе STATISTICA вы можете вычислить разнообразные описательные статистики (например, средние, стандартные отклонения) для данных, разбитых на группы одной или несколькими группирующими переменными (например, переменными Пол — Gender и Реклама — Ado). Мы рассмотрим, как это можно сделать. Но если бы мы задали вопрос: как вообще провести группировку исходных данных, то мы не могли бы на него ответить. Ответ лежит в предметной области исследования. Итак, интуитивно вы ощущаете, что бы хотелось найти, далее, используя систему STATISTICA, сравниваете различные способы группировки (возможно, это займет довольно много времени) и находите нужный вариант. Внутригрупповые описательные статистики вычисляются с помощью процедуры Группировка и однофакторная ANOVA, доступной из стартовой панели модуля Основные статистики и таблицы. 1ШШIIГШ1 ""I j2i. Описательные статистики | Корреляционные матрицы ЕД t-критерии для 1B3) t-критерии для швг S3 •'••JK- с выборок £ Отмена IffllllYil (Таблицы частот | Таблицы и заголовки 1а Вероятностный калькулятор Dul Другие критерии значимости 1Й* агж«* После выбора процедуры Группировка и однофакторная ANOVA в стартовой панели нажмите кнопку Переменные и выберите группирующие переменные GENDER (МУЖЧИНА - MALE и ЖЕНЩИНА - FEMALE) и ADVERT. В данном примере выбор группирующей переменной не представляет никакой проблемы. FmWllll..l.l|li..MllJ.i'IJ->.lliliii|inl.U.IJ,l|i iG&yA Подробный анализ выбранных таблиц
422 Глава 10. Описательные статистики анш щ шщшшшшш ШШШ 3MEASUR1 UMEASUR2 J5MEASUR3 J6MEASUR4 7MEASUR5 J8MEASUR6 J9MEASUR7 10MEASUR8 11MEASUR9 21 12MEASUR10 22] 13MEASUR11 23 14MEASUR12 24 15MEASUR13 25 16MEASUR14 17MEASUR15 18MEASUR16 19MEASUR17 20MEASUR18 И Mt ASIJH1 4 MLASUH? ЪMEASUR3 KMtASUfM / MIASUH5 HMIASUH6 9MtASUR7 IHMf ASIIMH II MtAbUHy ? _I?-MLASIJH10 ?; 13MEASUR11 ? 14MFASUR12 ? 15MEASUR13 У 16MLASUH14 17 MEASURE 1UHLASUH1B 19MEASUR1/ ?nMFASIIR1R VmiiiiAmmmmJ ' Отмен* i ; j See : lRtafcpo& H Нн»7~|| 8w | Поцроб. jj Ни», j Грул 325 Щелкните по кнопке Коды для группирующих переменных и выберите коды для группирующих переменных в диалоговом окне Коды для независимых факторов. IWI.IllWI'H'l.l ;: :6ENi)Ellrjl 2 •;'-:.J^Bt;.[PEPsr :'Г" *■■/."' ••* '•■ ЯИЕ5ЯИИИ СОКЕ * ' "JiSL Be*. ИнФ. | ■HLJxj ifv^CTf * Отмене j ! ЙмИрат »всв| Чтобы выбрать все коды переменной, можно либо ввести номера кодов в соответствующем поле ввода, либо нажать кнопку Все, либо поставить * в соответствующем поле ввода. Щелкнув по кнопке Выбрать все в этом диалоговом окне, вы выберете все коды для каждой переменной. Нажатие ОК без задания каких-либо значений эквивалентно определению всех значений для всех переменных. Нажмите ОК здесь и в диалоговом окне Внутригрупповые описательные статистики и корреляции для того, чтобы открыть диалоговое окно Внутригрупповые описательные статистики и корреляции — Результаты. сательиые статистики и корреляции Результаты ЗАВИСИМЫЕ 23 перемен MEASUR1 MEASUR2MEASUR3 MEASUR4 MEASUR5 MEASUR6 ГРУППИР 1 GENDER ( 2) MALE FEMALE 2A0VERT ( 2\ PEPSI COKE •Ом тяШшттЯ I— r Статистики !.Г @ И* Г Ото£р*ж«т1» дммиан им*** г I* Ртобращдтъ лтшшшит мети впачении Г &И4ММ Г СТАНАОДН*» «TIUMMtHMI Г* Дисперсии Г Маяиана и квартили ; j.jOwwwjHi.J ^».-: Апостериорные сравнения средни» j &етегориэоаен1че гистогра»»<ы | 3 Категорией лице морм.а«р<мгм.графики I Брд»<а-<ВорсеАт* (ОД) | ДД Графики ■ И ^тт | ВВ \{ Переуоря*лт»гъ «хитром » табаиае [ Г-^1 Графики средни» и станл onmoiwiHifl |
Вычисление описательных статистик для группированных данных 423 Диалог Внутригрупповые описательные статистики и корреляции предоставляет различные процедуры и настройки для внутригруппового анализа данных (анализ данных внутри групп). Цель такого анализа — лучшее понимание различий между группами. Вы можете выбрать нужные статистики для того, чтобы отобразить их на экране в Итоговой таблице средних или Подробных двухвходовых таблицах. В этом примере выберите все пять возможных статистик (сделайте соответствующие установки в группе опций Статистики). ШШШШЖ ЗАВИСШИЕ: 23 перемен. HEASUR1 HEASUP2 KEA5UR3 HEASUR4 HEASUR5 HEASUR6 ГРУППИР.: 1-GE1IDER ( 2): HALE ГЕНАЬЕ 2-ADVERT ( 2): PEPSI COKE ш Г Отйрлмтья ft йхобрщщюьш Сгтчсгшн < № Цист плбмттшЛ Р» Стмтффшм отклонения <*J «5Г J © О* Г^^П Дис1 J §8 КТТ0|Н№0ИИИ1Ы«ДИТР—«МЫ 1 И ь Алосториооим* срштыщ с д К ЛЯ М ОРИДЮХИ1Щ)И) Ш Д« 1 И S»»i+±oec<*f[Om tpa+жн ш9*нмалш*сг»иЛ Ц Пврипорйциить чжтиам в уобтщш | Q3 Гречем Затем щелкните по кнопке Подробные двухвходовые таблицы, чтобы увидеть таблицу результатов. М^ШШМШ Палев И"^0 (Не* пропусков в завис перем ) J-IOIxj GENDER KEAS0R1 ADVERT | Cpoqwua PEPSI COKE* ЩА1Е PEPSI COKE frf, fPOT4 Ж 285714 538462 066667 409091 428571 375000 900000 НЕАЗШЦ MEASURl С». ОШКА 13 15 22 14 8 50 176 0000 85 0000 91 0000 119 0000 76 0000 43 0000 295 0000 2 088011 2 331501 1 907379 2 648613 2 243428 3 420004 2 366863 KEASUR1 Диоптре. 35979 43590 63810 01515 03297 HEASUr-j 4 6428 4 4615 4 8000 4 4090 3 9285 5 2500 4 5400* >Г1 В приведенной таблице результатов имеются описательные статистики для выбранных переменных, разбитых на группы (прокрутите таблицу, чтобы увидеть результаты для остальных переменных). Изучим эту таблицу. В первом столбце показаны средние переменной Measur 1 для различных групп данных: О для всех мужчин (MALE) среднее Measur 1 равно 6,29 (см. первую строку, мы округлили приведенное в ней значение); О для мужчин, выбравших PEPSI, среднее Measur 1 равно 6,54 (см. вторую строку); О для мужчин, выбравших СОКЕ, среднее Measur 1 равно 6,07 (см. третью строку); О для всех женщин (FEMALE) среднее Measur 1 равно 5,41 (см. четвертую строку);
424 Глава 10. Описательные статистики О для женщин, выбравших PEPSI, среднее Measur 1 равно 5,43 (см. пятую строку); О для женщин, выбравших СОКЕ, среднее Measur 1 равно 5,38 (см. пятую строку); О среднее переменной Measur 1> вычисленное по всем наблюдениям, равно 5,9 (см. шестую строку). Заметьте, если общее среднее, без учета группировки, равно 5,9, то среднее в группах — уже другое. Спрашивается, велико или мало отличие среднего в разных группах? В анализе данных для ответа на вопрос имеется специальный критерий, известный как t-критерий Стьюдента, который позволяет прояснить ситуацию. Этот критерий подробно описан в отдельной главе. Сейчас можно лишь сказать, что имеется слабое различие переменной Measurl в группах MALES и FEMALES. Как можно заметить, имеется слабое различие между группами PEPSI и СОКЕ в пределах одного пола. Группы, получающиеся разделением по полу, кажутся достаточно однородными. Максимальное отличие в средних имеет место между группой MALES — PEPSI (среднее равно 6,54) и группой FEMALES — COKE (среднее равно 5,38). Внутригрупповые корреляции Корреляции измеряют степень зависимости между переменными. Если данные разбиты на однородные группы, то есть надежда, что зависимости станут более отчетливыми. Именно за это и идет борьба. Итак, если у вас имеется массив данных, то часто первое, с чего можно начать, — это группировка данных. Очевидно, если у вас мало данных, то поле действий резко сокращается. Рассматриваемая нами группировка достаточно проста и проводится с помощью лишь двух группирующих переменных. Однако если вы, например, изучаете зависимость суммарной покупки в супермаркете от дохода покупателей или проводите сегментацию рынка, то вам придется достаточно поработать, чтобы эффективным образом разбить данные на классы. Итак, проведем группировку данных, рассмотрим зависимости внутри групп и сравним с результатами для негруппированных наблюдений. Если у вас имеется массив данных, то первое, с чего следует начать — провести группировку данных, разбить их на более или менее однородные группы. Нажмите кнопку Внутригрупповые корреляции и откройте диалоговое окно Выберите группу или все группы, в котором можно выбрать группу (или Все группы) для корреляционных матриц. тмташштяж ига! 6ЕН0СЙ ftOUERT MALE PEPSI HfllE COKE FEMALE PEPSI FEMALE COKE Lter*,J просмотреть юн ют* или Все группы. <*и*
Внутригрупповые корреляции 425 В частности, нас интересует внутригрупповая корреляция между переменными Measur 5 и Measur 9. Ранее мы вычислили ее (г = - 0,47) для всех данных и увидели, что она высокозначима (р<0,001). В диалоговом окне Выберите группу или все группы дважды щелкните на строке Все группы, чтобы получить следующие 4 корреляционные матрицы: mnimi^'h! I'lifjii'^i/1 <£«вл Ядом 2ча £иалиэ &ДОика. Сервис: $кно ' 2 1-1б»|х| Как можно заметить, корреляции в отдельных группах заметно отличаются друг от друга, следовательно, отличаются зависимости в разных группах. Следующий наш шаг состоит в представлении зависимости на графиках. Внутригрупповые корреляции можно представить графически, используя команду Категоризованные диаграммы рассеяния в диалоговом окне Внутригрупповые описательные статистики и корреляции — Результаты. Нажав эту кнопку, вы сможете выбрать переменные для графиков. irrJI'^ViMi • ,1,111|'||1||1|ГЖ [3 MEASUR 1 4-MEASUR2 J5-MEASUR3 J6MEASUR4 рснншаи I8MEASUR6 9-MEASUR7 10MEASUR8 11 MEASUR9 12-MEASUR10 13 MEASUR 11 14MEASUR12 15-MEASUR13 16-MEASUR14 I17MEASUR15 18-MEASUR16 19MEASUR17 20-MEASUR18 21 MEASUR19 22-MEASUR20 3MEASUR1 4MEASUR2 K-MEASUR3 K-MEASUR4 7MEASUR5 I8MEASUR6 J9MEASUR7 10-MEASUR8 HizifM'i^i 12MEASUR10 13MEASUR11 14MEASUR12 15MEASUR13 16-MEASUR14 17MEASUR15 18-MEASUR16 19-MEASUR17 20-MEASUR18 |21 MEASUR19 22MEASUR20 'Ж- ■'*Н$\Ь&£?.
426 Глава 10. Описательные статистики Выберем, например, переменную Measur 5 в первом списке и переменную Measur 9 во втором списке. Далее нажмите ОК, чтобы построить график. Из графика отчетливо видна сильная зависимость между переменными Measur 5 и Measur 9 для группы СОКЕ — FEMALE. Эта группа состоит из женщин, предпочитающих коку. Для всех остальных групп зависимость не значима. Итак, мы нашли группу, в которой отчетливо проявилась зависимость между переменными Measur 5 и Measur 9. Таким образом, с уверенностью можно сказать, что именно эта группа отвечает за зависимость между Measur 5 и Measur 9. Подобное клише анализа применимо и к другим исследованиям. ГЪ График! MEASUR5v» MEASUR9 Ддясс... HEA3VR5 v*. MEA3VR9 i ' Q £>. Q HL-Ш Р«гр«ссн* 95% яов«р. ADVERT: PEPSI ADVERT СОКЕ Рассмотрим, например, корреляционную матрицу данных о продажах в супермаркете. Фрагмент ее показан ниже: *шш- ОСНОВНЫЕ СТАТИСТ Перемен КОНСЕРВЫ КОРМА КОФЕ МАКАРОНЫ МУКА МОЛОКО МОРОЖЕНС МЯСО ОВОЩИ РЫБА СОКИ СПИРТНОЕ Отмеченные корреляции N-100 <ОНСЕР ВЫ 46 1 00 -05 -01 ьо 03 40 -04 зо 21 24 -03 КОРМА -07 -.05 1 00 -06 -05 22 26 12 03 34 08 08 -.03 •:"■."..'■ КОФЕ -06 -01 -06 1 00 -13 -13 -06 12 06 07 18 05 .08 значимы не уровне р < 05000 МАКАРО НЫ 47 65 -05 -13 1 00 22 39 -06 14 18 08 -07 49 ::-■■'":- МУКА -06 03 22 -13 22 1 00 34 -01 19 -07 02 16 молоке .41 49 26 -06 39 34 1 00 00 27 ;л 24 40 ЮРОЖЕ но -02 -04 12 12 -06 -01 00 1 00 30 26 05 -12 -07 МЯСО .22 3d 03 06 14 19 27 30 1 00 26 19 37 36 ОВОЩИ 19 21 34 07 18 -07 27 26 26 1 00 23 -13 10 РЫБА 16 24 08 18 08 02 :<1 05 19 23 100 02 31 СОКИ 13 -03 08 05 -07 24 -12 -13 02 1 00 11 ■СЕ ЗТИРТН ОЕ 5 С -03 08 43 16 4£ -07 "?Ь 10 ;:i 11 1 00
Внутригрупповые корреляции 427 В этой матрице показаны корреляции между различными покупками. Рассмотрим, например, первую строку. Она относится к кондитерским изделиям. В этой строке несколько корреляций значимы. На экране они выделяются красным цветом. Рассмотрим максимальную из корреляций — корреляцию между переменными Кондитерские изделия и Спиртное (г = 0,56). Хотя корреляция большая, из диаграммы рассеяния видно, что никакой зависимости между продажами спиртного и кондитерских изделий нет. ПГраФмкБ КОНДИТЕРуж СПИРТНОЕ (Постро КОНДИТЕР vs. СПИРТНОЕ СПИРТНОЕ - 118.84 ♦ 2.1838 * КОНДИТЕР Корреляция: г - .55538 1100 ^0 20 60 100 140 180 220 260 300 КОНДИТЕР Регрессия 95% довер. Продолжая исследование, проведем группировку, разбив данные на дни недели. Обратим внимание на внутригрупповые зависимости, в данном случае — зависимости для каждого дня недели. На диаграмме рассеяния зависимости для каждого дня недели имеют уже более привлекательный вид: 4 КОНДИТЕРvt СПИРТНОЕ КОНДИТЕР VI. СПИРТНОЕ 1100 800 500 200 100 •20 60 140 220 300 20 60 140 220 300 20 60 140 220 300 ДЕНЬ: ДЕНЬ: ДЕНЬ: Сдц Ш 20 60 140 220 300 -20 60 140 220 300 -20 60 140 220 300 ДЕНЬ: ДЕНЬ: ДЕНЬ: 500 , 200 -100 -20 60 140 220 300 ДЕНЬ: Век Р«гр«ссия 95% Д01«р. КОНДИТЕР
428 Глава 10. Описательные статистики Очень полезны также графики взаимодействий: вдшшшяи График средних 350 Из этого графика отчетливо видно, что пик продаж спиртного в течение недели приходится на пятницу, а средние продажи кондитерских изделий максимальны в четверг и пятницу. Такого рода описательный анализ, совмещенный с группировкой, является типичным первым шагом анализа данных.
11 Построение и анализ таблиц Вводный обзор Одним из первых шагов анализа является табуляция данных. Табуляция данных может быть очень изощренной, например, как в показанной выше таблице, где на самом деле объединено несколько таблиц. Мы начнем с самых простых таблиц. Приведенная ниже таблица называется одномерной таблицей частот: Цвет рубашки Желтый Черный Цвет морской волны Зеленый Белый Другие Всего 5 3 1 1 7 10 27 В этой таблице табулирована переменная цвета рубашки у 27 встреченных мужчин. Таблица называется одномерной, так как в ней табулирована только одна переменная — цвет рубашки. Так как таблица показывает, насколько часто встреча-
430 Глава 11. Построение и анализ таблиц ется тот или другой цвет, она называется также таблицей частот. Вы можете видеть, насколько удобно табличное представление. Табулируя, например, доход, можно проанализировать различные группы населения по уровню дохода. Наблюдаемые данные могут быть измерены в разнообразных шкалах {интервальных, порядковых, номинальных), поэтому исследование зависимостей между ними может быть затруднено (например, зависимости могут быть нелинейными, данные — неоднородными и т. д.). Отсюда следует, что вначале разумно сгруппировать данные, разбив на достаточно однородные группы (классы, категории — в данном контексте эти слова рассматриваются как синонимы), интуитивно ожидая, что зависимости в отдельных группах будут более отчетливыми. Таким образом, возникают категоризованные переменные. Часто категоризо- ванную переменную можно рассматривать как некоторую классификацию исходной числовой переменной. Например, количество посетителей сайта в течение дня можно отнести к определенным временным отрезкам, например к часам. Вы легко можете построить соответствующую группировку. Однако имеется много ситуаций, когда категоризованная переменная не выражается в терминах какой-либо исходной числовой переменной, а определяется самой природой данных. Например, на книжном рынке можно выделить категории книг по Windows, Windows-приложениям (Word, Excel и др.), Интернету, книги, посвященные языкам программирования, научным программам и т. д. В свою очередь, пользователи могут быть разбиты на классы: начинающие пользователи, продвинутые пользователи, профессионалы и т. д. Пример категоризации данных. Рассмотрим файл данных о продажах. Г£Д ТЕКС 1 ■ 3 4 5 6 7 8 9 аиные: Contl sta 44л * 677н , штат 0 00 161 60 0 00 33 50 37 24 136 42 0 00 5077 0 00 15 <ОНДИТЕР 910 36 74 24 71 1420 38 25 26 10 33 00 104 50 0 00 16 СОНСЕРВЬ 71 19 0 00 000 000 000 000 0 00 62 82 34 65 17 «ЭНЦЕНТР 0 00 0 00 0 00 101 00 0 00 0 00 0 00 102 00 0 00 18 КОРМА 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 19 КОФЕ 65 52 0 00 0 00 63 95 0 00 0 00 0 00 0 00 134 40 20 vlAKAPOHb 0 00 0 00 000 0 00 0 00 0 00 0 00 0 00 0 00 21 МУКА 0 00 0 00 0 00 0 00 0 00 0 00 8 75 0 00 11 96 I " 22 молоко 1 27 70 26 56 0 00 22 76 57 95 43 33 1381 0 00 27 70 Эти данные измерены в количественной шкале. Предположим, что нас интересует только факт покупки данного товара. Тогда количественная шкала явно избыточна. Перейдем к категориальным переменным. Покажем, как это сделать в системе STATISTICA. Дважды щелкнем на имени переменной КОЛБАСЫ. Это 14-я переменная в файле данных. Определим новую переменную формулой: (vl4>0). Это уже категориальная переменная, принимающая два значения: значение 0, если vl4<0 (то есть покупатель не купил товар), и значение 1, если vl4>0 (покупатель купил товар). Такие переменные называют также индикаторными, так как они являются индикатором определенного события (в данном случае факта покупки).
Вводный обзор 431 ПТх11 Л^; [КОЛБАСЫ £о*ПД: [ЗээГ Отмен* Щщтнсгомб^ГЩ Две. ШФ$~Щ Q£] [g] Тип; Дета Время Научный Денежный Проценты Представление: ■1,!,!,1,1,Ш».1,!,1,1,1 1.000 00. 1.000 00 1000 00.A000 00) 1.000 00 A.000 00) 1 flee парам, j ГД|М^/СТйТМСТ.| И Сре+икм I Ддиииое имя (метка, связь или Формам с ^^^12у»^^*м^*уМ*^*Д Ь^ ы Примеры Метка. 8«<к*о6 домоа *1931 Форму/** - v1 ♦ v2 • ; <Кж**\йе*Юг2с£*4с4 -(уЬОГАбЕ *v3 Построенная категориальная переменная разбивает покупателей на два класса: покупатели, купившие продукт (значение переменной равно IX и покупатели, не купившие продукт (значение переменной равно 0). После того как мы записали формулу, значения переменной v14 будут пересчитаны, и мы получим следующий столбец: 1 00 0 00 100 1 00 1 00 0 00 1 00 0 00 Подобную категоризацию можно выполнить для всего списка товаров. В итоге получим файл данных, состоящий из значений 0 и 1. Единица показывает, что данный покупатель (строка) купил данный товар (столбец). Заметим, что подобного рода таблицы, содержащие индикаторные переменные, весьма часто появляются в медицинских исследованиях. В них строка — пациент, переменные — симптомы болезни. Единица отмечает, что у данного пациента присутствует данный симптом, 0 — симптом отсутствует. Такого типа таблицы будут подробно рассмотрены также в главе Анализ соответствий. Теперь еще раз напомним идею категоризации, потому что эта идея является ключевой. Итак, идея состоит в том, чтобы разбить множество разнородных наблюдений на однородные группы с помощью определенных признаков, отражающих существо задачи, и провести дальнейшее исследование в каждой группе отдельно. Такие группы гораздо проще анализировать, чем исходную корзину с разнородными данными. Например, множество всех покупателей можно поделить на две группы — купивших и не купивших мороженое, или на четыре группы — купивших мороженое и купивших сыр, купивших мороженое и не купивших сыр, не купивших мороженое и купивших сыр, не купивших мороженое и не купивших сыр и т. д.
432 Глава 11. Построение и анализ таблиц ..Bdrfr...*<r.;: :://Л'' ни 535 | 19 SSA 117 3 . 120 652 22 674 В STATISTICA таблицы строятся в модуле Основные статистики и таблицы. Конкретный способ построения таблиц зависит от целей исследования. Врач может табулировать частоты различных симптомов заболевания в зависимости от возраста и пола пациентов, социолог имеет возможность построить сводную таблицу результатов опроса и оценить связи между ответами мужчин и женщин отдельно. В области образования можно табулировать число учащихся, покинувших среднюю школу, в зависимости от возраста, пола и этнического происхождения. Экономисту может понадобиться свести в таблицу количество банкротств в зависимости от вида промышленности, региона и начального капитала, а исследователю спроса классифицировать потребителей в зависимости от доходов. Менеджеры, размещающие рекламу в Интернете, могут интересоваться частотой посещения различных сайтов в отдельные дни недели. Более серьезной задачей является установление цен на продукцию с целью эффективного способа организации продаж: имеются разные категории пользователей, например, учебные заведения, государственные организации, коммерческие структуры и т. д. Покупательские возможности разных категорий различны, поэтому разбиение на группы, когда вы имеете дело не со средним покупателем, а с покупателем из определенной группы, выглядит совершенно естественно. Далее в одной таблице можно табулировать значения двух переменных, тогда возникают таблицы сопряженности. Пример такой таблицы, которую мог бы поместить в свою записную книжку метрдотель ресторана, показан ниже: Дни недели Количество посетителей ресторана «Табу» в 9 часов вечера Мужчины Женщины Всего Понедельник Вторник Среда Четверг Пятница Суббота Воскресенье Всего Вы видите, как естественно организована таблица: дни недели сопряжены с количеством посетителей ресторана, отсюда и название таблицы — таблица сопряженности: на пересечении строки дня недели и столбца показано количество посетителей (мужчин и женщин) в выбранный день недели. В крайнем правом столбце с литером ВСЕГО даются суммы значений по строкам таблицы. В последней строке показаны суммы значений, подсчитанные по столбцам. Это так называемые маргинальные частоты. 9 7 11 9 15 17 17 85 11 8 7 16 7 5 9 63 20 15 18 25 22 22 26 148
Вводный обзор 433 Удобство таблиц. Удобство таблиц очевидно. Метрдотелю достаточно взглянуть на таблицу, чтобы представить, сколько было посетителей разного пола в различные дни недели. Вместо того чтобы скользить глазами по длинному списку посетителей, он просто бросает взгляд на таблицу. В нижней строке и правом столбце количество посетителей просуммировано. Возможно, метрдотелю интересно знать, сколько всего посетителей было в субботу, и ему вовсе не нужно суммировать частоты в двух столбцах (мужчины и женщины), а достаточно посмотреть на крайний столбец и строку Суббота. В таблице табулированы значения двух переменных, поэтому она называется двухвходовой. Если табулируется несколько переменных, то имеют дело с много - входовыми (многомерными) таблицами (от английского термина multy-way) с двумя или более факторами. Заметьте, что табулированные переменные на сленге анализа данных называют также факторами. Другой типичный пример таблицы сопряженности показан ниже: Ш ОСНОВНЫЕ СТАТИСТ GENDER Пол и любимые программы TV [(Итоговые маргинальные не отмечены) ■ -IDIxl TV HH^HI Bcvc t щШШШШЛ ппгтр 12 | 14 26 14 1 7 21 , 26 21 47 В этой таблице табулированы переменные пол и программа телевидения. Таблица построена из исходного файла данных, в котором отмечался выбор программ ТВ респондентами разного пола. Итак, представление данных в виде таблиц компактно, удобно и наглядно. Вместо того чтобы иметь дело с файлом исходных данных, содержащим сотни и тысячи наблюдений, вы имеете одну таблицу. Для проверки факта зависимости между табулированными переменными (например, Пол и ТВ) и оценки степени зависимости или, как иногда выражаются, тесноты связи, разработаны специальные методы. Анализ таблиц связан с определенным сленгом, который стоит запомнить. Переменные, табулированные в таблице, называются также факторами. Значения факторов называются уровнями. Например, переменная пол имеет два уровня — мужчина и женщина, переменная ГУ также два уровня — 1 и 2. Конечно, количеством уровней и числом табулируемых переменных можно управлять. Можно, например, ввести дополнительные переменные — возраст, профессию и т. д. В анализе таблиц также употребляется несколько архаичный термин вход таблицы (от английского way) для обозначения табулированной переменной. Если табулируются две переменные, то говорят о двухвходовой таблице (таблицы с двумя входами), если табулируется три переменные — о трехвходовой таблице и т. д. Несмотря на кажущуюся простоту идеи, техника работы с таблицами за много лет развилась и стала чрезвычайно изощренной. Альтернативные методы. Вначале таблицы строятся и анализируются в модуле Основные статистики и таблицы. Однако имеются модули Логлинейный анализ и Анализ соответствий, в которых также можно исследовать таблицы сопряженности. Методы Логлинейного анализа (loglinear analysis) позволяют глубоко исследовать сложные многомерные таблицы, возникающие, например, при проведении массовых обследований.
434 Глава 11. Построение и анализ таблиц Анализ соответствий (co?respondence analysis) — это разведочный метод анализа двухвходовых и многовходовых таблиц, позволяющий визуализировать таблицы и исследовать их структуру. Ясно, что гораздо проще анализировать таблицу визуально, чем исследовать в численном виде. Этот разведочный метод анализа применяется в разнообразных областях: в социологии, эконометрике, маркетинге, медицине (см. например, Thomas Werani: Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, pp. 22—25, Juni 1996, Telfs-Buchen (Osterreich) Werani, Thomas, werani@market.uni-linz.ac.at, http://www.market.uni-linz.ac.at). Продвинутый метод исследования таблиц — анализ соответствий — будет подробно описан в отдельной главе. В данной главе рассмотрим классические методы анализа, реализованные в модуле Основные статистики и таблицы. Обзор различных типов таблиц начнем с наиболее простой таблицы — таблицы частот. Таблицы частот Частоты, или одновходовые таблицы, представляют собой простейший метод анализа категориальных или искусственно категоризованных непрерывных переменных. Часто их используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы данных распределены в выборке. Например, изучая зрительский интерес к разным видам спорта (возможно, для целей рекламы), вы могли бы представить ответы респондентов в следующей таблице: yUSUAU^A] 16 55 16 00000 55 0000 SOMETIMSI 26 81 26 00000 810000 NEVER I 19 100 19 00000 100 0000 .;^ОП<^вЙ^| 0 100 0 00000 100 0000 Таблица отображает число и кумулятивную {суммарную) долю респондентов, характеризующих свой интерес к просмотру футбольных матчей в следующей шкале: 1) Всегда интересуюсь — Alwaysinterested,!) Обычно интересуюсь — Usually interested, 3) Иногда интересуюсь — Sometimes interested или 4) Никогда не интересуюсь — Never interested. Точно так же мы могли бы представить информацию о том, насколько часто респондент использует в своей работе Интернет: ОСНОВНЫЕ СТАТИСТ ВСЕГДА ОБЫЧНО ИНОГДА ЕШЗВШЕИ Пролущ. 13 14 38 35| 0 Куму п. j частоте | 13 27 65 100 100 Процент | 13 00000 14 00000 38 00000 35 00000 0 00000 Кумул. Процент 13 0000 27 0000 65 0000 100 0000 100 0000 STATISTIC А обеспечивает разнообразные возможности, позволяющие описать различные категории наблюдений в таблице частот (например, используя «все отличные между собой значения» переменных).
Таблицы частот 435 ЫИнЧШпП!1 Любая переменная из множества данных может быть проанализирована и представлена в виде таблицы частот. Исследователь может также ввести определенные коды для таблицы, задать интервалы и даже определить ряд логических условий, позволяющих отнести наблюдение к определенной группе. Практически каждый исследовательский проект начинается с построения таблиц частот. Например, в социологических опросах таблицы частот могут отображать количество мужчин и женщин, число респондентов из определенной этнической группы и т. д. Ответы, измеренные в определенной шкале (например, в шкале интерес к футболу), можно также свести в таблицу частот. Ниже на графике показана табуляция частоты посещения магазина. В медицинских исследованиях можно табулировать пациентов с определецны- ми симптомами. В промышленности — частоту выхода из строя элементов, приведших к авариям или отказам всего устройства при испытаниях на прочность (например, для определения, какие детали телевизора действительно надежны после эксплуатации в аварийном режиме и при большой температуре, а какие нет). Обычно если в данных имеются категориальные переменные, то для них всегда вычисляются таблицы частот для каждой переменной. рдддддддддд глота 2*3 pita ■ неделю 1 pas ■ н#д#лю
436 Глава 11. Построение и анализ таблиц Таблицы сопряженности и таблицы флагов и заголовков Это более сложные таблицы, так как они содержат частоты нескольких переменных. Процесс построения таблицы частот для одной переменной называется табуляцией, для нескольких переменных — кросстабуляцией. На самом деле кросста- буляция — это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений кросстабулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить зависимости между кросстабулированными переменными. Идея проверки независимости табулированных переменных очень проста. Рассмотрим двухвходовую таблицу сопряженности (v(zj), t<i<k,l<j< т}> в которой табулированы значения двух переменных (X, Y). Частоты v(i>j)/n являются оценками вероятностей p(ij). При гипотезе независимости эти вероятности обладают свойством мультипликативности: p(i,j)=p(i)*p(j), p(i) -p(l,i) +рB,г) + ... + p(myi) pU)-p(iJ)+pQJ) + ~+p(bJ) При наличии зависимости между табулированными переменными это равенство нарушается. Критерием проверки гипотезы независимости в таблицах сопряженности является хи-квадрат Пирсона, который сравнивает наблюдаемые частоты в реальной таблице с ожидаемыми, рассчитанными при условии независимости табулированных переменных (см. далее). Пример. Рассмотрим файл данных с информацией о прививках (см. Вступительное эссе). вщ ТЕКСТ( 1. .,,... г г г.;..;.- 4 S-,\- S •> гГ^ »;Vi < 9 *■> V: 10 ,:■ IV:,:: !Г - ■ 13 и ■■■ хь 16 1? янщирЕша ■'■■'■+ ' "■' ПРИ8ИВК* до нет да до нет до до нет нет до до до нет до до до до v"""'t • БОЛЕЗНЬ нет до нет нет до нет нет нет нет до нет нет нет нет до нет нет
Таблицы сопряженности и таблицы флагов и заголовков 437 Построим таблицу сопряженностей признаков ПРИВИВКА, БОЛЕЗНЬ. NJIll.lf.ni'UiULniifll Дмее~ Частоты выделенных ячеек> 10 (Итоговые маргинальные не отпечены) БОЛЕЗНЬ Вс*го по стр. 5 11 16 ! 1630 1033 2663 Посмотрим на хи-квадрат: По результатам применения хи-квадрат критерия можно сделать вывод, что есть серьезные основания для того, чтобы отвергнуть гипотезу о независимости признаков. Общая схема рассуждений. О Шаг 1. Проверьте гипотезу о независимости признаков. О Шаг 2. Если гипотеза о независимости отвергается, используйте специальные меры связи, например, статистику гамма, чтобы оценить степень зависимости между табулированными переменными. Обычно кросстабулируются номинальные переменные или переменные с относительно небольшим числом значений. Если вы хотите кросстабулировать непрерывные переменные (например, доход), то вначале их следует категоризоватъ, разбив диапазон изменения на небольшое число интервалов (например, низкий, средний, высокий). Таблицы 2x2. Простейшая форма кросстабуляции — это таблица 2 х 2, в которой значения двух переменных «пересечены» (сопряжены) и каждая переменная принимает только два значения, то есть имеет два уровня (поэтому таблица и называется 2 х 2). Рассмотрим поясняющий пример. Предположим, проводится простое исследование, в котором мужчин и женщин спрашивают, какой напиток они предпочитают (газированную воду марки А или газированную воду марки В); файл данных показан ниже: ПОЛ ГАЗ. ВОДА наблюдение 1 наблюдение 2 наблюдение 3 наблюдение 4 наблюдение 5 МУЖЧИНА ЖЕНЩИНА ЖЕНЩИНА ЖЕНЩИНА МУЖЧИНА А В В А В Результаты кросстабуляции выглядят следующим образом: ГАЗ. ВОДА: А ГАЗ. ВОДА: В ПОЛ: МУЖЧИНА ПОЛ: ЖЕНЩИНА 20 D0%) 30 F0%) 50 E0%) 30 F0%) 20 D0%) 50 E0%) 50 E0%) 50 E0%) 100 A00%)
438 Глава 11. Построение и анализ таблиц Каждая ячейка таблицы содержит единственную комбинацию значений двух кросстабулированных переменных (в строке указана переменная ПОЛ, в столбце — переменная ГАЗ. ВОДА). Каждая ячейка стоит на пересечении столбца и строки. Числа в каждой ячейке на пересечении определенной строки и определенного столбца показывают, сколько наблюдений соответствует данным значениям. Посмотрите на таблицу. Таблица показывает, что женщины больше мужчин предпочитают газированную воду марки Л, мужчины больше предпочитают марку В. Таким образом, пол и предпочтение могут быть зависимыми (позже будет показано, как эту зависимость измерить). Маргинальные частоты. Значения, расположенные на краях таблицы, — это просто одномерные таблицы частот для всех рассматриваемых переменных. Эти значения важны, так как позволяют оценить распределение частот в отдельных столбцах и строках. Например, 40% и 60% мужчин и женщин (соответственно), выбравших марку А (см. первый столбец таблицы), не могли бы показать какой- либо связи между переменными ПОЛ и ГАЗ. ВОДА — Soda, если бы маргинальные частоты переменной ПОЛ были также 40% и 60%. В этом случае они просто отражали бы разную долю мужчин и женщин, участвующих в опросе. Таким образом, различия в распределении частот в строках (или столбцах) отдельных переменных и в соответствующих маргинальных частотах дают информацию о зависимости кросстабулированных переменных. Проценты по столбцам, по строкам и кумулятивные проценты. Приведенный пример показывает, что для оценки зависимости между кросстабулированными переменными необходимо сравнивать маргинальные доли и индивидуальные доли в столбцах и строках. Такие сравнения легче провести с использованием процентов. Процедура Итоговые таблицы позволяет выдать кросстабулированные частоты в таблице результатов вместе с числом наблюдений, попавших в ячейку, процентами в столбцах и строках, а также суммарными процентами. И^.и.|].1.М-1Ш,!1НШШ.И1.1Ш11Ш ОСНОВНЫЕ СТАТИСТ GENDER строк,* F«»sle сшрок.% Все «рда IUJ ТаБ/t GENDERB) x S( 20 | 40 00* 30 60 00*/. 50 SODA В 30 60 00У. 20 40 00'/. 50 )DAB) Сьрок Всего 50 щ 50 1 100 * 1 f и Можно построить итоговую объединенную таблицу, в которой каждая ячейка содержит эти числа. ветштщтт ■ ■iiH'H'iiii ОСНОВНЫЕ СТАТИСТ GENDER шш*шшш сяод£ч•* с»реж. *4 Все*© X Female СЖ04БЦ % c»pqk.% Всего % Все tpyn Вофсо К hi i ■пшшам 2ЖшКшМШ1ААеШЛН^Н&Ш«а1 ТаБ/tGENDERB) x 50DAB)Т* SODA : А 20 4 0 00* %Ш&й*;£Шт 30 | 60 00* 40 ООУ 60 00* 20 00* 30 00* 30 20 60 00* 40 00* 60 00* 40 00* 30 00* 20 00* 50 50 50 00* 50 00* С*рох Всево 50 50 00* 50 | 50 00* ■ 100 i ► Г
Таблицы сопряженности и таблицы флагов и заголовков 439 Графическое представление кросстабуляций. Отдельные строки и столбцы таблицы удобно представить в виде графиков. Полезно также отобразить целую таблицу на отдельном графике. Имеется несколько способов сделать это с помощью процедуры Таблицы сопряженности. Таблицы с двумя входами можно визуально представить ЗМ гистограммой. ЗМ гистограмма для FOOTBALL и BASEBALL Другой способ визуализации таблиц сопряженности — построение категори- зованной гистограммы, в которой каждая переменная представлена индивидуальными гистограммами, разбитыми на каждом уровне другой переменной (см. ниже). Преимущество ЗМ гистограммы в том, что она позволяет представить на одном графике таблицу полностью. Достоинство категоризованного графика заключается в том, что он дает возможность точно оценить специфические частоты в каждой ячейке. FOOTBALL к BASEBALL ж BASKETBL Категормэ гистограмма FOOTBALL x BASEBALL x BASKITBL п Щ 1 ■I ШшШ BASEBALL ALWAYS KimmfMaa- —, .—и a mi a n. .~m. ET^lmm £ *". tt * Ui> BASEBAiL USUALLY _£23_ Щ. яятМШ J^CZL Hi» BASEBALL SOMETMS _CZL . . ЕЕЯ Щ 1 £4 BASEBALL NEVER
440 Глава 11. Построение и анализ таблиц Таблицы флагов и заголовков Таблицы флагов и заголовков, или, кратко, таблицы заголовков, позволяют отобразить несколько двумерных таблиц сопряженности в сжатом виде как одну таблицу. Этот тип таблиц поясняется на примере файла, отражающего интерес к спорту. ronMVAffMPtf^ ОСНОВНЫЕ СТЛТИСТ FOOTBALL: "Watching football" 1 &ОДЛ&■■•?■ ■? ^АХчшчя i**t<Mreot#d : ;: :; * .«о сжсмБцд • USUALLY ,; Usueilr interested. * »0 tawwdSuu SOKETIMS: Sasetisea. interested * * no е*ал&ю METER : Never interested ■■:■■: >. no с»олБив ' ВСв»0 -.< • . ■.•"..:...,.;.. :;. 3 2-6x таблицы ШШШМ 24| 85 71* 2 ' 7 14^ 2 7 1АУ. 0 0 00* 28" BASEBALL • ШАШ 8 47 06* 5 29 А1У 3 17 65* 1 5 88* 17 ■■■■ ■■■■■ BASEBALL SOHETIHS 5 13 51* у 18 92* 19 51 35* 6 16 22* 37 BASEBALL HEVER 2 11 11* 2 11 11* 2 11 11* 12 66 67* 18 е*иеиег~П5П "~ii ШШЗШц Bceto йОС»р, 39 16 26 19 • l0m В данной таблице результатов представлены три двухвходовые таблицы, в которых интерес к Футболу — Football сопряжен с интересом к Бейсболу — Baseball, Теннису — Tennis и Боксу — Boxing. Таблица содержит информацию о процентах по столбцам, поэтому суммы по строкам равны 100%. Например, число в левом верхнем углу таблицы результатов (85,71) показывает, что 85,71 процентов всех респондентов ответили, что им всегда интересно смотреть футбол и всегда интересно смотреть бейсбол. Рассмотрите первый столбец приведенной таблицы. Вы видите, например, что имеется 2 респондента, обычно интересующихся футболом и всегда интересующихся бейсболом. Также 2 (других) респондента иногда интересуются футболом и всегда интересуются бейсболом. Нет ни одного респондента, которому был бы всегда интересен бейсбол и никогда не интересен футбол. Аналогично интерпретируются другие столбцы. Если вы прокрутите таблицу вправо, то увидите, что процент тех, кому всегда интересно смотреть футбол и всегда интересно смотреть теннис, равен 38,46; для бокса этот процент составляет 70,0 (см. таблицы ниже). M.J.ll.lJ.IAI.UI.I.|iil».J.m.l,HMU.I.UJI.!l ОСНОВНЫЕ СТЛТИСТ FOOTBALL "Watching football" ■.■■% по столбцу USUALLY : Usually interested X nd ёпалбии SOtfETIMS: Sometimes interested % no саоысБцэ SEVER : Never interested X no сполбцд Bcesa 3 2-6x таблицы v воша,- AIVAYS «Ш№5 USUALLY 14 7 70 00* 70 00% 2 1 10 00* 10 00* 2 1 10.00* 10 00* 2 1 10 00* 10 00* 20 10 1 BOXIKG : SOMETIKS 12 41 38* 8 27 59* 6 20 69* 3 10 34* 29 NEVER 6 14 63* 5 12 20* 17 41 46* 13 31 71* 41 ИИОзЩ *"-: ::.Boetв •.' no cnp 39 16 26 19 100 ^T i: П Проценты в столбце (Всего по строке), показанные после каждого набора переменных, всегда связаны с общим числом наблюдений. В диалоговом окне Результаты кросстабуляции имеется множество процедур, позволяющих построить таблицы заголовков в различных форматах. Например, можно одновременно ото-
Таблицы сопряженности и таблицы флагов и заголовков 441 бражать число наблюдений в ячейках, строках, столбцах и общие проценты в одной и той же таблице. &ЧПЧГШШПГГШ*ШТ^ПШ1ШГГ*ГТТЧТП r^iiril'ITIIIfHill'TlJif-llllf-iliillill '■\ ОСНОВНЫЕ ■i СТАТИСТ. • FOOTBALL: "Watching football" ь '•••'• ■■i-^ % »о столбцу «а*« w -<*«-<**< -. :v ...... ,: ^^^w? строке - у- -^л. ?х^-"? .>-i х ъ& «♦бди^е : , ШШДГ: U«u*Uv iauwwwted *Y*Z * л**::: . \: '.* »а с*олбия ' -^Ч :'}**,■;?'■ tf:4 -\."< •'• •/:'."-?:?Х ftQ СЯфОКО .Гу,г,..;.^а ;>,,^-^;. АА*. /,& до а*&одэ • :::90ЖШ«вг Sowttij^wi i*t***»t«4 ~**. «Й&#&*>&>Ь *fciUMWMBhiSr " :'' • •*>-}';<-,'ч"Й.': " ' ;.'<>- ' ' ^ 'U0< CWPOH© • ущ^^шт'^^тш^мвяй^ уШШЪ$&Шмж /.int«r**t*l- •.:"••... '•'" *.' " г?:---- * г'.- •. % * ш>. о»оибц^ ; Щ ■■>.<■ . У"^--: :;;Ч- ;SfftO С*РОКв ж :>*.р*щ$$>:^.:*-К. <*> **$л«чв : ^^•H^f:^;^^i^^.- iX j^p .щ^йли^в liL— ----- - ----- Ttnt!ftiiwpmmmm _^^^^^ 3 2-6x таблицы 5 38 46* 12 82* 5.00* 4 30 77* 25 00* 4 00* 2 15.38* 7 69* 2 00* 2 15 38* 10 S3* 2 00* 13 13 00* •<;.тшх&;:: tfSOUXY 5 35.71* 12 82* 5.00* 2 14 29* 12 50* 2 00* 5" 35.71* 19 23* 5 00* 2 14 29* 10 S3* 2.00* 14" 14 00* ^^^ — ^^— otEHHTSv SGHETIMS 31 30 12 21 50 ... 8 34 50 13 13 26 ^5 38 12 58* 77* 00* 8 05* 00* 00* 13 21* 00* 00* 5 16* 32* 00* 38 00* KEVER 17 4 8 57* 43 59* 17 00* 2 5 71* 12 50* 2 00* 6 17.14* 23 08* 6 00* 10 28 57* 52 63* 10 00* 35"* 35 00* 1 ""ifVf ■ЬИ • • •Всвао:';.'-. по стр. 39 16 26 19 100 39 оо* • 16 : 00* - ! 26* оо* :: 9 , ,;| оо* ;■; ! юо : оо* 'Ш мт Многовходовые таблицы с контрольными переменными. Когда кросстабули- руются только две переменные, результирующая таблица называется двухвходовой (двумерной). Конечно, общую идею кросстабулирования можно обобщить на большее число переменных. В примере с «газированной водой» добавим третью переменную с информацией о штате, в котором проводилось исследование (Небраска или Нью-Йорк). ПОЛ ГАЗ. ВОДА наблюдение 1 МУЖЧИНА наблюдение 2 ЖЕНЩИНА наблюдение 3 ЖЕНЩИНА наблюдение 4 ЖЕНЩИНА наблюдение 5 МУЖЧИНА А В В А В ШТАТ НЕБРАСКА НЬЮ-ЙОРК НЕБРАСКА НЕБРАСКА НЬЮ-ЙОРК Кросстабуляция этих трех переменных представлена в следующей таблице: ШТАТ: НЬЮ-ЙОРК ГАЗ. ВОДА ГАЗ. ВОД/ А П: МУЖЧИНА 20 П: ЖЕНЩИНА 30 50 В 30 20 50 ШТАТ: НЕБРАСКА i ГАЗ. ВОДА ГАЗ. ВОДА А В 50 5 45 50 45 5 100 50 50 50 50 100 Теоретически любое число переменных может быть кросстабулировано в одной многовходовой таблице. Однако на практике возникают сложности с проверкой и «пониманием» таких таблиц, если они содержат более четырех переменных.
442 Глава 11. Построение и анализ таблиц Статистики таблиц сопряженности Таблицы сопряженности позволяют исследовать зависимость между кросстабули- рованными переменными. Следующая таблица отчетливо показывает очень сильную зависимость между двумя переменными: переменная ВОЗРАСТ (ВЗРОСЛЫЙ или РЕБЕНОК) и переменная предпочитаемый сорт ПЕЧЕНЬЕ (сорт А или сорт В). ВОЗРАСТ: ВЗРОСЛЫЙ ВОЗРАСТ: РЕБЕНОК ПЕЧЕНЬЕ: А ПЕЧЕНЬЕ: В 50 0 0 50 50 50 50 50 100 Из этой таблицы видно, что все взрослые выбирают печенье Л, а все дети — печенье В. В данном случае нет никаких оснований сомневаться в надежности этого факта. Невозможно поверить, что данная структура частот носит случайный характер. Мало кто усомнится, что между предпочтениями детей и взрослых имеется отчетливое различие. Однако в реальной обстановке зависимости между переменными значительно слабее, и поэтому возникает вопрос, как их измерить и оценить надежность (статистическую значимость). Далее обсуждаются общие меры зависимости между двумя группирующими переменными. Итак, вначале проверяется гипотеза: имеется ли зависимость между представленными в таблице переменными? Критерий хи-квадрат Пирсона. Хи-квадрат Пирсона — это наиболее простой критерий проверки значимости зависимостей между группирующими переменными. Критерий Пирсона основывается на том, что в двухвходовой таблице ожидаемые частоты при гипотезе, что между переменными нет зависимости, можно непосредственно вычислить. Критерий хи-квадрат — это непараметрический критерий, его применение никак не связано с распределением табулированных переменных. Идея критерия очень проста. Рассмотрим двумерную таблицу сопряженности {v(ij)}, г = 1, 2 ... г, j = 1,2 ... s, состоящую из г строк и s столбцов. Обозначим п(г) = n(i,l) + ... n(i,s), г = 1,2 ... г n(j) = лA J) + ... n(r,j), ./-1,2 ... г п = ln(ij) Итак, v(i) — сумма элементов в i-й строке, v(j) — сумма элементов в j-u столбце, п — общее число наблюдений (сумма всех частот в таблице). v(i), v(j) называются также маргинальными частотами, так как они располагаются по краям таблицы. Рассмотрим какую-нибудь ячейку таблицы. Из частоты, стоящей в ячейке (это наблюдаемая частота), вычтите ожидаемую частоту (она вычисляется перемножением маргинальных частот и делением их на общее число наблюдений). Полученную разность возведите в квадрат и разделите на ожидаемую частоту. Далее проделайте то же самое со всеми ячейками и результаты сложите.
Таблицы сопряженности и таблицы флагов и заголовков 443 Это и есть знаменитая статистика хи-квадрат. Статистика хи-квадрат замечательна тем, что при достаточно большом числе наблюдений ее распределение можно приблизить распределением хи-квадрат и, значит, вычислить приближенный р-уровень критерия. Формально статистика хи-квадрат вычисляется по формуле: Хи-квадрат = l[(n(ij) - n(f,;))**2]/n(f,;), где суммирование производится по всем индексам i,j. v(ij) = v(i) * v(j)/n — ожидаемая частота в ячейке i,j. Большие значения хи-квадрат свидетельствуют против проверяемой гипотезы о независимости признаков, табулированных в таблице. Представьте, что опрошено 20 мужчин и 20 женщин относительно выбора газированной воды (марка Л или марка В). Если между выбором и полом нет зависимости, то естественно ожидать равного выбора марки А и марки В для каждого пола. Распределение хи-квадрат при проверке независимости можно аппроксимировать хи-квадрат-распределением с числом степеней свободы (r-l)*(s-l). Однако качество этой аппроксимации ухудшается, если число наблюдений в ячейках мало (см. ниже). Критерий хи-квадрат становится высокозначимым при отклонении реально наблюдаемых частот в таблице от ожидаемых, иными словами, когда выбор мужчин и женщин различен. Значение статистики хи-квадрат и ее уровень значимости определяется общим числом наблюдений и количеством ячеек в таблице. Иногда используют статистику хи-квадрат в форме максимального правдоподобия: МПхи-квадрат = 2 х Xn(ij) ln(n(f j)/n(iJ)) По существу, эти две статистики эквивалентны. Имеется только единственное существенное ограничение использования критерия хи-квадрат (кроме очевидного предположения о случайном выборе наблюдений) — ожидаемые частоты должны быть не слишком малы (см. пример ниже). Это ограничение возникает потому, что хи-квадрат сравнивает наблюдаемые частоты и вероятности в каждой ячейке, и когда частоты в ячейках малы, например, меньше 5 или даже 10, эти вероятности нельзя оценить с достаточной точностью (см. например, Everitt B.S. A977) The analysis of contingency tables, London: Chapman&Hall). Замечание. Статистика хи-квадрат Пирсона позволяет строить также критерии согласия и однородности (см. главу 4 Подгонка вероятностных распределений). Поправка Йетса для таблиц 2x2. Для важного класса таблиц 2x2, содержащих ячейки с малыми частотами, аппроксимация распределения статистики хи-квадрат может быть улучшена понижением абсолютного значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0,5 перед возведением в квадрат (поправка Йетса). Поправка Йетса, делающая оценку более умеренной, применяется в случаях, когда таблица содержит ячейки с малыми частотами. Принято считать, что наименьшая
Глава И. Построение и анализ таблиц ожидаемая частота, позволяющая применять критерий хи-квадрат без поправок, должна равняться 5. Из приведенной ниже таблицы видно, как могут отличаться р-уровни критерия хи-квадрат без поправки и с поправкой Йетса. Исходная таблица сопряженности имеет вид: В таблице сопряжены два признака: покупка мороженого и орехов. Статистики для этой таблицы сопряженности имеют вид: М()РОЖЕНО(?| х OPf ХИ[?) |indc ОСНОВНЫЕ СТАТИСТ Хи-каадрвт Пирсон» МЛхи-квадрвт кодлрвт Йетса хи-кеешрат Ст.ее. 2716230 1526840 3360730 Используя хи-квадрат без поправки Йетса, мы совершили бы грубую ошибку. Точный критерий Фишера. Этот критерий применим только для таблиц 2x2. Критерий основан на следующем рассуждении. Даны маргинальные частоты в таблице. Предположим, что оба фактора в таблице независимы. Зададимся вопросом: какова вероятность получения наблюдаемых в таблице частот исходя из маргинальных? Эта вероятность вычисляется точно исходя из данных маргинальных частот. Таким образом, критерий Фишера вычисляет точную вероятность появления наблюдаемых частот при нулевой гипотезе. Вычисляются односторонние и двусторонние вероятности. Макнемара хи-квадрат. Этот критерий применяется, когда частоты в таблице 2x2 представляют зависимые выборки. Например, наблюдения одних и тех же индивидуумов до и после эксперимента. Вы можете подсчитывать число студентов, имеющих минимальные успехи по математике в начале и в конце семестра. Вычисляются два значения хи-квадрата: A/D и В/С Л/О-хи-квадрат проверяет гипотезу о том, что частоты в ячейках Л и D (верхняя левая, нижняя правая) одинаковы. В/С- хи-квадрат проверяет гипотезу о равенстве частот в ячейках ВиС (верхняя правая, нижняя левая). Коэффициент фи. Фи-квадрат представляет собой меру зависимости между двумя группирующими переменными в таблице 2x2. Его значения изменяются от 0 (нет зависимости между факторами; хи-квадрат = 0,0) до 1 (абсолютная зависимость между двумя факторами в таблице). Тетрахорическая корреляция. Эта статистика вычисляется (и применяется) только для таблиц сопряженности 2x2. Если таблица 2x2 может рассматриваться как результат (искусственного) разбиения двух непрерывных переменных на два класса, то коэффициент тетрахорической корреляции будет оценивать зависимость между двумя этими переменными.
Таблицы сопряженности и таблицы флагов и заголовков 445 Коэффициент сопряженности С. Коэффициент сопряженности представляет собой основанную на статистике хи-квадрат меру зависимости между двумя группирующими переменными (предложенную Пирсоном). Преимущество этого коэффициента перед обычным хи-квадрат состоит в том, что он легче интерпретируется, так как диапазон его изменения от 0 до У (где 0 означает полную независимость). Недостаток заключается в том, что верхний предел «ограничен» размером таблицы; С может достигать значения 1, только если число классов не ограничено. Интерпретация мер сопряженности. Существенный недостаток мер зависимости в трудности их интерпретации в обычных терминах вероятности или «доли вариации», как в случае коэффициента корреляции г Пирсона. Статистики, основанные на рангах Во многих случаях классы, используемые в кросстабуляции, содержат информацию о ранговом упорядочивании объектов; иными словами, имеются измерения лишь в порядковой шкале. Предположим, вы опросили некоторое множество респондентов для того, чтобы выяснить их отношение к некоторым видам спорта. Затем представили измерения в 4-точечной шкале со следующими градациями: 1) всегда — always, 2) обычно — usually, 3) иногда — sometimes и 4) никогда — never interested. Очевидно, что ответ иногда интересуюсь — sometimes interested показывает меньший интерес, чем обычно интересуюсь — usually interested, обычно интересуюсь — usually interested меньший интерес, чем всегда интересуюсь — always interested, и т. д. Для таких переменных имеются свои типы корреляции, позволяющие численно выразить зависимости между ними (см. главу Непараметрическая статистика). Многомерные отклики и дихотомии Переменные типа многомерных откликов или многомерных дихотомий возникают в ситуациях, когда исследователя интересуют не только «простые» частоты событий, но также некоторые (часто неструктурированные) качественные свойства событий. Типичным примером является опрос общественного мнения, где вопросы, по крайней мере частично, имеют так называемые «открытые концы» (не подразумевая однозначного ответа), и респондент делает выбор из неограниченного (или очень большого) списка ответов. Вопрос состоит в том, как разумным способом закодировать ответы. Природу многомерных переменных (факторов) лучше всего рассмотреть на примерах. Многомерные отклики Представьте, что в процессе большого исследования вы попросили пользователей назвать три лучших, с их точки зрения, сайта. Обычный вопрос может выглядеть следующим образом:
446 Глава 11. Построение и анализ таблиц Напишите ниже три лучших сайта: 1: 2:_ 3: Анкета содержит от 0 до 3 ответов. Очевидно, список может быть очень большим. Ваша цель — свести результаты в таблицу, в которой, например, будет подсчитан процент респондентов, предпочитающих определенный сайт. Следующий шаг после получения анкет — занесение ответов в файл данных. Предположим, в ответах упоминалось 50 различных сайтов. Вы могли бы, конечно, создать 50 переменных — одну для каждого сайта, рассмотреть респондентов как наблюдения (строки таблицы), ввести код 1 для респондента и переменной, если он предпочитает данный сайт @, если нет); например: Сайт 1 Сайт 2 Сайт 3 наблюдение 10 10 наблюдение 2 110 наблюдение 3 0 0 1 Такой метод кодирования откликов, то есть приписывания им конкретных значений, очевидно, «расточителен». Заметим, что каждый респондент дает максимум три ответа; однако для кодирования используется 50 переменных. (Если вы интересуетесь только тремя сайтами, то такой метод кодирования будет успешным. Чтобы табулировать предпочтения в выборе сайта, следует рассмотреть 3 переменные как одну многомерную дихотомию; см. ниже.) Кодирование многомерных откликов. Более разумным является следующий подход. Введите 3 переменные и определите схему кодирования для 50 сайтов. Затем введите соответствующие коды (альфа-метки) для значений переменных и получите таблицу вида: набл. 1 набл. 2 набл.3 Ответ_1 сайт1 сайт 2 сайт 19 Ответ 2 сайт 17 сайт 21 сайт! Ответ_3 сайт 13 сайт 77 сайт 4 Теперь, чтобы получить число респондентов, предпочитающих определенный сайт, рассмотрите переменные Ответ 1 — Ответ 3 как переменную с многомерным откликом. Само название переменной показывает, что она принимает многомерные значения. Таблица значений такой переменной имеет вид: N=500 Категория сайт1 сайт 2 сайтЗ сайт 4 Всего ответов Число 44 5 81 74 842 Процент ответов 5,23 1 9,62 8,79 100,00 Процент наблюдений 8,80 2,60 16,20 14,80 168,40
Таблицы сопряженности и таблицы флагов и заголовков 447 Интерпретация таблиц частот с многомерными откликами. Итак, общее число респондентов в опросе п=500. Заметьте, что числа в первой колонке таблицы не составляют в сумме 500, как можно было бы ожидать, а равны 842. Вы поймете, почему это так, если вспомните, что каждый респондент может дать несколько ответов, так как у него может быть несколько любимых сайтов. Число, приведенное внизу в первом столбце (на границе таблицы), — это общее число ответов. Каждый респондент может дать до трех ответов, поэтому общее число ответов в действительности больше числа респондентов. Вторые и третьи столбцы таблицы содержат проценты относительного числа ответов (второй столбец) и респондентов (третий столбец). Таким образом, вход 8,80 в первой строке последнего столбца таблицы означает, что 8,8% всех респондентов назвали сайт1 в числе лучших. Как учитывать повторяющиеся ответы в одной и той же анкете? В отличие от других популярных программ, строящих таблицы для многомерных откликов, процедура Кросстабуляция в модуле Основные статистики и таблицы по умолчанию игнорирует одинаковые отклики. Например, если респондент ответил: сайт 1, сайт 1, сайт 1, то система STATISTICA учтет из его ответа сайт 1 только один раз. Следовательно, этот респондент в таблице частот будет учтен только один раз в группе сайт 1, иными словами, в эту группу будет добавлена единица, а не тройка. Многомерные дихотомии Предположим, вас интересуют только сайт Л, сайт В и сайт С. Как отмечалось, одним из способов кодирования является следующий: наблюдение 1 наблюдение 2 наблюдение 3 сайт А 1 сайт В 1 1 сайтС 1 Здесь каждая переменная используется для одного сайта. Код 1 будет введен в таблицу всякий раз, когда соответствующий респондент указал ее в своем ответе. Заметим, что каждая переменная является дихотомией, так как принимает только два значения: «У» и «не 1» (можно ввести 1 и 0, на так обычно не делается, можно просто рассматривать 0 как пустую ячейку или пропуск). Когда табулируются такие значения, вы получите итоговую таблицу, очень похожую на ту, которая была показана ранее для переменных с многомерными откликами; из нее вы можете вычислить число и процент респондентов (и ответов) для каждого сайта. Таким образом, вы компактно представили три переменные сайт А, сайт В, сайт С одной переменной (Любимые сайты) — многомерной дихотомией. Заметьте, для кодирования трех сайтов использовано 3 одномерные дихотомии, для кодирования десяти напитков понадобится 10 одномерных дихотомий и т. д. Кросстабуляция многомерных откликов и дихотомий Процедура Кросстабуляция модуля Основные статистики и таблицы позволяет определить простые группирующие переменные (например, ПОЛ: МУЖЧИНА или
448 Глава 11. Построение и анализ таблиц ЖЕНЩИНА), многомерные отклики и многомерные дихотомии. Все эти типы переменных можно использовать в таблицах сопряженности. Например, вы можете «сопрячь» многомерную дихотомию Сайт (закодированную, как описано выше) с многомерным откликом Телевидение (со многими категориями, например, ПРОГРАММА 1, ПРОГРАММА 2 и т. д.), а также с простой группирующей переменной ПОЛ. Как и в таблице частот для обычных переменных, в таблице частот для многомерных переменных можно вычислить проценты и маргинальные суммы либо по общему числу респондентов, либо по общему числу ответов (откликов). Например, рассмотрим следующего респондента: * ПОЛ сайт 7 ЖЕНЩИНА 1 Этот граммы ставлен ПОЛ сайтЗ 1 сайт 9 ТВ ТВ 1 2 респондент ЖЕНЩИНА назвал своими любимыми сайт 7 и сайт 3 и про- ТВ1 и ТВ2. В полной таблице сопряженности этот респондент будет пред- следующими наборами: Сайт TBI ТВ ТВ2 Общее число ответов ЖЕНЩИНА сайт 7 XX 2 сайтЗ X X 2 сайт 9 МУЖЧИНА сайт 7 сайтЗ сайт 9 Данный респондент учитывается в таблице четыре раза. Дополнительно он будет считаться дважды в столбце ЖЕНЩИНА -сайт 7 маргинальных частот, если этот столбец запрошен для представления общего числа откликов. Если пользователь запрашивает маргинальные суммы, вычисленные как общее число респондентов, этот респондент будет учитываться только один раз. Парная кросстабуляция переменных с многомерными откликами Лучше всего показать ее на простом примере. Предположим, проводится обследование нынешних и бывших домовладений респондента. Вы попросили респондента описать три последних дома, которыми он владел (включая тот, которым он владеет в данный момент). Естественно, для некоторых из респондентов нынешний дом является самым первым (если до этого они не приобретали дома в частную собственность). Для каждого дома респондента запрашивается количество квартир и число жильцов — членов семьи. Ниже показано, как ответ одного респондента (скажем, наблюдение 112) может быть введен в файл данных: № набл Комнаты 12 3 Число жильцов 12 3 112 334 235
Средства построения таблиц системы STATISTICA 449 Респондент имел три дома: первый из трех комнат, второй также из трех комнат, третий из четырех комнат. Количество членов семьи также росло: в первом доме жили 2 человека, во втором — 3, в третьем — 5. Допустим, вы хотите кросстабулировать число комнат с числом жильцов для всех респондентов (например, чтобы понять, как количество комнат связано с числом жильцов). Один из способов — создать три различные таблицы с двумя входами, одну таблицу для одного дома. Вы можете также рассмотреть два фактора в этом исследовании (Число комнат, Число жильцов) как переменные со многими откликами. Однако очевидно, что нет никакого смысла в приведенном примере с респондентом 112 учитывать значения 3 и 5 в ячейке Комнаты — Жильцы в таблице сопряженности (которые вы могли бы учитывать, если бы рассматривали два эти фактора как одинарные переменные с многомерными откликами). Другими словами, вы хотите игнорировать комбинацию жильцов в третьем доме с числом комнат в первом. Скорее всего, нужно рассматривать переменные попарно; вы хотели бы рассмотреть число комнат в первом доме вместе с числом жильцов в первом доме, число комнат во втором доме вместе с числом жильцов в нем и т. д. Именно так и происходит, когда программа выполняет парную кросстабуляцию многомерных переменных. Иногда при создании сложных таблиц сопряженности с переменными типа многомерных откликов и дихотомий возникает следующий вопрос (в ваших вычислениях): какую «выбрать дорогу», или как точно будут учитываться наблюдения в файле данных. Лучший способ проверить, как программа строит соответствующую таблицу, — рассмотреть простой пример и увидеть, каким образом учитывается каждое наблюдение (какой оно вносит вклад). Средства построения таблиц системы STATISTICA Таблицы частот |К Основные статистики и таблицы JA Описательные статистики Щ Корреляционные матрицы 7Ц (критерии для независимым выборок (££] (-критерий для зависимым выборок j££ Группировка и однофакториая AN OVA \ Таблицы часто ] Таблицы и заголовки JjJk Вероятностный калькулятор Р£д Другие критерии значимости В ft* Отмена р? Данные SStt &ft Данная процедура позволяет вычислить таблицы частот (и гистограммы). В этих таблицах представляются частоты попадания значений переменной (наблюдений) в разные классы (приводятся численные или численно-буквенные значения и их метки). STATISTICA предлагает различные процедуры для определения катего-
450 Глава 11. Построение и анализ таблиц рий (классов) в таблицах частот (например, целые интервалы, определенные коды и т. д.). Пользователь может табулировать данные с помощью определенных условий, заданных в виде логических выражений. Категория 1 штщ v0>10 and v7<3 Категория 2, категория 1 i г о* (cl) Просмотреть перемешав Iключ., если. Открыть/Сохранить J & Охкрыть осе £охр«иить все Категория Д Вкяюч . если ^ )| |0т1фьгтьЛ:оуа«<ить j Категория! В ключ.. если : »J|| Открыть/Сохранить ] zl Задайте группы для таблиц чест<д. введя критерии категоризации Программе проверяет выполнение критериев последовательно, начиная с первого: наблюдение приписывеется * той группе, критерию которой он удовлетворяет первым Каждое маблювенив клАссиФииируется только один раз, ее ли то же наблюдение уаовлетеоряет критерию следующей группы, оно не учитывается Например, в показанном выше окне мы включили в категорию 1 только наблюдения с номерами строго больше 10, для которых значения v7 строго меньше 3. Таблицы частот для этой группы данных имеет вид: ОСНОВНЫЕ СТАТИСТ Не выбраны Кумул. частоте 16 50 Процент 3? 00000 68 00000 Кумул Процент 32 0000 100 0000 •г Таблицы сопряженности и таблицы флагов и заголовков К Основные статистики и таблицы £Щ Описательные статистики ЩЦ Корреляционные матрицы [fXf{ (критерий для независимых выборок :(j~] (-критерий для эависимых выборок jf§[ Группировка и одиофакториая AN OVA j Таблицы частот I Таблицы и заголовки "иД Вероятностный калькулятор 02Л Другие критерии значимости В ох Отмена & Д< & & Это процедуры позволяют кросстабулировать данные (таблицы с числом входов до 6; многовходовые таблицы более высокого уровня можно строить, используя условия выбора) и строить разнообразные таблицы сопряженности. Здесь также доступно большое количество статистик (например, критериихи-квадрат, фи-квад- рат, гамма и т. д.).
Средства построения таблиц системы STATISTICA 451 ьиямм Днклиа: J Таблицы сопряженности Миогоамодоаие таблицы сопряжем юсти VI Задать таблицы | Таблица флагов и заголовк! VI Задть хеблицы Число 2-9КОД. таблиц: нет [в гоё Отмена ш U I А В. (9 Исполъееедоъ только мель* колы • вьяЗреиньш м Г Цспольмммтъ асе амбр и нале коды Qgg &од»: Зааайг* таблицы \ сопряженности; ал* i таблицы Флаго» и - заголовков выберите дм i опиок* Многомерные отклики и дихотомии Модуль Основные статистики и таблицы имеет разнообразные возможности построения итоговых таблиц для переменных с многомерными откликами, а также для многомерных дихотомий. Обычно группирующие переменные или факторы делят выборку на непересекающиеся (эксклюзивные) группы, например, группу мужчин и женщин. Очевидно, достаточно только одной группирующей переменной, чтобы закодировать пол субъекта. Однако в некоторых исследованиях категории не исключают друг друга (пересекаются). I 1МЧТ1 я ш Дмалив: I Таблицы для многомерных откликов JM VI Дедать таблицы } Г" Д<»$ж*$) *4><>^с^«йул«в*!$).:: Отмена ]|в Ш Тип многомерного Фактора ^ £<итик: П-g |ST Считать только «метальные отклики (итерировать повторяющиеся отклики) VI Лчиним* *«*»#« *.>»■*<>««<?«>• I &**»*■ *■»**■»'*' »**:л>6 w.pvvHwsnt* ЗАМЕЧАНИЕ. Все значения. • I '"' ' ' ———• no«f.M««fi которые не являются допоет Г Удивить П Д построчно внутри каждого набора многом, диаотомии ^.TTiZ^ Z^J^Sl"^ ** Удалить ПД построчно внутри каждого набора многом, откликов ^^ счячт» (многом, дихотомии), Г* Вклинить ПД как дололишвлыиж» категорию дли каждого Фактора игнорируются (не ресемвтрйваоте* кехПД) Например, в маркетинговых исследованиях респонденту можно задать вопрос о трех самых любимых безалкогольных напитках. Предположим, 60 различных напитков присутствует в ответах, которые можно закодировать тремя группирующими переменными (первые три предпочтения). В этом случае категории, очевидно, не являются взаимоисключающими. Действительно, человек может отметить три различных напитка как предпочтительные. Следовательно, если наблюдение — это субъект, то для трех различных группирующих переменных это наблюдение является общим (не эксклюзивным). Такие группирующие переменные называют переменными с многомерными откликами (многомерные дихотомии по существу схожи с ними). Эти переменные легко анализировать в модуле Основные статистики и таблицы.
452 Глава 11. Построение и анализ таблиц Примеры Пример 1. Таблицы частот Пример основан на модельных данных опроса об использовании Интернета. Проводился опрос 100 человек относительно степени использования ими сети Интернет. Каждый респондент получил список из семи разделов с просьбой определить свой интерес: 1) Всегда интересуюсь — Always interested, 2) Обычно интересуюсь — Usually interested, 3) Иногда интересуюсь — Sometimes interested и 4) Никогда не интересуюсь — Never interested. Ниже приведен файл InterneLsta. iSCNESSfcQMPUTER ' -4 \ EDUCAT 5 HEALTH SCIENCE ? NEWS U Ы i-L •L. !~ Ш Ш r± Ш n ALWAYS ALWAYS ALWAYS NEVER SOMETIMS ALWAYS • ALWAYS ALWAYS ALWAYS ALWAYS ALWAYS NEVER ALWAYS ALWAYS SOMETIMS ALWAYS ALWAYS USUALLY USUALLY ALWAYS j ALWAYS ALWAYS ALWAYS ALWAYS SOMETIMS ALWAYS ALWAYS j ALWAYS ALWAYS ALWAYS ALWAYS NEVER ALWAYS ALWAYS j ALWAYS ALWAYS ALWAYS SOMETIMS ALWAYS SOMETIMS ALWAYS USUALLY; ALWAYS SOMETIMS; ALWAYS ALWAYS ALWAYS ALWAYS } ALWAYS ALWAYS ALWAYS ALWAYS ALWAYS USUALLY ALWAYS | SOMETIMS ALWAYS ALWAYS ALWAYS ALWAYS SOMETIMS ALWAYS : NEVER ALWAYS USUALLY SOMETIMS ALWAYS ALWAYS ALWAYS j NEVER ALWAYS SOMETIMS SOMETIMS SOMETIMS ALWAYS ALWAYS J . ■ j?.n Можно щелкнуть по кнопке Отображение числовых/текстовых значений та панели инструментов таблицы исходных данных, чтобы переключиться в численное представление значений переменных в таблице. ^cnfSurvey of INTERNET users Z r.:, 4 5 6 7 6 9 10 11 liL J «BUSENESS 1 3 3 XMPUTEF A EOUCAT 1 1 1 3 2 1 3 1 1^11 3 111 4 12 3 A 1 3 3 5 HEALTH A 1 2 3 A 3 8 SCIENCE 3 A 2 1 1 3 1 2 3 1 1 исщ ? NEWS -J г Напомним, STATISTICA всегда обрабатывает данные в численном формате, однако для удобства пользователя можно ввести текстовые значения и установить взаимно однозначное соответствие между текстовыми и числовыми значениями переменных. Это очень удобно для представления и ввода данных и интерпретации результатов. Например, вместо того чтобы вводить значение ALWAYS, можно вводить значение 1, вместо SOMETIMES — 3 и т. д.
Примеры 453 Таблицы частот Из стартовой панели Основные статистики и таблицы выберите процедуру Таблицы частот, чтобы открыть диалоговое окно Таблицы частот. В этом окне щелкните по кнопке Переменные и выберите первые три переменные. Диалоговое окно Таблицы частот появится на экране в следующем виде: Шх | 1$в1и»«ГММ«* ^^ mmmfSmmm* Отт V 1ДОмии* iiiUlUiil ihiTnijUnu № i < Jjmil «.ДО 'ЛИНЦ f им i и ^ ^^та>ШаШ^;^ 2322ШЕ Это диалоговое окно предлагает множество настроек, позволяющих изменять вид и группировку в таблицах частот, а также проверять нормальность распределения, в том числе и графическими способами. В этом примере используется принятый по умолчанию метод группировки (в частности, Все различные значения, с текстовыми значениями) и опции отображения {Кумулятивные частоты, Проценты (относительные частоты), Кумулятивные проценты, 100% минус кумулятивные проценты, Логит-преобразование, Пробит-преобразование), как показано в диалоговом окне выше. Как можно видеть, 19% респондентов отметили, что они всегда используют Интернет для поиска информации по искусству, 33% — обычно его используют и т. д. Всего 71% респондентов попали в категории всегда — always, обычно — usually, иногда — sometimes и только 21% сказали никогда — never. Большинство результатов в электронной таблице результатов понятно исходя из здравого смысла. Разъясним, что такое логит и пробит значения. Это специальные преобразования частот, которые часто используются на практике.
454 Глава 11. Построение и анализ таблиц Логит — это преобразование вида: 1п(х/A-х)), где л: — относительная частота (процент), наблюдаемая в ячейке. Пробит переменной х — это стандартное нормализующее преобразование переменной х. Пробит относительных частот — это обратное нормальное преобразование, примененное к относительным частотам в ячейках. Итак, с помощью пробит-преобразования из частот получаются величины, имеющие нормальное распределение? Такое преобразование применяется в медицинских исследованиях типа «доза — эффект». Имея вероятностный калькулятор STATISTIC А, можно легко понять идею этого преобразования (см. также главу Вероятностные распределения). Посмотрите на таблицу результатов. Например, в первой строке таблицы имеется частота 19 (относительная частота 0,19). Вычислим ее пробит. Откройте вероятностный калькулятор. Выберите в списке распределений нормальное распределение. Далее отметьте опцию Обратная функция распределения и введите в полер относительную частоту 0,19. Нажмите кнопку Вычислить. В поле Z вы увидите пробит введенной частоты, он равен 0,877896. л Лол Логистическое Парето Релея I (Стысмемтя) [ВпЛбчяял I? з>ксмр и*с«г«б \ £ j- 877896 р: J0 19 Сгдогк*.. |1 ■г\ Точно такое же значение приведено в электронной таблице для соответствующей частоты. Построение гистограмм. Визуализируем таблицы, построив на их базе гистограммы. Заметим, что можно без труда построить гистограммы всех выбранных переменных, если вернуться обратно в диалоговое окно Таблицы частот и нажать кнопку Гистограммы. Каскад гистограмм, по одной гистограмме для каждой выбранной переменной, мгновенно появится на экране. ItHUJ'HM.IH ■ -1рЫ USUALLY SOMETIMS
Примеры 455 В системе STATISTICA можно распечатать (или сохранить в файле) результаты анализа либо автоматически (когда содержимое каждой выводимой на экран таблицы результатов одновременно направляется на принтер и/или в Окно текста/вывода), либо вручную (когда пользователь сам выбирает, какую таблицу результатов или часть какой таблицы результатов распечатать). Перед тем как распечатать результаты анализа, программа попросит вас уточнить направление вывода (то есть Текст, файл, Принтер, Нет и/или Окно) в окне Параметры страницы/вывода (выберите установку Параметры страницы/вывода в выпадающем меню Файл, настройку Принтер в выпадающем меню Сервис или дважды щелкните на поле Вывод строки состояния). Параметры страницы/вывода (•" Хмхх/габл. реа./габд. да Ш ^Сраеааш } Принтер Р=3 Текст »айя ПОано • Доля/Принтер I j Заголовок выводе v • •• •■ :г Г" Раамастить заголовки по венгру ? £? Датам! | Автоотчвт -••' ~ . •-■•— | Р Дет. дополнение содержания окна текста/вывода | Г Авт. вывод из таблиц реаздьтатое м графиков 1 Г~ Авт. печать всея тебеид реаздьтатое {автоответ) Р Авт. печать/выдача страхи* при каждом выводе Г* Авт. выдача «аждояаатюанениоД страницы F Печать твоЧаядмм а окна текста/вывода В этом окне можно также определить дополнительную информацию для печати вместе с таблицей результатов. Доступны следующие формы выводимого отчета: Минимальный, Краткий, Средний или Полный. Если в окне Параметры страницы/вывода была выбрана настройка Авт. печать всех таблиц результатов (автоотчет), то дополнительная информация (количество которой определяется установленным в этом же окне форматом отчета), а также все результаты анализа будут автоматически выведены на принтер или в файл (в зависимости от того, выбрана ли установка Окно в левой верхней части этого диалогового окна). Этот режим печати полезен, если вы хотите получить полную сводку всех результатов, выведенных на экран в процессе анализа. Графические процедуры. Практически все результаты могут быть отображены на графиках с помощью графических процедур, доступных в данном окне. Прежде всего щелкните по кнопке Диаграмма размаха для всех переменных, в появившемся диалоговом окне выберите Средние/ст.оги./ст.откл. и затем нажмите ОК, чтобы построить график.
456 Глава 11. Построение и анализ таблиц (зшшшшЕшшшт Диаграмма размаха 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 о г • Ч i \ о AR TS BUSENESS COMPUTER IHHLsJSJLsJ ~Т" Мин макс CD 25Ч-75Ч ; о Медиана Печать графиков в пакетном режиме. Если в диалоговом окне Параметры страницы/вывода выбрана установка Автоматически печатать все графики, STATISTICA автоматически направит создаваемые графики или на печать, или в окно вывода (или сохранит в файле вывода, если выбрана Печать в файл в диалоговом окне Печать графика). Пример 2. Таблицы флагов и заголовков Таблицы флагов и заголовков являются экономным способом представления нескольких двухвходовых (двумерных) таблиц в одной. Работая с данными, нам интересно узнать, имеют те же самые респонденты, которые проявили наивысший интерес к бизнесу, также наивысший интерес к новостям в Интернета. Описание анализа Используемый файл данных InterneLsta описан в предыдущем примере. Из стартовой панели Основные статистики и таблицы выберите процедуру Таблицы и заголовки и откройте диалоговое окно Задайте таблицы. ]i V',"",! 'J&'»' ''>"•',"»' '. ' ,\\* " "и П • V\£*' <$&?■$&':»' Jfti|Hiy | Таблицы соприжаиности~jjj Щ^^-*&пьу6т*»'; Число 2-ми*. TMlwtMf нт CSttlfrt Г в *т«те*нчт *;.,«a^f.L* 3«МЙГ#Т«ЛМИМ. > а »*— ' *~ ' " •'* '~~jL\ —^^^/ ' оогрйяшноспкйт «• исмюлмаоащ» тоамю щмма иодм.в ацмораиимш пидонаиинм ^ _ таблицы Флаго* и ГИепо*и»»ат^ • лап^вакоав1и5м><гада* ^х_»^^.*^ Таблица флагов и заголовков по существу содержит несколько двумерных таблиц, собранных вместе. Лучший способ понять эти таблицы — рассмотреть конкретный пример. В диалоговом окне Задайте таблицы нажмите кнопку Задать таблицы под заголовком Таблицы флагов и заголовков. Программа запросит ввод переменных для таблицы.
Примеры 457 ■■"■"■ "'■"■'■"■'"■■-" 1 AHTS 2BUSFNFSS 3C0MPUTER 44 DUCAT 5HEALTH BSCItNff 7 NEWS 1 ARTS 2BUSENESS 3 COMPUTER «E DUCAT ft* Отмен* ] | Все [J rioftpotf. ]| Им* Первый список, птрамлтшпг. jl-G J] Все J Подроб. || Ии+. j Второй описок переменные I' v-:| Теперь диалоговое окно Задайте таблицы будет выглядеть следующим образом: ее=ш я Диализ: j T аблицы сопряженности *| Миогоежадовые таблицы сопряженности Таблице Флаге* и ««годом VI Задать таблицы | I VI Задатыабяиды Ь>| ГЬ.*о> *•*•$•> $>>*ву ■в ш Отмене Ju=*'t чтя* гъ<>!Як&*\ Число 2-вмоа. таблиц: в Число таблиц: нет <• Использовать только долью коды • выбранных napOMeieiM* С Использовать все выбранше коды Jgj-J &одьг. J ' *»«>«*«*«м Задайтатаблииы , сопряженности; дл* i таблицы Флагов и [ заголовков выберите два , списка. Нажмите ОК в этом диалоговом окне, чтобы открыть диалоговое окно Результаты кросстабуляции. Щ Результаты кросстабчляци ill рссмотреть. итого! Ч.Л*Ж№ ДД Подробные двуекодоеъм таблицы | ВЯ Таблица ♦.легое м заголовков | Р Ото£режлть длинные метки значений Г* включить Г" ft<--tfy-<iw<;iVi>iw>¥»'-ta<btfi У v vt&!i.iM*4* rat» Статистики для двчвжодоеытс таблиц .•; Г" Пирсона и М-П ки квадрат ' Г* Точный Фишера. Детсе, Макиемара B к 2)' , Г* Фи Bк2 таблицы) и Крамере V м С Г* Taj b и тау-с Кендалла Г* £амма ■" • j i Г* корреляция Спмрмена Г" Сомщераб Г Кор.#»ициоты неопределенности . j Г W—■:■■:■.■'•-.-.■•: i рс Выделить частоты >: j Г Одидввюмв частоты • Г" Остаточньде частоты ;Р Проценты от обжато j Г Продеты по строк* i Г* Проценты по столбце "I Ш WL Отмена j КаУеторщовыелле гистограммы СЮГрделехи * ЗАМЕЧАНИЕ; Таблицы Флагов и заголовков доступны, если выбраны два списка переменных Чтобы вычислить «нимАоат ме*емма<**ого . гоавдоподобия и проанализировать таблицы со миогм.ц «модами, используйте модуль Лог линейный «налив. В этом диалоговом окне нажмите кнопку Таблица флагов и заголовков, чтобы отобразить таблицу результатов. Вы можете рассматривать построенную таблицу как объединение нескольких двухвходовых таблиц. Например, в четырех начальных строках таблицы показаны частоты двумерной таблицы ARTS — NEWS. Другой способ состоит в том, что значения в четырех начальных строках и четырех начальных столбцах таблицы рассматриваются как совместное распределение 100 респондентов в 4*4=16 ячейках, созданных пересечением интереса к футболу с интересом к бейсболу. Теперь рассмотрим различные способы представления результатов.
458 Глава 11. Построение и анализ таблиц l II mMfmmm^mrmmmmmmmmmmmimmmwmt Далее- Фактор ^^^^^Н ARTS ALWAYS" ARTS : USUALLY ARTS SOMETlMS ARTS :NEVER ARTS :постр. BUSENESS: ALWAYS BUSENESS USUALLY BUSENESS: SOMETlMS BUSENESS NEVER BUSENESS постр COMPUTER ALWAYS COMPUTER USUALLY COMPUTER SOMETlMS COMPUTER: NEVER ' - COMPUTER: постр. EDUCAT ALWAYS EDUCAT : USUALLY EDUCAT: SOMETtMS EDUCAT : NEVER Частоты выдел (Маргинальные 1r | 10 5 9 39 24 8 5 2 39 14 7 К. 6 39 14 8 12 5 енных ямеек>10 суммы не отмечены) NEWS USUALLY 1 1 11 3 16 2 5 7 2 16 2 1 8 5 16 0 1 10 5 NEWS SOMETlMS 2 3 5 26 2 3 10 2 26 2 1 6 17 26 2 5 10 9 NEWS NEVE* 1 0 6 19 0 1 6 }> 19 2 1 3 l.j 19 2 2 8 7 ■■ЕЖ всего постр 19 щ 14 38 29 100 28 17 37 18 100 20 ю 29 41 100 18 16 40 V Частоты по строке. По умолчанию таблица флагов и заголовков отображает частоты в строке. Таким образом, видно, например, что 15 (из 100) респондентов всегда интересуются ARTS и всегда интересуются NEWS. Посмотрите на четвертую строку таблицы, вы увидите, что из тех респондентов, которые никогда не интересуется ARTS, 17 (9+3+5) интересуются NEWS: всегда — always (9), обычно — usually C) или иногда — sometimes E). Проценты. Снова вернемся в диалоговое окно Результаты кросстабуляции. Диалоговое окно содержит настройки, позволяющие выразить результаты в процентах. Проценты могут быть вычислены относительно общего числа наблюдений в строке, относительно общего числа наблюдений в столбце или относительно общего числа наблюдений. Вы также можете включить в таблицу ожидаемые и/или остаточные частоты (разность наблюдаемых и ожидаемых частот). Выберите настройку Проценты по строке и снова нажмите кнопку Таблица флагов и заголовков. После того как выбрана настройка Проценты по строке, станет доступна настройка Отображать выбранные % в отдельных таблицах. Так как в одной таблице может быть слишком много информации, выбор этой настройки помещает проценты в отдельную таблицу результатов. Мы рассмотрим общую таблицу. 1.1.И1!Л1.Р.И111,ЧШ111Ц111М11.1.1Ш.Ш1Ш Частоты выделенных ямеек> 10 [(Маргинальные суммы не отмечены) ■ JntxJ NEWS SOMETlMS NEWS NEVER Всего постр строи % USUALLY строк % SOMETtMS строке NEVER строке; Всего IS I 7Z*i\ 10 71 434 5 13 16% 9 31 03% 39 1 5 26% 1 7 1 4% П ?rt %% 3 1 0 34% 16 2 10 53% 3 21 43% 'Ь •г: 11 a. 5 1 7 24% 2b 1 5 26% 0 0 00% 6 15 79% 1: *л •?•'< 19 19 14 38 29
Примеры 459 Из таблицы результатов следует, что из тех респондентов, которые всегда интересуются — always interested ARTS (все респонденты в первой строке), 78,95% также всегда интересуются — always interested NEWS. Поэтому ARTS и NEWS тесно между собой связаны (в этих данных). Так же можно найти темы, не связанные между собой. Статистики Рассмотрим некоторые из этих статистик, представленные в диалоговом окне Результаты кросстабуляции. Наиболее употребляемая статистика — хи-квадрат. Мерой зависимости между переменными подобно коэффициенту корреляции г Пирсона является ранговая корреляция R Спирмена (см. главу Непараметрическая статистика, где систематически описаны ранговые корреляции). Эта мера предполагает, что значения переменных содержат, по крайней мере, ранжированную информацию. Такое предположение разумно в данном примере, так как ответы респондентов упорядочены по степени интереса. Выберите опцию Корреляция Спирмена. Диалоговое окно Результаты кросстабуляции примет следующий вид: кросстабчляции Просхотрть топтьт таблицы | Ю Таблица флагов м отдельный табл. | р? Отображать д< Г~ Включить пррпащадама данные Г~ Отображать выбранные X а : Статистики для длее иод. . рТ Пирсона и М-Л \ Г" Точный «Риешра. fterca. ' Г~ *>и 12*2 таблицы) и Крамера V ■ Г* Tajt-b и тау-с Кеидалла \ Г" £амма Р Коэффициенты неопределенности Р? выделить частоты >: [То ! Г Ожидаемые частоты I Г .Остаточные частоты , *\::- ' !ЯГ Проценты от общрго числа \ Г* Проценты по строи© | Г" Проценты по столбце 1 ЕЭ цк Отмена Катет оризоеениые гистограммы | Графики вэаимодеЛстеий дли частот Мекмемара B ж 2| ] *& ЗМ гистограммы иС ЗАМЕЧАНИЕ: Таблицы Фмгоа и заголовков дост/»<|>сес/ыае^р*н»дмспи(жап*рам«л««л Чтобы вычислить жжаадрат максимального правдоподобия и проенаяиеироеетъ таблицы со многими входами, используйте модуль Лог* После того как выбраны статистики, нажмите кнопку Подробные двухвходовые таблицы для того, чтобы выбрать таблицы для анализа. На экране появится диалоговое окно Выбор таблиц для просмотра, в котором приводится список всех двумерных таблиц: (Выбор таблиц лля просмотра Список возможных таблиц •актор 1 Фактор 2 (все тавл. JBUSENESS NEWS COMPUTER HEWS EDUCAT HEWS HEALTH NEWS SCIENCE NEWS BBI I UK I j Отмена | Выберите I твблицыдл* j просмотра или выделит* первую опцию. что6ь»<аио«ггь асе таблицы. Можно воспользоваться параметром Все таблицы, чтобы построить каскад двух- входовых таблиц.
460 Глава 11. Построение и анализ таблиц В данном примере выберите таблицу ARTS — NEWS и нажмите ОК. Для каждой выбранной таблицы будут построены две таблицы результатов. Первая содержит наблюдаемые частоты и все остальные характеристики, выбранные в поле Таблицы диалогового окна Результаты кросстабуляции (в частности, Проценты от общего числа). ■ Jalxj NEWS SOMETIMS NEWS NEVER Всего по стр Нлоетроке ;:-vV USUAliV:Ueuel|yirt#ftet#d Нло<*троке :. SOMETIMS: Sometime* Interested %noстроке • NEVER Never interietted i % no строке Суммы по стпв >■»}%;■. 10 71 43% 5 1316% 9 31 03е/. 39 m 5 26% 1 7 14% 11 :ь %'■<<■ з 10 34% 16 2 10 53% 3 21 43% If. С'Г, 5 1 7 24% 26 1 5 26% 0 0 00% 6 15 79% К' 41 33% 19 19 14 38 29 100 •Г... Вторая таблица содержит результаты хи-квадрат и корреляции Спирмена. Значение статистики хи-квадрат для этой таблицы равно 44, что является высокозначимым. ARTS и NEWS являются зависимыми. Степень зависимости дает R Спирмена, равная 0,43. В дополнение к этим методам вы можете построить графики, нажав кнопку Графики взаимодействий для частот диалогового окна Результаты кросстабуляции (из диалогового окна Результаты кросстабуляции), чтобы визуально исследовать частоты в выбранных двумерных таблицах. НИШЦШ» моя AHTSxNtWS График вмимод.: ARTS X NEWS /. / ; ALWAYS USUALLY SOMETIMS NEVER NEWS —>- ARTS ALWAYS -u- ARTS USUALLY • о• ARTS SOMETIMS -*- ARTS NEVER
Примеры 461 Пример 3. Таблицы сопряженности Для углубленного анализа результатов опроса (см. предыдущий пример) рассмотрим некоторые таблицы более высокого порядка. В частности, определим процент респондентов, являющихся «фанатами Интернета». Иными словами, найдем число тех респондентов, которые всегда интересуются — always interested ресурсами и arts, и news, и science в Интернете. Задание анализа В стартовой панели модуля Основные статистики и таблицы выберите процедуру Таблицы и заголовки. Для определения таблицы нажмите на кнопку Задать таблицы в разделе Многовходовые таблицы сопряженности диалогового окна Задайте таблицы. Откроется стандартное окно выбора переменных. ЕЕВШЕЕВ ДиеАМГ | Таблицы сопряженности Ииогммюцоа »>1 •' :- -• Дадататабамц* Ы 0,И*****»<************ ч* <>««#*< '.xS«ж*»*] >: Число J,:'j- табаня: мпг Г Ъэнткхм*** — . -.,„__ иои««г»< •• (^ Иопоаьааеатьтоаша щлтм коды ■ ■iKtpMiiiniпартии»» :' } гм&ицмф/чгоаи С Цепоаьаав*ть •©• ««браним, мам gff &о*ьс | Наембраим ^тУ****^***** В открывшемся окне выбора переменных выберите группирующие переменные (можно выбрать до шести списков группирующих переменных). пяятт IllliiiliVill'illi'i 'i lilliTig |nonpo6jliHtH 1 ARTS 2BUSENESS I2BUSENESS з computer HMIL'ILIIIlil 4EDUCAT 5 HEALTH 6 SCIENCE 74JEWS 4EDUCAT 5 HEALTH 6 SCIENCE 7 NEWS 1 ARTS 2BUSENESS 3 COMPUTER 4EDUCAT 5 HEALTH 6 SCIENCE 1подр»б|Ни»Л ЕШ; 1 ARTS 2BUSENESS 3 COMPUTER 4E0UCAT 5HEALTH 6 SCIENCE 7NEWS 'F Список!' Поареб^Ин»! 1 ARTS 2BUSENESS 3 COMPUTER 4E0UCAT 5-HEALTH 6 SCIENCE 7 NEWS 1йшМвя<1 1^TS QDI S3S3^^ • Cmtee*Cr... Вы можете выбрать одну и более переменных в каждом из шести списков, чтобы создать таблицы со многими входами. Теперь диалоговое окно Задайте таблицы будет выглядеть следующим образом: rfi'f'ilUf'illiB—Д^а^И Днаана: | Таблицы сопряженности *1 : М|югоеиц*оаме табаним ахщтктыюспы . .< Табаиаа «дагоа и аагомм ■\ Ц Дадат» табаиты | ; i»t Дросмстрать нам едааип» тебяиаы 1 Число таблиц: 1 vl ' Задат*хабли*м ■аШвШВ IB... JOB: 1 тт;: i 1 :'о»»м»:/^i 1 gSnl&il Чмсао 2-ааац. табаиа; иат. . ;Г"фщ«»«*н»« J ;..;. ,л Э»да*ат*бл«*1 . <• Иелоаымммпгь только |*лма коды • выбраним* переманим» ; С &сяол»аоа«гь аса ембранима коим QgQ &ojuc | На амбр ami CWiWWftrMOCTkiAeA таблицы♦лагови ч'-' :.'. ■■'] ааголоакоааыбаригадм i описка.
462 Глава 11. Построение и анализ таблиц Нажмите ОК в диалоговом окне Задайте таблицы, после этого откроется диалоговое окно Результаты кросстабуляции. проестабчляцим QB Подробны» дочаущоаыа табйты f* Отображать длинные МОТКИ ЭИаЧЛИИА | Г Включить пропчщадоыа даииы» Г" Ш <*%*«****> пм6$ш*т**: X ъ ы&<>т*ж* Статистики для доуодоами таблиц Г* ПирСОИв й М-Л НИ-КВАДраТ Г Точный Фимюра, fterc«u Макнамарл B Г Фи B*2 таблшы| ц Крамера V м С Г* Таа*Ь и та** Каидалла Г Евмма ' I Коррелящия Слирмлио Г CoMMjepod Г* Коа»»идиеиты неолрадядониости | рТ выделить частоты >: [10 j Г* Одидав! но частоты Г* Остаточные частоты Г" Лродеиты от общего числа Г" Лродеиты по стропа Г* Ородвиты по croaoaj Ш ОДС Катагориаоааниыа гистогр впали *2)! ОД Грв+ики аааимодаистаий для частот i Iflft ЗМ гистограммы ЗАМЕЧАНИЕ: Таблицы Флагов и заголовков доступны, если выбраны два списка перепетых. Чтобы вычислит* ки-мивр*г максимального правдоподобия и гроаналюировать таблицы со многими входами, используйте модуль Лог линейный анализ. Это то же диалоговое окно, что и в примере с таблицами флагов и заголовков, единственное отличие — неактивна кнопка Таблицы флагов и заголовков. Выберите еще раз параметры таблицы (например, Проценты по строке, Проценты от общего числа и т. д.) и статистики (например, Хи-квадрат, корреляции и т. д.), нажав либо кнопку Просмотреть итоговые таблицы, либо кнопку Подробные двухвходовые таблицы. В любом случае на экране появится промежуточное диалоговое окно, в котором можно выбрать таблицу из уже выбранных. Если использована команда Все таблицы, то каскад таблиц результатов будет построен для каждой таблицы, показанной в этом диалоговом окне. Для Примера 3 процедура Подробные двухвходовые таблицы дает следующую таблицу: □ЕЕЯЕЕЯЕЗП Далее.. Частоты выделенных ячеек> 10 [(Маргинальные ецммы не отмечены) 1.1PIX1 ARTS COMPUTER шт/яшшшшшш % построив ALWAYS USUALLY Ч по строк*. ALWAYS SGME71MS Ч по строк» .V-*•»%>- ALWAYS NEVER ^ Т^' ЧТО СТрОК*:?'" '•':.дЛ вОИ« :.^} .;'" Ч по строк» '*. ■ USUALLY ALWAYS :^v!\f % по строк»- '■'- • •:• уг, >•• USUALLY USUALLY*:'■* - % по строк» \ usually sometims . вЖДдМЦГ*|М 10| 100 00% 2 100 00% 3 75 00% 0 0 00% 15 7895% 2 50 00% А 80 00% 2 NEWS USUALLY NEWS SOMETIMS NEWS NEVER вс*го 111 0 0 00% 0 0 00% 1 25.00% 0 0.00% 1 526% 1 2500% 0 000% 0 0 0 00% 0 0 00% 0 0 00% 2 66 67% 2 10 53% 1 25 00% 1 20 00% 0 0 0 00% 0 000% 0 000% • 1 ; 3333% * 1 : 5.26%- ! 0 000% 0 : 0 00% 0 10 50 00% ! 2 20 00% . 4 13 79% з .; 732% 19 4 20 00% 5 5000% 2 ~i\ >..n
Примеры 463 Как можно заметить, 10 респондентов из 100 сообщили, что они всегда интересуются — always interested arts, news, computer. Развитие этого примера очевидно. Например, в маркетинговых исследованиях таким образом можно находить группы клиентов, которые всегда покупают определенный набор продуктов. «Работая руками», перебирая множество вариантов, вы добиваетесь четкого представления данных и открываете нетривиальные связи. Пример 4. Табулирование многомерных откликов и дихотомий Пример показывает, как обращаться с многомерными откликами и дихотомиями, часто возникающими в массовых опросах, а также какие возможности для анализа этих переменных имеются в модуле Основные статистики и таблицы. При проведении массовых опросов имеется своя кухня, с некоторыми рецептами которой мы сейчас познакомимся. Пример с результатами гипотетического опроса находится в папке Примеры. На основе рассматриваемых данных покажем, как табулируются следующие типы переменных: О простые группирующие переменные; О переменные с многомерными откликами; О многомерные дихотомии. Термин многомерный отклик на сленге анализа данных означает многомерный ответ, то есть ответ, содержащий в себе несколько ответов (а не один вариант ответа), например, респонденту, возможно, нравится, несколько типов машин, а не одна машина, или несколько фильмов, а не один из числа предложенных, несколько развлекательных сайтов, а не один и т. д. Для того чтобы не заключать отвечающих в жесткие рамки, при проведении опроса может допускаться несколько ответов. Число их заранее оговаривается. Дихотомия (от греческого 5i%OTO|iecD — разделять или рассекать на две части) — это переменная, принимающая два значения, 0 или 1, а в текстовом виде — нет или да. Соответственно многомерная дихотомия представляет собой набор нулей и единиц. Вначале расскажем, как строятся простые таблицы частот для описанных переменных, затем построим и исследуем таблицы сопряженности для них. Описание файла данных Представьте, что проводится исследование покупательских предпочтений молодых людей. Задаются следующие вопросы: 1) какую систему быстрого питания вы предпочитаете; 2) какой тип автомобиля вы предпочитаете; 3) какой местный ресторан вы посещали в течение последних двух недель. Дополнительно записывается пол респондента. Эти ответы записаны в файл Fastfood.sta, переменные которого описаны ниже.
464 Глава 11. Построение и анализ таблиц Пол (простая группирующая переменная). Пол респондента записывается в группирующую переменную Пол — Gender (Мужчина — Male, Женщина — Female). Лучшая «быстрая» еда (многомерный отклик). Вопросник, используемый в данном исследовании, предлагает респондентам выбрать любимое «быстрое» блюдо (до трех блюд) из следующего списка: 1) Гамбургер — Hamburger 2) Сэндвич — Sandwiches 3) Цыпленок — Chicken 4) Пицца — Pizza 5) Мексиканские блюда — Mexican fast-food 6) Китайские блюда — Chinese fast-food 7) Еда из морепродуктов — Seafood 8) Другие национальные блюда — other ethnic or regionally popular fast-food У каждого человека может быть несколько любимых блюд. Поэтому выбор каждого респондента вводится в файл как переменная с многомерными значениями. Например, первый пункт ответа записывается в столбец Еда J — Food J (первое предпочтение), второй пункт (если он имеется) — в переменную EdaJ2 — Foodjl и третий — в переменную Еда_3 — Food_3. Таким образом, в данном опросе мы имеем одну переменную, принимающую три значения. При анализе переменная Еда J — Food J может рассматриваться как простая группирующая переменная. Далее можно задать вопрос: какое число респондентов (или их доля) назвало определенный тип системы быстрого питания своим любимым — favorite? Однако интерес может представлять также и то, сколько респондентов выбрали определенную систему быстрого питания как одну из любимых. Такой вопрос приводит нас к тому, чтобы рассматривать переменные Edajl — Еда J} (Foodjl — Food_3) как одну переменную с многомерным откликом. Такие переменные можно называть также многомерными. Любимый автомобиль (переменная с многомерными откликами). В этом опросе вас просят назвать три самых любимых типа автомашины (фактор денег, стоимость машины, не учитывается, просто спрашивается о некотором идеальном воображаемом автомобиле). Эти ответы (определенные марки и модели) закодированы следующим образом: 1) Отечественный спортивный автомобиль — Domestic sports car 2) Отечественный седан (закрытый автомобиль) — Domestic sedan 3) Иностранная спортивная машина — Foreign sports car 4) Иностранный седан — Foreign sedan Данная переменная рассматривается как переменная с многомерными откликами подобно переменной любимая система быстрого питания — favorite fast-food. Это означает, что ответы респондентов были введены как значения переменных Машина J — Машина J3 (CarJ — CarJ3). Например, если респондент называл тру любимых блюда Гамбургер — Hamburger, Гамбургер — Hamburger и Гамбургер — Hamburger, тогда значение Гамбургер —
Примеры 465 Hamburger будет учитываться только один раз (в переменную Еда_1 — Food_1), а соответствующие ячейки переменных EdaJ2 — Food_2wEda_3 — Food_3 рассматриваются как пустые. Рестораны (многомерная дихотомия). Посетителей ресторана попросили назвать, какие из четырех ресторанов они посещали за последние две недели. Полученные данные были введены в файл так, что для каждого ресторана имелась своя переменная. Всего использовано четыре переменные Хозяин_1 — Хозяин _4 (BurgerJ\ — Burger_4) для следующих ресторанов: 1) Бутерброд Мейстер — Burger Meister 2) Лучшие бутерброды у Билла — Bill's Best Burgers 3) Гамбургер «Блаженство» — Hamburger Heaven 4) Большой бутерброд — Bigger Burger Если респондент сообщил, что в течение двух недель обедал в одном или нескольких ресторанах, то в соответствующий столбец (столбцы) ставилась единица, если нет, столбец оставался пустым. Таким образом, переменная представляет собой многомерную дихотомию (со значениями Да или пропуск), которую желательно табулировать, то есть указать число (или долю) респондентов, обедавших в каждом из четырех ресторанов. Заметьте, что можно было бы рассмотреть эту переменную как переменную с многомерными откликами. Однако для этого нужно создать не менее четырех переменных, например, Edajl — Edajt (Eatjl — Eat_4), и затем ввести названия ресторанов, например, Бургер_1 — BurgerJl, Бургер_2 — BurgerJ2..., как значения этих переменных в столбцы таблицы (аналогично переменным любимая машина — favorite car и любимая система быстрого питания — favorite fast-food, см. выше). Ниже представлены несколько первых наблюдений файла данных Fastfoodsta. Ггд« ТЕКСТ h ■ % ••••• )ниме Fast Го IASIIIIIII) S IA 11n ' ЛЖи od and fast cars Survey of adolescent consumer preferences ■III female! MALE MALE MALE FEMALE PIZZA SEAFOOO PIZZA SEAFOOO HAMBURG* $£28№ •::v:p54^:;.,::^ SEAFOOO PIZZA OTHER MEXICAN CHNESE HAMBURGH MEXICAN SANDWICH DOM.SEDN FOR.SPRT DOM.SEDN DOM.SPRT FOR.SPRT DOM.SPRT DOM.SPRT DOM_SEDN FOR.SPRT DOM.SPRT RHDl *r DOM_SPRT FOR.SPRT FOR.SEDN FOR.SPRT | DOM SEDN «*j *F! .ТЕКСТ *■.-. t i3' иные FAS IrOUD SIA 1 lei - ?00m Fast food and fast cars Survey of adolescent consumer preferences <.;,'ei*oeu <■ •.••-•••10 • piracl 4 aurtowji YES YES YES YES YES YES YES YES | YES «rjj Для того чтобы показать, каким образом каждый опрашиваемый респондент введен в файл, посмотрите на первое наблюдение. Первый респондент — женщина, поэтому в переменную Пол — Gender введено значение Же/ш^мня — Female. Самое любимое быстро приготовленное блюдо — Пицца — Pizza (введено в перемен-
466 Глава 11. Построение и анализ таблиц ную Еда_1 — Food_1), второе по предпочтению блюдо — Еда из морепродуктов — Seafood (введено в переменную Еда_2 — Food_2), третий вид еды не указан, поэтому в переменной Еда_3 — Food_3 стоит пропуск. Далее этот респондент выбрал следующие три типа автомобилей: 1) домашний седан — domestic sedan, 2) домашний спортивный автомобиль — domestic sports car, 3) снова домашний спортивный автомобиль — domestic sports — переменные Саг_1, Саг_2, Саг_3, — Car_1, Car_2, CarJ3 соответственно. Наконец, он ответил, что последние две недели обедал в двух ресторанах Burger_1 (Burger Meister) и Burger_3 (Hamburger Heaven), таким образом Да — Yes было записано в ячейках соответствующих переменных, значения двух других переменных Burger остались пустыми. Всего было опрошено 200 респондентов. Начнем с вычисления таблиц частот для простой группирующей переменной Пол — Gender и переменных с многомерными откликами. Так как имеются пропущенные значения во всех переменных Burger_1 — Burger_4, таблица для них будет определена позже. По умолчанию наблюдения со всеми пропусками в переменных Burger исключаются из анализа, и частоты будут вычисляться лишь для респондентов, посетивших, по крайней мере, один из четырех ресторанов. Другой способ обработки пропусков состоит в том, чтобы сделать отметку в поле Включить ПД как дополнительную категорию для каждого фактора. Выберите Таблицы и заголовки в стартовой панели. В появившемся окне Задайте таблицы выберите Таблицы для многомерных откликов в списке Анализ, при этом откроется диалоговое окно Таблицы многомерных откликов. В этом окне можно определить три типа группирующих переменных: простые группирующие переменные (Пол — Gender в нашем примере), переменные с многомерными откликами (Еда_1 — Food_1 (Еда_3 — Food_3)wlиMaшuнa_1 — Саг_1(Машина_3 — Саг_3)) и многомерные дихотомии (Burger_1 — 4). I -tirl, 'I'lTlll щ В J Таблицы для многомерных откликов *\ Ц Задет»таблицы [ Г" .&♦*****<»> «р>лм,*%««*»** Отмена )lE> Щ\ \ Ими Число Тип многомерного фактора О' N««>r<JH*': $.*»««* А***0*<S*W* $' М«»МУЬ^М*Л& WKfm*. С4 М*•*<>;*«»<*!>*•»<»*•' nmw<t»&iH Ф Ми»* <>н*>^у«*$ vvx-vw О Ъ*К'Я »t+i<;i^o** Я*<*«.»?«'>м*<** Ф Ыног км*'--р<'.'.хА *я << »v.t £четчик: fl @ Jx Счетать только «мке; '.'Г.Н; И К*т* зя *.#&*■ Ю*«* вя*<**~ Ш8 *«*«• Н.Г. w r ■<}<■: **:! *<<S (игнорировать повторяющиеся отклики) Vl Дшнмй мткм фы.торсн J &**>* M*rfrм «**}**<*» **>*«?»ч*««**й ЗАМЕЧАНИЕ: 0св :■ ■■'■ ,'. " ' **;**#<>** с п*с** Г" Уладить ЛД построчно внутри каждого набора многом, дмяоп которые не являются долусг. кодами (многом откликов} млм не _, м равны значению, резанному в Г Ыдаемть ПД построчно внчтри каждого набора многом, откликов ^^ счетчик* (многом дихотомии). Г~ Вкдцчить Л Д как дополнительнее категорию для каждого Фактора игнорируется (не оассметрмееются кеьЛД}.
Примеры 467 Нажмите кнопку Задать таблицы для того, чтобы определить переменные в диалоговом окне: 2F00D_1 3F00D_2 4F00D_3 5 CAR 1 6 CAR 2 7 CAR 3 8BURGER.1 9BURGER.2 i 10BURGER.3 11 BURGER.4 2F00D_1 3 FOOD_2 4 FOOD 1 5-CAR_1 6CAR.2 7CAR.3 8BURGER.1 9-BURGER.2 10BURGER_3 11 BURGER.4 I GENDER 2F00D.1 3F00D.2 4-F00D.3 5 CAR 1 6CAR~2 7CAR~3 8BURGER.1 9BURGER.2 10-BURGER.3 II BURGER.4 I GENDER 2F00D.1 3F00D.2 4F00D.3 5CAR.1 6CAR.2 7CAR.3 8-BURGER.1 9BURGER.2 10BURGER.3 II BURGER.4 Подро6,|инел| Подроб.1ин».| Подроб.1Ин+1 Подроб^Ии»! Подроб.|Ин«>.| Подроб.1Ин*>1 I GENDER 2F00D.1 3F00D.2 4F00D.3 5CAR.1 6CAR.2 7CAR.3 8BURGER.1 9BURGER.2 10 8URGER.3 II 8URGER.4 Отмене Набор 1: f Набор 2: E7— Несер 3: Набор* Р "I йебор5: Набор* •Г В окне можно выбрать до шести многомерных факторов (простых группирующих переменных, многомерных откликов или дихотомий) для одной таблицы. В первой колонке выберите только переменную Пол — Gender, программа автоматически рассматривает единственную выбранную переменную как простую группирующую (простая группирующая является частным случаем переменной с многомерными откликами, для нее число откликов равно 1). Во второй колонке выберите переменные Еда_1 — Еда_3 (Food_1 — Food_3)> в третьей — Машина_1 — Машина_3 (Саг_1 — СагЗ). Сначала обратите внимание на простые таблицы частот для всех выбранных факторов (таблица частот для BurgerJl — Burger_4 будет исследована позже). Нажмите ОК, чтобы завершить выбор. Теперь в окне Таблицы многомерных откликов можно видеть выбранные переменные. bfQSSZSBBBjjBjjjjBjfjjBjBjjjejjjjjjjjjjjjjM^j &»**из: | Таблицы для многомерных откликов ^rji»/^*: >'--::?j^' -'OrMeW^ ''j|E3 •••'•: Щ$ I ' Ц Задать таблицы j Г Дерна* кросстебЧри»!»* '. к» Д. ] «S» В. | : Имя миогомерн. Чмсяо «^«♦tm^ ♦актора парам. / •' :-^' 1тши<ттрПйП>+шпЫ>ш • J;[GENDER 1 С М*>х-4жщтяът*о1н«** '# МногокаримЛ отклик QgQ (Совье 2|F00D_1 : Э :С М ног опершие диквтомид (? МногомарныА отклик Q$ Коим: £JCAR_1 3 С Многомерная дихотомия (? Многомерны* отклик ОЙ Коды? 4 ] : 0- . С Мйог«»<#*&о**«fcxc»йий» ^M«w««ep«^^^i^ Q5Qk<*«m : ^ j , Й . О Цшхьмефияя «*«*** <ихмя 'Л >feiiw*«»»pKw*«ry>«*!fc ОЙ Кяйы: & ] 0 С Мияг-ом^иш* йкш*о«ш» й^: %j;(wrt»*«ip«trfa огяяав Q^jJ Keietx. .,;,: f_Mi«e I R У Считатьтолькоедикалыеаеот» f:t?$ ?-.'?■  :?':i?: *:;?i!>l^'!,0'w',e*,T|> яодторд«>еи«все от* 1 1*1 Длинные иткн>а*^^ У^'ЗлЯЕЧАНИБ^** "".Г^" ",",! ,' ' ".;: :;' • «вжжвмсписке ••:/,•••%• .£у.«лв^.|«*»А»чюи Г Уладить ПД построчно енутри каждого меборд многой, димотшеи! ^(^^^^ j Г Ыдалдо П Д гюстрочно внутри каждого наборе многом 01кдимш п^ нет нет нет дики 1дижи|-'у-;';'' «иному а - *а**от©н*4| Термин фактор используется для общего обозначения всех типов переменных (например, такая переменная, как любимая еда — food preference, в действительности состоит из нескольких переменных). Мы употребляем термин многомерный фактор и для простых переменных, и для переменных с многомерными откликами, и для многомерных дихотомий. Заметим, что по умолчанию фактору присваи-
468 Глава 11. Построение и анализ таблиц вается имя (как длинное, так и короткое) первой переменной в соответствующем списке. Определение факторов. Расположенная рядом с каждым фактором опция позволяет определить его тип. Первая переменная Пол — Gender — это простая группирующая переменная. Для второго и третьего факторов выберите опцию Многомерный отклик. Далее выберите коды для определения различных категорий. Выберите коды, чтобы идентифицировать пол респондента Мужчина — Male и Женщина — Female (переменная Пол — Gender), а также различные типы «быстрой» еды в переменных Еда_1 — Еда_3 (Food_1 — Food_3) и различные типы автомобилей в Машина_1 — Машина_3 (Саг_1 — Саг_3). Если вы не зададите коды явно (просто нажмете ОК), программа возьмет их из первой переменной в каждом факторе. Данный способ обычно позволяет определить все коды, однако может случиться так, что определенный код не присутствует в первой переменной, а присутствует только во второй или в третьей. В этом случае способ по умолчанию не применим, так как ряд значений окажутся неучтенными. Лучше задать все используемые коды точно. После нажатия одной из кнопок Коды, расположенной рядом с каждым фактором, можно ввести коды для фактора. III)I.IUI|I||JI|I.III,I,|I|..|IH— ■в£1ЮИ?:]1 2 ' «TOOJifTl iii'.iniiiii-.'1'iiiii.i'f St» J-jJ ii ШШШШ2±*1 ■ * i! Отмена j Дыбретьосе| | В данном примере не так интересно знать, все ли три выбранные машины были определенного типа (в связи с чем чрезмерно увеличивается число идентичных откликов). Интереснее определить число респондентов, предпочитающих, например, домашнюю закрытую машину. Заметим, что переменные, составляющие фактор Еда — Food, содержат только взаимно исключающие ответы (непересекающиеся категории), так как респондентам не разрешалось давать идентичные ответы (например, Гамбургер — Hamburgery Гамбургер — Hamburger и Гамбургер — Hamburger). Их просили сделать выбор из восьми типов быстрой еды без повторения. Поэтому для фактора Еда — Food данная опция не имеет значения. Нажмите ОК в диалоговом окне Таблицы многомерных откликов, чтобы начать анализ и открыть окно Результаты таблицы многомерных откликов. Н.11ППГ1Г щ iii Просмотреть То&ашы частот ППЩ1 ШаРЛО АОаепОАОееМТтабЛМНМ Ш АФуМОАМкИГТЯбАИЯМ & Отображать длинные метим wmeiwftj Г Отображать аыбр* ш отлельмоД табл. Q39 Срое»аш л»аимолебстаий частот | р7 &ылажть частоты >: jl0 Ц Г* Процент от общего числа Г* Протащи по стропам Г" Проценты по столбцам гЧастотмУлрошакгы по ! С Н"с*9 отжата j (а4- Числа, распомяоигоо . \ ; ИВ Цтот зедеима таблицы J ЗДСЧДНИС; Дотлытелъиь» граф»«и(гмстогр«*<ы, m>gftm граошмиТА| можно построить с помошыо графических опций непосрейстеенно иэ таблицы рвэуътето»
Примеры 469 Вначале рассмотрим простой вывод Таблицы частот. Введите в редактируемое поле Выделить частоты число 100 (что приведет к тому, что все частоты больше 100 будут выделены в таблице результатов). Затем нажмите кнопку Таблицы частот. Таблица частот для переменной Пол — Gender интерпретируется обычным образом, и на ней мы останавливаться не будем. Таблицы частот для других двух факторов показаны ниже. пгггштвшпрушщттттщтщттт ОСНОВНЫЕ СТАТИСТ N-200 Группа ■пуй1:/шп^|ШЖМИ1И . SANDWICH: Sandwiches CHICKEN: Chicken PIZZA : Pizza..., MEXK>N: Mexican fast food CHINESE: Chmes* test food SEAFOOD: Seafood OTHER : Other ethnic/regional Сумме откликов Ml ■WfTWTTW liyiHIrTlii^ ММММШММВМШН TTll Еде З любимые системы быстрого питания ^j (Переменная с многомерными откликами) 114 | 49 46 )'<* 42 45 46 42 522 Процент откликов Г.1 :А 9 39 8 81 U0 А А 8 05 8 62 8 31 8 05 100 00 Процент наблюд г. 7 ;"jf: 24 50 23 00 63 00 I 21 00 22 50 23 00 21 00 261 00 ^ | ■' I и^ггшттгжптттщтшттг^^ ■ -Mfill'il ll<f4illi>i7i'i,lliTiiilJiiii'imm ОСНОВНЫЕ СТАТИСТ. N-200 Гриппа д^др^^1УНИЛ!таШте??1ТШИИИИ1 OOM_SEOM Oomediiceeden FOR.SPPnr foreign $port$ car FW.SEON Foreign seden Сумма откликов ы тшшштяшшшшт ЕЗлШШШШШшшшшшшшяшшшш Машина Пюбимые типы машин (Переменная с многомерными откли к: J 76 I*'.' 64 420 1 Процент I откликов J '.'.A I'V 1810 15 24 100 00 ■шииииииг-т-пг —1 кем и) Процент наблюд. ^ 1>1 38 00 32 00 210 00 ' [..! Всего в исследовании было опрошено 200 респондентов (число опрошенных N=200 отображается в верхнем левом углу таблицы). Столбец Частота показывает число респондентов, назвавших данный способ питания как один из любимых. Напомним, что учитываются только уникальные ответы (см. выше) и, таким образом, ответ каждого респондента может быть посчитан только один раз в этом столбце. Отсюда вы можете прийти к заключению, что Пицца — Pizza была самой популярной системой быстрого питания, указанной либо в первой, либо во второй, либо в третьей позиции 138 респондентами, Гамбургер — Hambwger был вторым по популярности A14). Все типы систем быстрого питания отметили только 40-50 респондентов. Во втором столбце таблицы результатов вычислены относительные частоты, соответствующие числам первого столбца. Можно сказать, например, что 26,44% A00*138/522) всех указанных в ответах предпочтений составляет Пицца — Pizza. В отличие от этой колонки третья колонка таблицы показывает проценты респондентов, отметивших соответствующий тип еды как первый, второй или третий. Пиццу — Pizza как лучшую систему быстрого питания выбрали 69% A00* 138/200) всех респондентов. Аналогично рассматривается таблица частот для фактора Машина — Саг. Иностранные спортивные машины отмечены 157 респондентами на одной из трех по-
470 Глава 11. Построение и анализ таблиц зиций (учитываются только различные ответы); отечественные спортивные машины отмечены 123 респондентами. Вторая колонка показывает 37,38% ответов для иностранных спортивных машин; эти числа не так легко проинтерпретировать, так как подсчитывались только различные ответы (несколько одинаковых ответов рассматривались как один). Таким образом, если респондент указал в анкете три иностранные спортивные машины, то этот ответ учтен только один раз. Числа в третьей колонке {Процент набл.) более информативны; из них, например, видно, что 78,5% всех респондентов назвали иностранные спортивные машины в числе трех самых любимых. Возвратимся в диалоговое окно Таблицы многомерных откликов (нажмите Отмена в окне Результаты), чтобы задать многомерную дихотомию в обследовании посетителей ресторанов. Нажмите кнопку Задать таблицы, отмените предыдущий выбор и выберите Burger_1 — Burger_4 как переменные первого множества. вшпвие НЕ mmmmsmmm*. шва 1 GENDER 2F00D_1 3F00D 2 4 FOOD 3 5 CAR 1 Б CAR 2 7 CAR 3 8BUHbtHI 9 BURGER 2 10-BURGIHJ 11 BURGFR < I GENDER 2F00D_1 3 FOOD 2 4 FOOD 3 5 CAR 1 Б CAR 2 7 CAR 3 BBURGER_1 9 BURGER 2 10 BURGER 3 II BURGER 4 I GENDER ?F00D_1 3 FOOD 2 4FOOD_3 5 CAR 1 6CAR_2 7 CAR 3 BBURGER_ 9 8URGER 10 BURGER II BURGER I GENDER 2F00D_1 3 FOOD 2 4FOOD_3 5 CAR 1 6CAR_2 7 CAR 3 BBURGER.I ! 9 BURGER 2 I 10 BURGER 3 II BURGER 4 I GENDER 2F00D_1 3 FOOD 2 4 FOOD 3 5 CAR 1 GCAR_2 7 CAR 3 BBURGFR_1 9 8URGER 2 10BURGER 3 II BURGER 4 I GENDER 2F00D_1 3 FOOD 2 4 FOOD 3 5 CAR f GCAR_2 7CAR.3 8BURGERJ 9 BURGER 2 10BURGER : II BURGER a* Отмен*! Ho»poe>H»:l Подро&|Ин».| Подроо^Ин».] По«роб>н».1 Подроб JKh+.| Подро&1ин#.| Набор 1: Набор 2; Набор 3: Набор 4: Набор 5, Набор fc Р Г Далее установите опцию Многомерная дихотомия рядом с первым фактором в диалоговом окне Таблицы многомерных откликов. Как и ранее, можете использовать опцию Длинные метки факторов для того, чтобы ввести подходящее имя фактора. Например, можно назвать этот фактор Patron: Recently patronized restaurants — Хозяин: Недавно посещенные рестораны. ™ЕВШШШШ Диадйа: J Таблицы для многомерны! откликов 7J Ц Да«*ть таблицы J f~ £J4>»** *.$*и^»абужнкия Имя многомерн. Число Фактора J;|BURGER_1 U мотки Факторов: ] Тип многомерного ♦акторе ^ ^йогома^аяАШ1оУомш|| С Многомерный отклик С Uuptхтщщю &шо*(т*к* & й*и«!Го*<кг*»<в »**,.«*»: рТНЦ 1* Стпт» * (игнорирош В»яп» метки первой переменноА I езде Lttl^ft! ::■, Г ,«: м QJ8 ¥:<>я,ы: уЦз ¥.<»т $8 *«*** 8е8 &л«-** 828 ^«ь» {$) К«А#* Н<т; Uf? . «,г *КГ: , «.т ЗАМЕЧАНИЕ. 8се з которые не яеялотса допусг Г Удалить ПД построено внутри каждого набора многом, дмкотомми !^2?1Й!2!^ ?^????!1?У ** Г реяны эн«чонмо. ^еэепному е Плавить ПД построчно внутри каждого набора многом- откликов поле счегмх» (многом дихотомии}, Г* Вкддомть ЛД как дополимтвльиуо категорию для каждого фактора игнорируется {не рассматриваются
Примеры 471 Вам также необходимо задать код, который использовался в факторе многомерной дихотомии Patron для того, чтобы определить, обедал или нет респондент в соответствующем ресторане в течение двух недель перед опросом. Задайте нужный код в поле Счетчик ниже списка факторов. Так как код, равный 1 (числовой эквивалент значения Да — Yes; см. Управление данными, глава 7), использовался для того, чтобы определить, какой ресторан посещался респондентом, то можно просто принять код, предложенный по умолчанию. Напомним, каким образом многомерные дихотомии интерпретируются программой. Переменные, из которых построен фактор, рассматриваются как его уровни, затем подсчитывается число уровней со значениями, равными значению, указанному в счетчике. Все значения, не равные этому значению, игнорируются. Вы можете строить более «сложные» схемы кодирования (а не просто 1-0, как в этом примере), задавая подходящие значения в поле Счетчик. Например, можно использовать отдельный код (отличный от 1) для обозначения ответа: «даже никогда не думал там обедать». Вы могли бы ввести код 2 в переменные Burger_1 — Burger_4 для обозначения таких резко отрицательных ответов в отношении определенных ресторанов, задать этот код в поле Счетчик и табулировать ответы. Таким образом, задавая различные значения для кодов многомерной дихотомии, можно идентифицировать взаимоисключающие ответы. Из диалогового окна Результаты снова выберите процедуру Таблицы частот. Интерпретация чисел, представленных в этой таблице, аналогична таблицам для многомерных откликов. рЛЦ-и1Ц1|.Ц|||1Ц|||1Ц^||1|Ц1 ОСНОВНЫЕ СТАТИСТ. N«157 Группа 1 BURGERJ: Burger Meister BURGER: Bill's Beet Burgers v■ ' BURGERS Hamburger Heeven BURGERjt: Bigger Burger Сумма откликов ы гиор ) (lasllood sta) BURGERJ. Burger Meister (Многомерная дихотомия; счетчик: 1 ^^^^6^ 68 61 59 248 .Процент откликов 2419 2742 24.60 23 79 100 00 uracil Процент набпюд 3822 щ 43.31 38.85 | 3758 15796' И л Q Всего 157 респондентов обедали в одном из четырех ресторанов (п = 157); 60 респондентов обедали в Burger Meister, 68 — в Bill's Best Burgers и т. д. Значения во второй колонке (Процент откликов) выражают эти числа в процентах от общего числа респондентов, обедавших хотя бы в одном ресторане (то есть от 157 респондентов). Предполагается, что четыре (воображаемых) ресторана делят рынок быстрого питания в городе и что 157 респондентов (из 200) в большей или меньшей степени представляют мнение общего рынка. Поэтому значения во второй колонке таблицы показывают долю рынка, которым владеет каждый ресторан. Например, из всех мест (где подаются гамбургеры), которые посещались респондентами в течение двух недель до опроса, Burger Meister посещали 24,19%, Bill's Best Burger — 27,42% и т. д. Третья колонка (Процент набл.) содержит процент респондентов, обедавших последние две недели в соответствующих ресторанах.
472 Глава 11. Построение и анализ таблиц Напомним, что проценты вычислены для п = 157, то есть относительно числа респондентов, обедавших, по крайней мере, в одном из четырех ресторанов. Поэтому можно сказать, что 38,22% респондентов, обедавших в каком-то одном из четырех ресторанов, где подают гамбургеры, обедали также в Burger Meister, 43,31% обедали в Bills Best Burgerи т. д. Заметим, что можно легко построить линейные графики или гистограммы частот и процентов с помощью процедур меню Пользовательские графики. \ш\жж\\ игеш Таблица Частоты ( Идентичные отклики игнор ) (fastfood sta) BURGERJ Burger Meister (Многомерная дихотомия, счетчик 1) 70 68 66 64 62 h 60 58 шш? ъш Burger Meister Hamburger Heaven Bi*s Best Burgers Bigger Burger Покажем, как строить таблицы сопряженности для переменных с многомерными откликами и многомерных дихотомий. Нажмите Отмена в диалоговом окне Результаты для того, чтобы вернуться в диалоговое окно Таблицы многомерных откликов. Прежде всего, посмотрим на таблицу сопряженности Пол — Gender и Машина — Саг. Иными словами, исследуем интерес к различным типам машин у Мужчин — Males и Женщин — Females. Нажмите кнопку Задать таблицы и в открывшемся диалоговом окне выберите Пол — Gender как единственную переменную в первом множестве, а переменные Машина_1 — Машина_3 (Саг_1 — Саг_3) как переменные во втором множестве. Выберите до 6 наборов i .1.1.Ш.1!1>|||.Ч1.|1||.ии.|1|Л»1— 2-F00DJ 3-F00D_2 4F00D.3 5CARJ 6-CAR.2 7-CAR.3 8BURGERJ 9-BURGER_2 10-BURGER.3 11 BURGER 4 1 GENDER 2-F00DJ 3-F00D.2 4 FOOD 3 5CARJ 6 CAR 2 7CAR~3 8 BURGER, 9-BURGER. 10 BURGER 11 BURGER 1 GENDER 2-F00D 1 3-F00D~2 4-F00DI3 5-CAR 1 6-CAR.2 7-CAR 3 8BURGERJ 9 BURGER 2 10-BURGER.3 11-BURGER.4 I GENDER 2-F00DJ 3-F00D_2 4F00D.3 5CARJ 6-CAR.2 7-CAR_3 8BURGERJ 9BURGER_2 10-BURGER.3 II BURGER.4 I GENDER 2-F00DJ 3-F00D_2 4-FOOD.3 5CARJ 6-CAR_2 7-CAR_3 8-BURGERJ 9-BURGER_2 10 BURGER 3 II BURGER_4 I GENDER I 2F00DJ I 3F00D_2 4F00D.3 5CARJ 6-CAR_2 7CAR_3 8BURGERJ 9BURGER_2 10BURGER.3 II BURGER 4 Подроб. Набор <фн».| Подрой 1Ин».1 Подроб.1Ин».1 Пщ*Л.\Щ*Ф.\ Подроби[Ин».) Подроб ]Ии«х1 1: Набор2: Набор 3: Набор 4: Набор 5: Набор6: - р~ 1 -г 1 1 ~ а* Отмена:
Примеры 473 Нажмите OK и вернитесь в диалоговое окно Таблицы многомерных откликов. Задайте далее коды для фактора Машина — Саг, чтобы идентифицировать четыре различных типа автомобилей. Возможно, вы захотите изменить описание фактора, тогда воспользуйтесь кнопкой Длинные метки факторов. \mmn\mv\m |У|х &цштш: | Таблицы для многомерных откликов ^чр:'''.,.- Ц Давать таблицы | Г &.*!>**» ^н»^г«^^^щ^ Отмена й* Имя многомерн. Число Футора „врфм. •: Тип мне* омар1ого,Шстор* Г" В теменные J; JGENDER *[САгГ С; Цнтылер***а яимт«Н*аL§г<Ф•< Многомерный отклик. Q£j Коды: Г Многомерная дихотомии <? Многомерный отклик |Jg Коды: С Мдоом«{Ж4и*£«хо1<мдо 9 Mtiefомкг{5»*<й Of>;*wr. [JJg Коды: .О Ммдгамврмя* ди«1Яг<жи>»' ^MHi^tM^jpHb^ fl^yjjffc»; РД Коды. нет нет «*t • нет' •I !&.!■* •v.^#r:.vV:\,V3'*' 4 H*fлитьмл nuuipmwu«натрикаждогонеооремногом, от* ::'Г:|*л1гнг1ъ: ПД дед дополнит альнаю категорию для каждого < ЭМ€ЧАНИЕ:Во«ем^«^йе-: которыФ не яаляоте* дряаяг,.Д кодами Imhotom. откликое) или *И fC Щ^№пйп#ш WOT" каждого'iHtfope'iva^^ ЩвгтМпйЖ „>r-•••-;—^_-MM -• . ->наю категориюдля каждого еедтора vrH0p>«e3Toa[нараоснатр>»иотсй "■■■■ ;.. udnfo.''-\*.r:\'^;.''Z'.* i:- Для этой таблицы отмените опцию Считать только уникальные отклики. Напомним, что назначение этой опции — исключить одинаковые ответы (одинаковые ответы одного и того же респондента на разные пункты считаются как один ответ). В данном примере, напротив, вы можете захотеть включить такие ответы в таблицу. Получившаяся таблица сопряженности будет показывать общее число различных типов машин, определенных респондентом как первая, либо как вторая, либо как третья, разбитых на классы значениями переменной Пол — Gender. Нажмите ОК и откройте диалоговое окно Результаты таблицы многомерных откликов. Нажмите кнопку Просмотреть итоговые таблицы. В результате будет построена следующая таблица: ЕЛ шт ттттмт тшш Wfat<s Частоты/проценты основываются на числе респондентов [Многомерные идентичные отклики учтены OOM^SEDN4 73 14 '"вУ" FOFLSPRT FOPLSEDN 217 54 271 61 10 71s г.Строк.' tcorb- 164 36 200 По умолчанию Быстрым статистическим графиком для этой таблицы является ЗМ гистограмма. Нажмите правую кнопку мыши и выберите в меню опцию ЗМ гистограмма.
474 Глава 11. Построение и анализ таблиц ЫГМ'.НГГШШГИЩ^С ШВШШшшШЗаМ Т аблица Итоговая таблица для всех многомерны* откликов |la*tfood tie) Частоты/проценты основываются на числе респондентов Многомерные идентичные отклики учтены *°{ 7Z0 \во, **> & & to • ^^^ ^^щ **" *^ Х^ О* **~ ^\ с^ ***' ^ с^ <**" с^ Рассмотрев приведенную выше таблицу, можно прийти к выводу, что и мужчины, и женщины отмечали спортивные машины чаще, чем седаны. Разницу в общем числе машин, отмеченных мужчинами и женщинами, можно объяснить тем, что число мужчин и женщин в выборке существенно различается (если вы посмотрите на таблицу частот переменной Пол — Gender, то увидите, что в выборке присутствует только 36 женщин). Вместо ЗМ гистограммы можно использовать линейный график. Вернитесь в диалоговое окно результатов и выберите опцию Графики взаимодействий частот. \ШттЧШШМ1ЛУАЛ Взаимодействия GENDER х CAR Многомерные идентичные отклики учтены -о- GENDER MALE •о- GENDER D0M_SPRT D0M_SEDN F0R_SPRT FOR SEDN FEMALE Здесь разница в предпочтении спортивных машин более отчетлива у мужчин, чем у женщин (линия, соответствующая женщинам, более сглаженная, чем линия мужчин). Пример (анализ продаж) Рассмотрим данные о продажах в магазине. Мы хотим провести разведочный анализ этих данных и построить модель покупателя.
Примеры 475 Категоризируем исходные данные (способ категоризации количественных переменных в системе STATISTICA описан выше), то есть будем работать с данными вида: ш ТЕК С 76 79 80 81 82 83 64 85 86 k? 88 14 |.||;;|||.||,|,ц1,1М1,иш день Пнд Пнд Пнд Пнд Пнд Пнд Пнд Пнд Пнд Пнд Пнд шш 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 о оо| 0 00 6// м 3 1 4 1 5 колбасы 1<ондитеН<онсервь 0 00 0 00 0 00 0 00 0 00 1 00 1 00 000 0 00 100 000 0 00 100 0 00 1 00 0 00 0 00 1 00 0 00 0 00 0 00 1 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 6 КОФЕ 0 00 0 00 1 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 7 vWKAPOHb 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 нгао| * 8 МУКА 0 00 *•*— 0 00 0 00 0 00 0 00 . ооо • 0 00 : 0 00 0 00 : 1 00 0 00 * г •Г; В этом файле первая переменная — день недели, каждая оставшаяся переменная принимает два значения: 0, если данный покупатель не купил данный товар, и 1, если данный покупатель купил данный товар. Покупатели записаны в строках, товары в столбцах. Для данного покупателя 1 означает, что он купил соответствующий товар. Мы хотели построить модель покупателя. Для этого нам нужно знать, как распределены покупки и как они связаны между собой. Работаем в модуле Основные статистики. Введите показанные данные в свой файл или сгенерируйте нечто похожее, чтобы повторить действия. Несколько тонких вопросов будут отмечены в ходе анализа и указаны альтернативные способы исследования. Распределение числа покупок. Вначале введем переменную (в наших данных это будет переменная var24)> подсчитывающую общее число покупок, сделанных покупателем (она равна сумме всех индикаторов покупок). Тогда файл выглядит так: о ТЕКС SS 5ТА 24л • 677н 17 ЛИРТНОЕ 18 ОРЕХИ 19 СЫРЫ 20 ТА6АК 21 ХЛЕВ 22 ЧАЙ 23 ЯЙЦО 138 199 200 201 ш 203 204 205 206 207 208 ы 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 1 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 1 00 0 00 1 00 1 00 1 00 0 00 0 00 1 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 00 ооо( 0 00 0 00 0 00 0 00 0 00 0 00 1 00 4 00 1 00 2 00 5 00J 2 00 2 00 1 00 2 00 3 00 3 00 Вначале посмотрим, как распределено число покупок. Откройте процедуры описательной статистики. \>Г
476 Глава 11. Построение и анализ таблиц Корреляционные матрицы JT| (критерий для независимых выборок Jjjj (критерий для зависимых выборок jJX Группировка и одно+акториая AN OVA Таблицы частот Таблицы и заголовки %Д Вероятностный калькулятор Wjk Другие критерии значимости £* LiJjBJL Выберите все переменные, в которых записаны покупки различных продуктов, и нажмите кнопку Подробные описательные статистики. На экране появится таблица с описательными статистиками. [ЗВЕШ | БЕЗАЛК0ГЯЙЦ0 Пплрой^т» отсшг9йшы9 ттшггтн Г Построаиов щшшштт ПД Г* ОТОЖМИ?* ДОИНМЬИ NMetW Г ОЯИМ Г Крмгарм* Швпмро-Уммм W Таблица с описательными статистиками имеет вид: HiniUVJiflllLilL ОООБмьЕ СТАТИСТ ВЕЗЛ/ГКОГ КОЛБАСЫ кондитер КОНСЕРВЫ КОФЕ МАКАРОНЫ МУКА МОЛОКО МОРОЖЕиС . К1нвбл j 674 674 674 674 674 674 674 Ь74 Ь?< ОЕОШИ РЫБА СОКИ СПИРТНОЕ ОРЕХИ СЫРЫ ТА6АК ХЛЕБ ЧАЙ j ЯЙЦО 674 674 674 674 674 674 674 Ь74 Ь?< 674 ^\ е?<з $74 674 674 674 674 674 674 674 674 674 225519 474777 406012 115727 051929 048961 146384 436202 032541 078635 •ГС4ЭС ?'4*37 '?1?2' 137982 137982 117211 0ЮЭ86 178042 03П57 488131 059347 034125
Примеры 477 В этой таблице для нас прежде всего интересен второй столбец, в котором показано, как часто покупались различные продукты. Но вначале построим гистограмму числа покупок N. Г|Графмк1 Гмстшрамма Распределение числа покупок N 12 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 Из гистограммы видно, что наибольшее число покупателей делает от одной до четырех покупок. Редактор данных графика позволяет просмотреть данные графика в численном виде. Нажмите кнопку Редактор данных графика, и вы увидите данные в численном виде. Итак, общее число покупателей равно 674. Из них 90 сделали одну покупку, 110 сделали 2 покупки, 110 сделали 3 покупки, 102 сделали 4 покупки и т. д. ^шшшшгшпшт Наблюдение 1 Наблюдение 2 Наблюдение 3 Наблюдение 4 Наблюдение 5 Наблюдение 6 ШшШШ'ШШМШ Наблюдение 0 Наблюдение В Наблюдение 10 Наблюдение 1! Наблюдение 12 Наблюдение 13 Наблюдение 14 Наблюдение 15 Наблюдение 1 б Наблюдение 17 Наблюдение 18 Наблюдение 19 Наблюдение 20 и i 1И-1и1 Гистограмма (indcons STA 24 lii Столбм X 000 1 00 2 00 3 00 4 00 5 00 600 7 00 8 00 9 00 10 00 11 00 12 00 13 00 14 00 15 00 16 00 17 00 18 00 диагр поХ 12 00 90 00 110 00 110 00 102 00 62 00 51 00 34 00 31 00 26 00 20 00 8 00 11 00 4 00 2 00 0 00 0 00 0 00 1 00 3 *> *'
478 Глава 11. Построение и анализ таблиц Случай одной покупки. Рассмотрим покупателей, сделавших только одну покупку. Для этого введем условие выбора наблюдений. Ulil.l,IJ!l..l!|l|.lll,ll!H.W— б» flpUWM.^ ЬСМГ. ^ ИСКА.» «CMC Зецоеоео* fcm* < v24-1 1ИННИКПЕ]! *- 1 OK 1 T]L. **, 1 1 0™»»"H E3 Переменные] j 1 ; 1 Состоят*■■■■, Операторы» <> < > <„ >« NOT AND Ой g? Ощрыть | 1 ; (• Bin 1 Пер««м%*;1м»1«ияиу1,у2.~ ] ; : . | Номер на&киоиик vO Ш &ифвимт*.<. j (v7<1 OR v9»VE$') «id y4<>0 Группировка по дням недели. Рассмотрим, как распределены покупатели, сделавшие одну покупку, по дням недели. Выберите переменную День и постройте гистограмму. Далее... } i-ioixi ДЕНЬ ПКД Bip Срд Ч1В Пш Группа (различ. значения) Из гистограммы следует, что наиболее часто единичные покупки делаются в среду. Какие продукты наиболее часто относятся к одиночным покупкам? Найдем, какие продукты наиболее часто являются «одиночными». Выберем все переменные из файла, кроме первой. Вычислим средние величины. Из таблицы следует, что если покупатель сделал только одну покупку, то, скорее всего, это было мясо, хлеб, овощи, кондитерские изделия или колбасы. Вероятность сделать одиночную покупку из оставшейся части списка практически нулевая. Заметьте, что средние, приведенные во втором столбце таблицы с результатами представляют собой оценки вероятностей покупки данного товара. Таким образом, если покупатель пришел в магазин и решил сделать только одну покупку, то с вероятностью 0,26 он купит мясо, с вероятностью 0,133 купит хлеб, с вероятностью 0,11 купит овощи, с вероятностью 0,11 купит кондитерские изделия, с вероятностью 0,9 купит колбасные изделия.
Примеры 479 Вероятность того, что покупатель сделает только 1 покупку, равна 90/677= 0,13 (см. таблицу с распределением N). Сумма ^щщтттят Да*ее~ БЕЗАЛКОГ КОЛБАСЫ КОНДИТЕР КОНСЕРВЫ КОФЕ МАКАРОНЫ МУКА МОЛОКО МОРОЖЕНС КРУПЫ Шееез^ш ОВОЩИ РЫБА РЫБНАЯ К СОКИ СПИРТНОЕ ОРЕХИ СЫРЫ ТАБАК ХЛЕБ ЧАЙ ЯЙЦО Nna6n 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 ОТ 044444 088889 111111 011111 033333 0 000000 0.000000 044444 011111 033333 255556 | 111111 033333 0 000000 0 000000 022222 0 000000 011111 033333 133333 022222 0 000000 400000 8 00000 10 00000 1.00000 3 00000 0 00000 000000 4 00000 1 00000 3 00000 23 00000 10 00000 3 00000 0 00000 0 00000 2 00000 0 00000 1 00000 3 00000 12 00000 2 00000 0 00000 ►г Модель покупателя, делающего одну покупку. С вероятностью 0,13 покупатель, пришедший в магазин, делает одну покупку. С вероятностью 0,26 он покупает мясо, с вероятностью 0,133 — хлеб, с вероятностью 0,11 — овощи, с вероятностью 0,11 — кондитерские изделия, с вероятностью 0,9 — колбасные изделия. Случай двух покупок. Рассмотрим покупателей, сделавших две покупки. бора наблюдений Изменить/добавить цсяовмя выбора; (• Bjijmh., если: | N-2 ; С &скл., «сям: ] 3«£о*овок 1дяя +*&я*$спо*ыЛ выбор*): О* Отмена ы Ва< Состояние (• в&Л | г вьуся Операторы:* <><><» >«N0TAN0 0R (^ Открыть | Переменные: имена или v1. v2... ''" '" "" ' Номер наблюдения vO (Щ) Сохранить . I Примеры v1 » О OR v2 >« 0 ' {v7<l OR y*.VEST«nd v4<>0 Число таких покупателей равно 110. Для этих покупателей N=2. Изменим условие выбора случаев. Заметьте, в условии выбора наблюдений можно употреблять имя переменной, что и было сделано в данном случае. Вычислим описательные статистики при условии, что N=2.
480 Глава 11. Построение и анализ таблиц ОСНОВНЫЕ СТАТИСТ Среднее тяжгтШШШШШшШШ КОЛБАСЫ ■:-. КОНДИТЕР КОНСЕРВЫ КОФЕ МАКАРОНЫ МУКА МОПОКО МОРОЖЕНО КРУПЫ мясо овощи РЫБА РЫБНАЯ JC СОКИ СПИРТНОЕ ОРЕХИ СЫРЫ ТАБАК ХПЕБ ЧАЙ ЯЙЦО 110 | 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 109091 .227273 227273 045455 009091 0 000000 036364 245455 009091 054545 200000 363636 118182 0 000000 0 000000 027273 0 000000 027273 018182 281818 0 000000 0 000000 НЕТ >.Г- Из этой таблицы видно, что если покупатель сделал две покупки, то наиболее вероятно, что в эти покупки вошли овощи, хлеб, молоко, кондитерские изделия, колбасы, мясо. Поставим вопрос, какие пары покупок наиболее вероятны. Ответ на этот вопрос можно получить с помощью простейших действий. Всего переменных 22. Конечно, мы не будем перебирать все 22 х 21 = 462 пары переменных и строить для них таблицы. С помощью некоторых разумных приемов, например, рассмотрев корреляции переменных, можно существенно сократить процедуру поиска. За несколько минут можно найти наиболее вероятные пары покупок (см. таблицы ниже). 1 -MMJ.l.M.Ul ОСНОВНЫЕ СТАТИСТ ХЛЕБ Пи-О 0-2:1 Всего (f^BJPfWP ОСНОВНЫЕ СТАТИСТ ОВОЩИ QJ:0 1 G_21 тшшшпшшшшшшт ни и Частоты выделенных ячеек> 10 (Итоговые маргинальные не отмечены) МОПОКО QJ.;o_ j w 2А молоко G 2:1 :о 7 83 27 *шштмщ^$щ$шшшяш Частоты выделенных ячеек> 10 (Итоговые маргинальные не отме РЫБА GJ:0 hi з: Всего | 97 РЫБА G_21 5 8 13 Всего постр, | 79 31 110 HWDI чены) Всего I по стр | 70 40 110
Примеры 481 IIUi|.liJ.HH.I.IJ.!.lU»H Частоты выделенных ячеек> 10 (Итоговые маргинальные не отмечены) ОВОЩИ 36 4 40 Всего пастр. 104 б 110 шзшщ ш Падее~. КОНДИТЕР GJ:0 чн'жн.ш.ни.тш Частоты выделенных ячеек> 10 (Итоговые маргинальные не отмечены) ХПЕ6 Ъ8 21 79 27 Всего по стр. 85 25 110 Полезными здесь являются гамма-статистики, массив которых сразу для всех переменных можно вычислить с помощью непараметрических процедур (не забудьте при вычислении поставить условие N - 2). Р^ДЯШДГЖШИ НЕПАРАМ СТАТИСТ Пары перем ОВОЩИ & МОЛОКО ОВОЩИ & МОРОЖЕНО ОВОЩИ СКРИПЫ овощи а мясо. овощи & овощи ПД попарно удалены Чист*.: — . ..г Р1«>о».> ! овощи овощи овощи овощи овощи овощи. дрывная^к : * соки - • •'• ^СПИРТНОЕ ~ | * ОРЕХИ ^ | а сыры Л ТАБАК ; ,; J 110 110 110 110 110 110 110 110 110 110 110 -.73099 -1 00000 58140 000000 52941 -1.00000 -1 00000 -1.00000 -4 63645 -1 12122 2 34306 0.00000 2.96682 -1 96008 -1 96008 -1.59297 000004 262193 019126 1 000000 .003009 049986 LL 049986 111166 ri Просматривая таблицу и выбирая максимальные коэффициенты, можно определить наиболее вероятные парные покупки. Так же можно определить несовместимые пары. Вероятность того, что покупатель сделает две покупки, равна 110/677в 0,16 (см. таблицу с распределением N). В принципе, те же самые действия можно провести для остальных N, при этом полезно использовать язык STATISTICA BASIC. Однако очевидно, здесь мы сталкиваемся с довольно сложной переборной задачей, поэтому наметим различные подходы к ее решению. В частности, используем анализ соответствий и геометрическую интерпретацию частот. Здесь же рассмотрим, какие дополнительные возможности имеются в модуле Основные статистики и таблицы.
482 Глава 11. Построение и анализ таблиц Случай трех и четырех покупок. Воспользуемся процедурами группировки. Не забудьте отменить условия выбора случаев, назначенные ранее. ^шшшшшшш/шытт ЬЗД Описательные статистики Щ$ Корреляционные матрицы Щ! t критерий для независимых выборок ЩЦ t-критерий для зависимых выборок ЕлЗ Группировка и однофакториая AN OVA ggj Таблицы частот %Щ Таблицы и заголовки ?<3k Вероятностный калькулятор OQlk Другие критерии значимости ЕЗ ' як Отмена & Данньм tun И I & £ В диалоге Группировка и однофакториая ANOVA прежде всего выберите переменные для анализа. Группирующие переменные — день и N Все остальные переменные определите как зависимые. шшмшшшц в щвщшэрв БЕЗАЛКОГ J3 КОЛБАСЫ •КОНДИТЕР КОНСЕРВЫ КОФЕ |7 МАКАРОНЫ •МУКА МОЛОКО Поморожено |11 -КРУПЫ 12 МЯСО 13 ОВОЩИ 14 РЫБА 15-РЫБНАЯ.К 16 СОКИ 17-СПИРТНОЕ 18 ОРЕХИ 19 СЫРЫ 20 ТАБАК 2БЕЗАЛК0Г ЗКОЛБАСЫ 4КОНДИТЕР ЪКОНСЕРВЫ 6К0ФЕ '7 МАКАРОНЫ 8 МУКА 9 МОЛОКО iW-MOPOXFHO 11 КРУПЫ 12 МЯСО 130В0ЩИ 14 РЫБА 15 РЫБНАЯ К 16 СОКИ 17СПИРТН0Е 180РЕХИ 19-СЫРЫ 70ТАБАК м_ J_ dhL >J Все Ц Подроб. И Ии». И Вса 1 Пмроб || Ин», j Грлпп. ' J2 23 Выберем коды для группирующих переменных, как показано ниже. Конечно, можно было бы выбрать все коды для N, но мы ограничимся тремя и четырьмя покупками как наиболее типичными. Теперь окно выглядит следующим образом: l^iHj4iirijiiHlfl|B1jM Анализ: | Подробный анализ выбранных таблиц Р53 Переменные | Груплирумдиа: ДЕНЬМ Зависимы»: 6ЕЗАЛКОГ ЯЙЦО U9 &оды для гряппмрфомия паранччм*:} Выбраны Г Построчное удаление ЛД '£1 DE3 la as i: I Отмена | Нажмите ОК и проанализируйте результаты.
Примеры 483 зшшши^ш^^в^^^шяв яввв ЗАВИСИМЫЕ: 22 перемен. БЕЗАЛКОГ КОЛБАСЫ КОНДИТЕР КОНСЕРВЫ КОФЕ МАКАРОНЫ МУКА ГРУППИР.: 1-ДЕНЬ 2-N ( 7): Пнд Втр Срл Чтв Птн ( 2): 3 4 j{fa*j,<*Д ijfitfДУI ^Wtfgg' Дадробныв дчвлода iтаблицы Г Отображать* 0? Отоорадать джиаша ыатк» awwart : Маргыиаааныа срадинв ~1 Статистики 1 :''Г'СвММЫ:''4 /'^ ! : Г" Стандартны» отклонения . ij Г Дмспаремм | jgH Категориаоеанные днагртттл размада Прежде всего, нажмите кнопку Итоговая таблица средних. На экране появится таблица средних, вычисленная для каждой группы данных. Всего имеются 14 групп: 7 дней недели, умноженные на 2 (мы задали два кода переменной N — группа покупателей, сделавших три покупки, и группа покупателей, сделавших четыре покупки). НЕ ДЕН Пнд Втр Втр Срл Срд Чтв Чтв Птн Птн Сбт Сбт Век . Вс« Ш1№Ш-111'1; Далее.» з N G_2:4 GJ:3 QJA GJ:3 G_24 GJ3 GJM G 1:3 G_fc4 ... GJ:3 GJA GJ:3 GjM : всегруппы IMJ N-212(HeTnpon БЕЗАЛКОГ Я 083333 ™ 0 000000 142857 294118 214286 100000 100000 055556 095238 333333 066667 166667 142857 166667 141509 уСКОВ В ЗОВ1 250000 750000 333333 294118 285714 500000 550000 500000 333333 466667 333333 611111 428571 833333 438679 -«с. перем) кондитер 500000 375000 428571 294118 285714 450000 150000 388889 238095 533333 266667 444444 285714 166667 349057 КОНСЕР8Ы 083333 0 000000 0 000000 058824 0 000000 0 000000 '050000 0 000000 0 000000 0 000000 0 000000 055556 0 000000 0 000000 018868 КОФЕ 083333 0000000 0 000000 058824 0000000 050000 .050000 0 000000 0 000000 0 000000 066667 055556 0 000000 0000000 028302 ииыд1*1; MAKAPOHfc j i 0 00000C j ooooooc | 04761? ! 11764; 1 0 00000C ; 0 00000C '' 0S000C i ooooooc | OOOOOOC ! OOOOOOC j 0 00000C ; 0 00000C i ooooooc I ooooooc } 01886U<i rd Ориентироваться в этой таблице очень просто. Рассмотрим, например, переменную КОЛБАСЫ. Вы видите, что в понедельник покупатель, сделавший три покупки, с вероятностью 0,25 покупает колбасу, а покупатель, сделавший четыре покупки, покупает ее с вероятностью 0,75. Рассмотрев вероятности по строке, можно видеть, что в понедельник покупатель, сделавший три покупки (первая строка таблицы), скорее всего, купил хлеб, кондитерские изделия или молоко.
484 Глава 11. Построение и анализ таблиц ^шшшшшшшщжяш ОСНОВНЫЕ |N12 (Нет пропусков в завис перем) СТАТИСТ КОНСЕРВЫ ДЕНЬ N КОФЕ МАКАРОНЫ МУКА 083333 083333 0000000 083333 МОЛОКО 416667 шмш'Ш'щшлш ОСНОВНЫЕ СТАТИСТ ДЕНЬ N N-212 (Нет пропусков в завис, перем) "С0КИ:Д; СПИРТНОЕ ОРЕХИ СЫРЫ ТАВАК ХЛЕБ 0000000 0000000 0.00 083333 О 000000 500000 Связи между покупками. Рассмотрим таблицы сопряженности хлеб и колбаса при числе покупок, равном 3. Статистики критерия хи-квадрат показаны ниже. ХМП.1Л к КОЛБАСЫ!?) (inticons st<i) Д**ве,«- Хи^аор*т Пирсона МПхи*к»адр*т ЬМтщфьтЯщтъь := Фцц»рй> рдносторонний « хшусторонний :Ст£в, 3 928571 3 960186 3182143 df-1 df-1 df-1 df-1 df-1 p-04747 p-04659 p-07445 p-03691 p-07382 p-08248 p-03689 a Значение гамма-статистики 0,38 говорит о наличии неярко выраженной связи между признаками. После того как гипотеза о независимости отвергается с помощью критерия хи- квадрат или точного критерия Фишера, необходимо измерить силу связи признаков. Одной из таких мер принято считать гамма-статистику. О Если модуль меры больше 0,8, то мы имеем сильную связь табулированных переменных. О Если модуль меры связи принимает значения от 0,3 до 0,8, то говорят о неярко выраженной связи. О Меньшие значения модуля меры связи свидетельствуют об отсутствии связи. Как и во всех задачах, связанных с оценкой зависимости, здесь очень полезна визуализация. Рассмотрим при трех покупках степень связи между переменными: хлеб и. молоко.
Примеры 485 L Ulll.!.|.i|.l.lU.l|.i8M.l!l НЖЫ1Ш1 ОСНОВНЫЕ СТАТИСТ Частоты выделенных ямеек> 10 ХПЕБ GJ:1 Всего ■(v23>0) ;L.L:._:...--;.. ^^^^^3^1 34 65 молоко GJg:1 Всего по стр. :4 21 45 55 55 110 гт :П Из приведенной таблицы следует, что при трех покупках из 55 человек, купивших хлеб, 21 купили молоко, 34 не купили молоко (вторая строка таблицы). Из 55 человек, не купивших хлеб, 24 купили молоко, 31 не купили молоко. С помощью критерия хи-квадрат проверим гипотезу о независимости табулированных переменных. Фишера, односторонний двусторонний Макнембрахй-хваа.ОМЭ) Гамма \Щ 1 557692 1 396552 -112474 df-1 L df-1 df-1 df-1 df-1 p-56072 | p-56061 p-69813 p-34918 p-69835 p-21201 p-23730 ,*f! Критерий хи-квадрат не позволяет отвергнуть гипотезу о независимости. Как понимать это положение? Рассмотрим внутренние ячейки таблицы с покупками хлеба и молока притрех сделанных покупках. Из таблицы получим следующие оценки вероятностей (при условии трех покупок!). Вероятность того, что покупатель: 1) не купит ни молока, ни хлеба — 31/110 - 0,28; 2) не купит молоко, но купит хлеб — 24/110 - 0,22; 3) купит хлеб, не купит молоко — 34/110 в 0,31; 4) купит хлеб и молоко — 21/110 в 0,19. Эти оценки получены из наблюдаемых частот. Рассмотрим маргинальные частоты, эти частоты располагаются по краям таблицы и при гипотезе независимости позволяют оценить ожидаемые частоты. Имеем (см. таблицу): О покупатель, пришедший в магазин и сделавший три покупки, с вероятностью 65/110 - 0,59 не купит молоко, а с вероятностью 45/110 - 0,41 купит молоко; О покупатель, пришедший в магазин и сделавший три покупки, с вероятностью 55/110 - 0,5 купит хлеб, с вероятностью 55/110 = 0,5 не купит хлеб. Перемножая эти вероятности, получаем: О 0,59 х 0,5 - 0,295 — вероятность того, что покупатель не купит ни молока, ни хлеба;
486 Глава 11. Построение и анализ таблиц О 0,59 х 0,5 = 0,295 — вероятность того, что покупатель не купит молоко, но купит хлеб; О 0,5 х 0,41 = 0,205 — вероятность того, что покупатель купит хлеб, но не купит молоко; О 0,5 х 0,41s 0,205 — вероятность того, что покупатель купит хлеб и купит молоко. Можно видеть, что эти вероятности очень близки к вероятностям, вычисленным ранее в 1-4. Критерий хи-квадрат как раз и измеряет «расстояние» между этими частотами. Итак, если покупатель делает три покупки, то покупка молока и покупка хлеба независимы. тшашштшшшшт МОЛОКО МЯСО т^т*ш^:г ■" vCLt*.*JM - -.всего ■А*?-0*1* ' • ;:-:- всего ,/t С0Ш1ПФП ::;..-;: ■■■ : шшшшшшшшшшшшшшшшпшш Частоты выделенных *чеек> 10 (Итоговые маргинальные не отмечены) 22 17 39 15 11 ; 26 37 28 65 J4 7 31 8 [ 6 | 14 32 13 45 69 41 110 Заметим, что продвинутый анализ покупателей, сделавших даже три покупки, связан с очевидными трудностями. В частности, не так просто найти группы товаров, наиболее вероятно объединяющиеся в тройки. Далее мы применим к данным о продажах разведочные методы анализа соответствий (см. главу Анализ соответствий).
Г-критерий сравнения средних в двух группах данных Анализ данных начинается с группировки и вычисления описательных статистик в группах, например, вычисления средних и стандартных отклонений. Если у вас имеется две группы данных, то естественно сравнить средние в этих группах. Такого рода задачи во множестве возникают на практике, например, вы можете захотеть сравнить средний доход двух групп людей: имеющих высшее образование и не имеющих высшего образования. В данной главе мы будем иметь дело с переменными, измеренными в непрерывной шкале, такими переменными являются, например, доход или артериальное давление. Переменные, измеренные в бедных шкалах, исследуются с помощью специальных методов. В частности, категориальные переменные исследуются с помощью таблиц сопряженности (см. главу Анализ и построение таблиц). Переменные, измеренные в порядковых шкалах, исследуются методами непараметрической статистики (см. главу Непараметрическая статистика). Рассмотрим типичную задачу. Предположим, при производстве бетона вы придумали добавлять в него некоторую новую компоненту и полагаете, что она увеличит прочность бетона. Чтобы проверить свои предположения и доказать их потребителю, вы взяли несколько образцов бетона с добавкой и несколько образцов без добавки и измерили прочность каждого образца. Таким образом, получили два столбца (две группы) цифр: прочность образцов с добавкой и прочность образцов без добавки. Как разумно сравнить эти группы? Очевидный подход состоит в том, чтобы сравнить описательные статистики, например, средние двух групп. Конечно, можно было бы сравнивать медианы или другие описательные статистики, но естественно начать со сравнения средних значений. Итак, вы имеете два средних: среднее для первой группы и среднее для второй группы. Можно формально вычесть одно среднее из другого и по величине разности сделать вывод о наличии эффекта. Однако целесообразно принять во внимание разброс данных относительно средних, то есть вариацию (см. главу Элементарные понятия). Очевидно, разумная процедура должна принимать во внимание вариацию. Первое, что приходит в голову, — подходящим образом нормировать разность средних двух выборок (групп данных), поделив ее, например, на стандартное отклонение (корень квадратный из вариации). Именно так и рассуждал В. Госсет — английский статистик, известный под псевдонимом Стьюдент, придумавший t-критерий для сравнения средних двух выборок. 12
488 Глава 12. Г-критерий сравнения средних в двух группах данных Допустим, мы проверяем гипотезу о том, что добавка неэффективна (или как говорят на сленге анализа данных: нет эффекта обработки), иными словами, средние в двух группах равны. Этому положению соответствует альтернатива, согласно которой имеется эффект — прочность бетона увеличивается при добавлении в него новой компоненты. Обратим внимание, альтернатива может быть выражена и по-другому, например, средние не равны или средняя прочность образцов увеличилось (добавка привела к увеличению прочности бетона). Заметим далее, что возможны два варианта организации данных: вы можете иметь дело с независимыми группами наблюдений или с зависимыми группами наблюдений. Если вы случайным образом разбили выборку на две части и сравниваете показатели в первой и второй группе, то, скорее всего, вы имеете дело с независимыми группами. В STATISTICA t-критерий доступен в обоих вариантах организации данных. NIIOIIHIflMfliri ш ш ЩЛ4. Описательные статистики В Корреляционные матрицы 1 ЮС!j t грин'рим и ля иг ганисимых выборок О t-критерий для зависимых выборок 2S Группировка и однофакторная ANOVA ЩТаблицы частот ЩЦТаблицы и заголовки ЪА Вероятностный калькулятор DBA Другие критерии значимости й* Отмена £? Данные Естественным развитием сюжета сравнения средних является обобщение t-критерия на три и более групп данных, что приводит к дисперсионному анализу (в английской терминологии ANOVA — сокращение от Analysis of Variation — Дисперсионный анализ), а также на многомерный отклик. Если мы имеем дело с многомерным откликом, то используем методы MANOVA. Итак, методы дисперсионного анализа позволяют разумным образом сравнить групповые средние, если количество групп больше двух. Например, если вы хотите сравнить доход жителей нескольких регионов, то можно использовать дисперсионный анализ. Если вы исследуете два региона, то применяйте t-критерий. Опишем один случай, не укладывающийся в общую схему. Представьте, вы изучаете категориальную переменную, принимающую два значения, 0 и 1, и хотите сравнить различие частот появления единиц в двух группах. Например, вы желаете сравнить относительное число голосов, поданных за кандидата в двух избирательных округах. Термин «относительное число» означает число голосов, поданных за кандидата, деленное на общее число голосовавших. Статистический критерий для сравнения частот (долей, пропорций...) реализован в модуле Основные статистики и таблицы в диалоге Другие критерии значимости.
^критерий для независимых выборок 489 ■Етштшшшшшшшшшшшшшшшшт Различие между даумя коэффициентами корреляции С Односторонним jffixil *1^ оо Id N1: ю В N2:M0 ; р: 1,000В Вычислить <• Двусторонним Различие между двумя средними (нормальное распределение) - г m г п г- m ^ ^ оооо fil: Ст.откл. Вычислить С 2: [£ 0 Ст.откл. |Т7 W 14НУС i Г Среднее выборки 1 в сравнении со средним популяции 2 Различие между двумя пропорциями ■■-----■-- С Односторонний & Двусторонний иПрЦ ПР.2| 50 N2:[ 10 Г Односторонний б» Двусторонний Вычислит» | Т-критерий для независимых выборок Т-критерий является наиболее часто используемым методом, позволяющим выявить различие между средними двух выборок. Еще раз напомним, переменные должны быть измерены в достаточно богатой шкале, например количественной. Конечно, применение t-критерия имеет некоторые ограничения, впрочем, очень слабые. Теоретически ^-критерий может применяться, даже если размер выборки очень небольшой (например, 10; некоторые исследователи утверждают, что можно исследовать и меньшие выборки) и если переменные нормально распределены (внутри групп), а дисперсии наблюдений в группах не слишком различны. Известно, что ^-критерий устойчив к отклонениям от нормальности. Предположение о нормальности можно проверить, исследуя распределение (например, визуально с помощью гистограмм) или применяя критерий нормальности. Следует заметить, что эффективно проверить гипотезу о нормальности можно для достаточно большого объема данных (см. замечание Фишера о проверке нормальности, цитированное нами в главе Элементарные понятия анализа данных). Более осторожно нужно подходить к различию дисперсий сравниваемых групп. Равенство дисперсий в двух группах, а это одно из предположений ^-критерия, можно проверить с помощью F-критерия (который включен в таблицу вывода ^-критерия в STATISTICA). Также можно воспользоваться более устойчивым критерием Левена. При сравнении средних, как и всегда в анализе данных, чрезвычайно полезны визуальные методы. Например, на приведенной ниже категоризованной диаграмме размаха видно существенное различие средних значений для мужчин и женщин. На диаграмме точками показаны средние значения, а также стандартные отклонения (прямоугольники) и стандартные ошибки (отрезки прямых линий), вычисленные отдельно для мужчин и женщин.
490 Глава 12. Г-критерий сравнения средних в двух группах данных и1111.1..|11Ш1П111И1!.1.1ЛЛ1Ш111.1Ш111111Ш1|1М Диаграмма размаха по группам 8| . . 7 [ I < 6 t 1 * 3 2г О1 ■ ' MALE FEMALE GENDER На графике заметно различие дисперсий в группах — высота прямоугольника FEMALE больше высоты прямоугольника MALE. Если условия применимости ^-критерия не выполнены, то можно оценить различие между двумя группами данных с помощью подходящей непараметрической альтернативы ^-критерию (см. главу Непараметрическая статистика, где обсуждается вопрос применения альтернативных процедур,). Р-уровень значимости ^-критерия равен вероятности ошибочно отвергнуть гипотезу об отсутствии различия между средними выборок, когда она верна (то есть когда средние в действительности равны). Некоторые исследователи предлагают в случае, когда рассматриваются отличия только в одном направлении (например, переменная Xбольше (меньше) в первой группе, чем во второй), рассматривать одностороннее ^-распределение и делить полученный для двухстороннего ^-критерия р-уровень пополам. Другие предлагают всегда работать со стандартным двухсторонним ^-критерием. Чтобы применить ^-критерий для независимых выборок, требуется, по крайней мере, одна независимая (группирующая) переменная и одна зависимая переменная (например, тестовое значение некоторого показателя, которое сравнивается в двух группах). Вначале с помощью значений группирующей переменной, например, мужчина и женщина, если группирующей переменной является Пол, или Имеет высшее образование и Не имеет высшего образования, если группирующей переменной является Образование, данные разбиваются на две группы. Далее в каждой группе вычисляется среднее значение зависимой переменной, например артериальное давление или доход. Эти выборочные средние сравниваются между собой. Конечно, при применении ^-критерия, как и при применении любого другого критерия в анализе данных, нужно сохранять здравый смысл. Применение t-кри- терия мало оправданно, если значения двух переменных несопоставимы. Например, если вы сравниваете среднее значение некоторого показателя в выборке пациентов до и после лечения, но используете различные методы вычисления ZE ±Ст откл. I I tO ош а Среднее
Формальное определение ^-критерия 491 количественного показателя или другие единицы во втором измерении, то высокозначимые значения ^-критерия могут быть получены искусственно, за счет изменения единиц измерения. Аналогично, не имеет смысла сравнивать доходы, выраженные в рублях, при многократной девальвации или высокой инфляции. В следующем разделе даются формулы вычисления статистики критерия Стью- дента для проверки равенства средних двух выборок. Если вас интересует только практическое применение, вы можете пропустить этот раздел. Формальное определение t-критерия Формально в случае двух групп (k = 2) статистика ^-критерия имеет вид: /(я,+я2-2)= lV x 2V 2\ У I— + — где х{ (и,) и Х2 (п2) — выборочные средние первой и второй выборки, У2 — оценка дисперсии, составленная из оценок дисперсий для каждой группы данных: У2 = 1—-[(п1 -1)У2(л,) + (и2 -1)*2(«2)]; и, + п2 - 2 sj (п) = —1— £ (х, - Xj (и)J, j = 1, 2. Если гипотеза: «средние в двух группах равны» — верна, то статистика Т{пх +п2 -2) имеет распределение Стьюдента с (л, +п2 -2) степенями свободы (см. например, справочное издание Айвазян С. А., Енюков И. С, Мешалкин Л. Д., Прикладная статистика., М.: Финансы и статистика, 1983. С. 395—397). Большие по абсолютной величине значения статистики Т(и, + п2 - 2) свидетельствуют против гипотезы о равенстве средних значений. С помощью вероятностного калькулятора STATISTICA найдем 100ос/2%-ю точку распределения Стьюдента с (и, + п2 - 2) степенями свободы. Обозначим найденную точку через t(oc/2). Если | Г(лг, + п2 - 2) | > t(oc/2), то гипотеза отвергается. Заметим,чтобольшиеабсолютныезначениястатистикиСтьюдентаГ(п, +п2 -2)могут возникнуть как из-за значимого различия средних, так и из-за значимого различия дисперсий сравниваемых групп. Статистический критерий равенства или однородности дисперсии двух нормальных выборок основан на статистике:
492 Глава 12. Г-критерий сравнения средних в двух группах данных 1 Л 7Zi(x2J-X2(n2)J п2-\% которая при гипотезе: «дисперсии в двух группах равны» имеет распределение F(«,-l,«2-l). Зададимся уровнем значимости а. С помощью вероятностного калькулятора вычислим 100A — ос/2)%и 100(ос/2)% точки распределения F{n{ -1, п2 -1). Если F а (п\ -1, л2 -1) < Р(пх -1, п2 -1) < F„ (и, -1, п2 -1), то гипотеза об од- 2 2 породности дисперсии не отвергается. Г-критерий для зависимых выборок Степень различия между средними в двух группах зависит от внутригрупповой вариации (дисперсии) переменных. В зависимости от того, насколько различны эти значения для каждой группы, «грубая разность» между групповыми средними показывает более сильную или более слабую степень зависимости между независимой {группирующей) и зависимой переменными. Например, если при исследовании среднее значение WCC (число лейкоцитов) равнялось 102 для мужчин и 104 для женщин, то разность только на величину 2 между внутригрупповыми средними будет чрезвычайно важной в том случае, если все значения WCC мужчин лежат в интервале от 101 до 103, а все значения WCC женщин — в интервале 103-105. Тогда можно довольно хорошо предсказать WCC (значение зависимой переменной) исходя из пола субъекта (независимой переменной). Однако если та же разность 2 получена из сильно разбросанных данных (например, изменяющихся в пределах от 0 до 200), то разностью вполне можно пренебречь. Таким образом, понятно, что уменьшение внутригрупповой вариации увеличивает чувствительность критерия. Г-критерий для зависимых выборок дает преимущество в том случае, когда важный источник внутригрупповой вариации (или ошибки) может быть легко определен и исключен из анализа. В частности, это относится к экспериментам, в которых две сравниваемые группы наблюдений основываются на одной и той же выборке наблюдений (субъектов), которые тестировались дважды (например, пациенты до и после лечения). В таких экспериментах значительная часть внутригрупповой изменчивости (вариации) в обеих группах может быть объяснена индивидуальными различиями субъектов. Заметим, что на самом деле такая ситуация не слишком отличается от той, когда сравниваемые группы совершенно независимы (см. ^-критерий для независимых выборок), где индивидуальные отличия также вносят вклад в дис-
, Пример 1 493 персию ошибки. Однако в случае независимых выборок вы ничего не сможете поделать с этим, так как не сможете определить (или «удалить») часть вариации, связанную с индивидуальными различиями субъектов. Если та же самая выборка тестируется дважды, то можно легко исключить эту часть вариации. Вместо исследования каждой группы отдельно и анализа исходных значений можно рассматривать просто разности между двумя измерениями (например, «до теста» и «после теста») для каждого субъекта. Вычитая первые значения из вторых (для каждого субъекта) и анализируя затем только эти «чистые (парные) разности», вы исключите ту часть вариации, которая является результатом различия в исходных уровнях индивидуумов. В сравнении с t-критерием для независимых выборок, такой подход дает всегда «лучший» результат, так как критерий становится более чувствительным. Теоретические предположения ^-критерия для независимых выборок также применимы к критерию зависимых выборок. Это означает, что парные разности должны быть нормально распределены. Если это не выполняется, то можно воспользоваться одним из альтернативных непараметрических критериев (см. главу Непараметрическая статистика). В системе STATISTICA ^-критерий для зависимых выборок может быть вычислен для списков переменных и просмотрен далее как матрица. Пропущенные данные при этом обрабатываются либо попарным, либо построчным способом. При этом возможно возникновение «чисто случайно» значимых результатов. Если вы имеете много независимых экспериментов, то «чисто случайно» можете найти один или несколько экспериментов, результаты которых значимы. Как уже говорилось, сравнение средних в более чем двух группах проводится с помощью дисперсионного анализа (английское сокращение — ANOVA). Если имеется более двух «зависимых выборок» (например, до лечения, после лечения-1 и после лечения-2), то можно использовать дисперсионный анализ с повторными измерениями. Повторные измерения в дисперсионном анализе можно рассматривать как обобщение ^-критерия для зависимых выборок, позволяющее увеличить чувствительность анализа. Например, дисперсионный анализ позволяет одновременно контролировать не только базовый уровень зависимой переменной, но и другие факторы и включать в план эксперимента более одной зависимой переменной. Интересен следующий прием объединения результатов нескольких t-критери- ев. Этот прием можно использовать также для объединения результатов других критериев (см.: Справочник по прикладной статистике/Под редакцией Э. Ллойда и У. Ледермана, т. 1. М.: Финансы и статистика, 1989. С. 274). Для нас этот пример также интересен тем, что мы можем продемонстрировать новые возможности STATISTICA. Пример 1 Предположим, используя независимые эксперименты, вы получили уровни значимости яA), аB) ... а(т). Предположим, эти уровни недостаточно убедительны. Если уровни значимости неубедительны, то, возможно, имеет смысл объединить данные и рассмотреть их как результат одного целого эксперимента.
494 Глава 12. Г-критерий сравнения средних в двух группах данных При нулевой гипотезе уровни значимости, рассматриваемые как случайные величины, имеют равномерное распределение. Следовательно, величина L = -2 х (Ln(a(l)) + Ln(aB)) + ... + Ln(a(m)) имеет хи-квадрат-распределение с числом степеней свободы 2т. Например, если в испытаниях на прочность бетона были получены недостаточно убедительные уровни 0,047, 0,054, 0,042, то уровень значимости объединенного эксперимента равен 0,005547 и гипотеза о неэффективности добавки явно отвергается. Для того чтобы понять это, воспользуемся средствами системы STATISTICA. Сначала вычислим величину I, например, задав формулу в электронной таблице. Создайте файл и в первой строке введите запись: А УАЙ4 5 VAR5 б VAR6 047 054 Переменная var7 содержит значение L, вычисленное по формуле. JJmk JVAR7 IrTxli Формат отобран ошм ~ - ~~- . Тиф Представ! — mm JL 3 Дата Время Денежный Проценты ишаи 1.000 00000000000000; 1000 00000000000000; A 1.000 00000000000000: ( GD S3 1 ftcenapa»* } J XtyxT.■ шлч. j | Зиам/статист ) Дли* |ИМЯ(мвТК«. : |^ы^м«мм|): - 2-(Log(v4J ♦ Loo4v5| ♦ Log(v€ft) ы Пример* Метке: ВаяяоА деод • 1991 Формулы • vl ♦ v2: Ось: @E**teVfleie*2c£r4c4 «fv1>#AGE *v3 Затем откройте вероятностный калькулятор системы STATISTICA, выберите в нем распределение хи-квадрат, введите число степеней свободы 6, а в поле хи- квадрат введите величину 18,29. Щ вв JF"WW»¥«», Э кспоиеициальиое Экстрем, значении F П П* Лог нормальное Логистическое Парето Ранее I (Стыояемта) ВеАбуаеа Z (нормальное) ч < ■$.$•#.£$' Р? £жс*ф масштаб*
Пример 2 495 В результате в поле р мы получили 0,005547. Таким образом, получен объединенный уровень значимости трех t-критериев (сравните с результатами, приведенными в Справочнике по прикладной статистике, под редакцией Э. Ллойда и У. Ледермана. Т. 1. М.: Финансы и статистика, 1989. С. 275). Это явно высокий уровень значимости, поэтому нулевая гипотеза отвергается. Пример 2 Здесь мы будем работать с файлом internet2000.sta. Можно также использовать файл adstudyMa из папки Examples. В файле internet2000.sta собраны результаты опроса нескольких пользователей относительно их восприятия сайтов ENNUI и POURRITURE. Такого рода данные несложно получить с помощью Интернета. Вы можете, например, вывесить на сайт анкету, которая будет заполняться посетителями. В этом модельном примере пользователи оценивали сайты в разных шкалах (полнота, технологичность решения, информативность, дизайн и др.) В каждой из шкал респонденты давали оценку сайту по десятибалльной шкале, от 0 до 9 баллов. Интересен вопрос: различается ли восприятие сайтов мужчинами и женщинами? Мужчины могут в некоторых шкалах давать более высокие или низкие оценки по сравнению с женщинами. Для решения этой задачи можно использовать ^-критерий для независимых выборок. Группирующая переменная Пол разбивает данные на две группы. Выборки мужчин и женщин будут сравнены относительно среднего их оценок по каждой шкале. Вернитесь к стартовой панели Основные статистики и таблицы и щелкните на процедуре t-критерий для независимых выборок, чтобы открыть диалоговое окно Т-критерий для независимых выборок (групп). ТЕКСТОВЫЕ ЗНАЧЕНИЯ *. Smith Я. Ъгоут •'• :€v Яауег Ш. 9*at ;• Н 0. Young S. В1г4 D. Fiytid J, Oma•••••„ Я. Borrow :Г» :«•**■•>* С. CUttV .'I;/-»**!,-: •• 0,.:В0**.Х..--: Яг tteebtc*' Эффективность рекламы на • • 1 ЙОД HALE HALE FEHALE HALE HALE FEHALE FEHALE HALE FEHALE HALE FEHALE HALE HALE HALE FEHALE САЙТ ENNUI POURRITU POURRITU ENNUI ENNUI POURRITU ENNUI ENNUI ENNUI ENNUI ENNUI POURRITU ENNUI POURRITU ENNUI m 6 9 7 7 6 7 9 7 6 4 7 6 7 6 сайте •ч us ЦК 1 7 8 9 1 0 4 9 8 6 6 3 2 2 2 nsKsm 6 i 2 6 0 3 2 2 2 6 3 3 4 7 ■"■:■■ s--■■ KKXStl 7 HXASO 8 1 8 0 9 8 5 9 2 8 8 3 2 5 6 3 6 8 3 5 6 7 0 1 8 8 1 5 7
496 Глава 12. Г-критерий сравнения средних в двух группах данных Хчфитормн =;••}• г I Построчно уддрдто прояндомимо дойные '1 Отоораздото ддиимыо миома лоромоиммш Г* Ыфмгорм* о род*, ящминцмамопоромй Г НиогоморнмА криторир Р<вта*лимгв ТЦ Г |^итория Доооно (одиородС д*сворсиАГ : { IT SpipMi и <Ьорсо*та (одиооод. дисперсно) : BD Диаграммы ртищ • ИД ' • Ь«г»п ормоооенимо гистограммы Кетогормо. норм. оорооти. графики [ Кцуогорма норн. гро+нки боэ тренде Котогорио. диаграммы рассооиио Щелкните по кнопке Переменные, чтобы открыть стандартное диалоговое окно для выбора переменных. Здесь вы можете выбрать и независимые (группирующие), и зависимые переменные. Для нашего примера выберите переменную Пол как независимую переменную и переменные от 3 до 25 (содержащие ответы) в качестве зависимых переменных. ш шшшшт ВНЕ меня! 12-САЙТ 3-MEASUR1 UMEASUR2 EMEASUR3 J6MEASUR4 7-MEASUR5 J8MEASUR6 J9MEASUR7 10MEASUR8 «J -^ 11MEASUR9 21 12MEASUR10 22 j 13MEASUR11 23 14-MEASUR12 24 15MEASUR13 2Sl 16MEASUR14 17-MEASUR15 18MEASUR16 19MEASUR17 20MEASUR18 IMIAMIHI 4 MEASUftZ SMIASIJM3 Б Ml AMIIU /-MIA(JIJII5 H MLASUH6 4MFASIIR/ lOMTASIIRfl 11 MIASUMS ? _1?MFASUR10 ?i i:imiasiihii ?; 14MTASUR12 ?' 1bM(ASUH13 ? 16MLASUR14 1/MLASUH15 18MEASUR16 1SMFASUR17 ?flMFASIIR18 J_ -±JLtL J_ Отмой* -il 1 Sco 1ГПодроо\ 11 Инол j] Boo j Подроб. | Ин». \ Грчлп. Щелкните на кнопке OK в этом диалоговом окне, чтобы вернуться в диалоговое окно Т-критерий для независимых выборок (групп), где отобразится ваш выбор. |Щ Церемонные: Грумирояндио: I (СодлоягралпЫ^МАкЕ Код ддо групп* £ |FEMALE final t Хнфитормм | ■■ Огагии ;;;г;-: -. j 1 ПОСТРОЧНО ОДООДТЬ Яр0Л*МДО1 ! Г ОгОбрОДОП»ДЛ«1И»И НИМИ « '■■ Г** 1"*риторми с роод< одеиками дисперсий .'• j Г* Цногш iBPiMi mniropipl Р<отодошго Т2) j Г" КригоркЙ Аеооно (oAHopoju дисперсия) : \ Г~ Брооно и £орсоАта (одиород, дисперсий) >:ПОЛ MEASUR1-MCASUR23 Деаивм щелкните по соогоотствуошому «ола. чтобы выбрать ковы и» описка допустим** значений тремеиных SSllldi М*№?Ю*< Котогорно. норм, oopoom граоюш j Кдгегормэ. норм, графики боотроида Котогорио. диаграммы рассеяния
Пример 2 497 Из диалогового окна Т-критерий для независимых выборок (групп) доступно также много других процедур. Щелкните на кнопке ОХ для вывода таблицы результатов. If*11»Ч""ир Дд*ее~ Перемен *-.*шбта i ■ KEASUR2 ■:•■■ КЕА81Ш : шага* ^-MEASBttta : KEASPR5 Gl N1I И (icndei of 1Ы- tut»,.- Группа1 MALE Группа2 FEMALE • 'гпшег ::.Wi 6 285714 5 409091 4 642857 4 409091 4 321429 3 909091 5 464286 5 590909 3 357143 4 727273 4 714286 5 000000 5 464286 3 821429 4 5714 29 3 636364 3.590909 3 636364 tsfM.ty IV 1 1 30945 .28152 52707 -.16547 -1 87198 -32910 2 73550 28554 1 07920 fe&^Ki* 48 48 48 48 48 48 48 48 48 .196615 .779520 .600572 .869267 067309 743511 0087Q3 776461 285892 Й'Й8&^: 28 28 28 28 28 28 1 28 28 P№IE3| ? ГШХЕ 22 -S-! 22 ' ■] ""'22 •. 22 • • 22 ' 22 '] 22 22 22 ' fl Самым быстрым способом изучения таблицы является просмотр пятого столбца (содержащего р-уровни) и определение того, какие изр-значений меньше установленного уровня значимости 0,05. Для большинства зависимых переменных средние по двум группам (МУЖЧИНЫ - MALES и ЖЕНЩИНЫ - FEMALES) очень близки. Единственная переменная, для которой ^-критерий соответствует установленному уровню значимости 0,05, — это Measur 7, для нее р-уровень равен 0,0087. Как показывают столбцы, содержащие средние значения (см. две первые колонки), для мужчин эта переменная принимает в среднем существенно большие значения — в выбранной шкале измерений для мужчин она равна 5,46, а для женщин — 3,63. При этом нельзя исключить вероятность того, что полученная разница на самом деле отсутствует и получилась лишь в результате случайного совпадения (см. ниже), хотя это выглядит маловероятным. Графиком по умолчанию для этих таблиц результатов является диаграмма размаха. Для построения этой диаграммы щелкните правой кнопкой мыши в любом месте строки, соответствующей зависимой переменной (например, на среднем для Measur 7). В открывшемся контекстном меню выберите построение графика Диаграмма размаха из подменю Быстрые статистические графики. Далее выберите опцию Среднее/ст.ош./ст.откл. окна Диаграмма размаха и нажмите ОК для построения графика. Разность средних на графике выглядит более значительной и не может быть объяснена только на основании изменчивости исходных данных. Однако на графике заметно еще одно неожиданное отличие. Дисперсия для группы женщин намного больше дисперсии для группы мужчин (посмотрите на прямоугольники, которые изображают стандартные отклонения, равные корню квадратному из вариации). Если дисперсии в двух группах существенно отличаются, то нарушается одно из требований для использования t-критерия, и разность средних должна рассматриваться особенно внимательно. Кроме того, дисперсия обычно коррелирована со средним значением, то есть чем больше среднее, тем больше дисперсия.
498 Глава 12. 7"-критерий сравнения средних в двух группах данных ШШШЕШЕШНИШ 8 7 6 5 I4 ш * 3 2 п Диаграмма размаха по группам 1 - 1 о MALE FEMALE ~Т~ id откл □ id oui о Среднее GENDER Однако в данном случае наблюдается нечто противоположное. В такой ситуации опытный исследователь предположил бы, что распределение переменной Measur 7, возможно, не является нормальным (для мужчин, женщин или для тех и других). Поэтому рассмотрим критерий равенства дисперсий для того, чтобы проверить, является ли наблюдаемое на графике отличие действительно заслуживающим внимания. Вернемся к таблице результатов и прокрутим ее вправо, увидим результаты F-критерия. Значение F-критерия действительно соответствует указанному уровню значимости 0,05, что означает существенную разность дисперсий переменной Measur 7 в группах МУЖЧИНЫ - MALES и ЖЕНЩИНЫ - FEMALES. Однако значимость наблюдаемой разности дисперсий близка к граничному уровню значимости (еер-уровень равен 0,029). 1 '*£ 1 рчммыр fl*ie*~ Перемен ХЕДОШ1 &.Ю1ЯЯШ KEAS0R3 HEASUIU KEAS0K5 кшад» KEASWtt и-— blNDEH ben dei Ы the suhi< Группа1 MALE Труппа2 FEMALE MALE 28 1 28 28 28 28 28 .?? 28 28 W м«8л. FEMALE 22 22 22 22 22 22 22 22 22 -cts [May lb. - С* <э**Я MALE 2 088011 2 971647 2 931989 2 987407 2 831232 3 125251 1 РЭ5497 2 708745 3 155578 азь| С» олкл. FEKAIE 2 648613 2.839502 2 486326 2 239453 2 186143 2 943920 ? 8?0?b? 2 986622 2 887501 1 609058 1 095242 1 390620 1 779528 1 677234 1 126984 :: 44b5is 1 215694 1 194300 HfilG! 4>| 243145 ] 840625 .: 442073 179048 227482 787578 02*731 1 625190 683320 wy Большинство исследователей посчитало бы один этот факт недостаточным для признания недействительным t-критерия разности средних, дающего высокий уровень значимости для этой разности (р = 0,0087). Множественные сравнения При проведении сравнений средних в трех и более группах можно использовать процедуры множественных сравнений. Сам термин «множественные сравнения» означает просто многократные сравнения.
Пример 2 499 Проблема состоит в следующем: мы имеем п > 2 независимых групп данных и хотим разумным образом сравнить их средние. Предположим, мы применили F-критерий и отклонили гипотезу: «средние всех групп равны». Наше естественное желание — найти однородные группы, средние которых равны между собой. Конечно, мы можем сравнить группы с помощью f-критерия и найти путем многократных сравнений однородные группы. Но, оказывается, трудно вычислить ошибку выполненной процедуры или, как говорят, составного критерия, отправляясь от заданного уровня значимости каждого ^-критерия. Тонкость состоит в том, что сравнивая с помощью f-критерия много групп, вы чисто случайно можете обнаружить эффект. Представьте, что в 1000 клиник вы провели испытание нового лекарства, сравнивая в каждой клинике группу больных, принимающих препарат, с группой больных, принимающих плацебо. Конечно, чисто случайно может найтись клиника, где вы найдете эффект. Однако с высокой степенью вероятности это может быть арт-эффект. Чтобы обезопасить себя от подобного рода случайностей, используются специальные критерии для множественных или многократных сравнений. В системе STATISTICA процедуры множественного сравнения реализованы в модуле Основные статистики и таблицы в диалоге Апостериорные сравнения средних. Описание процедур множественного сравнения можно найти, например, в книге: Кендалл М. Дж. иСтьюарт А. Статистические выводы и связи. М.: Наука, 1973. С. 71—79. Заметим, что самые общие методы сравнения нескольких групп реализованы в модуле Общий дисперсионный анализ. Однофакторный дисперсионный анализ можно провести в модуле Основные статистики и таблицы. ИИ ж. J*_J Н*мии«с*4иы* 1*мсгорьф тп ' Отммм В8 *г&**тяъ#*грфтжш+шхщт »штор>ыи гит**, трщм hohji шттёц mi t **м**1 гумно» с и«абццисиро»»»<об аявжаиностыо жамояци там»» о нстнъаошш ■ им наауий Кд»чпи т trw дистрсии и
500 Глава 12. Г-критерий сравнения средних в двух группах данных Однофакторный дисперсионный анализ и апостериорные сравнения средних ЛЛ Описательные статистики Ш Корреляционные матрицы §]ЕВ t-критерий для независимых выборок jOt-критерий для зависимых выборок К№ Группировка и опипфпкторная ANOVA ЩТаблмцы частот И Таблицы и заголовки 1Л Вероятностный калькулятор ШН Другие критерии значимости " ***%< Л\&*Т'" Ш^^цк Отмена >-."^<л v.; ' £5^ Данные J Ш М Итак, если вы хотите продвинуться в исследовании различий нескольких групп, то дальнейший анализ следует вести в диалоге Группировка и однофакторный дисперсионный анализ (ANOVA). Мы работаем с данными, которые находятся в файле adstudy.sta (папка Examples). Сделайте вслед за нами следующие установки. Вначале стандартным образом выберите группирующие и зависимые переменные в файле данных. Затем выберите коды для группирующих переменных. С помощью этих кодов наблюдения в файле разбиваются на несколько групп, сравнение которых мы будем проводить. MPWIMIIIIi.Lllli.JJ,il!l)IJll.lllJ].l|l|lll.lllllJi.llll|l Диализ; | Подробный анализ выбранных таблиц «J [В " ЩИ» | ЧЛТг <^<£* ><!*> Ш Переменные | - >*■" Груш1йру»тн^" 3aeHciiMtte:VMEASUR3hME^IBt^v,^^0 . ,,iw СЕВ Коды для Н>у1^ру»щих деренеиных: | рмбраны Г Построчное удаление ПД /' ■>&, 1/•" Отмена ] ЩВ.Я'!* В *%*yf Взвешенные \/' > f ишменты -■ - гОГхево^ды • в-1 С т \ После того как выбраны переменные для анализа и определены коды группирующих переменных, нажмите кнопку ОК и запустите вычислительную проце- ДУРУ- В появившемся окне вы можете всесторонне просмотреть результаты анализа.
Пример 2 501 ЗАВИСИМЫЕ 7 перемен MEASUR3 MEASUR4 MEASUR5 MEASUR6 MEASUR7 MEASUR8 ГРУППИР 1 GENDER ( 2) MALE FEMALE 2-ADVERT ( 2) PEPSI COKE riiill'iiil'ilili'ri mm ишшшишшшшшлЁМштм ИгогоааяхвЬАёив.сяеймнх] Щ Оопро<ныс двувходовыс таблицы I ] Г Отображать длинные имей* переменных > I** Отображать длинные испек значений Статистики : Г Уисло наваждений • Г £уи»ш , Г Стандартные отклонения •. Г Днсверснн Г (радиана и квартили Ш QK Маргинальные средние 1 SB Категорнаованные диаграммы раемаха , Дисперсионный «кал** &атегориаоеаниые гистограммы Апостериорные сравнения средних Категориаоввиные норм.аервяти.грвфики [ fleeewa Брауна^&орсанта @Д| Прафик* взаимодействии йнутрнгрупповые корреляции II Опции 1 Категориаоввиные диаграммы рассеяния Переупорядочить факторы я таблице I £3 Графики средних и стана, отклонений | Посмотрите внимательно на диалоговое окно. Результаты можно отобразить в виде таблиц и графиков. Например, можно проверить значимость различий в средних с помощью процедуры Дисперсионный анализ. Щелкните на кнопке Дисперсионный анализ, и вы увидите результаты однофак- торного дисперсионного анализа для каждой зависимой переменной. вхжшштшшишшшя Далее... Перемен MEAS0R1 MEAS0R2 MEAS0R3 XEASUR4 MEASURS MEAS0R6 МЮШ : HEAS0R9 HE4SUR9 Ш , Оянечеиь< эффекты, значимые на у ров р Свм.кеа? эффвх* И 032 10 361 8 237 4 853 5€ ??Э 10 622 ?2 04 3 6 075 10* 781 С» ев эффвхж 3 3 3 3 3 3 3 Сркведо эффект 3 6774 3 4536 2 7457 1 6178 •0 '>«*6 3 5406 1? 3*4«f. 2 0248 •34 S9*i7 Сдохве* сжиВки 263 468 398 059 355 783 341 627 436 098 /S3 1/7 380 005 3S0 S39 < 05000 •Сж.ое. ошибки 46 46 46 46 46 46 Аь 46 46 сягиБка 5 72756 8 65346 7 73441 7 42667 €15046 9 48039 5 50J75 8 26099 7 6<?'Ш '■'■'■>■' '■■■ 64206 39909 35500 21783 3 С0913 37347 3 1S S V S 24511 4S3444 ШШШТШГЦ] Tji ШЕИ! 59189 75428 78573 88353 g:<g:o 77252 0-^f I i 86438 007^4 ▼* »Л1 Заметьте, что в таблице дисперсионного анализа мы имеем уже дело с F-критерием. Как следует из результатов, для переменных Measur 5, Measur 7 и Measur 9 процедура однофакторного Дисперсионного анализа дала статистически значимые результаты на уровне р<0,05. Эти результаты показывают, что различие средних значимо. Итак, с помощью F-критерия (этот критерий обобщает ^-критерий на число групп больше двух) мы отвергаем гипотезу об однородности сравниваемых групп. Возвратитесь в диалоговое окно результатов и нажмите кнопку Апостериорные сравнения средних для того, чтобы оценить значимость различий между средними конкретных групп. Прежде всего нужно выбрать зависимую переменную. В данном примере выберем переменную Measur 7. После того как вы нажмете ОК в окне выбора переменной, на экране появится диалоговое окно Апостериорные сравнения средних.
502 Глава 12. 7"-критерий сравнения средних в двух группах данных швт - \Щ ДЙЗДЦЯВ t^fflf^gSyfflffUtffi aTCffiW$8.'.'- БШ1 В этом окне можно выбрать несколько апостериорных критериев. Выберем, например, Критерий наименьшей значимой разности (НЗР). Критерий НЗР эквивалентен ^-критерию для независимых выборок, основанному на ^сравниваемых группах. ^-критерий для независимых выборок показывает (проверьте на STATISTIC А!), что имеется значимое различие между ответами МУЖЧИН — MALES и ответами ЖЕНЩИН — FEMALES для переменной Measur 7: рэтряишшрритостга ОСНОВНЫЕ статист : GENDER ADVERT -аши • •;, шэд •.;••: m • КШ5 . СОКЕ Ш : . ПЭШДГ PEPSI <3} . а^шш^^!!!^^ («■■■■■ШИИИИИИЯИИЯШИИИЯЯИИЯШИИИИИ мШШШвШШШШШШШШШШШШШШШ Отмечены разности, значимые на уровне «л*ьлп$;---ШШжтЩ И-4.07И 420149 271547 420149 053365 271547 053365 042-27? | ОГНЬ 5 4 | 255767 —-та "%nl р< 05000 Тп , ^;-:|4>,^;- K-2>t7$0 042277 006554 | 255767 •■* £| Используя процедуру Группировка и однофакторнаяАЫОУА, мы видим (см. таблицу результатов), что значимое различие средних имеется только для лиц, выбравших СОКЕ. Графическое представление результатов. Различия средних можно увидеть на графиках, доступных в диалоговом окне Внутригрупповые описательные статистики и корреляции — Результаты. Например, для того чтобы сравнить распределения выбранных переменных внутри групп, щелкните по кнопке Категоризованные диаграммы размаха и выберите опцию Медиана/кварт./размах из диалогового окна Диаграмма размаха. После того как вы нажмете OK, STATISTICA построит каскад диаграмм размаха. гЦф 1 ' 1——1 !—i—' 1 | ° 1 PtPSi СОП GCNOCR MALE PtPSI СОИ GfNDfR FFMALf.
Пример 2 503 Из графика видно, что между группой FEMALE — СОКЕ и группой MALE — СОКЕ имеется явное различие. Такого рода анализ с последовательно усложняющейся группировкой и сравнением средних в получающихся группах, особенно часто применяемый в массовых обследованиях, может быть с успехом выполнен в STAT1STICA.
Непараметрическая статистика Одним из факторов, ограничивающих применения критериев, основанных на предположении нормальности, является объем выборки. До тех пор пока выборка достаточно большая (например, 100 или больше наблюдений), можно считать, что выборочное распределение нормально, даже если вы не уверены, что распределение переменной в популяции является нормальным. Тем не менее, если выборка мала, эти критерии следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение. Однако нет способа проверить это предположение на малой выборке. Использование критериев, основанных на предположении нормальности, кроме того, ограничено шкалой измерений (см. главу Элементарные понятия анализа данных). Такие статистические методы, как f-критерий, регрессия и т. д., предполагают, что исходные данные непрерывны. Однако имеются ситуации, когда данные, скорее, просто ранжированы (измерены в порядковой шкале), чем измерены точно. Типичный пример дают рейтинги сайтов в Интернете: первую позицию занимает сайт с максимальным числом посетителей, вторую позицию занимает сайт с максимальным числом посетителей среди оставшихся сайтов (среди сайтов, из которых удален первый сайт) и т. д. Зная рейтинги, мы можем сказать, что число посетителей одного сайта больше числа посетителей другого, но насколько больше, сказать уже нельзя. Представьте, вы имеете 5 сайтов: А, В, С, D, Е, которые располагаются на 5 первых местах. Пусть в текущем месяце мы имели следующую расстановку: А, В, С, D, Е, а в предыдущем месяце: D, Е, А, В, С. Спрашивается, произошли существенные изменения в рейтингах сайтов или нет? В данной ситуации, очевидно, мы не можем использовать f-критерий, чтобы сравнить эти две группы данных, и переходим в область специфических вероятностных вычислений (а любой статистический критерий содержит в себе вероятностную калькуляцию!). Мы рассуждаем примерно следующим образом: насколько велика вероятность того, что отличие в двух расстановках сайтов вызвано чисто случайными причинами или это отличие слишком велико и не может быть объяснено за счет чистой случайности. В этих рассуждениях мы используем лишь ранги или перестановки сайтов и никак не используем конкретный вид распределения числа посетителей на них. Для анализа малых выборок и для данных, измеренных в бедных шкалах, применяют непараметрические методы. Краткий обзор непараметрических процедур По существу, для каждого параметрического критерия имеется, по крайней мере, одна непараметрическая альтернатива. 13
Краткий обзор непараметрических процедур 505 В общем, эти процедуры попадают в одну из следующих категорий: О критерии различия для независимых выборок; О критерии различия для зависимых выборок; О оценка степени зависимости между переменными. Вообще, подход к статистическим критериям в анализе данных должен быть прагматическим и не отягощен лишними теоретическими рассуждениями. Имея в своем распоряжении компьютер с системой STATISTICA, вы легко примените к своим данным несколько критериев. Зная о некоторых подводных камнях методов, вы путем экспериментирования выберете верное решение. Развитие сюжета довольно естественно: если нужно сравнить значения двух переменных, то вы используете t-критерий. Однако следует помнить, что он основан на предположении нормальности и равенстве дисперсий в каждой группе. Освобождение от этих предположений приводит к непараметрическим тестам, которые особенно полезны для малых выборок. Далее имеются две ситуации, связанные с исходными данными: зависимые и независимые выборки, в которых применяется t-критерий для зависимых и независимых выборок соответственно. Развитие t-критерия приводит к дисперсионному анализу, который используется, когда число сравниваемых групп больше двух. Соответствующее развитие непараметрических процедур приводит к непараметрическому дисперсионному анализу, правда, существенно более бедному, чем классический дисперсионный анализ. Для оценки зависимости, или, выражаясь несколько высокопарно, степени тесноты связи, вычисляют коэффициент корреляции Пирсона. Строго говоря, его применение имеет ограничения, связанные, например, с типом шкалы, в которой измерены данные, и нелинейностью зависимости, поэтому в качестве альтернативы используются также непараметрические, или так называемые ранговые, коэффициенты корреляции, применяемые, например, для ранжированных данных. Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий хи-квадрат Пирсона с различными вариациями и поправками на точность. Итак, по существу имеется всего несколько типов критериев и процедур, которые нужно знать и уметь использовать в зависимости от специфики данных. Вам нужно определить, какой критерий следует применять в конкретной ситуации. Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, п >100), часто не имеет смысла использовать непараметрическую статистику. Если размер выборки очень мал (например, п - 10 или меньше), то уровни значимости для тех непараметрических критериев, которые используют нормальное приближение, можно рассматривать только как грубые оценки. Различия между независимыми группами. Если имеются две выборки (например, мужчины и женщины), которые нужно сравнить относительно некоторого среднего значения, например, среднего давления или количества лейкоцитов в крови, то можно использовать £-тест для независимых выборок. Непараметрическими альтернативами этому тесту являются критерий серий Валъда—Волъфовица, Манна—Уитни [/-тест и двухвыборочный критерий Колмогорова—Смирнова.
506 Глава 13. Непараметрическая статистика Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке, например, медицинские показатели одних и тех же пациентов до и после приема лекарства, то обычно используется t-критерий для зависимых выборок. Альтернативными непараметрическими тестами являются критерий знаков и критерий Вилкоксона. Если рассматриваемые переменные категориальны, то подходящим является хи-квадрат Макнемара. Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ (ANOVA) с повторными измерениями. Альтернативным непараметрическим методом является Ранговый дисперсионный анализ Фридмана и Q-критерий Кохрена. Исследование зависимости между порядковыми переменными. Для того чтобы оценить зависимость между двумя переменными, обычно вычисляют коэффициент корреляции Пирсона. Непараметрическими аналогами коэффициента корреляции Пирсона являются коэффициенты ранговой корреляции Спирмена R> статистика Кендалла и коэффициент Гамма (более подробно см., например, книгу Кендалл М. Дж., Ранговые корреляции, 1975). Коэффициент ранговой корреляции {rank correlation coefficients) оценивает величину зависимости между переменными, измеренными в порядковых шкалах, то есть между порядковыми переменными. Прозрачный способ построения парных коэффициентов корреляции из обобщенного коэффициента корреляции предложил Daniels (Daniels H. E., 1948, Biometrika, v. 35, p. 416-417), см. также заметку Е. В. Кулинской в Энциклопедии: «Вероятность и математическая статистика», 1999. С. 537-538. Обобщенный коэффициент корреляции определяется формулой: УаЬ.. "Ш' где а.. = а(Х{> XJ, b.. = b(Y.} Y) — некоторые функции пар наблюдений X и Y соответственно, суммирование ведется по всем парам i, j. Заметим, что при а.%. = X - X, b{ = Y - У. получаем обычный коэффициент корреляции Пирсона. Если переменные ранжированы, то мы работаем с рангами. Упорядочим значения X. по возрастанию, то есть построим вариационный ряд этих величин. Номер величины X в этом ряде называется ее рангом и обозначается Я. Затем упорядочим значения Y. в порядке возрастания. Номер величины Г.. в этом ряде называется ее рангом и обозначается 5.. Коэффициент ранговой корреляции Спирмена вычисляется как обобщенный коэффициент парной корреляции с заменой наблюдений их рангами. Формально для обобщенного коэффициента корреляции нужно положить а.. = R. - Rjt b.. = 5- 5.. Коэффициент Кендалла вычисляется, если в формуле для обобщенного коэффициента положить а.. = 1 при R.< R.h a.. = -1 при R. > R.. Величины Ь..задаются аналогичными соотношениями с заменой рангов R. на ранги 5. наблюдений У. Итак, мы ясно видим, что идея всех корреляций возникает из одного и того же источника. Если имеется более двух переменных, то используют коэффициент конкорда- ции Кендалла. Например, он применяется ддядаенки согласованности мнений не-
Описание непараметрических процедур на примерах 507 зависимых экспертов (судей), например баллов, выставленных одному и тому же участнику конкурса. Если имеются две категориальные переменные, то для оценки степени зависимости используют стандартные статистики и соответствующие критерии для таблиц сопряженности: xw-квадрат, ^-коэффициент, точный критерий Фишера, Нелегко дать простой и однозначный совет, касающийся использования этих процедур. Каждая имеет свои достоинства и свои недостатки. Например, двухвыборочный критерий Колмогорова—Смирнова чувствителен не только к различию в положении двух распределений, но также и к форме распределения. Фактически он чувствителен к любому отклонению от гипотезы однородности, но не указывает, с каким именно отклонением мы имеем дело. Критерий Вилкоксона предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если этого сделать нельзя, то используют критерий знаков, который учитывает лишь знаки разностей сравниваемых величин. В общем, если результат исследования является важным и наблюдений немного (например, отвечает на вопрос — оказывает ли людям помощь определенная очень дорогая и болезненная лекарственная терапия?), то всегда целесообразно испытать непараметрические тесты. Возможно, результаты тестирования (разными тестами) будут различны. В таком случае следует попытаться понять, почему разные тесты дали разные результаты. С другой стороны, непараметрические тесты имеют меньшую мощность, чем их параметрические конкуренты, и если важно обнаружить даже слабые эффекты (например, при выяснении, является ли данная пищевая добавка опасной для здоровья), следует провести многократные испытания и особенно внимательно выбирать статистику критерия. Описание непараметрических процедур на примерах Стартовая панель модуля Непараметрические статистики Стартовая панель модуля имеет вид: ршшшшшпшшшшш^шшшшшшшщ 1 10 Крит*рмА с«рм* В чшлл-Ъ ояьфомяы |Ю U Ч»"*рмА Майи* Умтмм |Е1 Д"yndоро«м**А крмтермА Колмогорова С мирном ]|$$ AM OVA Крмжем-Уоллмс* и мялиттшЛ тест JO Kphtim* «who» ](£3 КрмтермА Вмякоксоиа -: .-v'; •: IE23 AN0VA Фрияммм и коикордамю Кетвям \ £&. Обычные ояистеяьиые статистики (медиеме. моде...) i gg* '«••!.':.'■."= Jfo В J
508 Глава 13. Непараметрическая статистика Таблицы частот 2x2: статистики Xn/V/Фи- квадрат, Макнемара, точный критерий Фишера Опция открывает диалоговое окно, в котором можно ввести частоты в таблицу 2x2 (состоящую из двух строк и двух столбцов) и вычислить различные статистики, позволяющие оценить зависимость между двумя переменными, принимающими только два значения. Типичный пример таких таблиц — определение, например, числа мужчин и женщин, предпочитающих рекламу ПЕПСИ или КОКИ, или числа заболевших и не заболевших людей из числа сделавших и не сделавших прививки, и т. д. Итак, одна переменная — ПОЛ, другая переменная — НАПИТОК. Первая переменная имеет 2 уровня (принимает 2 значения) — мужчина, женщина. Вторая переменная, НАПИТОК, также имеет 2 уровня, например, ПЕПСИ или КОКА. Задача состоит в том, чтобы оценить зависимость между двумя табулированными переменными. Укажем на важное методологическое отличие использования слова связь (зависимость) в повседневной жизни и в анализе данных (см. главу 33 фундаментального текста Кендалла и Стьюарта «Статистические выводы и связи»). Обычно мы говорим, что два признака А и В связаны между собой, если они часто встречаются вместе. В анализе данных дается строгое определение: если А встречается относительно чаще с В, чем с не-В, то А и В связаны. Или, переходя на язык теории вероятностей, Р( АХВ) должна быть больше Р( АХне-В). Оценкой вероятности является частота. В приведенной выше таблице пусть признак А — пол, признак В — напиток, принимающий, например, два значения: пепси — не-пепси. Пусть а, Ь — частоты в первой строке, с, d — частоты во второй строке. Если а/(а+с) - b/(b+d), то признаки независимы. Формально имеем: 17/A7+27) - 0,39, 19/A9+29) - 0}396. Теперь нам нужно понять, существенно или нет различие в частотах. Статистические критерии, реализованные в этом диалоге, как раз и позволяют это сделать. В данном случае различие, конечно, несущественно (или, как говорят в анализе данных, незначимо). Следовательно, признаки независимы — пол не связан с выбором напитка. Опция 2x2 может быть использована как альтернатива корреляциям, если обе рассматриваемые переменные являются категориальными. Дополнительно к стандартному критерию хи-квадрат Пирсона и скорректированному оси -квадрат (V-квадрат) вычисляются следующие статистики:
Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнемара 509 НЕПАРАМ СТАТИСТ Стола. 2 Процент от общего Частоты.строка2 :..-.• Процент от общего. Сумме по столбцу Процент от общего Хи-квадрат (ст.св.И) V-кеедрат (ст се.*1) Поправка Йет се Фи коэффициент Фишере р> односторонний двусторонний Макнемера Хи-квадрат (/А/0) Хи-калдрат (ЕУС) ш 1? 1 18 478% 27 29 348% 44 47 826% 01 01 01 00009 2 63 107 19 20652% 29 31 522% 48 52 1 74% р- 9259 р- 9263 р- 9038 р- 5483 р-1 0000 р- 1048 р-,3020 39 1 30°/ >.г Классическая статистика хи-квадрат Пирсона замечательна тем, что ее распределение приближается распределением хи-квадрат, для которого имеются подробные таблицы. Процентные точки распределения хи-квадрат могут быть также эффективно вычислены в системе STATISTICA с помощью вероятностного калькулятора. Свойство критерия д^-квадрат (точность аппроксимации распределения статистики распределением хи-квадрат) для таблиц 2 х 2 с малыми ожидаемыми частотами может быть улучшено за счет уменьшения абсолютного значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0,5 перед возведением в квадрат. Это так называемая поправка Йетса на непрерывность для таблиц частот 2x2, которая обычно применяется, когда ячейки содержат только малые частоты и некоторые ожидаемые частоты становятся меньше 5 (или даже меньше 10). Фи-коэффициент. Статистика фи-квадрат представляет собой меру связи между номинальными или категориальными переменными, значения которых нельзя упорядочить. Пусть даны маргинальные или суммарные частоты в таблице 2x2. Предположим, что оба фактора в таблице независимы. Зададимся вопросом: какова вероятность получить наблюдаемые частоты, исходя из маргинальных? Замечательно, что эта вероятность вычисляется точно, подсчетом всех возможных таблиц, которые можно построить, основываясь на данных маргинальных частотах. Это и делается в критерии Фишера. STATISTICA вычисляет р-уровни одностороннего и двустороннего критерия Фишера. Если сумма частот небольшая, то лучше использовать точный критерий Фишера вместо критерия хи-квадрат. Известны рекомендации Кокрена для таблиц 2x2: если сумма всех частот в таблице меньше 20, то следует использовать точный критерий Фишера. Если сумма частот больше 40, то можно применять критерий хи-квадрат с поправкой на непрерывность. Однако эти рекомендации не универсальны (см., например, Справочник по прикладной статистике /Под. ред. Э. Ллойда и У. Ледермана. С. 375-376). Рассмотрим следующий пример. Пример. Исследуются 30 человек, совершивших преступления. У каждого из преступников есть брат-близнец. Спрашивается, имеется ли связь между род-
510 Глава 13. Непараметрическая статистика ственными отношениями и преступлением (см. Справочник по прикладной статистике /Под. ред. Э. Ллойда и У. Ледермана. С. 376). Данные приведены в таблице: Оба брата Только один брат Сумма преступники преступник Однояйцевые близнецы Разнояйцевые близнецы Сумма 10 2 12 3 15 18 13 17 18 Проверяемая гипотеза состоит в том, что зависимости между родством и преступностью нет. Альтернативная гипотеза заключается в следующем: чем теснее родственные связи, тем более вероятно совместное участие в преступлении (то есть между признаками имеется положительная связь). Заметьте — это односторонняя альтернатива, так как нас интересует отклонение от гипотезы лишь в одну сторону (вольно выражаясь, с сохранением знака больше). Введем данные в систему STATISTICA. После нажатия на кнопку ОК получим следующую электронную таблицу с результатами: частот строке 1 Процент or общего Частоты» строка 2 npoutHt ot общего Сунне по столбца Процент от общего Хи-к»адрвт<С1<а»«'1) УЧсаодрат (ст,св «!) Поправка Йетса Фи ко; Сгопб;1 двусторонний Макиеиара Хи-квадрат QA/D) ЕГ frk-каадрат C/С) 10 33 333% 2 6 667% 12 40 000% 1303 1260 1046 43439 64 0 00 3 10 000% 15 50 000% 18 60 000% р- 0003 р- 0004 р- 0012 р- 0005 | р- 0005 р- 4237 р-1 0000 lino р дн | i строкам 13 43 333% 17 56 667% 30 ;П Значение статистики хи-квадрат равно 13,03. Так как в данных имеются ячейки с малыми частотами B и 3), то для улучшения точности критерия хи-квадрат используем поправку Йётса. Поскольку нас интересует односторонняя альтернатива, мы делим уровень р = 0,0012 пополам и получаем 0,0006. Точное значение одностороннего критерия Фишера равно 0,0005 (см. таблицу). Оба эти результата высокозначимы, следовательно, мы отвергаем исходную гипотезу об отсутствии зависимости между родством и преступлением в пользу альтернативы: «между признаками имеется тесная положительная связь».
Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнемара 511 Заметьте, что сумма всех частот в таблице меньше 40, но оба критерия, точный Фишера и хи-квадрат Йетса, дают почти одинаковые результаты. Критерий хи-квадрам Макнемара. Этот критерий применяется, когда частоты в таблице 2x2 получены по зависимым выборкам. Например, когда наблюдения фиксируются до и после воздействия на одном и том же экспериментальном материале. STATISTICA включает также модуль Логлинейный анализ, позволяющий выполнить полный логлинейный анализ многовходовьрс таблиц сопряженности. STATISTICA содержит программу на STATISTICA BASIC для вычисления критерия Ментела—Хенцела (файл Manthaen.stb в каталоге STBASIC), позволяющего сравнить две группы данных. Обратитесь к комментариям в программе Manthaen.stb за дополнительной информацией. Наблюдаемые частоты в сравнении с ожидаемыми Опция позволяет оценить согласие наблюдаемых частот с произвольным набором ожидаемых частот. С2ШШШЕЭШШЯЕЭШШМ ;7£=~ ;;• • ': нцнюгп iffl Ж 1 | Отмен* 1 SS«lfrftl Процедура предлагает пользователю ввести две переменные: одна содержит ожидаемые, другая — наблюдаемые частоты. Для проверки согласия наблюдаемых и ожидаемых частот вычисляется критерий ягг-квадрат. Следующий пример основан на данных (искусственных) об авариях на шоссе (данные содержатся в файле Accident.sta). Данные записывались с интервалом, равным месяцу, в 1983 и 1985 годах. -~-~~- |Numtoei of accident* ovt «/ February M«ch ***■ Mm **e Mr Stcxwnb* Gctob* Kovcnbw December 150 80 50 40 43 80 75 80 65 50 95 85 | 40 i 45 ! 40 42 j 43 j 50 ! 36 | 78 i 83*-:! Допустим, что в 1984 году были потрачены значительные средства с тем, чтобы улучшить безопасность движения на этом шоссе. Если затраченные средства ни к чему не привели (нулевая гипотеза), то число несчастных случаев в 1985 году могло бы прогнозироваться на том же уровне, что и в 1983-м (при условии, что общее число машин на трассе и интенсивность движения не менялись). Таким образом, данные за 1985 год рассматриваются здесь как ожидаемые значения, данные за 1983 год — как наблюдаемые.
512 Глава 13. Непараметрическая статистика Задание анализа. После запуска модуля Непараметрические статистики и распределения откройте файл Accidentia и выберите в стартовой панели опцию Наблюдаемые в сравнении с ожидаемыми. В появившемся диалоговом окне Наблюдаемые и ожидаемые частоты нажмите кнопку Переменные и выберите Y_1983 — переменную с наблюдаемыми частотами и Y_1985 — переменную с ожидаемыми частотами. Г iirinii r mil ДЩДИашши щшя^ЕШ! ит т i>i ,\>.| ,_Ow*i«i. }•] a'ulaal После нажатия ОК таблица с результатами появится на экране. ^IM'IINii'H'HI'fW'-'lf НЕПАРАМ. СТАТИСТ. Наблюд. f>brueiy .. "■• -/■..:,;•••:.■ »:?■ March •"• •• • "• ■.■■/*?■■**''■.<?. April- • :^;.\ ;Ш*::*-Г.К... .-«Г***!* лит'.:,; • ••.. " 4tfyW:? "ЛЪЩ-Ъ'^^-ЪХ ? ^;AM^u*l:^-.-:^;-^.^V; •• . S»pte«jbAr .:<..,.:" . ••:,•!: : l,,.-.:-.'-.-" ; ОйбЬ^.^*1^^^^^^^' • ЫШ$Ш$&&*}%№%/ & •*0«rt*frife*^ Г: V- :-^--'\ ■-■ -• -СуНМв:\: , ..••"■ ••••:• ".•■•" " '" • ■■• ••■ l£T j ШРШШг,1ш^шт хи-квадрат • 1 ЗАМЕЧАНИЕ 850000 800000 850000 400000 450000 400000 420000 430000 500000 36 0000 780000 830000 7070000 21 7010 ее-11 Неравные суг 1^::':ч-:вЖ&Д..: •• | 125.0000 150.0000 80.0000 50 0000 400000 430000 800000 750000 80.0000 65 0000 500000 95.0000 9330000 р< оооооо *?! чмы наблюдаемых и ожидаем^■ jj •\nft*Ov^: -40000 -70000 5.000 -10 000 5 000 -3 000 -38 000 -32 000 -30 000 -29 000 28 000 -12 000 -226.000 . <Н-ОГ2 /0 12 8000 326667 3125 2 0000 6250 2093 18 0500 136533 . 112500 129385 15 6800 15158 121 7010 *jj ► G Из таблицы ясно видно, что снижение числа аварий в 1985 году по сравнению с 1983 годом высокозначимо. Заметим, что в нижней части таблицы результатов показано общее число аварий за каждый год (Сумма); разности между наблюдаемыми и ожидаемыми значениями даны в третьем столбце, квадраты разностей, деленные на ожидаемые значения (слагаемые :ш-квадрат), — в четвертом столбце. Обратите внимание на число степеней свободы (ее) распределения хи-квадрат, в этом примере оно равно 11. Корреляции (Спирмена R, тау Кендалла, Гамма) Опция позволяет вычислить три различные альтернативы коэффициенту корреляции Пирсона: корреляцию Спирмена R, статистику may Кендалла и статистику Гамма. После выбора опции на экране появится диалоговое окно, в котором можно выбрать переменные и определенный тип корреляции для вычисления. Можно вычислить одну непараметрическую корреляцию или матрицу непараметрических корреляций.
Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнемара 513 ?1 Подробим* отчет 21 .<* 'гч чадк* у Следующий пример основывается на данных (файл Striving.sta), представленных Siegel and Castellan A988) Nonparametric statistics for the behavioral sciences Bnd ed.) New York: McGraw-Hill. Двенадцать студентов ответили на вопрос анкеты, чтобы оценить связь между двумя переменными: авторитарностью и борьбой за социальное положение. Авторитарность (Adorno и др., 1950) — психологическая концепция, состоящая, грубо говоря, в том, что властные люди имеют тенденцию считать, что власть должна быть жесткой и ей следует подчиняться (иными словами, придерживаются принципа: «закон и порядок»). Данные показаны ниже. Con* L ^ 4 Г L 9 10 11 Ш 1ffiltii"fitiii atcnbe 83 96 87 40 116 113 111 83 85 126 10b 117 ■*1SJ wmtimjIc • 2 TRMNG 42 xl 46 ] 39 37 65 88 86. 56 62 92 54 81 *i \ >rl Цель исследования состояла в том, чтобы выяснить, зависимы, в действительности, эти две переменные или нет. Задание анализа. После запуска модуля Непараметрические статистики и распределения откройте файл Accidentia и выберите в стартовой панели опцию Корреляции (Спирмена, may Кендалла, Гамма). В появившемся диалоговом окне нажмите кнопку Переменные и выберите Authorit как первую переменную, Striving — как вторую переменную. Модуль Непараметрические статистики и распределения вычисляет также корреляционные матрицы. В этом примере выберите просто Спирмена R и Подробный отчет. Ь ^.' Уг; ■■}; fCmcm 1: AUTHOlW *x {'■?%£$ чЬч. • Отмен. П «* в7«УМ1%: ":':. 'Г^вт*"**."!. <v '! l>qM^W.;-| Подробные ОТЧТ З^*^-" fr'^
514 Глава 13. Непараметрическая статистика После нажатия ОК таблица с результатами появится на экране. 1 ""J-1-1"-" ашт 32 Далее.» ка ГШ попарно удалены ■ JoJx| Поры перем Спирмена R шш 818182 ФЧ 4 500000 Р^а 001143 \П Вы видите, что корреляция между двумя шкалами высокозначима, и можно сделать вывод, что индивидуумы, имеющие внутреннюю установку на авторитарность, в свою очередь, стремятся к борьбе за свое положение в обществе (при условии, что анкета адекватна данному исследованию), тем самым подтверждается концепция Адорно. Авторитаризм — внутренняя установка (ее трудно непосредственно измерить). В отличие от этого борьба за положение в обществе и продвижение по иерархической лестнице наблюдается отчетливо. Итак, между властностью и карьеризмом имеется отчетливая зависимость. Вы можете визуализировать найденную зависимость двумя способами. Либо нажав кнопку Матричная диаграмма в диалоговом окне Непараметрические корреляции (после того как выбрали переменные), либо щелкнув правой кнопкой мыши на таблице результатов и выбрав опцию Диаграмма рассеяния/довер из меню Быстрые статистические графики. Параметрическая корреляция (г Пирсона) между шкалами (г = 0,77) показана в заголовке графика (см. ниже). Интересно, что эта корреляция меньше ранговой корреляции Спирмена (Спирмена R равно 0,82). ГЙ7ра7 100 90 80 о 70 z 1Л 50 40 30 3 ml AUTHORIT vs STRIVING AUTHORIT v$ STRIVING STRIVING - -1 959 ♦ 66281 " AUTHORIT С орреляция Пирсона t ■ 77452 о .' У л' О / . У ,""" У У • уГ. Р У 0 50 70 90 110 130 AUTHORIT Шш! S 1 ^о^ Регрессия H 95 \ довер Если бы в этом примере мы располагали большим объемом данных, то могли бы сделать вывод, что рассмотрение рангов (а не самих наблюдений) в действительности улучшает оценку зависимости между переменными, так как «подавляет» случайную изменчивость и уменьшает воздействия выбросов. Статистики Кендалла тау и Гамма. Для сравнения вернитесь в окно Непараметрические корреляции и выберите опцию Статистика may Кендалла, а также опцию Гамма. Обе статистики, Кендалла may и Гамма, будут вычислены и окажутся равными 0,67.
Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнемара 515 L иГМИНЛ IHU....IJ НЕПАРАМ СТАТИСТ ГЩ попврио уделены ■ -laixjl и Поры перем гер°» Как было сказано ранее, эти статистики тесно связаны между собой, но отличаются от статистики Спирмена. Статистику Спирмена R можно представить себе как вычисленную по рангам корреляцию Пирсона, то есть в терминах доли изменения одной величины, связанной с изменением другой. Статистики Кендалла may и Гамма скорее оценивают вероятности, точнее, разность между рероятностью того, что наблюдаемые значения переменных имеют один и тот же порядок, и вероятностью того, что порядок различный. Матрицы двух списков. Опция вычисляет только корреляции между переменными, заданными в первом списке, и переменными, заданными во втором списке. Квадратная матрица. Опция вычисляет корреляции для одного списка переменных (квадратная матрица). Заметим, если выбраны два списка переменных, а затем выбрана эта опция, то списки будут «объединены» в один. Матричная диаграмма Нажмите кнопку, чтобы построить матричную диаграмму рассеяния для выбранных переменных. 2 Корреляции ICAHS SIA 5ла22и) Корреляции (CARS STA 5п'22и) ACCELER a__cjoQUc»_ BRAKING J- JL MILAGE JaQa. ACCELER BRAKING .....J. J. MILAGE a_OGB_a_ Этот график полезен тем, что он позволяет быстро оценить и сравнить распределения выбранных переменных и форму зависимости между ними (например, коэффициент ранговой корреляции R Спирмена может измерять нелинейную монотонную зависимость между переменными).
516 Глава 13. Непараметрическая статистика Критерий серий Вальда—Вольфовица Критерий серий Вальда—Вольфовица представляет собой непараметрическую альтернативу ^-критерию для независимых выборок. Данные имеют тот же вид, что и в ^-критерии для независимых выборок. Файл должен содержать группирующую (независимую) переменную, принимающую, по крайней мере, два различных значения (кода), чтобы однозначно определить, к какой группе относится каждое наблюдение в файле данных. Программа открывает диалоговое окно выбора группирующей переменной и списка зависимых переменных (переменных, по которым две группы сравниваются между собой), а также кодов для группирующей переменной (опция Коды). Критерий серий Вальда—Вольфовица устроен следующим образом. Представьте, что вы хотите сравнить мужчин и женщин по некоторому признаку. Вы можете упорядочить данные, например, по возрастанию, и найти те случаи, когда субъекты одного и того же пола примыкают друг к другу в построенном вариационном ряде (иными словами, образуют серию). Если нет различия между мужчинами и женщинами, то число и длина «серий», относящиеся к одному и тому же полу, будут более или менее случайными. В про- тивдом случае две группы (мужчины и женщины) отличаются друг от друга, то есть не являются однородными. Критерий предполагает, что рассматриваемые переменные являются непрерывными и измерены, по крайней мере, в порядковой шкале. Критерий серий Вальда—Вольфовица проверяет гипотезу о том, что две независимые выборки извлечены из двух популяций, которые в чем-то существенно различаются между собой, иными словами, различаются не только средними, но также формой распределения. Нулевая гипотеза состоит в том, что обе выборки извлечены из одной и той же популяции, то есть данные однородны. U-критерий Манна—Уитни Критерий Манна—Уитни представляет непараметрическую альтернативу ^-критерию для независимых выборок. Опция предполагает, что данные расположены таким же образом, что и в ^-критерии для независимых выборок. В частности, файл должен содержать группирующую переменную, имеющую, по крайней мере, два разных кода для однозначной идентификации принадлежности каждого наблюдения к определенной группе. Критерий U Манна—Уитни предполагает, что рассматриваемые переменные измерены, по крайней мере, в порядковой шкале (ранжированы). Заметим, что во всех ранговых методах делаются поправки на совпадающие ранги. Интерпретация теста, по существу, похожа на интерпретацию результатов ^-критерия для независимых выборок за исключением того, что {/-критерий вычисляется как сумма индикаторов парного сравнения элементов первой выборки с элементами второй выборки. [/-критерий — наиболее мощная (чувствительная) непараметрическая альтернатива ^-критерию для независимых выборок; фактически, в некоторых случаях он имеет даже большую мощность, чем ^-критерий (см. например, Холлендер М.,
Критерий серий Вальда—Вольфовица 517 Вульф Д. А. A983), Непараметрические методы статистики, а также заметку М. С. Никулина в Энциклопедии: «Вероятность и математическая статистика». С. 299). Формально статистика Манна—Уитни вычисляется как: U = W-l-m(m + l) = Z:XA> где W— так называемая статистика Вилкоксона, [1, еслиХ,<У]9 и [0 в противном случае. Таким образом, статистика U считает общее число тех случаев, в которых элементы второй группы, например мужчины, превосходят элементы первой группы, например женщин. Двухвыборочный критерий Колмогорова—Смирнова Критерий Колмогорова—Смирнова — это непараметрическая альтернатива ^-критерию для независимых выборок. Формально он основан на сравнении эмпирических функций распределения двух выборок. Данные имеют такую же организацию, как в ^-критерии для независимых выборок. Файл должен содержать кодовую {независимую) переменную, имеющую, по крайней мере, два различных кода для однозначного определения, к какой группе принадлежит каждое наблюдение. Опция открывает диалоговое окно выбора кодовой переменной и списка зависимых переменных (переменных, по которым две группы сравниваются между собой), а также кодов, используемых в кодовой переменной для идентификации двух групп (опция Коды). Критерий Колмогорова—Смирнова проверяет гипотезу о том, что выборки извлечены из одной и той же популяции, против альтернативной гипотезы, когда выборки извлечены из разных популяций. Иными словами, проверяется гипотеза однородности двух выборок. Однако в отличие от параметрического ^-критерия для независимых выборок и от {/-критерия Манна—Уитни (см. выше), который проверяет различие в положении двух выборок, критерий Колмогорова—Смирнова также чувствителен к различию общих форм распределений двух выборок (в частности, различия в рассеянии, асимметрии и т. д.). Пример. Критерий серий Вальда—Вольфовица, Манна—Уитни U-критерий, двухвыборочный критерий Колмогорова—Смирнова Все эти критерии представляют собой альтернативы ^-критерию для независимых выборок. Пример основан на исследовании агрессивности четырехлетних мальчиков и девочек (Siegel, S. A956) Nonparametric statistics for the behavioral sciences Bnd ed.) New York: McGraw-Hill). Данные содержатся в файле Aggressn.sta.
518 Глава 13. Непараметрическая статистика ТВ 2 Э 4 5 » 7 в 9 10 Г? ЕНДЗЕ Aggression к BOYSI BOYS BOYS BOYS BOYS BOYS BOYS BOYS BOYS BOYS I ■ЫВ1 xl! ore of 12 b^:] 2 &GR£SSb 86 69 : 72 i 65 113 i 65 118 \ *b 141 104^: Двенадцать мальчиков и двенадцать девочек наблюдались в течение 15-минутной игры; агрессивность каждого ребенка оценивалась в баллах (в терминах частоты и степени проявления агрессивности) и суммировалась в один индекс агрессивности, который вычислялся для каждого ребенка. Задание анализа. После запуска модуля Непараметрические статистики откройте электронную таблицу с данными (файл Aggressnsta), выберите опцию Критерий серий Валъда—Волъфовица. |jmU4liJ.njJJ14J,i.l4IJ4 ЕЩ : <• \\цуфт*тр*тс*т сетлгмегмим С Подоим $ fymmmmtt*mc*m статистик*: Таблицы 2 я 2: ки/У/фи. Макмемара. точный Фиаюра Шх'0 Наблюдаемые частоты • сравнении с ожидаемыми Щ Корреляции (Спирмеиа. тач Кеидалла, гамма) ,Ш1!1.Ц.|1|.ЦЛ|1|.|Ц||Щ1111,!1.|1!11|Щ Выберите нужны* иепарамвггричвокий ьтсллпя jYJ U критерий Маииа-Умтии Ш% Двусвыборочный критерий Колмогорова Смирнова jj*| ANOVA Краснела Uоллиса и медианный тест [JJ22 Критерий знаков B2) Критерий Вилкоксона Ц22 ANOVA Фридмана и коикордавия Кеидалла \ii'\ Q критерий Кокрена & JjA Обычные описательные статистики (медиана, мода. .) .♦ft А Далее нажмите (Ж Нажмите кнопку Переменные и выберите переменную #ол — Gender как группирующую и переменную Aggressn как зависимую. 11У^.Ц|1М1111,Д11 |2 AGGRESSN 1 GENDER ►ашниио iMM'IIW'-l'NIi'llMNIIMfl*- Ж Г Все "Г Подроб. Неа—мснмад паре»и ;'' т Инф. И Bee J Подрой. Jj Э«и»сш«ла перемашд-иг Р ЙНЧ>. ] Коды для однозначного отнесения каждого наблюдения к определенному полу будут автоматически выбраны программой.
Критерий серий Вальда—Вольфовица 519 | Критерии серий Вальдл Вольфе ■ ш Отмен* Коды дм грумы £ [GIRLS Дм*** щелкните ммшыо по соответствующему поло, чтобы выбрать коды м»спмск» допустимым »»ie»rt ДЬетегарн S^tflt&ll Далее нажмите OK, чтобы выполнить анализ. жтяшшатмшшттшшятятшшл ПЯМРМ ______ r-liTiiUiVii шШШШШШШыт'М i in nyj— Пяле* (Поперем ......М*Л "L.JTpyn1bBOYS Груп 2 2-GIRLS Перен РКдвЯиЩ GIRLS ПНЗяяЩ 12| 12 Ы I " Среднее BOYS Среднее OIRLB 80 7S000 26 66667 2 р-чрое. -3 75681 000172 Zckopp 3 548Ю0 ввяял*г**т—г __| вжеШаШ.»} Р-ЫРО». 000389 ^ D Как видно из таблицы результатов, различие между агрессивностью мальчиков и девочек в этом исследовании высокозначимо. Выполните то же самое исследование с помощью критерия Манна—Уитни. ($ Нерщиметршесшт статистики С Подгонке распределение Цеяарамотричесдия статистиыг еэ Я* Отмене Таблицы 2 н 2: Hit/We*. Макиемара, точный Фиеюра Qx'Q Наблюдаемые частоты в сравнении с ожидаемыми Корреляции (Спирмема. твч Кеидалла. гамма) щ{ Критерий серий Валмде-Воль+оеида LvllllllHIJIiii.l U!Jlili.l! ОДерите нужный мвпарамвтричаокий метод дм IJTJ Дечхеыборочиый критерий Колмогорова-Смирнова $$| AN OVA Крескела-Уоллиса и медианный тест [22] Критерий знаков [|*31 Критерий Вилкоксоиа ([♦jJJjANOVA Фридмана и коикордация Кеидалла МИ 0 критерий Кохрена £5 J* в статистики (медиана, мода ) & ft Нажмите кнопку Переменные и выберите переменную Яол — Gender как группирующую и переменную Aggressn — как зависимую. {2AGGRESSN ii^!ixiijiaiiiiiiiiiuiiM!iiiiiiijjiiuMji!:jit!jiiiii»m .1 GENOCR >АШИ1ИЫ11Д ЯШ! QD 1 to g Педроб. | *н<Г""}| Все \ Педроб. f Ин». j Коды для однозначного отнесения каждого наблюдения к определенному полу будут автоматически выбраны программой.
520 Глава 13. Непараметрическая статиаика швввштввтшввавш НЕПАРАМ Поперем СТАТИСТ |Грцп 1 1-BOYS Грцп 2 2-GIRLS р*цро» 84 00000 6 000000 3810512 000139 скорр. 3812170 Р-ЦрО». 000138 Выберите опцию Двухвыборочный критерий Колмогорова—Смирнова. Таблицы 2 i 2: хиЛ//е>м. Макиемара, точный Фишера flxflj Наблпдаемые частоты в сравнении с ожидаемыми Корреляции (Слирмеиа, тач Кендалла, гамма) 13 Критерий серий Вальда-Вольеювика El U критерий Маииа-Ыитии '.tiiiiiiiiiiii.iiiiiiiiiiiii.iiiirij.iii.ij.i.iii.ijii.i.ij.iu.i Выберите нужный «•параметрический метод длл исследование вашим {»] ANOVA КраскелаЫоллиса и » Д»3| Критерий знаков (£2 Критерий Вилкоксона 223 AN OVA Фридмана и коикордация Кендалла Q критерий Кокреиа В О л« iM Обычные описательные статистики (медиана, мода...) &а\ Нажмите кнопку Переменные и выберите переменную Пол — Gender как группирующую и переменную Aggressn — как зависимую. ПШЯПЗИвГ" 12 AGGRESSN АЯЯ . GENDER 1ММ*Ш1М*Р^^ JL Во* Л Подроб. || И>н>. 11 Все Г Т Коды для однозначного отнесения каждого наблюдения к определенному полу будут автоматически выбраны программой. tm*kmrp**mt Iboys ИШ %/вГ9Г«ф»*Лй9тшЧт гистогрв>е<а| : <*цг иш »у»цанд лв*о, чтобы еыбрат» ' ■К0йы^с*нжа*ап¥стй*е*ам^^ с?й1аа|
Критерий серий Вальда—Вольфовица 521 Электронная мультимедийная таблица с результатами имеет вид: эперем 1 1-BQYSrPLjn 2 2-GlRLS ЕШЩ .Макс поп., Разн. 833333 PUPO» СраднФв BOYS Среднее GIRLS Ст:откп 80YS Ст. откд GIRtS р< 001 80 75000 26 66667 31 82373 16.99911 г,1 .. .HI Заметьте, что стандартные отклонения в обеих группах не равны (см. шестой и седьмой столбец в таблице результатов) и мы не можем непосредственно применить t-критерий. График по умолчанию для этих тестов — диаграмма размаха. Вы можете построить его двумя способами: нажав кнопку Диаграмма размаха в окне Критерий знаков или щелкнув на таблице результатов правой кнопкой мыши и выбрав затем опцию Диаграмма размаха в меню Быстрые статистические графики. Далее программа попросит выбрать переменные. В этом примере выберите обе переменные. Затем выберите тип графика в окне Диаграмма размаха: (см. ниже). Выберите Медиана/кварт./размах и нажмите ОК. С Ср«*иа»/ст.сш./ст от**, С Сдави—/ет.от*иУ1.9в*(ст.оти,<.| г \ Огытп | Хку1т»иы>тмгь1н<сгри»аа1шцацаг0аг«црадмц»й Ф*мш ■ыбрвссвЛмстр*. имы»« mam** ом» м»ию Трафим*. На диаграмме размаха для каждой переменной показаны: медиана, квартальный размах B5%, 75% процентили), размах (минимум, максимум). Диаграмма размаха по грушам Парам-* AGGRESSN 160 г 140 120 100 Ъ> 80 to I LU [ §60 40 20 0 -20 I I I ° I BOYS GIRLS _П М ии-макс □ 25*75* о Медиана Из графика видно, что мальчики более агрессивны, чем девочки. Для того чтобы увидеть распределение зависимой переменной, разбитой на группы, нажмите кнопку Категоризованная гистограмма.
522 Глава 13. Непараметрическая статистика mir/Hm^'^iviNiM1,1 Категормэоеаммдя гистограмма Перем я AGGRESSN 40 60 80 100 120 140 160 GENDER BOYS 40 60 80 100 120 140 160 GENDER GIRLS ANOVA Краскела—Уоллиса и медианный тест Эти два теста являются непараметрическими альтернативами однофакторного дисперсионного анализа. Мы применяем t-критерий, чтобы сравнить средние значения двух переменных. Если переменных больше двух, то применяется дисперсионный анализ. Английское сокращение дисперсионного анализа — ANOVA (analysis of variation). : <•" Н«дцн»—гричасимв омгмсгмк* С Подо*** Р ^^параметрические статист тклс В а* Таблицы 2x2: хиЛгУ+и, Мак немара, точный Фишера Щх'Ш Наблюдаемые частоты в сравнении с ожидаемыми Корреляции (Спирмена, та) Кеидалла, гамма) |TJ Критерий серий ВальдаВоль+оеида |tj U критерий Манна-иитни g'ij Двчхеыборочиый критерий Колмогорова-Смирнова выбери** нужный н*ларвматр**скмй МвТОАДЯД TWI Д53 критерий знаков B*2 Критерий Вилкоксона (^ ANOVA Фридмана и коикордадия Кендалла !НП Q критерий К охрена О- Д« jjk Обычные описательные статистики (медиана, мода. ) & а | Критерий Краскела—Уоллиса основан на рангах (а не на исходных наблюдениях) и предполагает, что рассматриваемая переменная непрерывна и измерена как минимум в порядковой шкале. Критерий проверяет гипотезу: имеют ли сравниваемые выборки одно и то же распределение или же распределения с одной и той же медианой. Таким образом, интерпретация критерия схожа с интерпретацией параметрической однофакторной ANOVA за исключением того, что этот критерий основан на рангах, а не на средних значениях. Медианный тест — это «грубая» версия критерия Краскела—Уоллиса. STA- TISTICA просто подсчитывает число наблюдений каждой выборки, которые попадают выше или ниже общей медианы выборок, и вычисляет затем значение хи-квадрат для таблицы сопряженности 2 х k.
Критерий серий Вальда—Вольфовица 523 При нулевой гипотезе (все выборки извлечены из популяций с равными медианами) ожидается, что примерно 50% всех наблюдений в каждой выборке попадают выше (или ниже) общей медианы. Медианный тест особенно полезен, когда шкала содержит искусственные границы, и многие наблюдения попадают в ту или иную крайнюю точку (оказываются «вне шкалы»). Пример основан на данных, представленных в книге Hays A981) Statistics Crd ed.) New York: CBS College Publishing, которые содержатся в файле KruskaLsta. Откройте файл данных. Файл содержит результаты исследования маленьких детей, которые случайным образом приписывались к одной из трех экспериментальных групп. Каждому ребенку предлагалась серия парных тестов, например, давались два мяча: красный и зеленый. Далее ребенка просили выбрать зеленый мяч, если он делал правильный выбор, то получал вознаграждение. TEilCwec» choice of receded л Г? ...J FORI FORM FORM FORM FORM COLOR COLOR COLOR COLOR COLOR ИИРИИГ 10 8 14 31 7 9 11 16 ч В первой группе тестом была форма (группа 1-Форма — 1-Form), во второй — цвет (группа 2-Цвет — 2-Color)y в третьей — размер (З-Размер — З-Size) предмета. Зависимая переменная, показанная во втором столбце, — это число испытаний, которые потребовались каждому ребенку, чтобы получить вознаграждение. Задание анализа. После запуска модуля Непараметрические статистики и распределения и выбора файла KruskaLsta выберите опцию ANOVA Краскела—Уолли- са и медианный тест, чтобы открыть диалоговое окно Дисперсионный анализ Крас- кела—Уоллиса и медианный тест. Далее нажмите кнопку Переменные и выберите переменную Conditn как независимую и переменную Perfrmnc — как зависимую. штвшшшпшт 12 PERFRMNC .1 CONDITN тштмшттттшттп №... Г Ht h 8с« 11 П<мро& II Ии+. имен гмромомнфя* 1Г£г | Паяроб. I2 т Ии+. З... ■■■':'•■! Нажмите кнопку Коды и выберите все коды для независимой переменной (нажмите кнопку Все).
524 Глава 13. Непараметрическая статистика т.шииши.инишипиишиу.ишшии, pORM ■ SIZE I Отммм I Диалоговое окно Дисперсионный анализ Краснела—Уоллиса и медианный тест появится на экране: Ж. СОШИТ N ; - ^ - . • Г ■ "Г, :Л Л1:... • • ".'• • Щ JV4 "... Ди|*и1 Результаты. В диалоговом окне нажмите ОК для начала анализа. Результаты ранговой ANOVA Краскела—Уоллиса будут показаны в первой таблице результатов, результаты медианного теста — во второй. НЕПАРАМ Независимая переменная CONDITN СТАТИСТ [критерий К-Ы Н B. N 36) ИЗ 84438 р 0010 Завис: |1И|НГ:;\' %сао шв рент 12 12 12 139 0000 200 0000 3270000 !П Вы видите, что критерий Краскела—Уоллиса высокозначим (р= 0,001). Таким образом, характеристики различных экспериментальных групп значимо отличаются друг от друга. Напомним, что процедура Краскела—Уоллиса, по существу, является дисперсионным анализом, основанным на рангах. Суммы рангов (для каждой группы) показаны в правом столбце таблицы результатов. Наибольшая ранговая сумма (самое худшее выполнение теста) относится к Размеру — Size (это тот параметр, который надо различить, чтобы получить вознаграждение). Наименьшая ранговая сумма (лучшее выполнение) относится к Форме — Form. Медианный критерий также значим, однако в меньшей степени (р = 0,0131).
Критерий серий Вальда—Вольфовица 525 В таблице результатов показано число детей в каждой группе, число попыток которых меньше (или равно) общей медианы, и число наблюдений, лежащих выше общей медианы. И вновь оказывается, что наибольшее число испытуемых с числом попыток (до получения вознаграждения) выше общей медианы относятся к группе Размер — Size. Больше всего испытуемых с числом попыток ниже медианы относятся к группе Форма — Form. Таким образом, медианный тест также подтверждает гипотезу, согласно которой форма предмета наиболее легко различается детьми, тогда как размер различается хуже всего. Графическое представление результатов. График по умолчанию для этих тестов — диаграмма размаха. Его можно построить двумя способами: нажав кнопку Диаграмма размаха в окне Дисперсионный анализ Краснела—Уоллиса и медианный тест или щелкнув на таблице результатов правой кнопкой мыши и выбрав опцию Диаграмма размаха в меню Быстрые статистические графики. Далее программа попросит выбрать переменные для графика. В этом примере выберите обе переменные. Затем выберите тип статистики для графика в окне Диаграмма размаха: (см. ниже). Выберите опцию Медиана/кварт./размах и нажмите ОК. На диаграмме размаха для каждой переменной показаны: медиана, квартальный размах B5%, 75% процентили), размах (минимум, максимум). жз Отмена С fip«m—/ст. о«./ст. от* «у С CftMMe«/CT.oTiui>/1.9ncT.OTiui.) ; С Cp^uhWct.oo./I.SCct.owu ;■ Остальные тип» иастраимгмыи диаграмм раэмакан ; шатается и* шло Грен***. '.- , 34 26 и 22 z 1 Е 10 Диаграмме размаха по группам Перем-я: PERFRMNC ! • о о 1 О FORM COLOR CONDITN SIZE Zll Мим-макс О 25*75* о Медиана
526 Глава 13. Непараметрическая статистика Отчетливо видно, что выполнение теста в группе Форма — Form было лучше любого другого; медиана числа испытаний при этом условии ниже, чем при любом другом. Для того чтобы увидеть распределение зависимой переменной, разбитой на группы, нажмите кнопку Категоризованная гистограмма. Этот график снова подтверждает, что в группе Форма — Form выполнение «лучше» (распределение слегка скошено влево), чем при других условиях. Самое худшее выполнение, как отчетливо видно из графиков, относится к группе Размер — Size. Отсюда также можно заключить, что наиболее легко дети различают Форму — Form. Катвгориэоеамиая гистограмма Перем-я PERFRMNC шк ттуушы 5 10 15 20 25 30 35 О CONDITN FORM 5 10 15 20 25 CONDITN COLOR ттжжшЩ- 10 15 20 25 30 35 CONDITN SIZE Критерий знаков Это непараметрическая альтернатива ^-критерию для зависимых выборок. ЕШ шн BBS (• Hapapti щтршвхкие статистики Г4 Подоим распределения Цепареметрическне статистики: JL_J Таблицы 2x2: хн/V/em. Макиемера. точные Фишера (jjxlj] Наб ломаемые частоты в сравнении с ожидаемыми Корреляции (Спирмена. та* Кеидалла. гамма) IjTJ Критерий серий ВальдаВольеюеида ЦХ8 U критерий Маииа-Уитни Щ Двчхаыборочиый критерий Колмогорова-Смирнова gtj AN OVA Краске ла-Уол лиса и медианный тест 1^3 Критерий Вилкоксона Ig«33 AN OVA Фридмана и конкордадия Кендалла Q критерий Кокрена %**щ *ШЩ$Ш -g^jt» JJL Обычные описательные статистики (медиана, мода...) Критерий применяется в ситуациях, когда исследователь проводит два измерения (например, при разных условиях) одних и тех же субъектов и желает установить наличие или отсутствие различия результатов.
Критерий серий Вальда—Вольфовица 527 Для применения этого критерия требуются очень слабые предположения (например, однозначная определенность медианы для разности значений). Не нужно никаких предположений о природе или форме распределения. Критерий основан на интуитивно ясных соображениях. Подсчитаем количество положительных разностей между значениями переменной (А) и значениями переменной (В). При нулевой гипотезе (отсутствие эффекта обработки) число положительных разностей имеет биномиальное распределение со средним, равным половине объема выборки (положительных разностей будет примерно столько же, сколько отрицательных). Основываясь на биномиальном распределении, можно вычислить критические значения. Для малых объемов выборки п (меньше 20) предпочтительнее использовать значения, табулированные Siegel and Castellan A988) Nonparametric statistics for the behavioral sciences Bnd ed.) New York: McGraw-Hill, чтобы оценить статистическую значимость результатов. Критерий Вилкоксона Критерий Вилкоксона парных сравнений является непараметрической альтернативой ^-критерию для зависимых выборок. ' <•" Недараматричвские статистики С Подгонка распределение' ЦепараНетрические статистики: |§Ш Таблицы 2 х 2: хи/У/е>и. Макиемара. точный Фишера I ЩхЩ Наблюдаемые частоты в сравнении с ожидаемыми ЩЦ Корреляции (Спирмена. тач Кендалла. гамма) [ ШЦ Критерий серий Вальда-Вольч>оеица | ||7| U критерий Манна-Уитни | IHS Двчхвыборочный критерий Колмогорова-Смирнова Щ4$ AN OVA Краскела-Уоллиса и медианный тест 1E5] КритвР** знаков [^jANOVA Фридмана и коикордадия Кендалла J \\\\\\ Q критерий Кохрена \\JA О бычные описательные статистики (медиана, мода.) После выбора опции на экране появится диалоговое окно, в котором можно выбрать переменные из двух списков. Каждая переменная первого списка сравнивается с каждой переменной второго списка. Это то же самое расположение данных, что и в ^-критерии (зависимые выборки) в модуле Основные статистики и таблицы. Предполагается, что рассматриваемые переменные ранжированы. W — статистика Вилкоксона равна сумме рангов элементов второй выборки в общем вариационном ряду двух выборок. Итак, наблюдения двух групп объединяются, строится общий вариационный ряд и вычисляется сумма рангов второй группы в построенном ряде. Требования к критерию Вилкоксона более строгие, чем к критерию знаков. Однако если они удовлетворены, то критерий Вилкоксона имеет большую мощность, чем критерий знаков. В щс 1 ) Ртуу... i выберите нужный мвларамвтрмческий мвтоАдле исследования евшим Ценных. £$ Денные
528 Глава 13. Непараметрическая статистика ANOVA Фридмана и коэффициент конкордации, или согласия, Кендалла AN OVA Фридмана — это непараметрическая альтернатива однофакторному дисперсионному анализу с повторными измерениями. Коэффициент конкордации (согласия) Кендалла — аналог R Спирмена (непараметрический коэффициент корреляции между двумя переменными), когда число переменных больше двух. пяштшшяю 1МТА1ЮГ41 тшп 2.000 1.000 2.000 2.000 1Л00 3000 3000 злоо 4Л00 1Л00 SjOOO 6.000 SjOOO 1.000 4.000 3000 SjOOO 1.000 4.000 2000 6 000 6000 2000 4.000 4000 злоо 4000 4000 В следующем файле приведены рейтинги, выставленные пятью каталогам программ независимыми экспертами. Экспертов просили учесть информативность издания, привлекательность, качество рекламы. Анализ преследовал следующие цели: 1. Определить, можно ли на основании оценок экспертов сделать вывод о значимых различиях между каталогами. Этот вопрос может быть решен с помощью рангового дисперсионного анализа (ANOVA) Фридмана. 2. Можно ли доверять экспертам? Иными словами, согласованы их оценки или нет (зависимы или нет эксперты)? Если нет, то вы, очевидно, не можете доверять их оценкам. Гипотезу о том, что эксперты согласованы в большей степени, чем можно было бы ожидать из-за чисто случайных совпадений их мнений, можно проверить с помощью коэффициента конкордации Кендалла. Задание анализа. После запуска модуля Непараметрические статистики и распределения и выбора файла cataloge.sta выберите опцию ANOVA Фридмана и кон- кордация Кендалла. I KAIAfllll i 4 КЛ1Л1НИ4 •• КЛ1ЛШП '. Wto4*H«Mt*4MWr '4^%ik:tf\ <У^>Ъ* v<g-$ ^ х»зд($ -^"H fl«»*rl 4fr».
Критерий серий Вальда—Вольфовица 529 Теперь нажмите ОК, таблица с результатами появится на экране. Можно отметить, что между каталогами имеются высокозначимые различия. Дополнительно также видно, что эксперты, выставившие оценки, согласованы друг с другом — кон- кордация Кендалла равна 0,57 (среднее ранговых корреляций равно 0,53). График по умолчанию для этих таблиц результатов — диаграмма размаха. Его можно построить двумя способами: нажав кнопку Диаграмма размаха в окне Ранговый дисперсионный анализ Фридмана или щелкнув на таблице результатов правой кнопкой мыши и выбрав опцию Диаграмма размаха в меню Быстрые статистические графики. Далее программа попросит выбрать переменные для графика. В этом примере выберите все 20 переменных. Затем выберите тип статистики для графика в окне Диаграмма размаха: (см. ниже). Выберите опцию Медиана/кварт./размах и нажмите ОК. КАТАЛОП КАТАЛОГЭ КАТАЛОГ5 С=^ 26%-7S% КАТАЛОГ2 КАТАЛ0Г4 ° М«ди*м* Q-критерий Кохрена Q-критерий Кохрена — это развитие критерия оси -квадрата Макнемара. Критерий проверяет, значимо или нет различаются между собой несколько сравниваемых переменных, принимающих значения 0-1. После выбора опции Q-критерий Кохрена в стартовой панели программа предложит определить список переменных и коды, идентифицирующие две категории или два уровня факторов. Реализация критерия в системе STATISTIC А предполагает, что переменные закодированы как единицы и нули, и коды, определенные пользователем, соответственно преобразуются в эти значения (только для данного анализа, сам по себе файл не будет изменен)
530 Глава 13. Непараметрическая статистика В Переменные:) ВСЕ Код 1 (перевод, m 0|: |0 Щ Ко* 2 (переломе I* |1 Щ ШШШШШШШШШ^! -"\т Ш1 Г | Отмена | SS ill All: Описательные статистики Выбор этой опции позволяет вычислить разнообразные описательные статистики: медиана, процентили, квартили, размах, квартальный размах, а также среднее, гармоническое среднее, геометрическое среднее, стандартное отклонение, асимметрия, эксцесс, дисперсия, гармоническое среднее, сумма. Пользователь может также вычислить заданные процентили. Эти опции дополняют опции основных статистик. l-ieMMFMP^^^™ ЕД Деремемиые: J TIME Границы для процеитмаея: Нмдрюя: |25 Ввр*ж*д: |75 5*0) Диаграмма размаха! ННИПТх] 1_И._._Ш_1- g | Отмена ] £!;ы|да| Дополнительно стандартные описательные статистики (минимум, максимум, среднее, число наблюдений), а также описанные ниже статистики вычисляются для каждой переменной. ШОписат статистики (dodxon25 sta) НЕПАРАМ СТАТИСТ IUJ [ среднее 148 4550 N | 20 ^В деОписот. статистики (dodson25.sta) НЕПАРАМ СТАТИСТ ы Медиан; геометр среднее 136 7968 а гармон. среднее 1231392 медиана 1501000 ст.откл 5617363 мода нет моды дислерс. 3155 476 I кол-во мод среднее откл. 4538950 миним. 42 10000 JLi v; >г HRDI размах 216 7000 ► ^j г Медиана разбивает выборку на две равные части. Пятьдесят процентов наблюдений лежит ниже медианы, пятьдесят процентов — выше медианы. Если значение медианы существенно отличается от среднего, то распределение скошено (более подробно см. главу Элементарные понятия). Мода Мода — это максимально часто встречающееся значение в выборке. Частота встречаемости также отображается. Если имеется несколько значений с максимальной частотой, то распределение мультимодально. Если каждое значение встречается
Критерий серий Вальда—Вольфовица 531 лишь одни раз, программа делает запись: моды нет (см. электронную таблицу с результатами). Геометрическое среднее Геометрическое среднее — это произведение всех значений переменной, возведенное в степень 1/п (единица, деленная на число наблюдений). Геометрическое среднее полезно, например, если шкала измерений нелинейная. Пусть наблюдается переменная X, принимающая только положительные значения. Тогда геометрическое среднее вычисляется как G(X) = (f[Xi )"\ 1=1 Гармоническое среднее Пусть наблюдается переменная X, имеющая отличные от 0 значения. Тогда гармоническое среднее вычисляется как H(X) = l/(l/nJl/X,). /=1 Гармоническое среднее меньше геометрического среднего, которое, в свою очередь, меньше среднего арифметического. Гармоническое среднее иногда используется для усреднения частот. Дисперсия и стандартное отклонение Выборочная дисперсия и стандартное отклонение — наиболее часто используемые меры изменчивости (вариации) данных. Дисперсия вычисляется как сумма квадратов отклонений значений переменной от выборочного среднего, деленная нап-1 (но не на п). Стандартное отклонение вычисляется как корень квадратный из оценки дисперсии. Размах Размах переменной является показателем изменчивости, вычисляется как максимум минус минимум. Квартильный размах Квартальный размах, по определению, равен: верхняя квартиль минус нижняя квартиль G5% процентиль минус 25% процентиль). Так как 75% процентиль (верхняя квартиль) — это значение, слева от которого находятся 75% наблюдений, а 25% процентиль (нижняя квартиль) — это значение, слева от которого находится 25% наблюдений, то квартильный размах представляет собой интервал вокруг медианы, который содержит 50% наблюдений (значений переменной).
532 Глава 13. Непараметрическая статистика Асимметрия Асимметрия связана с третьим моментом и определяется формулой (см. также главу 2): -Е(Х,-ХK е - п% 61 3 • -Е(х,-хJ Эксцесс Эксцесс — это характеристика формы распределения, а именно мера остроты его пика (относительно нормального распределения, эксцесс которого равен 0). Как правило, распределения с более острым пиком, чем у нормального, имеют положительный эксцесс; распределения, пик которых менее острый, чем пик нормального распределения, имеют отрицательный эксцесс. Эксцесс связан с четвертым моментом и определяется формулой (см. также главу 2): 1 Ь2 = -£(Х,-ХL _ п — iJ(X,-XJ -а -3, гдеХ = -УХ,..
Анализ выживаемости Введение в анализ выживаемости Методы анализа выживаемости интенсивно применяются в медицине, биологии, страховании и промышленности. Одной из важных характеристик, описывающих течение болезни, является продолжительность жизни пациентов с момента поступления в клинику или после проведения операции. В принципе, для описания средних времен жизни и сравнения новой методики со старой можно использовать стандартные статистические методы. Однако рассматриваемые данные имеют специфику, которую следует учитывать. Дело в том, что в медицинской практике мы часто имеем дело с неполными данными. Это связано с тем, что трудно наблюдать все время жизни пациента после операции, так как пациент мог быть выписан или переведен в другую клинику и связь с ним была утеряна. При этом мы располагаем не полной информацией о времени жизни пациента, а лишь частичной. Естественное желание исследователя использовать все данные, то есть анализировать как полные времена жизни, так и неполные, и не терять с трудом собранную информацию. Для этого и предназначены методы анализа выживаемости, которые позволяют изучать неполные, или цензурированные, данные. Наблюдения, которые содержат неполную информацию, называются неполными, или цензурированными (например, «пациент А был жив по крайней мере 4 месяца после того, как был переведен в другую клинику и контакт с ним был потерян»). Это пример цензурированного наблюдения: информация о том, что пациент был жив 4 месяца, важна и может быть использована для построения оценок. Наблюдения от момента операции до летального исхода называются полными. Итак, в анализе выживаемости различают полные (по-английски complete) и неполные, или цензурированные, наблюдения (по-английски censored). Конечно, можно было использовать только полные времена жизни, но тогда мы имели бы в своем распоряжении очень мало наблюдений и соответственно неточные оценки. Использование, наряду с полными наблюдениями, неполных, или цензуриро- ванных, наблюдений является главной особенностью методов анализа выживаемости. 14
534 Глава 14. Анализ выживаемости Таблицы времен жизни Прежде всего, постараемся оценить вероятность того, что пациент прожил больше t дней после операции. Это важный показатель, называемый функцией выживания. Наиболее естественный способ описания функции выживаемости состоит в построении Таблиц времен жизни. Это один из старейших приемов анализа данных о выживаемости и традиционно используется, например, в страховании, где такие таблицы называются таблицами дожития. I ш'н-ш'шшш и*1-1 ■'■"■'•|J|J|J! \[£^_ Метол множительных оценок. Капяанд-Меиера JTJ Сравнение двух выборок IjfJJj Сравнение нескольких выборок |Л._ Регрессионные модели В ц* 1 | Отмена } 0 Данные! S£ujdft| Организация данных Исходный файл данных имеет вид: HEART STA 11п'Б5н Heart transplant data from Crowley and Hu. stratified ДИ iamiiarvI >AYlYEARJ 6 MAY 2 AUGUST 31 AUGUST 22 EPTEMBR 9 OCTOBER 5 OCTOBER 26 NOVEMBER 22 NOVEMBER 20 pEBRUARY 15 FEBRUARY 8 MARCH 29 APRIL 13 JULY 16 MAY 22 AUGUST 16 3EPTEMBR 3 MONTHS |DAY|YEAFC2 ^ENSOREDAGE 9 ANT! 10 IMISMA 11 HOSPITAL 68 JANUARY 21 68 MAY 5 68 MAY 17 68 OCTOBER 7 68 JANUARY 14 68 DECEMBER 8 68 JULY 7 68 AUGUST 29 68 DECEMBER 13 69 rEBRUARY 25 69 NOVEMBER 29 69 MAY 7 69 APRIL 13 69 NOVEMBER 29 69 APRIL 1 69 AUGUST 17 69 DECEMBER 18 68:ENSORED 54 68:ENSORED 40 70 COMPLETE 51 68 COMPLETE A? 69:ENSORED AS 68 COMPLETE 72COMPLETE 69 COMPLETE 68:ENSORED 69 COMPLETE 71 COMPLETE 69 COMPLETE 71 COMPLETE 69 COMPLETE 74:ENSORED 69:ensored 71 complete 1 11 1 66 1.32 61 36 1 89 87 1 12 2 05 2 76 1 13 1 38 96 1 62 1 06 A7 1 58 HILLVIEW j HILLVIEW | HILLVIEW j ST_AND ; ST_AND ST_AND ! BINER : BINER » HILLVIEW ; HILLVIEW ' BINER ' HILLVIEW ' ST_AND t ST.AMD ' ST_AND ; BINER | BINERrj 4 Организация файла следующая. Пациенты располагаются в строках. В столбцах записаны даты операции и даты завершения пребывания в больнице. Например, из первой строки видно, что пациенту была сделана операция 6 января 1968 (первые три клетки), выписался 21 января 1968 года (вторая тройка клеток). Далее связь с ним была утеряна, таким образом, это неполное наблюдение (значение переменной номер 7 — censored). Восьмая переменная A GE содержит возраст пациентов. Переменные 9, 10 содержат специальную медицинскую информацию об особенностях операции.
Введение в анализ выживаемости 535 Значение переменной 11 — название госпиталя, где сделана операция. Ниже показана таблица жизни для этого файла данных. АНАЛИЗ ВЫЖИВ Интервал Инт. N2 Иит.ЫЗ Инт. N4 Инт. N5 Инт N6 Hht.N? Инт. N8 Инт. N9 Инг. N10 Инт. N11 Hht.NU 111 . J"J'I J'L'!"ll,'.Mlf Логарифм правдоподобия Средня* точка 80 682 242 045 403 409 564 773 726136 887 500 1048 864 1210227 1371 591 1532 955 1694 318 1 Интервал ширина 161 3636 161 3636 161 3636 161 3636 161 3636 161 3636 161 3636 161 3636 161 3636 1613636 161 3636 68 6809 Число в начал* 65 32 24 20 15 13 9 6 5 3 1 1 Число 14 4 4 4 1 3 1 1 1 2 0 1 Число иэучави. 58 00000 30 00000 22 00000 18 00000 14 50000 11.50000 8 50000 5 50000 4 50000 2 00000 1 00000 .50000 Число умерших 19 4 0 1 1 1 2 0 1 0 0 0 ■HLi£l£j Доля уперших ■■■■ 327586 133333 022727 055556 068966 086957 235294 090909 222222 250000 500000 1 000000 » ...!.Г Конечно, подобную таблицу жизни можно рассматривать как «расширенную» таблицу частот. Однако обычная таблица частот строится по полным наблюдениям. В таблице жизни учтены как полные, так и неполные наблюдения. Идея таблиц жизни, или дожития, в терминологии страхования, проста. Нам нужно вычислить простейшие статистики, чтобы описать время выживания пациентов. Для этого временная ось разбивается на некоторое число интервалов. В приведенной выше таблице это число равно 12. В системе STATISTICA количество интервалов на временной оси пользователь может выбрать по своему усмотрению. Для каждого интервала вычисляется число объектов, которые в начале рассматриваемого интервала были «живы» (см. соответствующий столбец в электронной таблице — переменная ЧИСЛО В НАЧАЛЕ), и число объектов, которые «умерли» в данном интервале (переменная ЧИСЛО УМЕРШИХ). Также вычисляется число цензурированных или изъятых из наблюдения объектов на каждом интервале — переменная ЧИСЛО ИЗЪЯТЫХ (в таблицах жизни употребляют термин изъятые — withdrawn для цензурированных наблюдений, в данном примере это выписанные больные). Вычисляются доли этих объектов. Для понимания таблиц полезно помнить, что на данном временном интервале наблюдение может быть либо цензурировано (больной выписан или переведен в другую клинику), либо наблюдается фатальный исход. Рассмотрим более формально переменные в электронной таблице жизни. Число в начале Это число объектов, которые были «живы» в начале рассматриваемого временного интервала. Число изъятых Это число цензурированных на данном интервале объектов (объектов, изъятых из наблюдения). Эти объекты имеют метку цензурированые {censored).
536 Глава 14. Анализ выживаемости Число изучаемых Это число объектов, которые были «живы» в начале рассматриваемого временного интервала, минус половина от числа изъятых. Число умерших Это число объектов, умерших на данном интервале. Умершие или отказавшие объекты обычно имеют метку complete. Доля умерших Эта отношение числа объектов, умерших в соответствующем интервале, к числу объектов, изучаемых на этом интервале. Прокрутим электронную таблицу вправо и рассмотрим оставшиеся переменные таблицы. P^lFnWWW АНАЛИЗ ВЫЖИВ Интервал Имт N2 Имг.Ю * Инт.Ж Инг. N5 Инт N5 Инт.Ы? Имт.Ыв Иит.Ы9 Инг N10 Инт.ЫИ Икг.Ми W рмярмяи Логарифм правдоподобия: ;.::.-.Л)яй.^.- : выжиеш 672414 866667 977273 944444 931035 913043 764706 909091 777778 750000 500000 0 000000 9МЖИ8Ш/ 1 000000 672414 582759 569514 537874 500780 457234 349649 317863 247227 185420 092710 ■68 6809 :':' ПЛОТ; ввролти. 002030 000556 000082 000196 000230 000270 000667 000197 .000438 000383 000575 : Ийтанс. отказов 002428 000885 000142 .000354 .000443 000563 001653 000590 001549 001771 004131 Стдош. кумвыяс 0 000000 061626 067780 068779 071868 075883 080819 090803 093012 095468 104196 106345 Стдош. плоттер 000382 000264 000115 .000192 000224 000261 000429 000270 000407 000492 000659 ■шшгПпТ /.-.СТАОШ,-Г;:'; ИнтОткез 000546 000442 i ■ i \ 000201 { 000354 1 000442 1 000563 ! 001158 \ 000834 : 001537 ; 002478 ■ 005509 i - *i » n Доля выживших Эта доля равна единице минус доля умерших. Кумулятивная доля выживших объектов, или функция выживания Это — оценка функции выживания, то есть вероятность того, что пациент переживет данный интервал. Она равна произведению долей выживших объектов по всем предыдущим интервалам. Если посмотреть на столбец КУМ.ДОЛЯ ВЫЖИВП1. приведенной выше таблицы, то можно увидеть, например, что 0,582759 = 0,672414 х 0,866667, 0,569514 = 0,582759 х 0,977273 и т. д. Плотность вероятности Это плотность вероятности смерти на данном интервале, когда из функции выживания на данном интервале вычитается функция выживания на следующем интервале и делится на длину интервала, показанную во втором столбце таблицы. Например, A - 0,672414)/161,3636 = 0,00203. На графике оценки плотности видно, что вероятность смерти в первые 160 дней после операции максимальна. Далее она резко падает. Большие вероятности смерти расположены также в интервалах от 161 до 322, от 968 до 1129 и др.
Введение в анализ выживаемости 537 Оценю* плотное ти вероятности 322.73 645.45 968.18 1290.9 1613.6 1936.4 161.36 484.09 806.82 1129.5 1452.3 1775.0 2097.7 Начамтермла Ш2 НаОлюд. Вес1 Вес 2 ВесЗ Функция риска Это также одна из важных характеристик, описывающих течение болезни. Функция мгновенного риска является важной прогностической характеристикой, описывающей течение болезни. В анализе выживаемости риск имеет точное определение. Формально функция риска равна вероятности того, что пациент умрет в данном интервале, при условии, что в начале интервала был он жив. Ь11'Д|,Л111ШП11111||1ШМ11'И1|1 Оцепе!»»* риск после операции 0.005 г Наблюд. Вес1 Вес 2 ВесЗ График функции риска достаточно наглядно показывает, что в первые дни риск смерти очень велик, затем он падает и спустя некоторое время вновь начинает возрастать. Заметим, что именно функция риска используется для прогностических целей. Позвольте сделать отступление. Одним из лейтмотивов нашей книги является непредвзятость и критическое отношение к полученным результатам. Такая критичность особенно важна в медицине. Мы доверяем результатам, полученным с помощью компьютера, однако всесторонне их проверяем. Итак, нас интересует функция риска, однако реально мы получаем лишь оценку риска. Поэтому важна точность полученных оценок. Из простых соображений следует, что мы не доверяем оценкам с большой погрешностью. Например, мы не будем доверять оценкам, погрешность которых имеет тот же порядок, что и сами оценки. Поэтому внимательно просмотрите построенную таблицу и выбросите из нее плохие оценки (оценки с большой погрешностью). Это чрезвычайно важный принцип анализа данных!
538 Глава 14. Анализ выживаемости Известно, что для получения надежных оценок параметров и ошибок в таблицах жизни требуется как минимум 30 наблюдений. 1- "■'■"""■'"! АНАЛИЗ ВЫЖИВ Интервал Инт. N1 Инт. N2 Инт. N3 Инт. N4 Инт. N5 Инт. N6 Инт. N7 Инт. N8 цщуцщцц Инт. N10 Инт. N11 Инг. N12 ш тшшшшш Погарифм правдоподобия ППОТ :: •вро»гн. 002030 000556 000082 000196 000230 000270 000667 000197 000438 000383 000575 Интвмс ОТКвЭО» 002428 000885 000142 000354 000443 .000563 001653 000590 .001549 001771 004131 -68 6809 0 000000 061626 067780 068779 071868 075883 080819 090803 | 093012 | 095468 104196 106345 Стдош плот.мр 000382 000264 000115 000192 000224 000261 000429 000270 000407 000492 000659 Стдош. ИитОткаэ 000546 000442 000201 000354 000442 000563 001158 000834 001537 002478 005509 Медиана ожервм 809 707 1036 422 1028 682 882 446 757 222 638 229 532 677 502 532 368 831 268 939 80 682 ■ИНоМ Стдош. | 243 2836 311 6103 141 9141 153 3263 161 3412 168 6732 204 7241 129 7479 130 4015 1521351 161 3636 - . 1> Взгляните на таблицу. Заметьте, в ней наряду с оценками приведены стандартные ошибки полученных оценок. Медиана ожидаемого времени жизни По определению, медиана равна моменту времени, в котором функция выживания становится равной Vi. Например, из первой строчки таблицы вы видите, что пациент с вероятностью 1Л будет жить 809 дней после операции. Если пациент пережил первый временной интервал A61 день после операции), то с вероятностью !4 он проживет еще 1036 дней (см. вторую строчку таблицы) и т. д. В общем случае таблица времен жизни дает хорошее представление о распределении отказов или смертей, если наблюдений достаточно много. Однако для прогноза часто необходимо знать форму функции выживания. Для этой цели используются различные семейства распределений. Наиболее важны следующие семейства распределений: экспоненциальное, Вей- булла и распределение Гомперца. Эти распределения имеют неизвестные параметры, которые программа оценивает. Процедура оценивания параметров основана на методе наименьших квадратов. Для проведения оценивания применима модель линейной регрессии, поскольку все перечисленные семейства распределений могут быть «сведены к линейным» (относительно параметров) с помрщью подходящих преобразований. Такие преобразования приводят иногда к тому, что дисперсия остатков зависит от интервалов (то есть дисперсия различна на разных интервалах). Чтобы учесть это, в алгоритмах подгонки дополнительно используются оценки взвешенных наименьших квадратов двух типов. Оценки Каплана—Мейера Напомним, что одна из задач анализа выживаемости состоит в том, чтобы оценить функцию выживания S(t), то есть вероятность того, что пациент проживет больше t дней после операции. Формально S(t) e Р{х > t}, где х — случайная величина,
Оценки Каплана—Мейера 539 описывающая время жизни после операции. Заметьте, что функция выживания является убывающей функцией, равной 1 при £=0, и обращающейся в 0 при больших значениях L Если все наблюдения являются полными, то оценка S(t) строится легко: мы просто подсчитываем количество пациентов, проживших t дней после операции, и делим их на общее число пациентов. Наличие неполных наблюдений усложняет ситуацию. Оказывается, что для цензурированных наблюдений функцию выживания можно оценить непосредственно, не используя таблицу времен жизни. Такой метод впервые предложили Каплан и Мейер в 1958 году. I Wil'II^HIIIIHIIIIf'lHIIITI'I'I'.l. ijj§ Таблицы и распределения времен жизни ЕЕ1 nit I..U.I.I4.Hl.lJ.II!IIH.IIIJII.!IAI.I,|llH..IJ.U.Il:fi: Щ§ Сравнение двух выборок ftjj Сравнение нескольких выборок [/^ Регрессионные модели Отмене £? Данные [uj£>a[ Представьте, что вы имеете файл, в котором записаны в хронологическом порядке отдельные события. Тогда имеет место следующая оценка функции выживания: S(t) = Yl[(n-j)/(n-j+iy^] В этом выражении S(t) — оценка функции выживания, п — общее число событий (объем выборки), j — порядковый (хронологически) номер отдельного события, S(j) равно У, если j-e событие означает отказ (смерть), и 8(j) равно 0, если j-e событие означает потерю наблюдения (индикатор цензурирования), Я означает произведение по всем наблюдениям j, завершившимся к моменту L Данная оценка функции выживания состоит из произведения нескольких сомножителей, поэтому она также называется множительной оценкой. Рассмотрим тот же файл данных, что и для таблиц времен жизни. Оценка Каплана—Мейера функции выживания, построенная по этим данным, показана в следующей таблице: N№111 АНАЛИЗ ВЫЖИВ. Номер чт-штушт (Замечание: цензурированные наблюдения отмечены - 1-lDlxJI Набл. Г~''3Г"''~ 16+ 65+ 2* 10 46+ 64* Н 9+ 42 58+ 49 69* 12 26+ hi I Времена I оооо | 1.000 1.000 3.000 10.000 12.000 13.000 15.000 23.000 25.000 26.000 29.000 30.000 39.000 44.000 Кумул. Времен» Станд. Ошибка .983607 .966042 .948152 .929919 .016259 .023622 .029183 .033842 >г!
540 Глава 14. Анализ выживаемости Из таблицы видно, например, что вероятность того, что пациент проживет больше 25 дней, равна 0,966, вероятность того, что пациент проживет больше 39 дней, равна 0,9299 и т. д. В первом столбце таблицы показаны номера наблюдений, для которых в данный момент времени произошло некоторое событие, знак + означает, что пациент цензурирован (был выписан). Прокрутите электронную таблицу с результатами вниз по временной оси: АНАЛИЗ ВЫЖИВ. Номер Набл. 64+ 61* 60+ 47+ 37+ 43+ 44+ 3 41+ 13 36+ 17 34+ 32+ 27 11 2А+ ^вшшшшвшшшшшшшшшшшшшшшшшьш Замечание: цензурирование наблюдения отмечены ♦ Времена 389.000 439.000 466.000 499.000 661.000 689.000 692.000 624.000 660.000 730.000 816.000 836.000 838.000 876.000 994.000 1024.000 1106.000 Времена .619290 .482198 .442016 .392902 .343789 ;",>•' Спид.", г';,- Ошибка - - i I I - ~ - .074004 J - .077468 ! - .080766 .! -* .086422 .087734 * ?! Обратите внимание на ошибки оценок. Стандартная ошибка функция выживания достаточно мала (сравните с ошибками для таблиц времен жизни). Ниже показан график функции выживания. Отметим, что для удобства интерпретации на графике полные наблюдения помечены точками, неполные наблюдения отмечены крестиками. Преимущество метода Каплана—Мейера (по сравнению с методом таблиц жизни) состоит в том, что оценки не зависят от разбиения времен жизни на интервалы. Таким образом, нам не нужно разбивать временную ось на интервалы. Оценки Каплана—Мейера строятся в STATISTICA одним щелчком мыши.
Сравнение выживаемости в группах 541 Сравнение выживаемости в группах Интересно сравнить времена жизни пациентов в различных группах, например, в группах мужчины и женщины. В STATISTIC А имеются специальные процедуры для сравнения выживаемости в группах. Если количество групп — две, то используется диалог Сравнение двух выборок. BE штшщшшшшяш \г^_ Мета« множительных оценок Кеплеие-МеАера MlllllfllHII Г к нескольких llu- Если количество групп больше двух, то используется диалог Сравнение нескольких выборок. Wli irrifl ['ШЫШШМшШ I Т аблиды и распределения времен жизни сд '-: ДИ [[/£_ Метод множительным оценок Каплаие-М онере |3 Сравнение двф выборок Для сравнения выживаемости в группах имеется несколько критериев: вариант известного непараметрического критерия Вилкоксона, предложенный для неполных наблюдений Геханом и Пето, а также F-критерий Кокса и логарифмический ранговый критерий. Большинство этих критериев приводят соответствующие z-значения (нормального приближения), которые могут быть использованы для статистической проверки различий между группами. Однако критерии дают надежные результаты лишь при достаточно больших объемах выборок. При малых объемах выборок эти критерии не столь надежны. В любом случае всегда полезны визуальные методы. ИЕППГЕ НИИ,"!!"'llilMSEES Кумулятивная доля выживших (по Каплану-Мейеру) о Завершен ♦ Ценэурир 1.0 J 3 0.9j <о | * 0. 8 Ь ■ °'7 §> 0.6 t « I 2 0.5 (О 8 0-4 £ ° 3 0.2 *■ :.ч ... d. t . i- О- : i ... ° . "•" . . ;. &~ + 0 400 800 1200 1600 2000 200 600 1000 1400 1800 Время HILLVIEW ST_AND BINER
542 Глава 14. Анализ выживаемости Эти графики позволяют увидеть различие между группами. Кроме этого STATISTICA содержит программу на STATISTICA BASIC (файл Manthaen.stb), вычисляющую критерий Ментела-Хенцела для сравнения двух групп данных (см. Lee E. Т. A992) Statistical methods for survival data analysis). Этот критерий может быть полезен во многих клинических и эпидемиологических работах для того, чтобы контролировать эффект смешивающих переменных. Критерий основан на анализе таблиц 2x2 (например, Группировка 1/2 и Выживаемость) , стратифицированных или расслоенных с помощью категориальной переменной (смешанной переменной; например, Положением). Критерий позволяет проверить, являются две переменные в таблицах 2x2, например, переменные Группировка и Выживаемость, зависимыми или нет. Не существует твердо установленных рекомендаций по применению определенных критериев. Известно, что F-критерий Кокса обычно мощнее, чем критерий Вилкоксона— Гехана, если: О данных мало (объем группы п меньше 50); О выборки извлекаются из экспоненциального распределения или распределения Вейбулла; О нет цензурированных наблюдений. В работе Lee, Desu, and Gehan A975) A Monte-Carlo study of the power of some two-sample tests, Biometrika, 62, p. 425-532, критерий Гехана сравнивался с некоторыми другими критериями. Показано, например, что критерий Кокса—Ментела и логарифмический ранговый критерий являются более мощными, если выборки имеют определенное распределение, например, экспоненциальное или Вейбулла. При этих условиях между критерием Кокса—Ментела и логарифмическим ранговым критерием почти нет различия. В работе Ли (Lee E. Т. A980) Statistical methods for survival data analysis. Belmont, CA: Lifitime Learning) обсуждается мощность различных критериев более детально. Если вас затрудняет выбор определенного критерия, рекомендуем обратиться к этим работам. Если сравниваются две или более группы, важно проверить доли цензурированных наблюдений в каждой. В частности, в медицинских исследованиях степень цензурирования может зависеть, например, от различий в методике лечения: пациенты, которым стало много лучше или стало хуже, с большой вероятностью теряются из наблюдения. Различие в степени цензурирования может привести к смещению в статистических выводах. Это очень важный момент. Чтобы подогнать результат, недобросовестный исследователь может искусственно исключить из исследования тяжелых больных. Поэтому при проведении сравнения различных методик нужно руководствоваться здравым смыслом. Ясно, что если в одной группе доля цензурированных наблюдений существенно больше, чем в другой, нужно принять естественные меры предосторожности, по крайней мере, точно указать проблему.
Регрессионные модели в анализе выживаемости 543 Регрессионные модели в анализе выживаемости В предыдущих разделах мы кратко обсуждали задачу оценивания функции выживания на основе реальных данных. Более трудной задачей является оценка функции мгновенного риска, которая представляет собой вероятность летального исхода в малый промежуток времени при условии, что в начале исследуемого промежутка пациент был жив. Это важная характеристика прогноза развития болезни. Непосредственная оценка функции мгновенного риска может потребовать большого количества наблюдений, поэтому применяются специальные модели, одна из которых — это модель Кокса пропорциональных рисков, или, на языке теории надежности, пропорциональных интенсивностей. Большая проблема медицинских и биологических исследований состоит в выяснении того, являются ли некоторые переменные связанными с наблюдаемыми временами жизни. Если зависимость есть, то ее нужно оценить численно. I «11-14IIfизШ^Д^^И^1Ш jifffi Таблицы и распределения времен жизни ЕЕ5 QK | \\idL Иет°* миожительнык оценок Каллана-Мейера | (Ь-цицд 1 I !(Ш) Сравнение двух выборок . |1*$ Сравнение нескольких выборок ,!^,n,ffi?mltl??-J 1 ШВВПв^Н ss*J ©jy Существуют две главные причины, по которым в таких исследованиях нельзя непосредственно использовать классическую регрессию. Во-первых, времена жизни обычно не являются простыми линейными функциями от соответствующих' ре- грессоров, поэтому анализ методами множественной регрессии может привести к ошибочным выводам, например, не позволит обнаружить важных регрессоров. Во-вторых, вновь возникает проблема неполных наблюдений, так как некоторые наблюдения могут быть незавершенными. Анализ выживаемости предлагает пять общих регрессионных моделей для неполных данных: 1) модель пропорциональных интенсивностей Кокса (Сох A972) Regression models and life tables, Journal of the Royal Statistical Sociaty, 34, p. 187-220); 2) модель Кокса с зависящими от времени ковариатами; 3) экспоненциальную регрессионную модель (см. книги Prentice A973) Exponential survivals with censoring and explanatory variables, Biometrika, 60, p. 279-288); 4) нормальную линейную регрессионную модель (см., например, Wolynetz A979) Maximum likelihood estimation in a linear model from confined and censored normal data, Applied Statistics, 28, p. 185-206); 5) логнормальную линейную регрессионную модель (являющуюся модификацией нормальной модели). Для каждой из этих моделей STATISTICA позволяет вычислить оценки максимального правдоподобия (Maximum likelihood estimations).
544 Глава 14. Анализ выживаемости Модель Кокса Модель пропорциональных интенсивностей, или пропорциональных рисков, Кокса — наиболее общая регрессионная модель, в которой предполагается, что функция интенсивности имеет вид: h(t) - h0(t) y(zv...,zm). Множитель h0(t) называется базовой функцией интенсивности. Модель может быть параметризована, например, в виде: h[(t),(zv z2,..., zj] - hQ(t) x exp(bi x zx +...+ bm x zm) Заметьте, в правой части стоит произведение двух функций, причем каждая из них зависит от своего множества переменных. Функция интенсивности h0(t) может рассматриваться как функция интенсивности при равенстве нулю всех ковариат. Она не зависит от переменных z (называемых ковариатами). Второй сомножитель зависит от переменных z, которые, возможно, зависят от t. Приведем пример такой модели. Пусть изучается воздействие некоторого препарата на состояние больного, a z — категориальная переменная со значениями 1 для больных, принимавших новое лекарство, и 0 — для больных, не принимавших это лекарство. Тогда функцию риска можно записать в виде: h(t,z) - h0(t) x exp{b{xz+b2x [z x log(£)-100]} Обратите внимание, что функция интенсивности в момент t (левая часть формулы) есть функция: 1) функции интенсивности hQt 2) ковариаты z и 3) z, умноженной на логарифм времени. Умножение ковариаты z на логарифм времени позволяет учесть, например, фактор времени при приеме нового лекарства. Константа 100 в этом примере использована просто как нормировка, так как среднее логарифма времени жизни для этого множества данных равно 100. Зная оценки параметров Ц,Ь2 и функцию интенсивности h0, можно оценить функцию мгновенного риска через время t после операции. Самое замечательное, что такие модели позволяют учитывать интуицию медицинских исследователей. Построение и оценка адекватности модели в конкретных исследованиях — отдельная нетривиальная задача. Другой пример, h(t,s,x)- риск коронарной смерти для пациента возраста t лет при условии, что в возрасте s его систолическое артериальное давление было х (см. Meshalkin L. D., Kagan А. В. A972) A contribution to the discussion upon the paper «Regression models and life tables» by D. R. Cox, J. R. Statist. Soc. Ser. B, № 2). Итак, функция мгновенного риска в модели Кокса представлена в виде произведения двух сомножителей, один из которых характеризует объект, другой — базовую функцию мгновенного риска. Предикторы определяются постановкой задачи, например, пол пациента, возраст, наличие определенных сопутствующих заболеваний или прием нового лекарства. Выбор предикторов определяется интуицией исследователя. Врач может попытаться предсказать на основе определенного набора предикторов степень риска на ближайшие несколько дней. Имея прогноз, он может изменить методику лечения.
Регрессионные модели в анализе выживаемости 545 Займемся некоторой математической кухней. Модель Кокса можно линеаризовать, поделив обе части соотношения на h0(t) и взяв натуральный логарифм от обеих частей: \og{h[(t)Xz...)]/h0(t)} = b{xz{ +...+ bmx zm Таким образом, мы получили линейную модель. Итак, еще раз отметим, в основе модели Кокса лежат два предположения. Во- первых, зависимость между функцией интенсивности и логлинейной функцией ковариат является мультипликативной. Это предположение называется гипотезой пропорциональности. Реально оно означает, что для двух заданных наблюдений с различными значениями независимых переменных отношение их функций интенсивности не зависит от времени (чтобы ослабить это предположение, используются ковариаты, зависящие от времени; см. ниже). Второе предположение состоит в логлинейной зависимости функции интенсивности и регрессоров. Предположение пропорциональности рисков часто подвергается сомнению. Например, рассмотрим гипотетическое исследование, в котором ковариатой является категориальная переменная, а именно индикатор того, подвергнут пациент хирургической операции или нет. Пусть пациент 1 подвергнут операции, в то время как пациент 2 — нет. Согласно предположению пропорциональности, отношение функций интенсив- ностей для обоих пациентов не зависит от времени и означает, что риск для прооперированного пациента постоянно более высокий (или более низкий), чем риск пациента, не подвергнутого операции (при условии, что оба дожили до рассматриваемого момента). Реалистичней другая модель, когда сразу после операции риск прооперированного пациента выше, но при благоприятном исходе операции с течением времени убывает и становится меньше риска не оперированного пациента. В этом случае используются регрессоры, зависящие от времени. Можно привести много других примеров, где предположение о пропорциональности неприемлемо. Так, при изучении физического здоровья возраст является одним из факторов выживаемости после хирургической операции. Ясно, что возраст — более важный предиктор для риска сразу после операции, чем по прошествии некоторого времени после операции (например, вслед за первыми признаками выздоровления). В случае категориальных ковариат, например, учитывающих, был или не был пациент подвергнут хирургической операции, рекомендуется обратиться к стратифицированному анализу выживаемости, в котором, исходя из априорных знаний, исследователь разбивает пациентов на однородные по фактору риска группы. Можно провести подгонку модели пропорциональных интенсивностей отдельно для каждой группы наблюдений. Таким образом, можно явно представить функцию интенсивности для каждой группы. Иногда предположение пропорциональности не выполняется. В таком случае можно явно определить ковариаты как функции времени. В главе Подгонка вероятностных распределений показано, как с помощью критерия хи-квадрат проверяется выполнимость предположений модели Кокса в системе STATISTICS Заметим, что арифметические выражения, которые определяют ковариаты, не должны содержать ссылок на длительности жизни. Однако допускается, чтобы
546 Глава 14. Анализ выживаемости некоторые ковариаты были функциями двух или большего числа других ковариат. Это, например, удобно в моделях многофакторных экспериментов. Для каждого фактора можно создать переменную в файле данных, чтобы установить желаемые контрасты. Логика и выбор априорных значений коэффициентов контрастов те же, что и в дисперсионном анализе. Если специфицируются ковариаты для регрессионной модели пропорциональных интенсивностей, то можно также определить взаимодействия факторов. Например, предположим, что фактор А имеет 2 уровня. Всем субъектам, отнесенным к первому уровню этого фактора, мы приписываем -1 как значение соответствующей переменной (переменной Л) в файле данных. Аналогично всем субъектам, отнесенным ко второму уровню, приписываем значение +1. Второй фактор, также с двумя уровнями, будет закодирован тем же способом (переменная В). После того как переменные АиВ определены как ковариаты, выражение А *В есть третья ковариата для проверки взаимодействия между этими двумя факторами. Для задания зависящих от времени ковариат можно использовать тот же самый синтаксис, который используется в формулах электронной таблицы. В некоторых случаях есть основание предполагать, что влияние одной или нескольких ковариат на функцию интенсивности не является непрерывным по времени. Например, риск для пациента после операции может зависеть от времени, прошедшего после операции в течение первых двух дней, и, во вторую очередь, от некоторых других факторов. В таком случае можно использовать некоторые логические операции, которые также поддерживаются при вводе формул электронных таблиц. Например, можно определить зависящую от времени ковариату с помощью следующего выражения: Agex(T_<2) Логическое выражение Т< 2 равно 0 (ложь), если после операции прошло больше 2 дней, и равно 1 (истина), если меньше. Таким образом, здесь явно учтен эффект первых двух послеоперационных дней. Экспоненциальная регрессия Эта модель записывается в виде: S(z) = ехр(а + bt х z, + Ь2 х z2 + ... + bm x zm) S(z) обозначает время жизни, а — неизвестная константа, Ь. — параметры регрессии. Вновь можно использовать критерий согласия хи-квадрат, чтобы оценить адекватность модели. Статистика хи-квадрат может быть вычислена как функция логарифма правдоподобия для модели со всеми оцененными параметрами (Z,,) и логарифма правдоподобия модели, в которой все ковариаты обращаются в О (L0). Если значение хи-квадрат значимо, отвергаем нулевую гипотезу и принимаем, что независимые переменные значимо влияют на время жизни. Один из способов проверить адекватность экспоненциальной модели — построить остатки времен жизни и сравнить их со значениями стандартных экспоненциальных порядковых статистик.
Регрессионные модели в анализе выживаемости 547 Осиаяки и сшлид экспоненциальная порядковая сьаашсмика Если предположение о том, что данные имеют экспоненциальное распределение, справедливо, то все точки на графике хорошо ложатся на прямую линию. Нормальная и логнормальная регрессия В этой модели предполагается, что времена жизни (или их логарифмы) имеют нормальное распределение. Модель совпадает с обычной моделью множественной регрессии и может быть записана следующим образом: t = а + Ь. х гх + Ь0х 29 + ... + Ъя х zm, 112 2 mm' где t — время жизни. Если принимается модель логнормальной регрессии, то t заменяется In t. Модель нормальной регрессии особенно полезна, поскольку часто данные можно преобразовать в приблизительно нормальные с помощью подходящего преобразования. Таким образом, в некотором смысле это наиболее общая параметрическая модель (в противоположность модели пропорциональных интенсивностей Кокса, которая является непараметрической). Для всех регрессионных моделей в системе STATISTICA доступен стратифицированный анализ, который открывается в окне Результаты. ШШУЖШ Модель: Норн, регресиия Перенеи. зависите: число дней, вычисленное по датам независимые: AGE Индикатор цензурирования:CENSORED Стратфкцировам.анализ по перен.: HOSPITAL К групп: 3 Общее число допустимых наблюдений: 65 неиенэур.: 29 ( 44.624) ценэуриров.: 36 ( 55.384) Лог-правдоподобие окончат.решения:-240.825 Лог-правдоподобие кулев. нодели (бета«0): -243.015 Хи-квадрат (нулевая нодель-оконч.решение):14.38085 ее» 1 р« .0001 Од«нки В Гр*Ж>* Н9бтол* Wtt^^^tWM • • 1Ж ■□
548 Глава 14. Анализ выживаемости Цель стратифицированного анализа — проверить гипотезу о том, что одна и та же регрессионная кривая подходит для разных групп данных. Итак, стандартным образом мы разбиваем данные на несколько однородных групп. Затем строятся регрессионные модели отдельно для каждой группы. Сумма логарифмов правдоподобия для разных моделей представляет собой логарифм правдоподобия модели с разными коэффициентами регрессии (и свободными членами, если требуется) в разных группах. Далее ко всем данным обычным образом подгоняется регрессионная модель, не учитывая разбиение на группы, и вычисляется общий логарифм правдоподобия. По разности двух логарифмов правдоподобия проверяется значимость различия между группами. В стратифицированном анализе на основе априорных соображений исследователь разбивает объекты на однородные группы риска, которые называются стратами, и проводит регрессионный анализ внутри каждой группы (см., например, книгу Кокрен У. A976) «Методы выборочного исследования», где всесторонне обсуждаются методы построения групп). Во многих ситуациях риск-группы заранее известны, технически их можно получить, введя группирующие переменные. Для модели пропорциональных интенсивностей Кокса система STATISTICA предлагает опцию подгонки к стратифицированным данным модели с общими коэффициентами для разных групп, но с разными базовыми функциями интенсивности. В результате наблюдения в отдельной группе удовлетворяют предположению пропорциональности, но это предположение не обязательно выполняется для наблюдений объединенных групп. STATISTICA позволяет исследовать модель Кокса с ковариатами, зависящими от времени, а также сравнить модель с зависимыми от времени ковариатами и постоянными ковариатами. Подробное введение в анализ выживаемости можно найти, например, в работах Bain A978), Barlow and Proschan A975) — русский перевод: Барлоу Р., Прошан Ф. Статистическая теория надежности и испытаний на безотказность. М.: Наука, 1984, Сох and Oakes A984) — русский перевод: Кокс Д. Р., Дукс Д. Анализ данных типа времени жизни. М.: Финансы и статистика, 1988, Elandt-Johnson and Johnson A980), Gross and Clark A975), Lawless A982), Lee A980, 1992), Miller A981), and Nelson A982). Инженерные приложения этой техники обсуждены у Hahn and Shapiro A967) — русский перевод: Хан Г., Шапиро С. Статистические модели в инженерных задачах. М.: Мир, 1969. На этом мы закончим общий обзор методов анализа выживаемости и перейдем к их реализации в системе STATISTICA, а также к примерам. Обзор системы Модуль Анализ выживаемости системы STATISTICA предназначен для анализа цензурированных или неполных данных о выживаемости и отказах. Модуль содержит процедуры для описания времен жизни и оценивания функций выживания, интенсивности и плотности вероятности, для подгонки тео-
Обзор системы 549 ретических распределений выживаемости к данным и для сравнения выживаемости в двух и более выборках. Модуль Анализ выживаемости содержит также регрессионные процедуры для подгонки объясняющих моделей к цензурированным данным (модель пропорциональных интенсивностей Кокса, в том числе с зависящими от времени ковариатами, экспоненциальная регрессия, нормальная и логнормальная регрессия). Все процедуры в модуле Анализ выживаемости автоматически преобразуют данные в числовой формат. Таким образом, чтобы получить интересующие данные, пользователь может записать даты начала и даты окончания наблюдений, связанные с отказами или цензурированием (потерями объектов). Таблицы времен жизни могут быть построены по исходным данным. Однако можно анализировать и готовые таблицы времен жизни. Для всех регрессионных моделей доступны оценки максимального правдоподобия. При вычислении этих оценок для моделей пропорциональных интенсивностей и экспоненциальной регрессионной модели используется процедура безусловной максимизации. Для нормальной и логнормальной регрессионных моделей оценки параметров проводятся с помощью £Л/-алгоритма. Этот алгоритм был впервые предложен в работе Dempster, Laird, and Rubin A977) Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Sociaty, 39, p. 1-38, и обсуждается в книге Сох and Oakes A984) Analysis of survival data, New York: Chapman&Hall. Общая значимость регрессионной модели может быть оценена с помощью критерия хи-квадрат, вычисляемого на основе логарифмов правдоподобия для подогнанной и нулевой моделей. Для оценки адекватности подогнанной модели предоставляется большой выбор графических опций. В случае моделей пропорциональных интенсивностей пользователь может построить функции выживания для различных значений независимых переменных. Для экспоненциальной регрессионной модели есть возможность построения графиков зависимости остатков и экспоненциальной порядковой статистики, остатков и предсказанных с помощью регрессионного уравнения времен жизни, остатков и логарифмов наблюдаемых времен жизни. Для нормальной и логнормальной линейной регрессионной модели пользователь может воспроизвести на экране график зависимости наблюдаемых и подогнанных времен жизни, подогнанных времен жизни и остатков подгонки, а также нормальный вероятностный график остатков. Альтернативные процедуры Альтернативные процедуры возможны для нецензурированных данных. Если данные о продолжительности жизни (безотказной работы) нецензу- рированы, то применимо большинство непараметрических статистик. Для нецензурированных данных можно также использовать нелинейное оценивание, чтобы подогнать определенную регрессионную модель (включая пробит, логит и экспоненциальную модели) к данным. Если продолжительность жизни или безотказной работы описывается бинарной переменной, то могут быть применены логит или пробит регрессионные модели.
550 Глава 14. Анализ выживаемости Другой общий метод сравнения выживаемости в различных группах реализуется с помощью таблиц частот. Если времена жизни, или наработки до момента отказа, распределены по нескольким временным интервалам, может быть использована общая логлинейная модель. Пример 1. Таблицы времен жизн(| В этом примере мы рассчитаем таблицу времен жизни, оценим функцию выживания, плотность вероятности и функцию интенсивности для различных временных интервалов, а также найдем теоретическое распределение, наилучшим образом согласующееся с данными. Данные основаны на работе Crowley, J., & Ни, М., A977) Covariance analysis of heart transplant survival data, Journal of the American Statistical Association, 72, p. 27-36. Задание параметров анализа В модуле Анализ выживаемости откройте файл Heart.sta. г I-WMIWIHIIIMIW штттшшмттшш \\j^_ Мета« множительных оценок Каллаиа- IjjTjj Сравнение двух выборок jf*| Сравнение нескольких выборок |/\ Регрессионные модели Далее выберите Таблицы и распределения времен жизни из стартовой панели Анализ выживаемости и времен отказов. Врвмоиа mjtaiB» A) mi даты B май 6£ наг . :. Иидмкатор мигрирования: нет .,, &щ turn гимчфадемжф н^я«р««иА JO - Построить таодиды исходи ив: <? Нисаа интервалов: 12 : С Размера виг* (вмрмиы ииторвааов}. |1. И ;• ' р7 Исдрввит» имтврвааы и* содержащие откааовУсмвртвА **Ц,».15Р *) Можно анализировать как исходный файл данных, так и сгруппированные данные. В данном случае мы анализируем исходные данные. Нажмите кнопку Переменные и выберите шесть переменных в первом списке. Первые три переменные — дата начала (например, дата операции), оставшиеся три переменные — дата наступления события. Программа интерпретирует первую и четвертую переменные как месяцы, вторую и пятую — как дни, а третью и шестую — как год.
Пример 1. Таблицы времен жизни 551 Заметим, что можно сразу ввести времена жизни (одна переменная в файле данных или даты в другом формате — две переменные). МШУЩ! 171*11 1 MUNTH.1 ?OAY I } YEAR J 4MUNIH_2 '* DAY_2 liYIAR 2 17 CENSORED W-AGE IS ANTIGEN ^0 MISMATCH 11 HOSPITAL 1 MONTH_1 |2-OAY_1 3 YEAR 1 4MONTH_2 BDAY_2 |6 YEAR 2 JL | Qtmpw j yifn:Mii« «AGE }9 ANTIGEN 10 MISMATCH 111 HOSPITAL ! <p«n.>Hinin p L a«m B мм 8fc Икнкжгойми ПТ" F Далее необходимо определить переменную Censored как индикатор цензурирования во втором списке. Диалоговое окно Таблицы и распределения времен жизни будет теперь выглядеть так: %жт*ытйЯ*т**. [ Исжодиые данные <J Sjgj J pTWHC •им m мм A«rw 12 мяи в* MONTHS-VtAR^2 Hwtwn» мицр1фоч»»мс CtHSORED liMJiM ДМ выббрв КОДОВ И» [COMPLETE епием допустима» У Недра—m> *итщ*шшю ewymmm вттмюв/смортЫ» !У*1® "| Поскольку были использованы коды по умолчанию для индикатора цензурирования @ -полное, 1 — неполное), STATISTICA автоматически отображает Код для завершенных наблюдений и Код для неполных или цензурированных наблюдений. Дополнительно можно определить для таблицы времен жизни число интервалов или ширину интервалов. Процедура подгонки теоретического распределения к данным невозможна при наличии интервалов, не содержащих ни смертей (отказов), ни изъятых наблюдений. Если вы хотите сделать подгонку, установите флажок Исправить интервалы, не содержащие смертей/отказов. Если таблица времен жизни используется только в описательных целях и не предполагается подгонка распределения, то корректировку интервалов делать не нужно. Оставив опции по умолчанию, нажмите ОК. После того как все наблюдения обработаны, откроется диалоговое окно Результаты для таблиц и распределений времен жизни.
552 Глава 14. Анализ выживаемости Нажмите на кнопку Таблица времен жизни, чтобы отобразить на экране полную таблицу результатов времен жизни. т ШШШШШНШШШУШ Перемен.: число дней, вычисленное по датами Индикатор цензурирования:CEN30P£P Обжее число допустинкх наблюдений : 65 иеиеивур. : 29 ( 44,624) цеивур. 36 ( 55,384 '7':'ii^i%t:yi^\: llftjfy^tJ ЛииЫмки интенсивность <jj ?. Равней ,»»шм<н цнт«»си»юстн J ЕЗ ГрМ>»* »<и«щии интанси—кюи Я ■ 0**iim щутат вммтажмсттн | В ГрМнк »»ищин 1ыжчеааиостн ИГ Ощйм! пдшгиостк —poirmoT»» } В График мротиостной длотности [ РЭПШШШ ПИИИМ М ВРЕМЕНА выжив ;Инжврбал Hnrnv H2 ' m**v m ЖилГМ tottb HS ,***;Н6 /И**< КТ »1Ш&М? Ика? Н9 1i«*V WO Их* МП Мха- H12 аНЗЬмё^^шмм^аЗ ■ЯМММШЯМ Лоаарифм пребдоподови* : «68.6809 ppij 65 14 ; 58.0000] 32 4"i 30.0000 24 4 22.0000 20 4 ; 18.0000 15 1 : 14.5000 13 3 11.5000 " '9 1 8.5000 6 1 ! 5.5000 5 1 4.5000 3 2 v 2.0000 1 0 . 1.0000 1 i"' .5000 ii 1:ЖФШш?0 .00203 .00243 .00056 .00089 .00008 .00014 .00020 .00035 .00023 .00044 .00027 .00056 '.00067 .00165 .00020 .00059 .00044 .00155 .00038 .00177 .00057 .00413 41... Кен ♦«*«> 0.00000 .06163 .06778 .06878 .07187 .07588 .08082 .09080 .09301 .09547 .10420 .10635 TiTi ■■ПпТ €*9-о*. ВррПлоак .00038 .00026 .00012 .00019 .00022 .00026 .00043 .00027 .00041 .00049 .00066 1" ">- 5 н 1 1 i i 1 ! 1 •f На рисунке показана часть полной таблицы жизни. Можно подгонять к данным основные семейства распределений, используя обычный метод наименьших квадратов или две модификации метода взвешенных наименьших квадратов. Чтобы выбрать наиболее подходящее семейство распределений, сначала рассмотрим модель с экспоненциальным распределением (выбрав позицию Экспоненциальная в поле Модель). Оценка согласия проводится с помощью критерия хи-квадарт. Нажмите кнопку Оценки параметров, чтобы посмотреть оценки для данного семейства распределений, а также значение критерия хи-квадрат. РЯШШШ ■ fllHlililiHi ■ ВРЕМЕНА ; выжив Memo? MfflllW шшшш'ппштшшршштшшшш ШШшЖШШшШШЕМШЕШВШШШ Замечание Веса 1-1 . 2-1 W. 3-НA) .00132 1 .00000 "*•• в»сt | ; 00050 .ооооо >fcW' -JA .00126 .00000 !lp«ftfloo. •H(I) Хи«Хв»А. .00059 -79.712 22.0622 .00014 .00022 -86.778 -79.547 36.1937 21.7332 «'ОГО*'.-■"■ 10 10 10 НЕЛ&Ш1 "/;;• р- -■■ | .01481 1 .00008 1 .01655 1
Пример 1. Таблицы времен жизни 553 Если критерий значим, делается заключение, что подогнанное распределение значимо расходится с наблюдаемыми данными. Поэтому мы отвергаем это семейство распределений и говорим, что оно не согласуется с данными. Из таблицы результатов следует, что ни один метод подгонки не дает экспоненциального распределения удовлетворительного согласия. Тот же результат хорошо виден на графиках. Нажмите кнопку График функции выживания. На приведенных ниже графиках ни одна из экспонент также не аппроксимирует наблюдаемую функцию выживания удовлетворительно. Видно, что оцененная функция выживания сильно отклоняется от аппроксимирующих функций выживания. Г11р*Фмк/ МНК Пце ИНК Оценки функции выживаемости Модель:Экспокекц Замечание Веса: 1-1.. 2-1 /V. 3-N(I)«H(I) 0.0 0.0000 322.73 645.45 968.18 1290.9 1613.6 1936.4 161.36 484.09 806.82 1129.5 1452.3 1775.0 2097.7 Нач интервала НаБлюд Вес 1 Вес 2 Вес 3 Можно просмотреть оценки параметров для различных семейств распределений. Вначале выберите соответствующее семейство из поля списка Модель, а затем нажмите кнопку Оценки параметров. Если проанализировать все эти семейства, можно сделать вывод, что только для семейства Вейбулла (см. главу Вероятностные распределения) нет значимого отличия от наблюдаемых значений при оценивании параметров по минимуму суммы взвешенных квадратов. |'£* Оценки параметром. Модель Вейбчлл.1 (he.ul st<i) ВРЕМЕН* ВЫЖИВ Мемод Оценив ШШШКШ ВвС ,2, Вес *•.:« Замечание Веса 1-1.. 2-1./V. 3-N(I) Лямбда Дисперс, Лямбда ?-.CtagV«wr, : Лямбда Гамма ! .00031 .00000 .00057 1.142171 .01600 .00032 .01795 .64432 . 05110 .00522 : .07223 .42768| •НA) 31.3240| 13.5076 7.7570 iU Hi! с* оо 9 9 9 №D .' р .00026 .14101 .55881 Л *i Tf Ниже показаны графики функции выживания из семейства Вейбулла, подогнанные тремя разными способами.
554 Глава 14. Анализ выживаемости hii'fll|iiiiliiin.nii,lii"i;;!ii МНК Оценки функции быжибаеноски Модель ВейБулла Замечание Веса 1-1 . 2-1 /V. 3-НA)»НA) 0.0000 322.73 645.45 968.18 1290.9 1613,6 1936.4 161.36 484.09 806.82 1129.5 1452.3 1775.0 2097.7 Нач интервала НаБлюд Вес 1 Вес 2 Вес 3 Для третьего набора параметров (соответствующего Weight 3) имеется удовлетворительное согласие с данными. Хи-квадрат — критерий для этой ситуации — не дает значимого отклонения (р=0,56). Следовательно, мечено сделать вывод, что распределение Вейбулла с этим набором параметров удовлетворительно описывает наблюдаемые времена жизни. I В заключение заметим, что модуль Анализ выживаемости STATISTIC А позволяет анализировать также табулированные данные (для этого нужно выбрать опцию Таблица времен жизни в поле списка Входные данные). ЩШ шиш IB ШУ| Otwh* | fclHTJ>TRt ... Число щтпщрнриш тшшш пшбтьлтшЛ; NO_CNSRI> " Ч*ст or***» tompuft): NO.DIEO З/icm ншЛмщптттт тртич ытщттт: J523 {§} i Файл с табулированными данными должен содержать 3 переменные со следующей информацией: 1) нижняя граница временных интервалов; 2) число цензурированных или неполных наблюдений; 3) число отказов (число умерших в каждом временном интервале). После выбора Таблиц времен жизни откроется диалоговое окно Таблицы и распределения времен жизни, в котором можно выбрать эти переменные. Пример 2. Регрессионная модель Кокса Файл данных Heartsta содержит дополнительные переменные: возраст пациента во время трансплантации (переменная Возраст — Age) и медицинские характеристики: мера антигенной несовместимости (переменная Антиген — Antigen) и мера тканевой несовместимости (переменная Несовместимость — Mismatch).
Пример 2. Регрессионная модель Кокса 555 Представляет интерес зависимость между переменными Возраст — Age, Антиген — Antigen и Несовместимость — Mismatch и временами жизни. Наиболее общей регрессионной моделью, не накладывающей ограничения на форму функции выживания, является модель пропорциональных интенсивностей Кокса.,Рассмотрим, как можно оценить коэффициенты регрессии для этих трех независимых переменных для того, чтобы предсказать времена жизни с помощью модели пропорциональных интенсивностей Кокса. Задание параметров анализа Нажмите опцию Регрессионные модели на Стартовой панели, чтобы открыть диалоговое окно Регрессионные модели для цензурированных данных. Чтобы выбрать переменные для анализа, нажмите кнопку Переменные и задайте все времена жизни и цензурирующую переменную, как это было сделано ранее. Необходимо также выбрать независимые переменные или регрессоры (Возраст — Aget Антиген — Antigen, Несовместимость — Mismatch). Группирующую переменную в данном примере мы не отмечаем. ШМШ1 1 MUNTH_1 ?OAY 1 3YEAR 1 4 MONTH 2 bDAY 2 В YE ЛИ 2 7 CENSORED 8 AGE 9 ANTIGEN 10 MISMATCH 11 HOSPITAL 1ТГх11 II MONTH 1 2-OAY 1 3YEAR 1 |4MONTH 2 5-DAY 2 J-YEAR 2 17 CENSORED i U AGE ! 9 ANTIGEN i 10 MISMATCH 1 MONTH 1 2 DAY 1 3 YEAR 1 4 MONTH 2 5 DAY 2 6YEAR_2 8 AGE 9 ANTIGEN 10 MISMATCH 11-HOSPITAL 8p«m.«m9Mn{1,2.6|: Н 1 MONTH 1 2 DAY 1 " 3 YEAR 1 4 MONTH 2 5 DAY 2 " 6-YEAR 2 7 CENSORED 8 AGE 9 ANTIGEN 10 MISMATCH 11-HOSPITAL 'ГЙН I 0tm«m)J Uimiiiiii J [ПцфобЛ Ик+П |По<|роб|! Ин». J . ГрфМДич) ООЯ9.|Г Теперь выберите коды для цензурирующей переменной. С помощью этих кодов STATISTICA разобьет данные на 2 группы: полные и неполные. По умолчанию STATISTIC А использует следующий код: 0 = завершенное наблюдение, 1 = цензури- рованное. Если вы используете другой код, дважды щелкните по полю ввода Коды завершенного наблюдения и Коды цензурированного наблюдения и выберите коды из списка. Им* CENSORED ПД: -9ЭЭЗ Формат U0 Отм 1. CENSORED Дмтды щелкните не значении. чтобы выбрать значение мвыйт >
556 Глава 14. Анализ выживаемости Диалоговое окно Регрессионные методы для цензурированных данных появится на экране: шшштттттмшштшшшт Цм*ЛЬ.к j Perрессмониая монет» Кокса *| И Цер»и»шм>1> модем [mrmi чист групоируниея, осей она есть) Отмена i {1J ыт даты B шш б* M0NTH_1-YEAR_2 :AfiE-MISMATCH ; Цинт9грршщ*фщщмт1 CENSORED, (COMPLETE CENSORED B8-s XtoUfamtpymj-J \wt Для »ыбор« кодов иэ списка : допдо*4м**и»«им* дважды ,. щелкните на соответст» пол» Оценивание параметров Выберите в списке Модель позицию Регрессионная модель Кокса. Нажмите ОК и откройте диалоговое окно Оценивание регрессионной модели. Модель: Регрессионная модель Кокса Перемен. зависимые: число дней, вычисленное по датам независимые: AGE ANTIGEN HISNATCH Индикатор цензурирования:CENSORED Мм&яеа^ййкоф; шсео ДОерадмДт ••'••• К^шгдрмЙ смдмеости!.7 50 Loooi Отмена дм тем параметров UfteMiiiit QpWiMieMHMM деииыг. I Замена средним т| Это диалоговое окно позволяет задать параметры процедуры оценивания. Процедура оценивания максимизирует логарифм правдоподобия регрессионной модели с помощью метода Ньютона—Рафсона. Алгоритм оценивание параметров является итеративным и начинается с некоторых начальных значений параметров (кнопка Начальные значения). Далее программа делает несколько итераций, последовательно приближаясь к оценкам неизвестных параметров. Разность между текущими оценками и оценками, полученными на предыдущем шаге, называется невязкой. Если невязка удовлетворяет критерию сходимости (см. поле Критерий сходимости), то процесс приближения завершается. Максимальное число итераций и критерий сходимости указываются в соответствующих полях. Значения, предлагаемые программой по умолчанию, обычно приемлемы, поэтому просто нажмите ОК и начните процедуру оценивания.
Пример 2. Регрессионная модель Кокса 557 oiB=cas^^^H Модель: Регрессионна* модель Кокса Перепек. зависите: число дней, вычисленное по детая меэависюше: АСЕ ANTIGEN MISMATCH Итерация • 1t • 11 • 12 « 13 ♦ 1* ■• : 1&/Ф • 16 i . Лродеео« Индикатор цензурирования:CENSORED ЛогПравдоподобие Параметры -87,867 ,1М6Э7 -,64851 -•7,867 ,168876 -.04865 -•7,867 ,188986 -,8*872 -•7,867 ,189«li -.84875 -•7,867 ,18V 874 *,6W77 '<•'* *в7,М7 ,лР':,1»ввК^««*17*^ -•7.867 .109896 -.84878 •••" <.4.~.w.A..*....~v. ..«.,.. ~. hhhbhQTx] 1.В6172 1.66276 1,»6327 1,86353 .Я«МШ„ Н9шпл-К*'.-. 1.86376 ^-^нм-оо^ж ■•^t;> уЩ^Ш ШИ 1 0™"* |1| *|>М||.*«*|..У.Ч|||.ы.|.|*|м, .' .< • I С помощью этого диалогового окна можно наглядно проследить, как происходит процесс оценивания. В столбцах Параметры показаны оценки параметров на каждом шаге. После того как критерий сходимости будет выполнен, процедура оценивания останавливается. Обычно процедура поиска быстро сходится, если приближения за заданное число итераций неудовлетворительны, программа запросит дополнительно некоторое количество итераций. Вы можете изменить начальные значения, используя, например, оценки параметров, полученные на предыдущем экспериментальном материале. В данном примере наилучшие оценки параметров найдены, итеративная процедура сходится, поэтому предлагается нажать ОК, чтобы перейти в диалоговое окно Результаты регрессии. пшшушж Модель: Регрессионная модель Кокса Перемен. зависимые: число дней, вычисленное по датам независимые: АСЕ ANTIGEN MISMATCH Индикатор цензурирования:CENSORED Общее число допустимых наблюдении: 65 кецеиэур.: 29 ( 44,62%) иенэуриров.: Эб ( 55, Лог-правдоподобие окончат.решения:-87,8674 Лог-правдоподобие нулев. модели (бета>0): -99,0270 Хи-квадрат (нулевая модель-оконч.решение):22,31933 ее- 3 р> JEssBu^sssaa^ От*»— \ &ЩМ*т&т#**ФшЬ ****** >ЩУ Ту**+л Щ Ср—>»«• * crwminmm утыююнт \' Effi Тр»»мк ». i
558 Глава 14. Анализ выживаемости Результаты Это диалоговое окно позволяет просмотреть результаты. Значение статистики критерия хи-квадрат для данной модели высокозначимо, поэхрму можно заключить, что, по крайней мере, некоторые независимые переменныегзначимо действительно связаны с выживаемостью. Нажмите кнопку Оценки параметров, чтобы увидеть оценки параметров и их стандартные ошибки. пгшяшшштштштшшттшшшштттшшшшшттш ВРЕМЕНА ВЫЖИВ N•65 Цензурир перем CENSORED Хи2 - 22.3193 ее - 3 р - .00006 ■•"•,' БвЙ*•■■:'•::'■■■ ■в^вв^ЮШ 109096 AMTIGEH MISMATCH -.048782 1,063761 0#й5к* : ИВЗЯЕвЯ Бе»а .033293 | 3.276836 | 1.115269 .471644 -.103431 .952388 .394599 2.695804 2.897246 Сяамис** Вельда 10.73766 .01070 7.26736 ИЕШЕ0 Р . .001051 1! .917622 1 .007026 || Стандартные ошибки вычисляются как часть процедуры* оценивания и по своей природе являются асимптотическими. Они вычисляются на основе частных производных второго порядка от логарифма функции правдоподобия. Это означает, что t-значения тоже должны рассматриваться только как приближенные. Обычно любая оценка параметра (регрессионной модели), которая по крайней мере в два раза превосходит свою стандартную ошибку (t>2,0\ может рассматриваться как статистически значимая (на уровне р<0,05). Электронная таблица с результатами также содержит статистику критерия Вальда для каждого коэффициента (см. книгу Рао С. Р. «Линейные статистические методы и их применения»). Из приведенной таблицы следует, что возраст пациента и тканевая несовместимость — наиболее важные предикторы для функции мгновенного риска. Итак, значимые переменные в модели — AGE и MISMATCH. Рассмотрим графики функции выживания как функции независимых переменных. Пусть все независимые переменные равны своим средним значениям, тогда график функции выживания имеет вид (нажмите кнопку График выживаемости для средних): П0ШШЕ тшштттшттт Функция выживания для средних неззвмеммых переменных 400 600 800 1000 1200 1400 1600 1800 2000 Времена жизни
Пример 2. Регрессионная модель Кокса 559 Средние значения независимых переменных и стандартные ошибки можно посмотреть в таблице: Ш Средние м стандартные отклонения (heart sta) нгаЕЭ ВРЕМЕНА ВЫЖИВ 1 AGE ] ANTIGEN MISMATCH !Чдней Среднее 45 6769 2615 1 1646 382 6769 Стоткл. | 9.1858 АА23 6233 4632327 Минимум 19 00000 000000 000000 0 00000 Максимум J 64 000 1 000 3 050 1775 000 Зададим определенные значения предикторов. Мы имеем значимые переменные: AGE — возраст и MISMATCH — тканевая несовместимость. Увеличим возраст больного до 55 лет. Значения независимой переменной AGE ANTIGEN | 261538 S j MISMATCH |1646 Q* \ Отмена Oj&mee Применить] График функции выживания изменится и будет иметь вид: (Г1График5: Функция выживаемости дяя заданных Функция выживания значений независимых переменных ННЕЗ 200 400 600 800 1000 1200 1400 1600 1800 2000 Времена жизни В заключение заметим, что с помощью кнопки Редактор данных графика мож но представить функцию выживания в численном виде:
560 Глава 14. Анализ выживаемости М!Ш!Ш¥Ш1ШМ1ШЯШтПШ. Функция выживания для заданных значении независимых переменных ШЪптм НИаНШ 39 00 44.00 46.00 4700 48 00 5000 50.00 51 00 51.00 5400 6000 63.00 |...„ v; .._ втый гр %фи* w.v.,, 0 84 084 0.80 0.77 077 0.77 0.68 068 0.60 0.56 052 0.48 ^.ш^..,,..:..:..., ii Таким образом проводится регрессионный анализ в модуле Анализ выживаемости.
Анализ соответствий Данная глава продолжает тему главы Построение и анализ таблиц. Мы рекомендуем просмотреть ее, а затем приступить к чтению данного текста и упражнениям на STATISTICS Анализ соответствий (по-английски correspondence analysis) — это разведочный метод анализа, позволяющий визуально и численно исследовать структуру таблиц сопряженности большой размерности. В настоящее время анализ соответствий интенсивно применяется в разнообразных областях, в частности в социологии, экономике, маркетинге, медицине, управлении городами (см., например, Thomas Werani, Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, p. 22-25, Juni 1996, Telfs-Buchen (Osterreich) Werani, Thomas). Известны применения метода в археологии, анализе текстов, где важно исследовать структуры данных (см. Greenacre, M. J., 1993, Correspondence Analysis in Practice, London: Academic Press). В качестве дополнительных примеров приведем: О Исследование социальных групп населения в различных регионах со статьями расхода по каждой группе. О Исследования результатов голосования в ООН по принципиальным вопросам A — за, 0 — против, 0,5 — воздержался, например, в 1967 году исследовалось 127 стран по 13 важным вопросам) показывают, что по первому фактору страны отчетливо разделяются на две группы: одна с центром США, другая с центром СССР (двухполюсная модель мира). Другие факторы могут интерпретироваться как изоляционизм, неучастие в голосовании и т. д. О Исследование импорта автомобилей (марка машины — строка таблицы, страна-производитель — столбец). О Исследование таблиц, используемых в палеонтологии, когда по выборке разрозненных частей скелетов животных делаются попытки их классифицировать (отнести к одному из возможных типов: зебра, лошадь и т. д.). О Исследование текстов. Известен следующий экзотический пример: журнал New-Yorker попросил лингвистов установить анонимного автора скандальной книги об одной президентской кампании. Экспертам были предложены тексты 15 возможных авторов и текст анонимного издания. Тексты представлялись строками таблицы. В строке i отмечалась частота данного 15
562 Глава 15. Анализ соответствий слова/ Таким образом получалась таблица сопряженности. Методом анализа соответствий был определен наиболее вероятный автор скандального текста. Применение анализа соответствий в медицине связано с исследованием структуры сложных таблиц, содержащих индикаторные переменные, показывающие наличие или отсутствие у пациента данного симптома. Подобного рода таблицы имеют большую размерность, и исследование их структуры представляет нетривиальную задачу. Задачи визуализации сложных объектов могут быть также исследованы, по крайней мере, к ним можно найти подход, с помощью анализа соответствий. Изображение — это многомерная таблица, и задача состоит в том, чтобы найти плоскость, позволяющую максимально точно воспроизвести исходное изображение. Математическое основание метода. Анализ соответствия опирается на статистику хи-квадрат. Можно сказать, что это новая интерпретация статистики хи-квад- рат Пирсона. Метод во многом похож на факторный анализ, однако в отличие от него, здесь исследуются таблицы сопряженности, а критерием качества воспроизведения многомерной таблицы в пространстве меньшей размерности является значение статистики хи-квадрат. Неформально можно говорить об анализе соответствий как о факторном анализе категориальных данных и рассматривать его также как метод сокращения размерности. Итак, строки или столбцы исходной таблицы представляются точками пространства, между которыми вычисляется расстояние хи-квадрат (аналогично тому, как вычисляется статистика хи-квадрат для сравнения наблюдаемых и ожидаемых частот). Далее требуется найти пространство небольшой размерности, как правило, двумерное, в котором вычисленные расстояния минимально искажаются, и в этом смысле максимально точно воспроизвести структуру исходной таблицы с сохранением связей между признаками (если вы имеете представление о методах многомерного шкалирования, то почувствуете знакомую мелодию). Итак, мы исходим из обычной таблицы сопряженности, то есть таблицы, в которой сопряжены несколько признаков (подробнее о таблицах сопряженности см. главу Построение и анализ таблиц). Допустим, что имеются данные о пристрастии к курению сотрудников некоторой компании. Подобные данные имеются в файле Smoking.sta, входящем в стандартный комплект примеров системы STATISTICA. В этой таблице признак курение сопряжен с признаком должность: Группа сотрудников 1 A) Старшие менеджеры 1 B) Младшие менеджеры 1 C) Старшие сотрудники 1 D) Младшие сотрудники 1 E)Секретари 1 Всего по столбцу A) Некурящие 4 4 25 18 10 61 B) Слабо курящие 2 3 10 24 6 45 C) Средне курящие 3 7 12 33 7 62 D) Сильно курящие 2 4 4 13 2 25 Всего по строке 11 18 51 88 25 193 |
Анализ соответствий 563 Это простая двухвходовая таблица сопряженности. Вначале рассмотрим строки. Можно считать, что 4 первых числа каждой строки таблицы (маргинальные частоты, то есть последний столбец не учитывается) являются координатами строки в 4-мерном пространстве, а значит, формально можно вычислить расстояния хи- квадрат между этими точками (строками таблицы). При данных маргинальных частотах можно отобразить эти точки в пространстве размерности 3 (число степеней свободы равно 3). Очевидно, что чем меньше расстояние, тем больше сходство между группами, и наоборот — чем больше расстояние, тем больше различие. Теперь предположим, что можно найти пространство меньшей размерности, например, размерности 2, длр представления точек-строк, которое сохраняет всю или, точнее, почти всю информацию о различиях между строками. Возможно, такой подход неэффективен для таблиц небольшой размерности, как приведенная выше, однако полезен для больших таблиц, возникающих, например, в маркетинговых исследованиях. Например, если записаны предпочтения 100 респондентов при выборе 15 сортов пива, то в результате применения анализа соответствий можно представить 15 сортов (точек) на плоскости (см. далее анализ продаж). Анализируя расположение точек, вы увидите закономерности при выборе пива, которые будут полезны при проведении маркетинговой кампании. В анализе соответствий используется определенный сленг. Масса. Наблюдения в таблице нормируются: вычисляются относительные частоты для таблицы, сумма всех элементов таблицы становится равной 1 (каждый элемент делится на общее .число наблюдений, в данном примере на 193). Создается аналог двумерной плотности распределения. Полученная стандартизованная таблица показывает, как распределена масса по ячейкам таблицы или по точкам пространства. На сленге анализа соответствий суммы по строкам и столбцам в матрице относительных частот называются массой строки и столбца соответственно. Инерция. Инерция определяется как значение хи-квадрат Пирсона для двух- входовой таблицы, деленный на общее количество наблюдений. В данном примере: общая инерция =х2/193 = 16,442. Инерция и профили строк и столбцов. Если строки и столбцы таблицы полностью независимы (между ними нет связи — например, курение не зависит от должности), то элементы таблицы могут быть воспроизведены при помощи сумм по строкам и столбцам или, в терминологии анализа соответствий, при помощи профилей строк и столбцов (с использованием маргинальных частот; см. главу Построение и анализ таблиц с описанием критерия хи-квадрат Пирсона и точный критерий Фишера). В соответствии с известной формулой вычисления хи-квадрат для двухвходо- вых таблиц ожидаемые частоты таблицы, в которой столбцы и строки независимы, вычисляются перемножением соответствующих профилей столбцов и строк с делением полученного результата на общую сумму. Любое отклонение от ожидаемых величин (при гипотезе о полной независимости переменных по строкам и столбцам) будет давать вклад в статистику хи-квадрат.
564 Глава 15. Анализ соответствий Анализ соответствий можно рассматривать как разложение статистики хи-квад- рат на компоненты с целью определения пространства наименьшей размерности, позволяющего представить отклонения от ожидаемых величин (см. таблицу ниже). Здесь показаны таблицы с ожидаемыми частотами, рассчитанными при гипотезе независимости признаков, и наблюдаемыми частотами, а также таблица вкладов ячеек в хи-квадрат: у■ \\\ in нш' умттптттт АНАЛИЗ СООТВЕТ Таблице вводе (Стр* Столб) 5x4 |Общая инерция» 08519 Хи2 «16 442 сс-12 р« 17190 СЛА60 СРЕДНЕ- СИЛЬНО мл менеджеры ст.сотруднмки •' ■■■> < *.. мп.сотруанмкм секретари Всего 3 47668 | 5 68912 16.11917 27 81347 7 90155 61 00000 овт Всего 2 56477 4 19689 11.89119 2051813 582902 45 00000 3 53368 5 78238 16 38342 2826943 8 03109 62 00000 1 4С487 2 33161 6 60622 11 39896 3 23834 25 00000 11 0000 18 0000 51 0000 88 0000 25 0000 193 0000 АНАЛИЗ СООТВЕТ Таблица ввода (Стр.х Столб) 5 х 4 Общая инерция» 08519 Хи2 -16 442 сс-12 р- 17190 СЛАБО СРЕДНЕ СИЛЬНО -56477 -1 19689 -1 89119 3 48187 17098 -53368 1 21762 -4 38342 4 73057 -1 03109 57513 1 66839 -2 60622 1 60104 -1 23834 209845 Например, из таблицы видно, что число некурящих младших сотрудников примерно на 10 меньше, чем можно было бы ожидать при гипотезе независимости. Число некурящих старших собрудников, наоборот, на 9 больше, чем можно было бы ожидать при гипотезе независимости, и т. д. Однако хотелось бы иметь общую картину. Цель анализа соответствий состоит в том, чтобы суммировать эти отклонения от ожидаемых частот не в абсолютных, а в относительных единицах. iMHUUIJ' АНАЛИЗ СООТВЕТ ст.меиеджеры |Таблица ввода (Стр х Столб) 5 х 4 Общая инерция- 08519 Хи2 «16 442 сс-12 р* 17190 мл.ненеджеры 1ГТ51 078770 501505 4.892877 3 462503 557292 9492948 СРЕДНЕ 124363 341336 300778 СИЛЬНО всего 590862 005016 1 362354 080600 256398 П72794 791607 132378 2 433777 232143 1 193828 1 028178 224873 473542 3152565 51588 2 29307 7 39463 5 06985 1 16823 1644164 Анализ строк и столбцов. Вместо строк таблицы можно рассматривать также столбцы и представить их точками в пространстве меньшей размерности, которое максимально точно воспроизводит сходство (и расстояния) между относительными частотами для столбцов таблицы. Можно одновременно отобразить на одном графике столбцы и строки, представляющие всю информацию, содержащуюся в двухвходовой таблице. И этот вариант — самый интересный, так как позволяет провести содержательный анализ результатов.
Анализ соответствий 565 Результаты. Результаты анализа соответствий обычно представляются в виде графиков, как было показано выше, а также в виде таблиц типа: Число измерений 1 2 | 3 Процент инерции 87,75587 11,75865 0,48547 Кумулятивный процент 87,7559 99,5145 100,0000 Хи-квадрат 14,42851 1,93332 0,07982 Посмотрите на эту таблицу. Как вы помните, цель анализа — найти пространство меньшей размерности, восстанавливающее таблицу, при этом критерием качества является нормированный хи-квадрат, или инерция. Можно заметить, что если в рассматриваемом примере использовать одномерное пространство, то есть одну ось, можно объяснить 87,76% инерции таблицы. ПГрАфин1 STG 1M rpa*Mi яя измерения 1 чинили.'и Координаты строк (размерность 1) Таблица ввода (Стр х Столб ) 5 х 4 Стандартизация Профили столбцов Соб знач 07476 (87 756 % инерции ) Вклад в хи-квадрат 14 429 1 5 10 05 I 00 О) I -05 7 " -10 -1 5 -2 0 п м«м«д*«р оотаудиики ст м«н«4*«р стсотрудники Коорд-ты строк Две размерности позволяют объяснить 99,51% инерции. Координаты строк и столбцов. Рассмотрим получившиеся координаты в двумерном пространстве. Имя строки 1 Старшие менеджеры 1 Младшие менеджеры 1 Старшие сотрудники 1 Младшие сотрудники 1 Секретари Измерение 1 -0,065768 0,258958 -0,380595 0,232952 -0,201089 Измерение 2 0,193737 1 0,243305 | 0,010660 | -0,057744 | -0,078911 | Можно изобразить это на двумерной диаграмме.
566 Глава 15. Анализ соответствий 1.Ш. IU»Jli..l UH.U.IM.Ji 2М грмфпж юордиют erpoi. и9««р«ии1 1x2 Т шЪптцш moaj (Стр х Стопб Mх4 Ctjm*jpth»jhh« Профили CTpoi и столбце» 030 0.25 0.20 О 15 О 10 \ 0 06 0 00 0 06 •010 •О 1в •05 Иммраии* 1. Соб тшч 07470 (87 70 * инерции ) Очевидным преимуществом двумерного пространства является то, что строки, отображаемые в виде близких точек, близки друг к другу и по относительным частотам. Рассматривая положение точек по первой оси, можно заметить, что Ст. сотрудники и Секретари относительно близки по координатам. Если же обратить внимание на строки таблицы относительных частот (частоты стандартизованы так, что их сумма по каждой строке равна 100%), то сходство данных двух групп по категориям интенсивности курения становится очевидным. Проценты по строке: Группа сотрудников 1 A) Старшие менеджеры 1 B) Младшие менеджеры 1 C) Старшие сотрудники 1 D) Младшие сотрудники | E) Секретари Категории курящих | A) Некурящие 36,36 22,22 49,02 20,45 40,00 B) Слабо курящие 18,18 16,67 19,61 27,27 24,00 C) Средне курящие 27,27 38,89 23,53 37,50 28,00 D) Сильно курящие 18,18 22,22 7,84 14,77 8,00 Всего по строке 100,00 100,00 100,00 100,00 100,00 | Окончательной целью анализа соответствий является интерпретация векторов в полученном пространстве более низкой размерности. Одним из способов, который может помочь в интерпретации полученных результатов, является представление на диаграмме столбцов. В следующей таблице показаны координаты столбцов: Категории курящих 1 Некурящие 1 Слабо курящие 1 Средне курящие 1 Сильно курящие Измерение 1 -0,393308 0,099456 0,196321 0,293776 Измерение 2 0,030492 | -0,141064 | -0,007359 | 0,197766 | Можно сказать, что первая ось дает градацию интенсивности курения. Следовательно, большую степень сходства между Старшими менеджерами и Секре-
Анализ соответствий 567 тарями можно объяснить наличием в данных группах большого количества Некурящих. Метрика координатной системы. В ряде случаев термин расстояние использовался для обозначения различий между строками и столбцами матрицы относительных частот, которые, в свою очередь, представлялись в пространстве меньшей размерности в результате использования методов анализа соответствий. В действительности расстояния, представленные в виде координат в пространстве соответствующей размерности, — это не просто евклидовы расстояния, вычисленные по относительным частотам столбцов и строк, а некоторые взвешенные расстояния. Процедура подбора весов устроена таким образом, чтобы в пространстве более низкой размерности метрикой являлась метрика хи-квадрат, учитывая, что сравниваются точки-строки и выбирается стандартизация профилей строк или стандартизация профилей строк и столбцов или же сравниваются точки-столбцы и выбирается стандартизация профилей столбцов или стандартизация профилей строк и столбцов. Оценка качества решения. Имеются специальные статистики, помогающие оценить качество полученного решения. Все или большинство точек должны быть правильно представлены, то есть расстояния между ними в результате применения процедуры анализа соответствий не должны искажаться. В следующей таблице показаны результаты вычисления статистик по имеющимся координатам строк, основанные только на одномерном решении в предыдущем примере (то есть только одно измерение использовалось для восстановления профилей строк матрицы относительных частот). Координаты и вклад в инерцию строки: [ Группа сотрудников 1 Старшие менеджеры 1 Младшие менеджеры 1 Старшие сотрудники Младшие сотрудники Секретари Координаты измер. 1 -0,065768 0,258958 -0,380595 0,232952 -0,201089 Масса 0,056995 0,093264 0,264249 0,455959 0,129534 Качество 0,092232 0,526400 0,999033 0,941934 0,865346 Относит, инерция 0,031376 0,139467 0,449750 0,308354 0,071053 Инерция измер. 1 0,003298 0,083659 0,512006 0,330974 0,070064 Косинус**2 1 измер. 1 0,092232 0,526400 0,999033 0,941934 0,865346 | Координаты. Первый столбец таблицы результатов содержит координаты, интерпретация которых, как уже отмечалось, зависит от стандартизации. Размерность выбирается пользователем (в данном примере мы выбрали одномерное пространство), и координаты отображаются для каждого измерения (то есть отображается по одному столбцу координат на каждую ось). Масса. Масса содержит суммы всех элементов для каждой строки матрицы относительных частот (то есть для матрицы, где каждый элемент содержит соответствующую массу, как уже упоминалось выше). Если в качестве метода стандартизации выбрана опция Профили строк или опция Профили строк и столбцов, которая установлена по умолчанию, то координа-
568 Глава 15. Анализ соответствий ты строк вычисляются по матрице профилей строк. Другими словами, координаты вычисляются на основе матрицы условных вероятностей, представленной в столбце Масса. Качество. Столбец Качество содержит информацию о качестве представления соответствующей точки-строки в координатной системе, определяемой выбранной размерностью. В рассматриваемой таблице было выбрано только одно измерение, поэтому числа в столбце Качество являются качеством представления результатов в одномерном пространстве. Видно, что качество для старших менеджеров очень низкое, но высокое для старших и младших сотрудников и секретарей. Отметим еще раз, что в вычислительном плане целью анализа соответствий является представление расстояний между точками в пространстве более низкой размерности. Если используется максимальная размерность (равная минимуму числа строк и столбцов минус один), можно воспроизвести все расстояния в точности. Качество точки определяется как отношение квадрата расстояния от данной точки до начала координат, в пространстве выбранной размерности, к квадрату расстояния до начала координат, определенному в пространстве максимальной размерности (в качестве метрики в этом случае выбрана метрика хи-квадрат, как уже упоминалось ранее). В факторном анализе имеется аналогичное понятие общность. Качество, вычисляемое системой STATISTIC А, не зависит от выбранного метода стандартизации и всегда использует стандартизацию, установленную по умолчанию (то есть метрикой расстояния является хи-квадрат, и мера качества может интерпретироваться как доля хи-квадрат, определяемая соответствующей строкой в пространстве соответствующей размерности). Низкое качество означает, что имеющееся число измерений недостаточно хорошо представляет соответствующую строку (столбец). Относительная инерция. Качество точки (см. выше) представляет отношение вклада данной точки в общую инерцию (Хи-квадрат), что может объяснять выбранную размерность. Качество не отвечает на вопрос, насколько в действительности и в каких размерах соответствующая точка вносит вклад в инерцию (величину хи-квадрат). Относительная инерция представляет долю общей инерции, принадлежащую данной точке, и не зависит от выбранной пользователем размерности. Отметим, что какое-либо частное решение может достаточно хорошо представлять точку (высокое качество), но та же точка может вносить очень малый вклад в общую инерцию (то есть точка-строка, элементами которой являются относительные частоты, имеет сходство с некоторой строкой, элементы которой представляют собой среднее по всем строкам). Относительная инерция для каждой размерности. Данный столбец содержит относительный вклад соответствующей точки-строки в величину инерции, обусловленный соответствующей размерностью. В отчете данная величина приводится для каждой точки (строки или столбца) и для каждого измерения. Косинус**2 (качество, или квадратичные корреляции с каждой размерностью). Данный столбец содержит качество для каждой точки, обусловленное соответствующей размерностью. Если просуммировать построчно элементы столбцов косинус**2 для каждой размерности, то в результате получим столбец величин Ка-
Анализ соответствий 569 чество, о которых уже упоминалось выше (так как в рассматриваемом примере была выбрана размерность 1, то столбец Косинус 2 совпадает со столбцом Качество). Эта величина может интерпретироваться как «корреляция» между соответствующей точкой и соответствующей размерностью. Термин Косинус**2 возник по причине того, что данная величина является квадратом косинуса угла, образованного данной точкой и соответствующей осью. Дополнительные точки. Помощь в интерпретации результатов может оказать включение дополнительных точек-строк или столбцов, которые на первоначальном этапе не участвовали в анализе. Имеется возможность для включения как дополнительных точек-строк, так и дополнительных точек-столбцов. Можно также отображать дополнительные точки вместе с исходными на одной диаграмме. Например, рассмотрим следующие результаты: 1 Группа сотрудников 1 Старшие менеджеры 1 Младшие менеджеры 1 Старшие сотрудники 1 Младшие сотрудники 1 Секретари 1 Национальное среднее Измерение 1 -0,065768 0,258958 -0,380595 0,232952 -0,201089 -0,258368 Измерение 2 0,193737 0,243305 0,010660 -0,057744 -0,078911 -0,117648 1 Данная таблица отображает координаты (для двух размерностей), вычисленные для частотной таблицы, состоящей из классификации степени пристрастия к курению среди сотрудников различных должностей. Строка Национальное среднее содержит координаты дополнительной точки, которая является средним уровнем (в процентах), подсчитанным по различным национальностям курящих. В данном примере это чисто модельные данные. Если вы построите двумерную диаграмму групп сотрудников и Национального среднего, то сразу убедитесь в том, что данная дополнительная точка и группа Секретари очень близки друг к другу и расположены по одну сторону горизонтальной оси координат с категорией Некурящие (точкой-столбцом). Другими словами, выборка, представленная в исходной частотной таблице, содержит больше курящих, чем Национальное среднее. Хотя такое же заключение можно сделать, взглянув на исходную таблицу сопряженности, в таблицах больших размеров подобные выводы, конечно, не столь очевидны. Качество представления дополнительных точек. Еще одним интересным результатом, касающимся дополнительных точек, является интерпретация качества, представления при заданной размерности. Еще раз отметим, что целью анализа соответствий является представление расстояний между координатами строк или столбцов в пространстве более низкой размерности. Зная, как решается данная задача, необходимо ответить на вопрос, является ли адекватным (в смысле расстояний до точек в исходном пространстве) представление дополнительной точки в пространстве выбранной размерности. Ниже представлены статистики для исходных точек и для дополнительной точки Национальное среднее применительно к задаче в двумерном пространстве.
570 Глава 15. Анализ соответствий 1 Косинус**2 Группа сотрудников 1 Старшие менеджеры 1 Младшие менеджеры 1 Старшие сотрудники 1 Младшие сотрудники 1 Секретари | Национальное среднее Качество 0,892568 0,991082 0,999817 0,999810 0,998603 0,761324 Измерение 1 0,092232 0,526400 0,999033 ' 0,941934 0,865346 0,630578 , Измерение 2 0,800336 0,464682 0,000784 0,057876 0,133257 0,130746 | Напомним, что качество точек-строк или столбцов определено как отношение квадрата расстояния от точки до начала координат в пространстве сниженной размерности к квадрату расстояния от точки до начала координат в исходном пространстве (в качестве метрики, как уже отмечалось, выбирается расстояние хи- квадрат). В определенном смысле качество является величиной, объясняющей долю квадрата расстояния до центра тяжести исходного облака точек. Дополнительная точка-строка Национальное среднее имеет качество, равное 0,76. Это означает, что данная точка достаточно хорошо представлена в двумерном пространстве. Статистика Косинус**2 — это качество представления соответствующей точки-строки, обусловленное выбором Пространства заданной размерности (если просуммировать построчно элементы столбцов Косинус 2 для каждого измерения, то в результате мы придем к величине Качество, полученной ранее). Графический анализ результатов. Это самая важная часть анализа. По существу, вы можете забыть о формальных критериях качества, однако руководствоваться некоторыми простыми правилами, позволяющими понимать графики. Итак, на графике представляются точки-строки и точки-столбцы. Хорошим тоном является представление и тех и других точек (мы ведь анализируем связи строк и столбцов таблицы!). Обычно горизонтальная ось соответствует максимальной инерции. Около стрелки показан процент общей инерции, объясняемый данным собственным значением. Часто указывают также соответствующие собственные значения, взятые из таблицы результатов. Пересечение двух осей — это центр тяжести наблюдаемых точек, соответствующий средним профилям. Если точки принадлежат одному и тому же типу, то есть являются либо строками, либо столбцами, то чем меньше расстояние между ними, тем теснее связь. Для того чтобы установить связь между точками разного типа (между строками и столбцами), следует рассмотреть углы между ними с вершиной в центре тяжести. Общее правило визуальной оценки степени зависимости заключается в следующем. О Рассмотрим 2 произвольные точки разного типа (строки и столбцы таблицы). О Соединим их отрезками прямых с центром тяжести (точка с координатами 0,0). О Если образовавшийся угол острый, то строка и столбец положительно кор- релированы.
Пример 1 (анализ курильщиков) 571 О Если образовавшийся угол тупой, то корреляция между переменными отрицательная. О Если угол прямой, корреляция отсутствует. Рассмотрим анализ конкретных данных в системе STATISTICA. Пример 1 (анализ курильщиков) Шаг 1. Запустите модуль Анализ соответствий. В стартовой панели модуля имеются 2 вида анализа: Анализ соответствий и Многомерный анализ соответствий. Выберите Анализ соответствий. Многомерный анализ соответствий будет рассмотрен в следующем примере. Шаг 2. Откройте файл данных smokingsta папки Examples. вмй : определение таблицы Метод ;(• Амдли» соотмтстемА (АС) : Входные данные ~ у-- '; С Иоюдные данные {требуется гдбудядия}. :| С Д«стеты с груишруошш»! переметили Часхоты без грушмруоеца перепет мш С Многомерный анализ соответствий (МАО Вы можете табулировать переменную с помощь» кодов или задать таблицу <«cwr с кооируошими в 3 Отмена | »ттттттттяА* . I Г» Частоты бед п>у1пмр»оеца перелета*» j w* с «*ип»эшими ^ • • ..;. :Щ»в»1адо/вк»ыогс>еделтъмаяри^ Берта для М^ пввем»аамм>Ния*бе$ни4 ™/Денные* ''" :"'™ ^'~' *:"•**-*•*■-"■■•-* :•'•-—г ; ■;.. ' • • "^.:. ?^, "ЗАМБМАН!^: 2сл*аЙ; в л QepeMciame с *естотеми ВСЕ ездоке; Ofciiidtpano бЬдоо : ..- ^ одной *1ВрвменЮ^й. -.* бмав!промавая§нч^--Г; . енаяиэмногоежжпвой- таблицы' •••.-. JVS. В файле содержатся данные о распространении курения среди сотрудников фирмы. щ Данные SMOKING STA 4п ■ ! ЧИСЛОВЫЕ €п>жж*жж*т----:-? Simple со HETJ рЩ1Щи1Щ\ 41 ст. сотрудники мл.сотрудники секретари 25 18 10 rrespondence СЛАВО г 3 10 24 б Н13ЁП analysis exi СРЕДНЕ сильно 1 3 2{ 7 4 i 12 4 33 13 7 2! Файл уже представляет собой таблицу сопряженности, поэтому табуляция не требуется. Выберите вид анализа — Частоты без группирующей переменной. Шаг 3. Нажмите кнопку Переменные с частотами и выберите переменные для анализа. В данном примере выберите все переменные.
572 Глава 15. Анализ соответствий 2СЛАБ0 ICI'IJIHE Отмене J Выбрать ocoj П., рог Ддвроб | И»* Шаг 4. Нажмите ОК и запустите вычислительную процедуру. На экране появится окно с результатами. юшшшшшшшт FTxl Число переменных (столбцов в таблице): Число маблжшеиии (строк в таблице): Соб. знач.: .0748 .0100 .0004 Общий хи-квадрат*16.4416 сс-12 р-,1719 1 '«уи'жу;^ " ***** Н»станм^1^о>ш<мц<| иаггрмщм || *Ц Проспим строк.. '; sou ^gii^^j IGO ,'fryft* im r> jE3 &| G£ эн Ш cH^Wx'lB^ji^Ml СтеН**рТИ«*AИЯ w»H,.? ч!'-^: i^k{>^t®^ll)n«ib" Ш Cm. «i т*Л* 1ЕЗ 2ИI C£ 9И ] Не&доеемы* частоты Проценты по строке * l1fio«wru no столокj Прокеитм от общего - НооЖ мжцс одреномыо | •• Вклад Pw«iMpOT Сг ендерти*, отклонения I Г" Градик только выбрей, измерений Г* Сократить метки до Р~й> Г Одинаковые ХЛ7£) оси Дне построенет ЭМ <>ютограмм исяо/1ьдуйг§ быстры! „ <v * * Дополнительные точкн-столокы и точки-строки - -- -:,: ^ • * б«до еключены • таблицы Ц Добелить точки-столо'кы нвт результатов и графики. Шаг 5. Рассмотрим результаты с помощью опций данного окна. Обычно сначала рассматриваются графики, для чего имеется группа кнопок График координат. Графики доступны для строк и столбцов, а также для строк и столбцов одновременно. Размерность максимального простарнства задается в опции Размерность. Наиболее интересна размерность 2. Заметьте, что на графике, особенно если имеется множество данных, метки могут накладываться друг на друга, поэтому может быть полезной опция Сократить метки. Нажмите третью кнопку 2Mb диалоговом окне. На экране появится график:
Пример 1 (анализ курильщиков) 573 ItII1 IMI'mH ",м^|, || 2М график координат строк и столбцов 0.30 0.25 0.20 0.15 0.10 0.05 0.00 -0.05 -0.10 -0.15 -0.20 с I.менеджер НЕТ СТ.СОДОДНМКИ секретари мшменеджер + СИЛЬНО Центр тяжести СРЕДНЕ мл.сотрудники СЛАБО -0.2 -0.1 0.0 0.1 Измерение 1; 87.76 % Коорд.стр. Коорд.сш. Заметьте, что на графике представлены оба фактора: группа сотрудников — строки и интенсивность курения — столбцы. Соедините отрезком прямой категорию СТАРШИЕ СОТРУДНИКИ, а также категорию НЕТ с центром тяжести. Образовавшийся угол будет острым, что на языке анализа соответствий говорят о наличии положительной корреляции между этими признаками (просмотрите исходную таблицу, чтобы убедиться в этом). Координаты строк и столбцов можно посмотреть и в численном виде с помощью кнопки Координаты строк и столбцов. НЕЗЕС ;"чамс'в.~;:| Таблице вводе(СтрхСтолб) 5x4 Стандартизация Профили строк и столбцов Столбец l^^^^g Имя I^^^^Q СЛАБО СРЕДНЕ СИПЬНО 1«Ц[ —^. ^Ш Координ. 1Ц измер.1 1| -393308 2 099456 3 196321 4 293776 Координ. мзмвр.2 030492 -141064 -007359 197766 Масса 316062 233161 321244 129534 Качество 999995 984016 983228 994552 ■■LJulJ Относит, инерции 577372 082860 148025 191743 -1 » Г Используя кнопку Собственные значения, можно увидеть разложение статистики хи-квадрат по собственным значениям. Опция График только выбранных измерений позволяет просмотреть координаты точек по выбранным осям.
574 Глава 15. Анализ соответствий Группа опций Просмотр таблиц в правой части окна позволяет просмотреть исходную и ожидаемую таблицу сопряженности, разности между частотами и другие параметры, вычисленные при гипотезе независимости табулированных признаков (см. главу Построение и анализ таблиц, критерий хи-квадрат). Таблицы большой размерности лучше всего исследовать постепенно, вводя по мере надобности дополнительные переменные. Для этого предусмотрены опции: Добавить точки-строки, Добавить точки-столбцы. Пример 2 (анализ продаж) В главе Анализ и построение таблиц был рассмотрен пример, связанный с анализом продаж. Применим к данным анализ соответствий. Ранее отмечалось, что вопрос, какие именно покупки произвел покупатель при условии, что куплено 3 товара, является сложным. • Действительно, всего мы имеем 21 продукт. Чтобы просмотреть все таблицы сопряженности, требуется выполнить 21x20x19 = 7980 действий. Число действий катастрофически возрастает при увеличении товаров и количества признаков. Применим анализ соответствий. Откроем файл данных с индикаторными переменными, отмечающими купленный продукт. БЕЗАЛКОЛ КОЛБАСЫ 2 1 L. 7_ !_ 11 11 I 0 00 0 00 0 00 1 00 1 00 0 00 0 00 1 00 0 00 0 00 0 00 0 00 1 00 ооо£ 1 00 1 00 1 00 000 100 0 00 100 1 00 1 00 1 00 Too) 1 00 1 00 1 00 1 00 1 00 0 00 1 00 0 00 koHCEPBb 1 00 0 00 | 0 00 0 00 0 00 0 00 0 00 100 100 0 00 0 00 КОФЕ 1 00 0 00 0 00 1 00 0 00 0 00 000 0 00 100 0 00 0 00 7 vlAKAPOHb 000 0 00 0 00 0 00 000 000 000 0 00 0.00 0 00 0 00 МЯЕ31 11 8 МУКА 0 00 0 00 0 00 0 00 1 0 00 ! 0 00 100 0 00 100 0 00 0 00 н В стартовой панели модуля выберем Многомерный анализ соответствий. I 1Ш1|1!!1|.Щ|. LIJ.!..UJI.|l,H.lllJ.IJ,U.HJHWW^a—^ШТП I (АС) О МногонариыЛ мммма соответствий (MAC) Входные * С Яастотмс С Чжлогы бе* грутирукниж , Вм*юж«г*табулировать I Ез ifl& переменило с помошыо коде» ил< эеаетъ таблицу частот с коаодошимй Отмен* * частоты ос» групираюшии пвр w частот с *св>*<уюшим* ^ | UW**>» должны определять матрицу Берге для MAC) лереме1»»*ии1или6о»инк1. 1С? Дичма | Деремеиные {«fterrop+i ш тебаме.» Сорта) 13 S13141719 21 &о*ыааягрдпомр»юаив>поре<1гн«11|1м [выбраны E3 Доподиитеаьиые стоабцы Ь *J 17 19 21 & в| Зададим условие выбора наблюдений.
Пример 2 (анализ продаж) 575 ЕЕН Зц_илооои. Цкм ТоАлй у. пеший омборо)* ы S Состояние • Операторы:- <><><• >»N0TAND0R £* Ощрыть <• BKfl Переменные: имена или v1.v2... ~*~«—-———— : -Не»«рHfpVwwHtwrDO -• ill fv7<1 OR v9«VES1 end v4o$ Это условие позволяет выбрать покупателей, сделавших ровно 3 покупки. Поскольку мы имеем дело с нетабулированными данными, выберем вид анализа Исходные данные (требуется табуляция). Для удобства дальнейшего графического представления выберем небольшое количество переменных. Выберем также дополнительные переменные (см. окно ниже). > iiii,ijjujjj;uiM [3 КОЛБАСЫ }э молоко 12 МЯСО 13 ОВОЩИ 14 РЫБА I/-СПИРТНОЕ 19 СЫРЫ ?1 ХПГК жп JhMOHa_ J IftMoptbocj Dpmpod. рвг Запустим вычислительную процедуру. \*шттттттшттттят Число анализируемых столбцов в таблице: 10 Переменные и число категории: КОЛБАСЫB) МОЛОКОB) МЯСО С) 0В0КИB) РЫБАB) спиртное (г) сыры I г \ хш: <:) (Дополнительные факторы выделены выше) Соб. знач.: .2953 .2265 .1949 .1805 .1028 Обшии хи-кваярат-604.045 сс-81 р-0.000 (Хи-квадрат (ее, р) истинно только при использовании двувход. таблицы) Координаты столбцов* BU lf;O(M*T90HNM9 ЗИо^вИМР! Раэмоомость ——— в» Радмарност»: |2 15 ' ''"• ■" 3f*w»r-Лотт} В Ностатчггм^жмчмо матрицу | Греецаш коараммапг''.:''' ..~^*...:«~..*. ~-~.-|Просмртртаба< Г" Гоаац* тоаьио выбрившие ни юдениЛ *; ЯШ Набавщ. !« 1 Отмена Дачат» АО!» Г., -~-т=55| Г Сократить метам до р Ц Г* Оанцмоамв ХЛТрП ми устоты ■ ffl Проааиш ро строи» : Д| Промокли по столбца | Щ Ш Орощлтыотоощог» \Ш Сучытттиа. отачХиним ц ■' inriijii|iliiiiiimi и . i|i ш nj'im iji> i>< iiii»i flilll I HiyiMiHi Hi riii-WfMTlMA.IilTliita.li/lia A MIHUi i* Дмпостро§ии«ЭМгмсгогр»<мц статистически* графики, оост^нм»и»т*$йицреэ5*лктвп». В появившемся окне Результаты многомерного анализа соответствий просмотрим результаты.
576 Глава 15. Анализ соответствий С помощью кнопки 2М выводитм двуыерншй график переменных. На этом графике дополнительные переменные отмечены красными точками, что удобно для визуального анализа. Заметьте, что каждая переменная имеет признак 1, если товар куплен, и признак 0, если товар не куплен. Рассмотрим график. Выберем, например, близкие пары признаков — МЯСО:1 и ОВОЩИ:1, СЫРЫ:1 и КОЛБАСЫ.1 — и присоединим к ним переменную ХЛЕБ. 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.4 Я .6 ал 1.0 2М график столбцов КОЛБАСЫ.О МЯСО:1 ОВОЩИ:1 {близкие товары при з-х покупках! СПИРТНОЕ :+1 МОЛОКО:0 1.2 1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 Измерение 1; 29.53 4 0.6 0.8 1.0 1.2 1.4 Коорд.стл. Доп.столб. В итоге получим следующее: Д*«ее~ мясо овощи GJ.-0 QJ:0 QJ 0 CUM Всего алл сия Частоты выделенных *чеек> 10 (Итоговые маргинальные не отмечены) ХЛЕБ СЦ:0 17 М 31 1С 1С 24 55 29 10 39 11 16 55 вСвГО по. стр. 46 24 70 23 17 40 110 нжзяЕЕшап Деле*.*» ХЛЕБ СЫРЫ • CLT*: OJM J&2L 0.2:1 ОЛЯ Частоты выделенных ямеек> 10 |(Итоговые маргинальные не отмечены) КОЛБАСЫ QJ.0 всего по стр. 36 4 40 29 1 30 70 13 2 15 СО 25 40 49 6 55 49 6 55 110 Аналогичные исследования можно провести и для других данных, когда отсут ствуют какие-либо априорные гипотезы о зависимостях в данных.
Примеры анализа данных в системе STATISTICA В этой главе мы рассмотрим несколько примеров анализа данных с помощью системы STATISTICA. Первый пример относится к области маркетинга (мы показываем возможности модуля Множественная регрессия)у три следующие примера — к промышленным приложениям (мы показываем возможности модулей Планирование эксперимента и Карты контроля качества), пятый пример иллюстрирует возможности STATISTICA по наложению результатов анализа на географические карты. Еще раз отметим, что современная STATISTICA — это средство разработки приложений в конкретных областях (бизнесе, медицине, промышленности и др.). Библиотека STATISTICA содержит более 10 000 тщательно отлаженных и проверенных на практике процедур анализа данных. Развитие системы естественно приводит к созданию средств разработки собственного интерфейса и использования библиотеки STATISTICA для создания оригинальных модулей, включающих, наряду с процедурами STATISTICA, алгоритмы разработчика. Все эти процедуры объединяются общим интерфейсом, средствами управления данными и графикой STATISTICS Именно в создании средств для разработки приложений мы видим будущее систем анализа данных. Пример 1 Пример основан на реальных данных, описывающих рынок пива в Греции (см. статью Kioulofas К. Е. «An Application of Multiple Regression Analysis to the Greek Beer Market» в журнале «Journal of Operational Research Society», Vol. 36, № 8, p. 689- 696,1985). Известно, что этот рынок поделен между 5 фирмами, обозначенными далее А, В, С, D и Е. До 1981 года на рынке присутствовали фирмы А, В и С, в 1981 году на рынок пришли фирмы D и Е. Но уже в 1983 году фирма D не выдержала конкуренции, а у фирмы А возникли финансовые проблемы. Фирма/год А В С D Е 1980 27,6 28,6 43,8 - - 1981 21,3 22,0 33,8 14,7 8,2 1982 21,3 22,0 33,8 14,7 8,2 16
578 Глава 16. Примеры анализа данных в системе STATISTICA В следующей таблице представлены объемы продаж в отрасли и доля каждой фирмы Фирма/ Год В целом А В С D Е 1980 Знач. % 7 646,287 100,0 1926,300 25,2 2 347,987 30,7 3 372,000 44,1 - - 1981 Знач. % 10 458,140 100,0 1571,417 15,0 3 073,511 29,4 4 381,000 41,9 596,755 5,7 835,457 8,0 1982 Знач. % 13 475,974 100,0 1595,742 11,8 3 660,954 27,3 5 677,000 42,1 1042,278 7,7 1500,000 11,1 1980 г. 1981 г. Можно заметить, что после появления фирм D и Е произошло резкое снижение доли фирмы А. Две новые фирмы D и Е по-разному освоили рынок. Фирма D имела большие производительные способности, чем фирма Е, но заметно отстала по объемам продаж. Этот пример интересен тем, что показывает соотношение затрат на рекламу и производство. Будем считать, что основным показателем эффективности рекламы является объем продаж фирмы. В этой таблице представлены расходы на рекламу каждой фирмы и ее доля в рекламе. Фирма/ Год 1980 1981 1982 Знач. % Знач. % Знач. % В целом 44,596 100,0 136,273 100,0 187,997 100,0 А В С D Е 12,667 13,897 18,050 - - 28,4 31,2 40,4 - - 6,747 38,174 39,581 21,340 30,421 5,0 28,0 29,0 15,7 22,3 22,298 43,079 65,114 20,687 36,519 11,9 22,9 34,6 11,0 19,6 Понятно, что вхождение в отрасль фирм D и Е потребовало больше расходов на рекламу (в процентном отношении к объему продаж). Это отчетливо видно из следующей таблицы:
Примеры анализа данных в системе STATISTICA 579 Фирма/год А В С D Е 1980 0,7 0,6 0,5 - - 1981 0,4 1,2 0,9 3,6 3,6 198: 1,4 1,2 1,1 2,0 2,5 1980 г. 1981 г. Заметим, фирма D в 1982 году резко снизила расходы на рекламу, что, возможно, стало причиной потери рынка. Предполагается, что для рекламы используются следующие средства массовой информации: телевидение, газеты, журналы и радио. Эффективность рекламы в каждом случае различна, и возникает вопрос о количественных зависимостях между объемом продаж и расходами на рекламу в каждом из средств массовой информации. Обычно доля телевидения составляет 70- 90%, и поэтому в таблице, представляющей распределение расходов на рекламу между средствами массовой информации, все СМИ, кроме телевидения, объединены в одну группу «другие». На реальный объем продаж пива влияют также такие факторы, как температура воздуха, число туристов и индекс потребительских цен (инфляция). В предлагаемой модели теоретическая зависимость основывается на предположении, что объем продаж за период t (далее это месяцы) является функцией объема продаж за прошлый период расходов на рекламу в периоды t и t-1, количества туристов, значений температуры и индекса розничных цен. st = ь0+ед_, + b2At + М-, + ъАт( + b5wt + b6pt, где St — объем продаж (в драхмах);5 At — ассигнования на рекламу; Tt — число туристов в месяц t; Wt — средняя температура воздуха; Pt — индекс розничных цен.
580 Глава 16. Примеры анализа данных в системе STATISTICA Итак, мы построили модель зависимости, но коэффициенты этой модели неизвестны. Эти коэффициенты оцениваются из исходных данных в модуле Множественная регрессия. Оценка коэффициентов по методу наименьших квадратов выявила статистическую незначимость переменных Wt и Pt> и они были исключены из дальнейшего анализа. В результате получилось уравнение, содержащее меньшее число переменных: Sl=b0+blS„+b2Al+bA_l+bAT, (*). Оценим коэффициенты этого уравнения, используя реальные данные. Для анализа использовались данные о месячных продажах за 2 года. Число наблюдений равнялось 24. Результаты регрессии приведены в таблице: тг 0,52 0,22 0,25 0Д9 0,73 R2 0,801 0,881 0,893 0,703 0,317 0,600 н 1,56 1,95 1,14 -0,21 0,21 -0,68 С. о. Р. 132Д1 35,82 43,28 55,09 37,75 41,76 Фирмы Отрасль А В С D Е ■« 0,56 0,29 0,49 0,45 0,59 0,60 АГ 11,81 Л93 3,85 од 2,6 Значения коэффициента детерминации R2, близкие к единице, говорят о хорошем приближении линии регрессии к наблюдаемым данным и о возможности построения качественного прогноза. Низкое значение коэффициента детерминации R2 для фирмы D объясняется низкой эффективностью рекламной кампании и трудностями на административном уровне. Можно сделать вывод, что модель плохо применима к фирме D. Статистики Дарбина—Уотсона свидетельствуют об отсутствии автокорреляции остатков при 5%-м уровне значимости, так как все ее значения по модулю меньше 1,96. Все значения регрессионных коэффициентов значимы при уровне значимости 0,5, за исключением коэффициентов при At для фирм В, D и Е. Одним из возможных объяснений этого факта является то, что показатели этих фирм зависят от рекламной деятельности за прошлый период времени, то есть от Ам. Это подтверждается тем, что для этих фирм коэффициенты при At1 значимы на уровне 95%. Более того, можно заметить, что показатели всех фирм, кроме фирмы Е, имеют положительную корреляцию с числом туристов. Незначительную корреляцию между туризмом и объемами продаж фирмы Е можно объяснить недавним появлением этой фирмы. Объемы продаж всех фирм также находятся под влиянием объемов продаж в прошлом периоде, 5М, возможно, благодаря эффекту «привычки» потребителей к торговым маркам. Значимость этого параметра с распределенным лагом также наводит на мысль о некоторых обучающих эффектах. Продажи фирмы А имеют значительную положительную корреляцию с ее расходами на рекламу за период t, что отличает ее от других фирм. Окончательно вза-
Примеры анализа данных в системе STATISTICA 581 имосвязь между рыночными продажами и совокупными расходами на рекламу положительна и значима при уровне 5%. Представленные выше результаты регрессии образуют основу оценки эффективности совокупных расходов на рекламу. Покажем, как строятся такие модели в системе STATISTICA. Для этих целей обычно используется модуль Множественная регрессия. В этом модуле собраны методы, позволяющие оценить зависимость одной переменной от нескольких других переменных. Переменная, для которой строится зависимость, называется зависимой (по-английски dependent variable). Эта переменная входит в левую часть уравнения, описывающего зависимость (см. уравнение (*)). Переменные, от которых мы хотим построить зависимость, называются независимыми переменными (по-английски independent variables), или предикторами (от английского predict — предсказывать). Эта переменная входит в правую часть уравнения, описывающего зависимость. Сам термин множественная регрессия (по-английски multiple regression) означает, что модель может содержать несколько предикторов, позволяющих предсказывать зависимую переменную. Итак, общая идея состоит в том, чтобы по значениям предикторов предсказывать значения зависимой переменной, например, по значениям продаж и расходам на рекламу в текущем и предыдущем месяце предсказывать продажи в следующем месяце. Конечно, количество предикторов можно увеличить, например, ввести объем продаж у конкурентов или какие-то другие, имеющие смысл и доступные наблюдению переменные. Однако здесь имеется тонкость — предикторы могут оказаться зависимыми между собой. Переменные, которые следует включить в модель, определяет специалист в предметной области. Затем нужно выполнить следующие действия. Шаг 1. Запустите модуль Множественная регрессия. Шаг 2. Введите исходные данные в файл системы STATISTICA. Назовите его, например, ВеегМа.
582 Глава 16. Примеры анализа данных в системе STATISTICA 7 а 9 10 и п 13 14 1Б 16 17 16 19 20 21 22 23 24 щ зал зкшшаш ■ г.... '« • У -J 4 ь У1,24 шз; ВЬ4с 86' ■••''»?*f Щ j 11 • \;;- . 11:23 о 4 lfflflfffflKH 1 16 9 11758 5 118672 9577 6 10898 4 9638 6 92039 9231 1 7334 5 7467 0 7839 6 9787.0 9600 3 71999 9547 7 101875 9661 2 9189 2 I 2 SI 88621 8646 9 117585 118672 9577 6 10898 4 9638 6 9203 9 9231 1 7334 5 7467 0 78396 9787 0 9600 3 7199 9 95477 101875 9661 2 ' К 1 :is *few* ', ЛО 0 _> 2ju ь : jj4 i. • JJ2 <: : 4 зу 2 6 ?b 2 .•?:. Ari....I Ш^ 1404 ••' igMmi .,3 :, A 4160 327 7 1606 4031 269 7 280 5 3351 169 3 206 0 2161 322 2 285 5 79 2 333 6 2931 238 5 255 4 383 6 •ч A - . A1 2128 4160 327 7 160 6 4031 269 7 280 5 3351 169 3 206 0 2161 3222 285 5 79 2 333 6 2931 238 5 255 4 S т 1741 5 2060 0 1777 8 13789 1253 3 794 0 1384 4 1392 5 2484 3 2777 5 3301 9 3635 9 34159 2606 8 2508 0 2834 1 2481 8 14744 , Г-, а •) 20 -Ь гь J 2 18 1 1] •!■■> 2 101 4 ' 103 1 1U* 7 и: j и j Ь 114 7 ib Ь 11» 7 12: W 22 8 187 155 11 7 56 65 81 103 97 22 4 20 6 26 8 27 8 183 120 97 51 28 21 ^pj <• j - i 4 ■ -iOixfl •7.::.... p 1141 1160 j 116 6 1226 | 1195 | 130 6 1250 I 1242 | 1307 131 6 ' 133 4 1391 i 1423 ] 139 9 144 5 1439 148 0 j 1493 Г1, Шаг З. Определите переменные в модели. Задайте S в качестве зависимой переменной и S1...P — в качестве независимых переменных, или предикторов. После этого стартовая панель модуля будет выглядеть так: &ййл »М««:| Исходные данные J*j Уодмим* ГЩ.| Пострлчипя ^| Тшден*с«им;|(:1а«в<нпнаи ^J fx Провести ihmm* mi уйциатяв |и* поцычжыЛ] ' • *£ Г По&Ч*»»Т» ОЛИСДОМЫ** СДОИЛИ**. Ыфр. К*Т|Н«М* •; Г* Пл1*.ти<** &,paforH,*Jn&4ati?' '" * Г" М*\$#< 4Г»Ь $**--*$( *H>*»TWS 4МЛ4И&Ф ОЛ**»*.»*» Звцй?» »ц» гщи»#» »»и? д<ю dmmt* асстояыяуьнм* мацми ' HHHHlInl IB ' Ш \ j 1 n™»* I %fUl&fil •<* ^ .. , :s ,.|
Примеры анализа данных в системе STATISTICA 583 Шаг 4. Нажмите кнопку ОК. Появится диалоговое окно результатов, в котором отображаются итоги стандартной процедуры. Измените процедуру на Пошаговую с включением. Для этого нажмите на кнопку Отмена и в появившемся диалоговом окне Определение модели выберите в поле Процедура опцию Пошаговая с включением. В этой процедуре система начинает построение модели с одного предиктора, затем, используя F-критерий, в модель включается еще один предиктор и т. д. На каждом шаге вычисляется коэффициент множественной корреляции. Квадрат коэффициента множественной корреляции, коэффициент детерминации, свидетельствует о качестве построенной модели. Нажмите кнопку ОК. Ж В а* ОтмжяД 13 СреЛошмЛ члш: | Добавить в модель Н 1о«р«тюс?ь: | 00010 g рР<аиг»РД «ngJw нмп» • В5 Просмотр*!» ooHCf <ь»ца стотжтики В появившемся окне Пошаговая множественная регрессия снова нажмите (Ж. blM'J.MIHi. ;ест»е«н«* оегоессяя ».rja:4*tmn '.[.«г: ■'* У-мсг»«гиг>: .'Л.?»': ::ЕЛ1 ::£ = «:! ■■;■<;/*.■'■ j'|'s«s<^^^' Г»ДИmi Теперь перед вами диалоговое окно результатов, полученных с помощью пошаговой процедуры с включением. Следует отметить, что в нем указаны стандартизованные коэффициенты регрессии. Заметим, если вы предполагаете, что в модели должно присутствовать неболь шов число предикторов, то естественно использовать пошаговый метод с включением предикторов. Если вы предполагаете, что в модели должно присутствовать большое число предикторов, то естественно использовать метод с исключением.
584 Глава 16. Примеры анализа данных в системе STATISTICA Р i л in и urn, т—т Сол/нь?aiH множ роцюссии (Ui.ti :Ja«»iwpcM S Мможосгп R J£jP#**o37 f UH \\7 m»ft3030? cc 4.19 Число нлСп 7Л скоррокт N? A4 /?0049 p 00< С|<11Ш.'ф1Н11Я «>A1и0к.'1 <н»онки 3I2.980046W свовчлон '\'2)У ?.nms? с г ошибка н;и <т t( 14} 123 :> 44*: р '. оо?/ ТНИ Шаг 5. Нажмите кнопку Итоговая таблица регрессии. Появится таблица результатов с подробными статистиками. В столбце БЕТА показаны стандартизованные коэффициенты регрессии, а в столбце В — нестандартизованные коэффициенты. Все коэффициенты в таблице значимы, так как р-значения для каждого из них меньше заданной величины 0,05. lll^llllll'l.lllllllMliyji'llllfllMllflJwl 97794837 R2- 95638302 Скорр R2- 19)04 15 р< 0000 С» ow оценки 94720 : 312 98; Щ± mm Щ^ощ, шж ШШ± 1 02954 66535 30767: 29160 -3211 3931.414-3.4478 00270! 05484 15 3 812 18 7733 00000< 05609 7 05611 8627 .000001 05983 5 099 5 1424 00006: 05965 4 2 869 4 8887 00010: Шаг 6. В окне результатов нажмите кнопку Анализ остатков, гзвшшвзшшшшшшшшшшшшшшшшшшшшт пщ •:*чу; «м<п« -f.w .?-■)> г» «.хну» "••< <:)* ♦. *? itmmtMtt'n r^*fr^ftrl&t штш m гтшущ пир ч hi » цн )|м 1МММ«айи*и Ml •■ ait- lGft««»»» ]Ж&!££^^ JS= 4*un»w «ем*** Ц Шаг 7. В диалоговом окне Анализ остатков нажмите кнопку Статистика Дарвина—Уотсона. Эта статистика позволяет исследовать зависимость между остатками. Формально остатки представляют собой разность: наблюдаемые значения зависимой переменной минус оцененные с помощью модели значения зависимой переменной.
Примеры анализа данных в системе STATISTICA 585 Зачем проверять зависимость остатков? Идея проста: если остатки существенно коррелированны (зависимы), то модель неадекватна (нарушено важное предположение о независимости ошибок в регрессионной модели). Рассмотрим более подробно статистику Дарбина—Уотсона. Мы уделяем этой статистике так много внимания, потому что статистика Дарбина—Уотсона является стандартом для проверки некоторых видов зависимости остатков и с ней нужно научиться работать. Статистика Дарбина—Уотсона используется для проверки гипотезы о том, что остатки построенной регрессионной модели некоррелированы (корреляции равны нулю), против альтернативы: остатки связаны авторегрессионной зависимостью вида: е,-**,.,+5, С). где d. — независимые случайные величины, имеющие нормальное распределение с параметрами @, s), i = 1... п. Формально статистика Дарбина—Уотсона вычисляется следующим образом: d = ±(e-ej/±ef /=2 / ;=1 Иными словами, сумма квадратов первых разностей остатков нормируется суммой квадратов остатков. Проведя вычисления, вы легко выразите статистику Дарбина—Уотсона через коэффициент корреляции: d = 2A — р). Критические точки статистики Дарбина—Уотсона табулированы (см., например, Драйпер Н., Смит Г. Прикладной регрессионный анализ. М.: Финансы и статистика, т. 1. с. 211, см. также таблицу, показанную ниже). ^^Критические точки DL_k и DU_k Дарб-Уотсона (уровень 0 05. число предикторов_к) ^j ТЕКСТ ш 16 17 18 19 20 21 22 23 24 25 26 27 26 29 30 ; Критическ __- WSBL 1.080| 1.100 1.130 1.160 1.180 1.200 1.220 1.240 1.260 1.270 1.290 1.300 1.320 1.330 1.340 1.350 Ав ТОЧКИ 2 OU_t 1.360 1.370 1.380 1.390 1.400 1.410 1.420 1.430 1.440 1.450 1.450 1.460 1.470 1.480 1.480 1.490 DL_k и DU_k Дарб-Уотсона (уровень 0 05. число предикторов_к) 3 OL.2 .950 .980 1.020 1.050 1.080 1.100 1.130 1.150 1.170 1.190 1.210 1.220 1.240 1.260 1.270 1.280 4 1.540 1.540 1.540 1.530 1.530 1.540 1.540 1.540 1.540 1.550 1.550 1.550 1.560 1.560 1.560 1.570 S OUT .820 .860 .900 .930 .970 1.000 1.030 1.050 1.080 1.100 1.120 1.140 1.160 1.180 1.200 1.210 6 DU.J 1.750 1.730 1.710 1.690 1.680 1.680 1.670 1.660 1.660 1.660 1.660 1.650 1.650 ,1.650 1.650 1.650 7 :. OL.4 .690 .740 .780 .820 .860 .900 .930 .960 .990 1.010 1.040 1.060 1.080 1.100 1.120 1.140 .. : •: w DIL4 1.970 1.930 1.900 1.870 1.850 1.830 1.810 1.800 1.790 1.780 1.770 1.760 1.760 1.750 1.740 1.740 .560 .620 .670 .710 .750 .790 .830 .860 .900 .930 .950 .980 1.010 1.030 1.050 1.070 10 OUL5 2.210 -| -J 2.150 2.100 I 2.060 2.020 1.990 < 1.960 1.940 1.920 1.900 1.890 1.880 1.860 1.850 j 1.840 | 1.830 *i
586 Глава 16. Примеры анализа данных в системе STATISTICA 31 зг 33 34 35 36 3? за 39 40 45 50 S5 50 66 70 75 86 т 9S 5 100 ки, 1.360 1.370 1.380 1.390 1.400 1.410 1.420 1.430 1.430 1.440 1.480 1.500 1.530 1.550 1.570 1.580 1.600 1.620 1.630 1.640 1.650 1.500 1.500 1.510 1.510 1.520 1.520 1.530 1.540 1.540 1.540 1.570 1.590 1.600 1.620 1.630 1.640 1.650 1.670 1.680 1.690 1.690 1.300 1.310 1.320 1.330 1.340 1.350 1.360 1.370 1.380 1.390 1.430 1.460 1.490 1.510 1.540 1.550 1.570 1.600 1.610 1.620 1.630 1.570 1.570 1.580 1.580 1.580 1.590 1.590 1.590 1.600 1.600 1.620 1.630 1.640 1.650 1.660 1.670 1.680 1.700 1.700 1.710 1.720 1.230 1.240 1.260 1.270 1.280 1.290 1.310 1.320 1.330 1.340 1.380 1.420 1.450 1.480 1.500 1.520 1.540 1.570 1.590 1.600 1.610 1.650 1.650 1.650 1.650 1.650 1.650 1.660 1.660 1.660 1.660 1.670 1.670 1.680 1.690 1.700 1.700 1.710 1.720 1.730 1.730 1.740 1.160 1.180 1.190 1.210 1.220 1.240 1.250 1.260 1.270 1.290 1.340 1.380 1.410 1.440 1.470 1.490 1.510 1.550 1.570 1.580 1.590 1.740 1.730 1.730 1.730 1.730 1.730 1.720 1.720 1.720 1.720 1.720 1.720 1.720 1.730 1.730 1.740 1.740 1.750 1.750 1.750 1.760 1.090 1.110 1.130 1.150 1.160 1.180 1.190 1.210 1.220 1.230 1.290 1.340 1.380 1.410 1.440 1.460 1.490 1.520 1.540 1.560 1.570 1.830 1.820 1.810 1.810 1.800 1.800 1.800 1.790 1.790 1.790 1.780 1.770 1.770. 1.770 1.770 1.770 1.770 1.770 1.780 1.780 1.780 (шгшЕЕввашг 2,4 2,0 1,6 1,2 0,8 0,4 Верхние и нижние кршическме значения ci км ДарбинаУспсона в зависимости oi числа наблюдений (альфа - 0.05) "V *-* *-* ^ >■ *• ■* * * * * * -а * • * ■* * ■ i"■ : :*■■*■ 15 17 19 21 23 25 27 29 31 33 35 37 39 45 55 65 75 85 95 16 18 20 22 24 26 28 30 32 34 36 38 40 50 60 70 80 90 100 ■ -Ш1х| DL_1 DU_1 DL_2 DU_2 DL_3 DU_3 DL_4 DU_4 DL_5 DU_5 В таблице приведены два критических значения статистики Дарбина—Уотсо- на: DL_k и DU_k — нижнее и верхнее, зависящие как от числа наблюдений, по которым оцениваются параметры, так и от числа предикторов к, которые включены в модель. На графике видно, как меняются значения DL_k и DU_k в зависимости от числа наблюдений (к = 1, 2,3,4, 5). Число наблюдений, для которого рассчитаны критические значения, указано в заголовках строк приведенной таблицы.
Примеры анализа данных в системе STATISTICA 587 Итак, вы находите строку с нужным числом наблюдений и два смежных столбца с нужным числом предикторов. На пересечении строки и столбцов располагаются нижние и верхние критические точки статистики Дарбина—Уотсона. Если нужно проверить гипотезу: «остатки независимы, то есть р = 0», против общей альтернативы р * 0, поступают следующим образом. Вычисляют значение статистики Дарбина—Уотсона d. Для данного числа наблюдений и числа предикторов находят критические точки DL_k и DU_k в таблице, составленной для определенного уровня а. В приведенной таблице уровень а = 0,05. Если d < DL_k или 4 — d < DL_k, то гипотеза о независимости остатков отвергается на уровне 2а. Если d > DU_k и 4 — d > DU_k, то гипотеза о независимости остатков не отвергается на уровне 2а. Если нужно проверить гипотезу: «остатки независимы, р = 0», против альтернативы р > 0, то есть остатки положительно автокоррелированы, поступают следующим образом. Вычисляют значение статистики Дарбина—Уотсона d. Находят по таблице критические точки DL_k и DU_k, вычисленные для определенного уровня а. Заметьте, в приведенной таблице а = 0,05. Если d < DL_k, то гипотеза о независимости остатков отвергается на уровне а в пользу альтернативы. Если d > DU_k, то гипотеза о независимости не отвергается на уровне а. Случай DL_k < d < DU_k является сомнительным (см. рисунок). ПГРАФИК1 STG ЛинеАныАгра ■ -1П1Х1 Применение критерия Дарбина Уотсона. Гипотеза: "остатки независимы" альтернатива: "остатки пополажпельно коррелированы" 2,4 2,0 1,6 1.2 \ 0,4 "V В этой области гипотеза о независимости остатков не отвергается • ::::::::.:£Пт-гщрю1 **#>"* В этой области гипотеза о независимости остатков отвергается 15 17 19 21 23 25 27 29 31 33 35 37 39 45 55 65 75 85 95 16 18 20 22 24 26 28 30 32 34 36 38 40 50 60 70 80 90 100 DL_1 DU_1 DL_2 DU_2 DL_3 DU_3 DL_4 DU_4 DL_5 DU 5 Если нужно проверить гипотезу: «остатки независимы, р = 0», против альтернативы: р < 0, то есть остатки отрицательно автокоррелированы, то вместо d следует рассмотреть значение 4 — d и повторить рассуждения предыдущего абзаца, которые использовались для проверки гипотезы «остатки независимы, р = 0», против альтернативы р > 0. После того как мы познакомились со статистикой Дарбина—Уотсона, продолжим работу в модуле Множественная регрессия. Шаг 8. Нажмите кнопку Предсказанные и наблюдаемые.
588 Глава 16. Примеры анализа данных в системе STATISTICA I.II.U..|l|ll.l.lJ.IJt.Ll.l!l!l!!Jl|!l.!.Mll,I.IJl.l.llXI.I.M Предсказанные и набпюааемые значения Зависимая перемен S 13500 12500k 11500 | 10500 9500 8500 7500 65ogt2l ^500 8500 9500 10500 11500 12500 13500 Предсказанные Шаг 9. Вернитесь в окно Результаты множественной регрессии и нажмите кнопку Предсказать зависимую переменную. Далее в полях Л1 wS1 укажите значения текущего месяца, а в полях Г и А — значения на следующий месяц. г ~ д ежи 3 А1 St т {9661 11500 |400 -Ah* ] Применить] Нажмите кнопку ОК. Появится таблица результатов предсказания. На рисунке выделена ячейка, содержащая прогнозируемый объем продаж на следующий месяц. i ЛШ\АШ МНОЖЕСТВ РЕГРЕС Переи А1 SI .-.■*■ --т .;>■■ ; а СВ.члвх lii|.H!P.UJii..lU.l.JlllH Переменная S ,- хми»- Значение 15 25167 383 000 66330 9661 000 50829 1500 000 4 24928 400 000 ^^■ТТпГх! IHbHEHf 5841 39 * 6408 10 \ 762 44 i 1699 71 i -3211 29 .: 1 11500 35 | 11171 42 ; 11829 28 i Пример 2 Этот пример относится к промышленной статистике (см. Cornell J. A. A990). How to Apply Response Surface Methodology, vol. 8 in Basic References in Quality Control- Statistical Techniques, edited by S. S. Shapiro and E. Mykytka. Milwaukee: American Society for Quality Control). Любая машина или станок, используемые на производстве, позволяют операторам производить настройки, чтобы воздействовать на качество производимого продукта. Изменяя настройки, инженер стремится добиться максимального эффекта, а также выяснить, какие факторы играют наиболее важную роль в улучшении качества продукции.
Примеры анализа данных в системе STATISTICA 589 В системе STATISTICA имеется мощный модуль планирования экспериментов, позволяющий эффективно планировать и анализировать эксперименты. ?шя\к р| факторные пг Р, 2-i уровиеаые отсеивающие планы (Плакетта-Бермаиа) Г Pt Максимально несмешанные 2""(к-р) --— Отмена Аналн» псу»»* *ттсря* 0, Планы Э"(кр) и планы БоксаБеикема ниарар»1<аСм|алож»»»а1 ЯР» Смешанные *-ш м Jmu уровневыв планы *>ш»ьмУпдмум> ат^кла -v l£3?i Центральные композиционные планы, поверх, отклика q HtfUlfcH n/mwmtfiO Латинские м греко-латинские квадраты хб), Робастные планы Тагучм (ортогональные масси Ь^ Планы для смесея -) |[£>j Планы для повержиостея и смесея с ограничен» I[dJO- и А- (Т-) оптимальные планы аов>лйш4И¥41йм| Фнмуая* Д»С1МЦ!1101»»лЛе11»Й1«а, " Ж i 1& ft Задача состояла в том, чтобы исследовать факторы, влияющие на качество производимых пластиковых дисков. Известно, что наибольшее влияние на качество оказывают следующие два фактора: 1) материал, характеризующийся отношением наполнителя к эпоксидной резине, 2) расположение диска в форме. В качестве зависимой переменной рассматривалась плотность полученного диска. Сначала использовался дробный факторный план 22 для того, чтобы определить адекватность модели первого порядка. В этой модели оба фактора комбинировались друг с другом на верхних и нижних значениях (всего имеется 4 комбинации). Но оказалось, что модель оказалась адекватной лишь для некоторой области значений факторов и неадекватной для всей значений факторов. На самом деле зависимость между факторами и откликом была нелинейной. Поэтому было решено использовать центральный композиционный план и применить модель второго порядка. Построение плана Центральный композиционный план может состоять из куба и звезды. Куб соответствует полному факторному плану — точки эксперимента располагаются в вершинах куба (фактически это факторный план 22). Звезда содержит дополнительное множество точек, расположенных на одинаковых расстояниях от центра куба на отрезках, исходящих из центра и проходящих через каждую сторону куба. В данном исследовании применялся ротатабельный план, в котором дисперсия отклика является постоянной во всех точках, одинаково удаленных от центра плана. Пусть фактор А — это характеристика материала, из которого изготовлен диск, более точно, так называемое композиционное отношение (disk composition ratio), фактор В — положение диска в форме (position of disk in mold). Зависимая переменная, или отклик эксперимента, — плотность диска {Thickness).
590 Глава 16. Примеры анализа данных в системе STATISTICA Запустите модуль Планирование эксперимента. На стартовой панели выберите Центральные композиционные планы, поверхности отклика и нажмите кнопку ОК. В появившемся диалоговом окне выберите опцию Построение плана, а в поле Факторы/блоки/опыты — строку 2/1/10. Нажмите кнопку ОК. Появится диалоговое окно План эксперимента для поверхности отклика. Нажмите на кнопку Имена факторов, значения и заполните таблицу в диалоговом окне Итоги для переменных так, как показано на рисунке. ШШВЩ Далее» шшт пин Чтобы изменить метки факторов и их уровней и т п [сделайте необходимые изменения и нажмите Далее 1-lOlxJ 8 B) Их 1ВЯЯЩ I ratio | Вижк :*еащ».-> Центр Центр Верхи. ' знамение .750000 750000 Минимум Минимум 825000 843750 Центр тч Центр тч ■;«fff<« 900000 Максиму 937500 Максима. *t; jE5 Нажмите кнопку Далее и выберите опции для настройки отображения плана так, как показано на следующем рисунке. Сделайте точно все показанные настройки, чтобы получить нужный результат! IJJll!LIIJJiJ.JlJ!llJi.lJJJJ.ll!lJJl|.iJI,l.UIIIJ!.I.Hll!J.|J.!U.I.L И!Ш|.,.Ш11 ИТОГИ СТАНДАРТНОГО ПЛАНА:2**B) кубич. и эвеэд. точки (центр, гояп. план) Число факторов: 2 Число блоков: 1 Число опытов: 10 пс-4 пз-4 пО-2 Альфа для ротатабельи.: 1.4142 Альфа для ортогональн.: 1.0781 Прасмотр/Праека/Сохренеиие • ■ ■■ Ш Просмотр/Праака/Сокраиемие Обоз*, фаюгары Г номерами Г £укеая* '* ': № цмеиами ' Добавить к лиану VI Ыие*а.факгарАВ.ацаяенк*~»)| j fi* Поря да* onwroe Отобразить J <? стандартный , ^ Г чисад (tl.Ualpha) : | ^ 1^У*1ей#1ы* <"* из займи \ > (? цнм^мамс * || С*у&*«*«о:% |пьг?н/| [| ij'O тежстоеие значен** <4 Отмена 8 окна пенные дов*аиОДУ пуста додвф* f»aa?<ie»4 | цектр» тон» (и*** Характеристика иавиа- ** **■%—*'.-&^*^J <? аддо* для ротата$ель*остн % * ? л ^>. «^«г***» С 4льф» А« •втвсонвэьностн Г неитрмрощмйые аае$д>ше" i iiftiiiniOmiwiiSw iimnimii wiiinmi» wimWimini» m wnjlinwliifii 1 > frrfiifonitoHiMif; Просмотрите план. Для этого нажмите Просмотр/Правка/Сохранение. 900000 900000 718934 931088 62S000 82S000 825000 825000 шиетив I 750000 937500 750000 937500 843750 843750 711167 976333 843750 843750 ШЭ 1 i i 1 i \ ■\ 1
Примеры анализа данных в системе STATISTICA 591 Задание имени и сохранение экспериментального плана Выберите Сохранить как файл данных..:, появится соответствующее диалоговое окно. Задайте имя плана disk.sta и нажмите кнопку ОК. шваишяв HliUllil Имя файла: IdiskJsta ULi Папки: cleUQexample* OK N* W.SIA В STAT fe examples DDEMO Отмене 3^ Network... J 1нп файлов:* Диски: [файлы данных f*.sta) ^1 (He: . Евиочая книг*: -::\ '  Вернитесь в диалоговое окно План эксперимента для поверхности отклика. Нажмите кнопку Печать итогов. В зависимости от настроек вывода в диалоговом окне Параметры страницы/вывода результаты плана будут распечатаны на принтере или выведены в отчет. В построенной таблице показан порядок сбора экспериментальных данных. Данные, полученные в результате эксперимента, занесены в таблицу. Номер Block Ratio Mold Thickness 1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 1 1 1 1 1 0,75 0,9 0,75 0,9 0,718934 0,931066 0,825 0,825 0,825 0,825 0,5 0,5 1 1 0,75 0,75 0,396447 1,103553 0,75 0,75 7,3 7 7,1 8 7,6 7,4 7,4 7,9 8,2 8,3 Анализ экспериментальных данных Проведем анализ полученных данных. В диалоговом окне План эксперимента для поверхности отклика нажмите кнопку Отмена. Вы возвратитесь к диалогу Центральные композиционные планы.
592 Глава 16. Примеры анализа данных в системе STATISTICA И1ШН5/2/44 8/5/82 <^ « L&2/10 5/5/47 №1/16 БЛ/46 13/2/16 6/2/46 13/3/17 6/3/47 .ИЛ/26 7/1/80 Н4/2/26 7/2/80 14/3/27 7/5/83 =15/1/27 7/9/87 E/2/28 8/1/82 ф/1/44 8/2/82 &*vit* 5SM 4/j/ia >/1/?4 |с>/^/эо 7/1/40 Г/4П JO/1/M W/'.-l •ЛЧЛ'< <C?Ja.-' i& '}i'%to? < $ '" %•& - 1 4 >•'«'■ *•" s>n4" Выберите опцию Анализ результатов. Нажмите кнопку Переменные. Задайте thick в качестве зависимой переменной, ratio и mold в качестве независимых переменных и block в качестве блоковой переменной. В поле Для перекодирования использовать оставьте принятое по умолчанию положение уровни факторов из файла данных. Теперь нажмите ОК. На экране появится следующее окно системы STATISTICA: |.'.'Ка'>.^'М."!'..?''.!,^А!!.1-"-'"И'.-!..'у.. '■ Гл щщ?; }^фы^ща^ I ток _ ИТОГ* ПЛАНА: Число факторов (кезавкскгасх переяеюшх): 2 Общее число опитоi (набл., экспериментов): 10 Число отдельных опитоi (набл., эксперии.): 9 Число блоков: 1 Число реплик: 0-1 *!^:'<ш**шг~*т»тт*+*'тт*ч1Ъу-■■■■■■■■■■ У ••: <*&t* я}4 '•:.:." ••.;•• Л *——» щ J • Н*ИвММТЪ*ВрХШ(в, ММЖМЛв 1 Щ .:• ЗДОДШМЦИЯ Эфф«1СГО» ,imU,,»,Win-,,\..,W,p,\f,,^ynn .у,,;.....,,!,.,. I., I M";."l,!lii:i»i':!-],::iil. <!**>)'»■№ u^'fay >'Ч^>?ЯГ =■ I:-11 •"'* !;0г.УЦьст^м^Н:^^$^11^^ ;■■!■",' ;iw*rtft<wii*ij»;tw^ftwi<^J№jf-ifci4**''ii'*!iwi vfo iW""' г эффекты «i'irikU^-OMi^ пи*;>!С:г* «■* ш ? ^,, 3 I U» ПоВерж* la! ГПвА^м|МЧ|;гЧ*е«1^Ч»ДА: gljj:>i( ,,;,•■„ >■ ГтГУу^^У Кмвур*•#*] {**.Осгагоч,суп., к*. flPJg(^*^H*tf j950 Адьфв ^Atitimt): | обо &»mjM»«Ktt%i4 ****** nMli^^a^ »™^ ll ■ K|N«W *И4*вН1«> (*»*.* *•<* .4 j j С ЧМГТМ WilH6« П^АР»^ ^%Ц^ Wpe»», |J <л .J^,,,. ,,■ 7, _ , *ш Щ([^т ,7, ,|1,^^^^Л^■:,^■^■^■^V^^^■ =••••■: „ними, ■■■■■ ii^i^^uy.1.» ^i»;;!;.!!;,^^ ..1,1.;^...»1,1|..1^» ..j.. ■ ......|... »^;c'^Tjr^^^"->:.-,^j^:Vr^^ "^ v>\-~:-T""^T.3-":-^ v ^.' T^.*: ~~-'':.:-~ v^~ "^ ~ ^ "г: "^Т^.- :>-^: - - ^v:..- vr.. •,-.•:•. Jl|l|ll|l ,•" jllillll^ll^Ml'.l >ily I|l I III' I III II I Прежде всего оцените адекватность модели второго порядка. Для оценки адекватности воспользуйтесь таблицей дисперсионного анализа и графиками. На панели Включить в модель выберите опцию гл. лин./кв. эфф. и 2-взаимодействия, а на панели Член ошибки ДА — Остаточная сумма квадратов. Нажмите на кнопку Дисперсионный анализ.
Примеры анализа данных в системе STATISTICA 593 ваш ПЛЛНИР ЭКСПЕРИМ : Фактор RATIO т»ад> HOLD ■':■-.::< It.- no ■ 0w« .:;;::;■:, ■:. <*••*.. c* ¥XIY^: (Q): • ?*v„:iiprf ЩШ'Ш 2 факторе ЗП THICK 144S34 6501"? 025033 .560179 360000 204754 1'876000 1 блока **$ i " i'. 4 '• 9 ": шшшшшшшш .0 on . Остаточн СК- *{&№?■* Ъ'^ЦШ: 144534 2 82356 35С17Э ' Н 60877 025033 48904 SС01?9 [ 11 33416 360000 7 03282 051189 0511885 V':.v •».:•/•. 168187 ±1 0151 f-1- 522887 028132 056866 -1: m Из этой таблицы следует, что статистически значимые эффекты (уровень р<0,05) имеют два квадратичных члена: ratio (Q) и mold (Q). Для того чтобы определить, насколько модель хорошо описывает экспериментальные данные, будем использовать тест lack-of-fit (потери согласия). Вернитесь к диалоговому окну результатов анализа, выберите Чистую ошибку для Члена ошибки ДА и снова нажмите кнопку Дисперсионный анализ. Система добавит в таблицу значения потери согласия и чистой ошибки. * ЯЧ0Я8 Спор /Ь443 (disk ш\л\ Вследствие того, что р-значение использованного дополнительного теста больше 0,05, модель второго порядка представляется адекватной для описания отклика. Установите снова Член ошибки ДА в положение Остаточная сумма квадратов. Теперь рассмотрим вероятностный график. Для этого нажмите на кнопку Нормальный график. Из рисунка видно, что квадратичные члены с меткой Q находятся в стороне от линии нормального распределения, что указывает на статистическую значимость их влияния на отклик. Вероятное? графи»; Пер THICK. R-ki = 89086.Скор 75443 2 фактора, 1 блока . 10 on . Остаточн СК= 0511885 М01ГЧО) ♦ RATIOCO) C2)MOUXU + (URATIOCU 1lno2L • 95 85 75 I 65 ] 55 i <5 i 35 15 I •3-2-10 1 2 Стандартизированные эффекты A-эначения) ■ • »заимодейст + • Гпавные и другие эффекты
594 Глава 16. Примеры анализа данных в системе STATISTICA Рассмотрим также карту Парето. Нажмите на кнопку Парето эффектов. Шва шшштттшжп т Диаграмма Парето для стандартиз эффектов; Перемен : THICK 2 фактора, 1 блока, 10 on, Остаточн СК= 0511885 р=05 RATIO(O) MOLD(O) 1.0 1.5 2 0 2.5 3 0 Оценка эффекта (абсолютное значение) Итак, квадратичные члены модели дают значимые эффекты. Соответствующие им колонки пересекают вертикальную линию, которая представляет 95%-ю доверительную вероятность. Определим теперь область значений факторов, в которой плотность пластиковых дисков является максимальной. Для этого лучше всего использовать график поверхности отклика. Нажмите на кнопку Поверхность. ■1 4 281 ■14 681 ■1 5 081 U 5 481 CD 5 881 □ б 281 iB 6 681 ■1 7 081 ■1 7.481 ■1 7 881 ■■ выше Подогнанная поверхность, Перемен THICK 2 фактора, 1 блока , 10 оп , Остаточн СК= 0511885 Эта поверхность имеет экстремум, равный примерно 0,9. Для более детального рассмотрения области максимума целесообразно рассмотреть контурный график (цветная квадратная кнопка рядом с кнопкой Поверхность). На графике показаны линии уровня поверхности. Это весьма удобно для исследования поверхности.
Примеры анализа данных в системе STATISTICA 595 ЯЯИ1.П|1111111.1111!1ПИ1.1Ш11|У111!111Л.тУ.ШПУ1И11111^1ЯГЫ Подогнанная поверхность, Перемен THICK 2 фактора. 1 блока. 10 on. ОстаточнСК= 0511885 •ыше 0 70 0.74 0 78 0 82 0.86 0.90 0 94 0 98 RATIO Посмотрите на цветовые метки, расположенные слева от графика. Эти метки, показывающие интенсивность цветов, позволят легко сориентироваться и понять, что максимальная плотность достигается при изменении параметров в центральном эллипсе, положение главных осей которого легко оценить графически. Например, максимально прочные диски будут получены при значениях композиционного соотношения, изменяющихся от 0,78 до 0,86, и значениях mold, изменяющихся от 0,6 до 0,9. Более строго — все значения независимых переменных, попадающие в центральный эллипс, приводят к наивысшему качеству пластиковых дисков. Пример 3 В этом эксперименте изучается ракетное топливо, которое представляет собой комбинацию окислителя, горючего и связывающего вещества. Интересующим нас свойством топлива является его эластичность. Цель состоит в том, чтобы найти пропорции, для которых эластичность достигает величины 3 000. Задача такова — по результатам эксперимента найти математическую формулу, позволяющую связать эластичность с компонентами топлива. Пример основан на данных, описанных в книге: Kurotori I. S. A966). Experiments with Mixtures of Components Having Lower Bounds, Industrial Quality Control, 22, p. 592-596. Начнем с построения плана эксперимента. Запустите модуль Планирование эксперимента.
596 Глава 16. Примеры анализа данных в системе STATISTICA В данном случае выберите Планы для смесей, потому что компоненты, выраженные в долях, в сумме должны равняться 1. Нажмите кнопку ОК. В появившемся диалоговом окне выберите опцию Построение плана, далее укажите Симплекс-центроидный плац, введите 3 в поле Число факторов и выделите опцию Дополнить внутренними тттами. Г* . .... , Змайга t$tqMflwt stI* ■j'<«P'«rf< и нижний 10 мет* итл могут быг» эамиы е сл*х*ощ#м диалоговом окнч. Дл* н*«с«а«иил точек пяеная<1Я областей со сяржиыми orpa»M<wtw м* воспользуйтесь «тиией Центроиды* еаршмныяля ограничен*** областей. Нажмите кнопку ОК. Появится диалоговое окно План эксперимента для смеси. ш Щ£ Ш Ш1 ЕЩ ИТОГИ СТАНДАРТНОГО ПЛАНА: 3 факт, симплекс-центрошшыи план Число факторов: 3 Число опытов: 10 (Число внутренних точек: Прос*«агрЛ1рев«ауСелфет1аа1 • &К Факторов, значения.<. Обоам. вдам-врм-- гЛоралок. опмтое *-*;■?Опираешь ~~^_^" ~~~-.; 1 1 <5 цонирми , ^! ^ чсримртиа*. v] j<S Ew^JMWWWS. 1P«.V^J i: Замвчани* Итоги. :^Г Душам» ' j] С'cflytaaiajft ' ' j :С Эна*. дактороа {верх/ниж/ ' аыаодиммввокне. ... .... ,..,.... ч-..,1 s.-. **".' \.ЛЪ„ , А ,. А ; ОТНОСИТСЯ! : применяемому по '■ умолчание план» Добавит» к план* •--•••-'•••• '■;*« [(Г gj полные рвплмш E § претив дтоаааы (аааис. парам.) £Ь п Нажмите на кнопку Имена факторов, значения и заполните появившуюся таблицу следующим образом. сагввввввар! ■ •IfllH'lifciliifl Да*ее„, Факиор В B) С C) 06*ве> • Ц1 чмп SEE Задай ряду ЩШ&ШЩШШШШШКШ же имена, верхние и нижни укажите обшее значение с* ввЯЯВ^^нннвВ binder | oxidizer fuel 1. е значения ecu (сумму Нижм значение 200000 400000 200000 факторов: и нажми* в последнем в Далее Верхи, . ..значение 400000 600000 400000 -ll "\- ! Нажмите кнопку Далее. Полученный план можно просмотреть, нажав на кнопку Просмотр/Правка/Сохранение, предварительно определив опции, как показано на рисунке ниже.
Примеры анализа данных в системе STATISTICA 597 I J.lli|4IJ.!Jlll.iUi.AI.I.JWP! ИТОГИ СТАНДАРТНОГО ПЛАНА: 3 флг.т. скнплег.с-центроидкый план Число факторов: 3 Число опитов: 10 (Число внутренних точек: Просмогр/Пр«в««/С<мр«и«мм« SB9 Щюемет»/П|мим(*/См|миаии« VI Икона +актороо. доиеммя... О* - Обоон. факторы , Порядок опытов ОтобрОвМГЬ Ur. шп I <? вдидегим* :С Сг«н%в«м»нмя (О,JL.-J * Замен»*»: Итоги. Г едгмАный (• |3н»ч. ^«кторо» {еерх/ниж' выводимые вокне. Ш- 7" ~. . ;Чме«о ^МН1Г относятся к применяемому п> умолчание паем»». а 1 постыв столбцы (маме порем.) Q Пуют» 1 Сохраните план. Для этого выберите из меню Файл — Сохранить как файл данных; появится соответствующее диалоговое окно. Задайте имя плана rocket.sta и нажмите кнопку ОК. Ш имя НОСКЕ TIS ТА ,:1«:П.М<;.51Л « i Г> f A AUrsW.NT STA Л:>ЛГ'Ш4Г> МЛ AiK.nWY VTA лг;«нгг>':»ц :>тл AU.tHfiY.SVA j Файлы данных (*.tla) ^1 . £обочая кнмга; | Диски: План построен. Это позволяет организовать сбор данных. Предположим, что вы организовали эксперимент согласно построенному плану и для разных значений компонент измерили эластичность ракетного топлива. После того как данные собраны, задача состоит в том, чтобы провести анализ и найти зависимость между эластичностью и компонентами ракетного топлива. Откройте файл данных rocketsta и добавьте переменную elastic, содержащую данные для 10 откликов, полученных экспериментальным путем. ROCKET БТАБл' 10н 2 3 4 5 Г 7 8 9 10 1| 2 3 4 5 6 7 8 9 10 г BLOCK- 1 1 1 1 1 1 1 1 1 1 3 BINDER 400000 200000 200000 300000 300000 200000 266667 333333 233333 233333 v , А ■ s ОХОДЕЯ 400000 600000 400000 500000 400000 500000 466667 .433333 533333 433333 S * 200000 200000 400000 200000 300000 300000 266667 233333 233333 333333 6 f ELASTIC I 2350; 2450' 2650, 2400 J 2750* 2950' 3000 2690 2770' 2980>
598 Глава 16. Примеры анализа данных в системе STATISTICA Введите данные. В диалоговом окне Планирование экспериментов для смесей выберите Анализ результатов. Нажмите кнопку Переменные. Задайте elastic в качестве зависимой переменной, binder, oxidizer к fuel — в качестве независимых переменных. нжовягсяЫ Ч*ни*иве *«.)/: ^шш&йтйЩ *■*> '*жм<г# {Лилии*? ^ W|spi^.<p^onp«iJ»m». постой^ _ Ьи-»»<|>гем»см;лрм импорт» дан»й>» "" <> 1%#*#$17^ - ♦• ■' "* ***** rerpedttMirbt* ксдоегцроек* *той величины; д<я • '/'w'S-* ^у*^* >1ЛГФ <С/*^А ttvv*»»* бш»е подробной ннфврнации нажмите и» 7 В поле Перекодировать факторы оставьте принятое по умолчанию положение Автоматически определяемые мин./макс. значения. Теперь нажмите ОК. Появится диалоговое окно Анализ эксперимента для смеси. На панели Модель выберите Специальная кубическая. ЕЕ шшшшмшш ИТОГИ ПЛАНА: 3 факторный план для сп Число факторов (компонент): 3 Общая сумма всех компонент: 1.00000 Общее число опытов (набл., экспериментов): 10 Число отдельных опытов (набл. Число реплик: 0 эксперт.): 10 ELASTIC jJ1^^^1tt»Wte''.-| -:. V:Msfi жркшт*** •; :S Дсгдажм j ^.•^^^^./..л«:•^^>:Ф^^».^ч^.:•:../:■?'Ч'ЧЙ?*,?,''?",Г?,,'TT?*,'??,,^ < .л >• •' *. ."':•..'."■ .>..■*.'} "■""• ,. m it. <^л.>ДГЛМ,« „л Щ}?*$и&ш*1тт »а*торор Отм*и« ffl ^р1цм^;Ш1йЦ|1Жо»<п<и»»1т' I ■' Qqi^r flpoafciux <mmn«+ Nx Крат*©; [• ОцЙИКН ||С>0>|и'.<<И|КН!>И^ . ЦшД j^KWjt>. lie in * W»i& (? Сгимдовьиа* « j6*t. *анмрп*икмн. t#fimi Я. Право- jtMMiol C^witWa :'--j fx" Контрмин* о&истм ffiПове»иост»| /^ &owr»j> \ ЦЩ Прщсцмь щ набл. Смстогр. осгвткое i I Вер. rp*«A осгвтми» Нажмите на кнопку Дисперсионный анализ. Появятся две таблицы. В одной из них приведена сводка проведенного анализа, а в другой — результаты дисперсионного анализа для специальной кубической модели.
Примеры анализа данных в системе STATISTICA 599 план для см . общее змач см -1 . 10 on подгонка моделей Возрастающей сложности ЕШШ farth', jm&sL ьщъ* 2 3 1 9 89600 00 *9ЭС9 8: 36644 92 57321 11 336690 0 36960.5 315 ь 7 4 3 48098 57 9240 13 105 20 1 8628 it: 6I26 346 3201 22457: \ U217S 00033i 1 Л..^П Значимые модели выделены красным цветом. Из таблицы видно, что статистически значимые эффекты наблюдаются в квад- ратической и специальной кубической моделей (р-значения меньше 0,05). Качество регрессионной модели оценивается с помощью коэффициента детерминации R-квадрат. Так как у специальной кубической модели среднеквадратичная ошибка меньше, а значения коэффициента детерминации R-квадратов больше, чем у квадрати- ческой модели, мы будем использовать специальную кубическую модель. Нажмите кнопку Оценки псевдокомпонент. Программа отобразит статистики, рассчитанные для специальной кубической модели. ПЛЛНИР 13 -факт, план для сн . общее змач ЭКСПЕРИМ ЗП: ELASTIC; Остаточм СК-105.2047 жМ жш±ж **&.. ~**Х (ВHХПI2Е»й ...(С>ШЬ-.;^:/>-- АВ ■•>. <-■■■> ъ/ АС • ВС ABC' „• 23Ы 163 1 244S 709 2*52 981 -6 256 1008 28« 1597 3B0 6141 182 Мшт ш •А э ч 49 49 49 32? 9153 9153 915 3 9115 9115 9115 о?об 237 24ь 26? - 20 32 18 1250 6604 5 6 4 ь 1253 2015 004 2 6633 000000 000000 000000 908179 000265 000067 0003 36 231*i 2414 2621 -165 849 14 38 509 3 608 154 426 097 448 5 39 996 2362 24V 7 2681 152 1167 1756 71P3 718 264 Sir;. 585 129 ?21 3*8 J£j Как следует из полученных результатов, все члены специальной кубической модели имеют значимые эффекты (р < 0,05), кроме одного члена АВ. Таблица дисперсионного анализа показывает весьма неплохие результаты для подобранной специальной кубической модели (р-значение гораздо меньше 0,05). ||-41|.||||^.|.!||М'111<Д1'1-Ш|1'|ЩИ«-ЦИМИИ ШМНИР. ЭКСПЕРИМ Источник 1 Модель ■:Овщья:от&<г-*:<--- ОБщ«М5 UCnp/ЗК. : Ш_ .•':„_^ 3 -факт план для см ШШШ7Щ с*^'.с*,;. СЛС,5?4 4 | $ 315.6 3 515890 0 9 ; общее змач. см ■1 "£d/*:k*v 85929 Оь 816.77Э4 105 20 57321 11 :?//Лг, 'i,- ■■;•;•:••:•. : ' рШез! . 10 on. Р . oooi»; д| 5 v i ■ ■ .у L, Чтобы проиллюстрировать данные результаты, рассмотрим графики. Нажмите на кнопку Поверхность. На графике поверхности отклика хорошо виден максимум эластичности топлива. Заметьте, что зависимость эластичности от компонент смеси носит нелинейный характер. Для точного определения оптимальных долей рассмотрим контурный график. Он вызывается кнопкой Контур.
600 Глава 16. Примеры анализа данных в системе STATISTICA |Г|График2Ь: Подогнанная поверхность; Перемен ELASTIC Подогнанная поверкность. Перемен ELASTIC ЗП ELASTIC. R-кв = 9994.Скор 9982 Модель Спец кубич ■■ 2414 904 ■■ 2478.645 Ш 2542 387 СИ 2606 13 □ 2669.87 ПЗ 2733 61 ШШ 2797 353 ■■ 2861.094 ■■ 2924 836 ■■ 2988.58 ■■ выше £1§ Графмк.29 Подогнанная поверхность; Перемен.: ELASTIC Подогнанная поверхность, Перемен ELASTIC ЗП ELASTIC. R-kb = 9994,Скор 9982 Модель Спец кубич FUEL ■■ 2380 ■■ 2460 Ш 2540 СО 2620 CZD2700 СИ 2780 ЕШ 2860 ■■ 2940 ■■ 3020 ■■ 3100 ■■ выше BINDER OXIDIZER На графике визуально легко определить, при каких значениях FUEL, BINDER, OXIDIZER достигается нужная эластичность. Эластичность 3000 лежит вблизи доли связующего вещества 0,25, доли окислителя 0,45 и доли горючего 0,25. Более точные значения пропорций компонентов следующие: связывающее вещество — 0,26667; окислитель — 0,46667 и горючее — 0,26667. Можно выбрать некоторые пропорции компонент, которые дают значения эластичности, близкие к 3000. Например, набор компонент @,25; 0,5; 0,25) дает эластичность 2927,7, набор @,25; 0,45; 0,3) — эластичность 3 042,9.
Примеры анализа данных в системе STATISTICA 601 На значения компонент могут быть наложены дополнительные ограничения, например, можно максимизировать эластичность для значений окислителя или связывающего вещества, лежащих в определенных пределах. Для нахождения таких решений опции STATISTICA оказываются незаменимыми. Чтобы оценить эластичность по любому набору компонент, воспользуйтесь кнопкой Предсказать зависимую переменную. Задайте значения факторов, например, как показано ниже. <llll.!.!.il!UU!.i|!ffWHH BINDER OXIDIZER FUEL И и и 1 i 2 1 в™*"* I; Нажмите кнопку ОК. «о* Пер ELASTIC; R i . 99939Хкор 99816 ШШИР Фактор ЗП ELASTIC. Осталочн СК-105 2047 Ко?** <B)onmmi (С)ГОЬ *.v* АВ ♦ . < к :. < :,BCs;"-'-'^'. . ЛВС Првфек**'. -95 * floev. ♦95.К ДсЛ, -9S* Пр«. ,:+.»у-*.чга* 1 2351 2445 2652 -6 1008 1597 6141 163 | 709 981 256 289 380 182 500000 500000 000000 250000 000000 000000 000000 и 1175 1222 о -1 о о с 2396 872 2365 566 2428 178 2351 644 2442 100 582 854 000 564 000 000 000 КРПООИ, ■ 300000 500000 200000 j£ На экране появится таблица прогнозируемых значений эластичности. В нижней части таблицы показывается значение Предсказ. - 2 396,872 предсказанной эластичности для исходных компонент. Также приводятся верхние и нижние границы 95%-го доверительного интервала и границы для прогноза. Измените значения компонент топлива, например, BINDER - 0,27, OXIDIZER - 0,43, FUEL - 0,3.
602 Глава 16. Примеры анализа данных в системе STATISTICA Для этих компонент будут получены следующее значения эластичности. ПЛЛНИР ЭКСПЕРИМ Факжо] Е I AS Tit Н ив - 999 ЗУ. (пор 99В1Г>ЙН*1ЁЭ: ЗП: ELASTIC; Ос»а»очн СК-105.2047 :::.О0бА$о Энам ... Исходные коптом 35000 15000 50000 .05250 .17500 07500 02625 822 91 366 86 1326 49 -.33 176.45 ? 119 80 161.21 2973 39 Г 2952 31 ; 2994.46 ! 2934.53 1 301224 } \.,^,^.„^Л,^.:^ 27000 43000 30000 . 1 г\ Пример 4 Этот пример иллюстрирует возможности системы STATISTICA для промышленных приложений, связанных с контролем качества. Мы рассматриваем химическое производство, но вы легко можете представить и другую область применения, например, пищевую промышленность или металлургическую промышленность. Пример основан на данных, взятых из книги Montgomery D. С, Runger G. С. A994). Applied Statistics and Probability for Engineers (N. Y.: Wiley & Sons). Предположим, необходимо контролировать концентрацию некоторого вещества на выходе химического процесса. Вы наблюдаете процесс в реальном времени в течение 20 часов и снимаете с датчиков нужную характеристику каждый час. Считается, что процесс выходит из-под контроля, если концентрация превысит допустимый уровень и выходит за верхнюю контрольную границу. Рассмотрим данные, представленные в таблице. 1 102 11 101 2 95 12 99 3 98 13 101 4 98 14 98 5 102 15 97 6 99 16 97 7 99 17 100 8 98 18 101 9 100 19 97 10 98 20 101 Особенностью процессов, протекающих в реальном времени, является то, что в них не является естественным группировать измерения, так как, производя группировку, вы с запаздыванием реагируете на ухудшение качества. Группируя данные, вы добиваетесь более точных оценок параметров процесса, однако плата за точность — запаздывание в управлении. Поэтому воспользуемся контрольными картами для индивидуальных наблюдений. Назовем контролируемый параметр concent. Шаг 1. Введите исходные данные в файл системы STATISTICA, например, с именем Chemipro.
Примеры анализа данных в системе STATISTICA 603 га ч 1 Г з- ■** ■в; f- 7-: *>. *•:• 10 11 It 13 14 Щ 18 17 18 19 » пятМитгаятяпвям ШкшШШёШкШг ■НИН ^■ИК^Н^ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Шж;-; : ;■■*■, Т| ЩЮЕКГ^ •: ••••■•' •'.' 102 ■ i 95 j 98 98 102 99 *э ; 98; 100 98 '] юг 99 101 98 J 97 j 97 .'j 100 :j 101 j 97. ,.] 101 jM : *:fl Шаг 2. Запустите модуль Интерактивный контроль качества. шштшттштттт ЯДЯИР Зедоъиое*ю1 КЖ11; W^f^v? JS !1-1 ■'■'■'■!'!'!' 'U ''•!•'! I'' <" -Уv| gX- и R/S карта для непрерывных переменных ^ Скользящее среднее и R/S Л11.1и.Ц1||1Ш!>1.1.П1.Ш!1ШШ.11.1М1. МИ И — L»/j Контрольная карта по альтернативному признаку |0 Карта Парето прМТОЛЙОСт*Х*Ло^^ I контроля, «нале повтцШ^тЦг^^ "? эксперимента} доступ* до >£^Ц£Я»Щ <jj> ft 'T^^-^?^^ Шаг 3. На стартовой панели выберите Отдельные наблюдения и скользящий размах и нажмите кнопку ОК. В появившемся диалоговом окне выберите concent в качестве переменной с измерениями. Задание переменных дли X мттщ тяшшщшшт с ищу eiHiw^CaNCEN<^1; $}" Ш^:> Ж "] ц «*»^.^; U^M*S5T| |Пр»м4^А#АотвмййТА но?кно1»ддг» поздние! ^$*Hvfr4 gg ц] АФ|' Шаг 4. Постройте контрольную карту скользящих размахов для последовательности наблюдений.
604 Глава 16. Примеры анализа данных в системе STATISTICA ЫГИ'Щ'П.РЛп!1!!,,1, Гистограмма наблюдений 108 X Сред 99 0500 (99 0ХЮ) Сигма 2 09896 B 09696) п 1 рг а^х&з д: 7f.з 1; Гистограмма размахов 12 4 в в 10 12 <4 10 18 20 СкользЛ Сред 2 36842 (Г 36547) Сигма 1 78937 (< 75937) п 1 70 га 00 И 20 Ь.^>ЙШ оо М3 2 308421 О 000000 10 18 20 Карт*»)КйСтъ| Пвчвгь) Опций) Наборы] Eg **MR, ! Е)а ЕЗма Одис«гг> ^др^г^'-х4- VI Негадр. X ЩГйсг.МВ г./ Кр^сцжА l" гПригядюст» процесса I 00 "£мстогр. | ДВ Иту ]Жс|^р«ГрАвт9 1 ^ CfcpfcTfc Шаг 5. Известно, что для всех производственных процессов возникает необходимость установить пределы характеристик изделия, в рамках которых произведенная продукция удовлетворяет своему предназначению. Вообще говоря, существует два «врага» качества продукции: 1) отклонения от значений плановых спецификаций изделия и 2) слишком высокая изменчивость реальных характеристик изделий относительно значений плановых спецификаций, что говорит о несбалансированности процесса. Вы видите, что на Х-карте скользящих средних все точки попадают внутрь контрольных границ.
Примеры анализа данных в системе STATISTICA 605 На контрольной карте скользящих размахов (MR-карте) все точки также находятся внутри контрольных границ. Размахи служат оценкой изменчивости характеристик, поэтому можно сказать, что концентрация вещества подчиняется требованиям статистического контроля по уровню средних и изменчивости. Продолжение анализа. Следует иметь в виду, что карты для индивидуальных или отдельных наблюдений не способны отражать малые изменения среднего уровня концентрации, которые, однако, могут играть существенную роль в реальном производственном процессе. Поэтому для анализа данных воспользуемся также контрольными картами накопленных сумм. Шаг 6. Выявление малых изменений средних значений. Запустите модуль Карты контроля качества. fcbyjX- и R карте для непрерывных переменных hi* Х- и S карте для непрерывных переменных Ejjjj^X- и S2 карта для непрерывных переменных [~7\ С карта по альтернативному признаку (v^j U карта по альтернативному признаку |[Т] Np карта по альтернативному признаку ЕР1Р карта по альтернативному признаку (~3 Многомерная карта Т2 Хотеллинга fi* ^ужн»--^! £? Данные ц 1 & в h'H'ir'ifl'l [уу^ МА карта для непрерывных переменных карта для непрерывных переменных £\] Регрессионная контрольная карта [^ПКартаПарето Друие процедуры '.' ■ fрасчет нет ауссоес*** индакоод пригонносги, I процесса, <манм : выборочного контосд*, анфлиэ flOftOPBii *0CtH ;ллдии>о«еии# ••,.._ ЭКОлврммвиГе} . наждое* а *одояк:", 'Лланиромнив амларимвнт*^; Шаг 7. На стартовой панели выберите CUSUM карта для непрерывных переменных и нажмите кнопку ОК. Заметьте, термин CUSUM происходит от сокращения кумулятивные, или накопленные, суммы. Шаг 8. В появившемся диалоговом окне выберите concent в качестве переменной с измерениями. ШШШШт для CUSUM карп ; Денные:j Исходные данные jflQ Переменные:] '" ••"  Д-«в \ йрлтиь рТ Постоянны* ооЧем выборок; |1 Щ^ "^", S&ul&fcl выверит* переменило о **мар*«ым>« и перемену с твитяфикаторамм выборок {кодам*!, вместо кодов можно задать постоянный 04ы^аы6оро*$»ям подробно СМ. Электронное РУКОВОДСТВО (Д/И 1вДИМ НвЖМИТ#?ИЙМг*1}\ Тип анализируемых данных: исходные данные. Нажмите кнопку ОК. На экране появится CUSUM-карта.
606 Глава 16. Примеры анализа данных в системе STATISTICA На карте изображена также так называемая V-маска, имеющая следующий смысл. Запомните: если в наблюдаемом процессе имеется значимое смещение среднего значения, то точки выходят за пределы V-маски. В системе STATISTICA V-маска строится автоматически, и вам не нужно думать о ее определении. В нашем случае точки не выходят за пределы маски, поэтому можно сделать заключение о том, что исследованный химический процесс удовлетворяет требованиям контроля качества. Из приведенного графика следует, что все точки данных попадают внутрь контрольного интервала. Шаг 9. Опции STATISTICA позволяют всесторонне исследовать результаты и управлять процессом, находя незначительные сдвиги в значениях (см. опцию Обнаружить сдвиг больше чем...). V-^.Ijiwj; Ы • :у**>- Vj 06и«р»»»т> сд»мг 6&*я» ч Ш .- Лосззмип* илрт§ v ОпИС*т««ьиыв статистики S
Примеры анализа данных в системе STATISTICA 607 Например, нажмите на кнопку Описательные статистики на панели. Вы увидите следующую таблицу с результатами. «CONCENT CUSUM карт, КОНТРОЛЬ С» кар»а Сред »о же К/1ЧЕСТВ/1 [альфа - 05000 бе»а - Выборка крВмРяии 1 2 3 4 5 6 ■ 7 0 Э 10 11 12 13 14 15 16 17 18 19 20 Ж 2 -1 -2 -3 -1 -1 2 1 -1 -1 00000 | 95000 10000 15000 20000 25000 30000 35000 40000 45000 50000 45000 40000 35000 30000 75000 80000 85000 10000 95000 00000 ср*д*- 93 ОЬОО Сигма 1 90438 Сигма яа «е 05000 оБнаруж сдб 1 0000» Сигма Сколъз Разках ■ЗКП — 102 0000 95 0000 98 0000 98 0000 102 0000 99 0000 99 0000 98 0000 100 0000 98 0000 101 0000 99 0000 101 0000 98 0000 97 0000 97 0000 100 0000 101 0000 97 0000 101 0000 0 7 3 0 4 3 0 1 2 2 3 2 2 3 1 0 3 1 4 4 __ 000000 ] 000000 ] 000000 ] 000000 ] 000000 000000 ] 000000 000000 ] 000000 000000 ] 000000 ] 000000 ] 000000 000000 000000 000000 000000 000000 000000 000000 - -24 -23 -22 -21 -20 -19 -18 -17 -17 -16 -15 -14 -13 -12 -11 -10 L -9 L -8 L -7 L -6 L -5 6589 7064 7539 8014 8489 8964 9440 9915 0390 0865 1340 1815 2290 2765 3240 3715 4191 4666 5141 5616 6091 24 23 22 21 20 19 18 17 17 16 15 14 13 12 11 10 9 8 7 6 5 65889 \ 70640 75391 80142 84893 « 89644 94395 \ 99146 \ 03897 '\ 08648 • 13399 : 18150 22901 27652 32404 37155 41906 46657 51408 56159 60910 »£■ ш :П Шаг 10. Можно продолжить анализ, например, просмотреть Гистограммы средних. Для этого нажмите кнопку Гистограммы средних. Далее задайте желаемые значения контрольных пределов и числа категорий и нажмите кнопку ОК. Г$Графмк2 Гистограмма средних, перем CONCENT Гистограмма ср«дииж. гмр«м.: CONCENT у-полпа1(* М 09.1 «ИМ? 20" 1 Пример 5 На этом примере мы покажем, как наложить результаты анализа на географическую карту. Мы намеренно берем грубую реализацию карты и очень простые данные, чтобы показать принципиальную возможность метода. Представьте, что имеется файл данных о заболеваниях определенного вида и травматизме для каждого региона России (данные носят чисто модельный характер, не отражают реальной ситуации и необходимы лишь для иллюстрации возможностей).
608 Глава 16. Примеры анализа данных в системе STATISTICA |1ИЛв1д| пилит JllTll(№iM3 ЦНЛияайски! здЕодкеЛтраЗИлтиН I Амурская Архангел 4 |Лс»рахаи Ee/ieopog Брянская Владимир Волгогра 936 525 716 41 366 157 830 23 245 612 829 293 431 775 846 579 .110 Координаты границ регионов задаются в отдельном файле данных. STATISTICA отображает карту России следующим образом: ETJ Г рафик lb Kepi а Российский Федерации Н1*]ЕЗ Карт* Poccicdcaoft ▼•■«?*! Конечно, эту карту можно улучшать, делать более точными границы регионов, увеличивать и т. д. Мы намеренно берем самую грубую реализацию. На карте цвета задаются случайным образом. Наложим данные о заболеваемости на эту карту. Выберем опцию Шкалирование карты в диалоговом окне выбора слайда. Показанные далее диалоговые окна не являются частью какого-либо модуля STATISTICA, они легко создаются с помощью языка STATISTICA BASIC. (Рандомизация карты iMHf.i'iiiiHHiTi'iimfiiiPi ВыАтм из лрогра Далее выберем переменную, с помощью значений которой мы хотим провести раскраску карты, выберем, например, Заболевание. Идея проста: мы хотим добиться того, чтобы регионы с большей интенсивностью заболевания были окрашены более интенсивным цветом.
Примеры анализа данных в системе STATISTICA 609 Пожалуйста, выберите колонки в таб ►*Ц№1|№Я1 3 ТРАВ МАТ И йК Отмена £ыбр«ть все} Какую переменную анализировать? Подрой W Цн* Следующее меню предлагает выбрать способ отображения карты. Линейное разбиение позволяет задать число интервалов или категорий (цветов), на которые будут разбиты все регионы. H'rH^'iMHi'-H-l-l-iM-l-H М1"кГ|Ч'||Ш ^ {Стандартный способ lil!l!M'l!MJ,HMHJ!l! OK ] Непрерывная шкала Разбиение вручную Отмен» Зададим, например, число интервалов, равное 4. LI-'iH,, -iMII^'illl-l,1.MJ'liir M Количество интервалов » ]4Щ ОК Отмена Последний шаг — выбор общего цвета (раскраска карты производится путем тональной градации выбранного цвета в зависимости от уровня заболевания): выберите цвет Синий Голубой Жёлтый Фиолетовый Бронзовый Другой В результате мы получили карту, раскрашенную в 4 цвета. Все регионы разбиты на группы по значению показателя Заболевание. Самый темный цвет соответствует группе (региону), в котором наблюдаются самые большие значения показателя Заболевание.
610 Глава 16. Примеры анализа данных в системе STATISTICA |1»т;пи,гт1Ш-н1|1и|-|1Л1||и-1'аа 28 24 «г 20 о 12 2 8 Ч 4 т 0 iiiiiiiiiii iiiiiiiiiii <-263 , -" * -. 1Ч|1И1||| ишччп I263.503) I503.743) ЗАБОЛЕВАНИЕ pii'liiiiii' 4*111 ■ 1 * I • ■' > 743 Изменим число градаций цвета, возьмем 10 и наложим на карту графики STATISTICA, тогда можно получить, например, следующую карту. ГС Г рафик 35: Карта Российской Федерации НЕёНЗ! Карта Poci мом §едера наб) cptjHtt: 530.79 joetp .-954:464.1 joetp.95%: 597 5 сумма: 41402.00 минимум:23 максимум: 984 •? размах. 961 х дисперс: 87539.9 ^ ст. откл.: 295.87 ст. ошиб.: 33 50 асимм«т . -0.129 эксцесс: -1.36 S d *0 «D^arf^r-tDr-CDO *: <о *: *3<Ъоосс,__х о * о оо^ахчэчэчэчэг »so»s * х =* о u ? ? ? ? <= ьаа?<ос»хоооох ^ йв в US О £ 4) 4) 4) 4) «О СО С ^ »- =п=г РЕГИОН Теперь регионы разбиты на 10 групп по степени заболеваемости. Конечно, такой анализ может быть гораздо изощреннее: на карте можно отобразить корреляции, зависимости между различными параметрами, например, между использованием мобильной связи и Интернета в различных регионах, можно рассмотреть карту отдельного региона и т. д.
Нейронные сети Идея нейронных сетей возникла в результате попыток смоделировать поведение живых существ, воспринимающих воздействия внешней среды и обучающихся на собственном опыте. Такого рода идеи на стыке различных областей знания характерны для науки современного времени. Наша цель состоит в том, чтобы кратко описать идею нейронных сетей и научить читателя экспериментировать с нейронными сетями в системе STATISTIC А. Более подробная информация о нейронных сетях доступна в текстах Уссермен Ф. Нейрокомпьютерная техника, М.: Мир, 1992, Lippman R. P. An introduction to computing with neural nets, IEEE ASSP Magazine. Apr. 1987, p. 4-22, и др. Ключевым является понятие нейронов — специальных нервных клеток, способных воспринимать, преобразовывать и распространять сигналы. Начнем со следующей модели нейрона. Хотя эта модель очень простая, она работает. Итак, нейрон имеет несколько каналов ввода информации — дендриты, и один канал вывода информации — аксон. Аксоны нейрона соединяются с дендри- тами других нейронов с помощью синапсов. При возбуждении нейрон посылает сигнал по своему аксону. Через синапсы сигнал передается другим нейронам, которые, в свою очередь, могут возбуждаться или, наоборот, оказываться в состоянии торможения. Заметьте, биологические образы естественны при описании процесса обучения, создавая контекст для математических рассуждений. Нейрон возбуждается, когда суммарный уровень сигналов, пришедших в него, превышает определенный уровень (порог возбуждения или активации). Интенсивность сигнала, получаемого нейроном, зависит от активности синапсов. Итак, запомним следующее. О Нейрон получает сигналы через несколько входных каналов. Каждый сигнал проходит через соединение — синапс, имеющее определенную интенсивность, или вес, который соответствует синаптической активности нейрона. О Текущее состояние нейрона определяется формулой: N Щ = ^™(ij)x(j) + и<1*,0) A), Tjxex(j),j = 1,2...N — входные сигналы. Коэффициенты w(i,j) называются весами синаптических связей, положительное значения которых соответствуют возбуждающим синапсам, отрицательные значения - тормозящим синапсам. Если w(i,j) = 0, то говорят, что связь между нейроном i и нейроном j отсутствует. Величина w(i,0) называется пороговым значением. 7
612 Глава 17. Нейронные сети О Полученный нейроном сигнал преобразуется с помощью функции активации или передаточной функции/в выходной сигнал У,-=/(«,-) B) Это одна из первых моделей нейрона предложена МакКаллоком и Питсом в 1943 году. Заметим также, что имеется стохастическая модель нейрона, в которой выходной сигнал является случайной величиной, принимающей пару значений, которые соответствуют торможению или возбуждению. С математической точки зрения в модели нейрона мы имеем нелинейное преобразование вектора xA)jcB)..jc(N) в выходной сигнал уг Функция активации или передаточная функция/ в формуле B) — это некоторая нелинейная функция, моделирующая процесс передачи возбуждения. Простейшие пример такой функции — индикаторная или скачкообразная функция, определяемая равенствами:/(м,)=1, если u>=0,f(u)=1y если и<0. Если выбрать функцию/вида /(") = ТТ^г где Ь>0, то получится так называемый сигмоидальный нейрон и т. д. Объединенные между собой нейроны образуют сеть, с математической точки зрения задающую сложное многомерное преобразование, собранное из простейших преобразований. Замечательно, что с помощью таких простейших преобразований можно приближать очень сложные многомерные функции, следовательно, оценивать сложные зависимости (заметим, замечательная теорема Колмогорова является математическим основанием нейронных сетей). STATISTIC А позволяет задавать различные передаточные функции, например, линейную, логистическую и др. (эти функции можно выбрать в диалоговом окне Network Editor, доступном из меню File). Q3| I'«" £t*tttic» Bun Qpt yatabfet ► Cfttet ► £opy Orf-C QetaSeL. Network Set.. Pie/Port Ptoctwv Выходы нейронов соединяются с входами других нейронов, таким образом, сигнал от одного нейрона передается другим нейронам (нейрон информирует о своем состоянии другие нейроны). Конечно, с математической точки зрения мы имеем преобразование исходных значений X на входе сети в значения Y на выходе. На биологическом языке входы и выходы соответствуют сенсорным и двигательным нервам. Кроме входных и выходных нейронов в сети могут присутствовать еще промежуточные (скрытые) слои нейронов. Простейшие сети имеют структуру
Нейронные сети 613 прямой передачи сигнала: сигналы проходят от входов через скрытые элементы и в конце концов поступают на выходные элементы (см. рисунки). ■.№l.ll".lll.!IUJIIifH trror function J Sum-squared jj] .[-&**• I wan r~m Connection» Shown | Current lay» jj praif ISERIES SI lS£BtES_G-1 lSERl€$.fr1 Рис. 1. Окно Редактор Сети системы STATISTICA с набором передаточных функций Network Illustration (Series_g... НццЕЗ Network Illustration; Щ Рис. 2. Двухслойная сеть, имеющая 12 входов, 1 выход и 6 элементов на промежуточном слое Network Illustration (Serres.g... МИОЕЗ Network Illustration1 Ш\ Рис. 3. Трехслойная сеть, имеющая 12 входов и 1 выход
614 Глава 17. Нейронные сети Итак, каждый нейрон как элемент сети описывается своим набором параметров (см. формулы 1,2). Входной слой служит для ввода значений входных переменных, выходной слой — для вывода результатов. Скрытые выходные нейроны соединены со всеми элементами предыдущего слоя. Последовательность слоев и их соединений называется архитектурой сети. При работе сети на входные элементы подаются значения входных переменных (входной сигнал), затем возбуждаются нейроны первого промежуточного слоя, далее — второго промежуточного слоя, в итоге преобразованный сигнал поступает на выходной слой. Преобразование сигнала проводится следующим образом. Последовательно для каждого нейрона в сети вычисляется значение активации, берется взвешенная сумма выходов элементов предыдущего слоя и вычитается пороговое значение. Затем значения активации преобразуются с помощью передаточной функции, и в результате получается выход нейрона, поступающий на вход нейронов, с которыми он соединен. Обучение сети Обычно нейронные сети используют в задачах классификации, прогнозирования и построения нелинейных зависимостей (нелинейная регрессия). Но для этого сеть нужно обучить. Замечательный факт состоит в том, что нейронную сеть действительно можно обучить! Теорема Колмогорова — это высший уровень абстракции, рассмотрение нейронов — самый низкий или глубокий. Объединяя эти два уровня, мы пытаемся по существу понять, как организовано мышление, когда состоящий из простейших нейронов человеческий мозг постигает глубочайшие закономерности. Процесс получения знания моделируется с помощью нейронных сетей. Мы знаем, что знания получаются последовательно, иными словами они не даются в законченном виде, а достигаются с помощью обучения, этот принцип использован в нейронных сетях. Итак, мы построили модель нейрона и нейронной сети, теперь нужно предложить модель обучения. Как мы уже отмечали, формально соотношения A), B) задают простое преобразование величин с различными функциями f. Пусть мы имеем сложное преобразование F исходного набора данных (который поступает на вход сети) в выходной набор (который наблюдается на выходе сети). Возникает вопрос: как реализовать преобразование F с помощью нейронной сети. На математическом языке мы должны приблизить неизвестную сложную функцию простейшими преобразованиями, задаваемыми уравнениями A), B). Теорема Колмогорова утверждает в принципе, что такая сеть существует, но не говорит, как именно ее настроить. Мы используем общий подход, связанный с обучением, то есть последовательным получением знаний, наказанием за неправильный ответ и поощрением за правильный ответ. Вначале мы определяем архитектуру сети, то есть устанавливаем количество нейронов и связи между ними, выбираем конкретную синаптическую функцию, моделирующую процесс передачи возбуждения. Разобьем данные на две части, обучающие и контрольные, на сленге нейронных сетей — обучающую и контрольную выборку.
Нейронные сети 615 Общая идея состоит в следующем: вначале на вход сети подается обучающая выборка с известными результатами, величины X и наблюдаются отклики Y=F(X). Меняя веса w(i,j) и значения порога активации для каждого нейрона мы настраиваем сеть, иными словами, находим как можно более точное приближение функции F. Далее на тестовой выборке экзаменуем простроенную сеть или сети, если их несколько (в общем случае мы получаем ансамбль сетей). Например, в задаче классификации мы можем потребовать, чтобы сеть правильно классифицировала не менее 90% наблюдений. В задаче прогнозирования мы можем стремиться к тому, чтобы точность прогноза на определенное количество шагов вперед была не ниже заданной. Если сеть прошла экзамен, мы можем использовать ее для анализа данных, построить прогноз или провести классификацию. Очевидно, невозможно умозрительно организовать данный процесс в силу его трудоемкости и сложного преобразования данных, только компьютерные технологии позволяют эффективно сделать это. Конечно, в данном процессе имеется определенный произвол связанный, например, с выбором обучающей выборки и риском применения сети на реальных данных, но тот же произвол возникает при применении любых математических методов на практике, именно потому, что эти методы имеют дело с сырыми данными (действительностью), а не с возвышенными числами, с которыми они призваны оперировать. В замечательной модели нейронных мы имеем синтез различных методов, которые могут «ожить» только с помощью компьютерных технологий. Рассмотрим идею обучения на простой и ясной модели Розенблатта однослойного персептрона. Анализируя алгоритм, вы можете заметить, что он основан на древнем как мир принципе кнута и пряника. Если сеть правильно классифицирует сигнал, она получает пряник, в противном случае кнут. Модель Розенблатта (однослойный персептрон — single layer perceptron) Как видно из названия, в этой модели число слоев равно 1, поэтому исключим второй индекс и рассмотрим только веса w(i)> 1 < г <N(cm. формулы A), B)). Конечно, заранее эти веса не известны, и их нужно найти с помощью разумной процедуры. На вход сети подается сигнал (xl, х2 ... xN). Пусть входной сигнал может принадлежать либо классу А, либо классу Б. Предположим, для простоты, что мы анализируем двумерный сигнал, иными словами, число N= 2. Обучение однослойного персептрона Шаг 0. Начальные установки: веса wl(l), w2(l) и порог Т задаются случайным образом. Будем обозначать t шаг обучения. Вначале t = 0. Шаг 1. Положим t = t+\. Предъявим сети входной сигнал из обучающей выборки: (xl(t),x2(t)). Определим d(t) - 1, если входной сигнал принадлежит классу А, и d(t) = -1, если входной сигнал принадлежит классу Б. Шаг 2. Вычислим состояние нейрона в момент времени t (просто суммируем входные сигналы с весами и вычитаем порог Г): s(t) = wl(t)x xl(t) + w2(t) X x2(t) — Т.
616 Глава 17. Нейронные сети Шаг 3. Вычислим выходной сигнал нейрона y(t) в момент t (заметьте, используется скачкообразная функция): y(t) = sign(s(£)) Шаг 4. С учетом результата обучения вычислим новые веса нейрона по формулам: wi(t) = wl(t-i) + rX (y(t) - d(t))y w2(t) = w2(t-\) + r(y(t) - d@), г- шаг обучения. Шаг 5. Если шаг обучения г меньше объема обучающей выборки I, то переходим к шагу 1. В противном случае обучение заканчивается. Таким образом, получается обученный персептрон, который может решать простые задачи классификации. Если вы захотите доказать, что это действительно обученный персептрон, то вам следует воспользоваться методами теории вероятности или проверить это утверждение экспериментально, например с помощью статистического моделирования. Многослойный персептрон Обобщение однослойного персептрона приводит к многослойному персептрону (см. рис. 2 и 3). В многослойном персептроне каждый элемент сети строит взвешенную сумму своих входов с поправкой в виде слагаемого, а затем пропускает вычисленное значение через передаточную функцию. Таким образом, по общим правилам получается выходное значение персептрона. Нейроны организованы в послойную структуру с прямой передачей сигнала. Веса и пороговые значения являются свободными параметрами модели, которые оцениваются в процессе обучения. Многослойный персептрон может моделировать функцию практически любой степени сложности. Имея в своем распоряжении STATISTICA, вы можете всесторонне экспериментировать с моделями, переходя от простых моделей к более сложным. Конечно, с математической точки зрения, нейронная сеть осуществляет преобразование одного сигнала в другой. Фокус состоит в том, что это преобразование подчиняется рекурсивным правилам и может быть реализовано технически. Общий взгляд Сделаем шаг в сторону и посмотрим на нейронные сети с общих позиций. Как мы говорили (см. главу 2), одной из основных задач анализа данных является оценка зависимости между переменными, например, между переменной X и переменной Y. Наблюдая различные значения переменной X и соответствующие значения переменной У, мы хотим оценить зависимость Y = F(X). В частном случае мы хотим оценить линейную зависимость F(X) = а*Х + Ь, где а, Ъ неизвестные константы, или полиномиальную зависимость, когда ^пред- ставляет собой полином некоторой степени. Можно также разложить функцию F в ряд Фурье и, используя комбинации синусов и косинусов или других базисных функций, последовательно приближать функцию F. В различных разделах анализа используются различные методы решения этой задачи. В нейронных сетях мы собираем функцию F из простейших нейронов, комбинируя их разнообразным образом друг с другом. Получая на вход набор X, с помощью простейших функций мы преобразуем X в Y, ожидая при этом, что собранная сеть приближает искомую функцию F. Конечно, такая игра может показаться бес-
Нейронные сети 617 смысленной, но знаменитая теорема Колмогорова, о которой часто не подозревают практики, утверждает, что такие упражнения вполне оправданы, — действуя подобным образом можно в принципе собрать из простейшихнейронов сколь угодно сложную функцию F. Теорема Колмогорова утверждает также, что достаточно иметь не более двух скрытых слоев нейронов в сети для восстановления зависимости. Заметьте, явный вид собранной функции нам не интересен, для нас важно в принципе знать, что она близка к искомой. Как проверить, насколько собранная функция близка той, которую мы ищем? Одним из естественных подходов к решению этой задачи является следующий: данные разбиваются на две части, по одной из которых строится оценка функции, собранной из нейронов, на второй части данных проверяется, насколько построенная функция близка искомой (такая процедура называется кросс-проверкой, см. также раздел Обучение сети). Конечно, подобное решение нематематично (действительно, оно зависит, например, от того, как именно произведено разделение данных на обучающую и тестовую выборку) и не может удовлетворить любителей строгости, однако оказывается вполне приемлемым во многих прикладных задачах. Заметим, что программа SNN предлагает различные способы проверки качества построенной сети. Теперь можно приступить к экспериментированию с нейронными сетями в системе STATISTICS Обратим внимание, что в модуле Нейронные сети системы STATISTICA имеется Советнику подсказывающий выбор архитектуры сети (см. описанный ниже пример классификации с помощью нейронных сетей). Покажем, как построить многослойный персептрон в системе STATISTICA. Построение многослойного персептрона в системе STATISTICA Шаг 1. Запустите модуль Нейронные сети. Шаг 2. Откройте, например, файл series_g.sta из папки Examples. Используйте меню File-Open. Файл содержит данные о месячных авиаперевозках пассажиров. Если вы хотите создать свой набор данных в модуле Нейронные сети, поступите следующим образом: О Войдите в диалоговое окно Создать набор данных — Create Data Set с помощью команды Набор данных — Data Set... из меню Файл—Новый — File—New. ВЗ £А Iran Statistics fiun Qptiore &nd Рис. 4. Создание файла данных О Введите нужные значения для количества входных — Inputs и выходных — Outputs переменных в наборе данных. Введите, например, 17 и 7. О Нажмите кнопку Создать — Create.
618 Глава 17. Нейронные сети Заметьте, что имена входных переменных имеют черный цвет, имя выходных переменных — голубой цвет; входы от выходов отделяются темной вертикальной линией. 1 Create Data Set Inputs |17 Щ Outputs |7 fl ПЕЗ! Cieate I Ck»e | Рис. 5. Определение числа входных и выходных наблюдений В данном примере, однако, мы не будем создавать нового файла, а будем работать с имеющимся файлом series_g.sta. Шаг 3. После того как файл данных series_g.sta открыт, перейдем к созданию сети. Для этого в меню File выберите команды: New—Network — Новая Сеть (см. рис. 6). Шаг 4. Вначале создадим структуру сети. В появившемся диалоговом окне сделайте установки, как показано на рис. 7. В поле Туре — Тип выберите тип сети: Многослойный персептрон. Задайте параметр Временное окно — Steps равным 12. Мы выбрали эту установку, так как в ряде имеется сезонная составляющая с лагом 12. Установите параметр Горизонт — Lookahead равным 1. jdpene Data Set Fie Рис. 6. Рабочее окно модуля Нейронные сети
Нейронные сети 619 Jypt | MuMayei Perception »j TroeSenet Slept Lookaheed Inpui* Г" § Qutput* fi § HoLeyer* F~|| Cjeate ] МП il ol Convert Minmax Hinmax «LI л RFwW Layer 1 Layer 2 Layer Э Units iLL 1 Рис. 7. Диалоговое окно построения сети Данные содержат значения одной переменной. Для нейронной сети эта переменная будет служить одновременно входной и выходной (в разные моменты времени). Для того чтобы определить переменную как входную/выходную, нужно выделить ее щелчком на заголовке таблицы, а затем в появившемся меню выбрать пункт Input/Output. Обратите внимание на установку в окне No Layers — Число слоев. Мы выбрали сеть, содержащую 3 слоя. В таблице ниже для слоя 2 показано: Layer 2 — Слой 2:1. В вашем распоряжении имеются две кнопки Advise — Советовать и Create — Создать. Нажмите кнопку Advise — Советовать. Заметьте, что после нажатия кнопки Advise — Советовать значение в поле No Layers — Число слоев изменится и станет равным 6. Система советует выбрать 6 элементов на промежуточном слое. Вы можете воспользоваться советом или построить персептрон со своей структурой. Например, вы можете щелкнуть мышью на поле Layer2 и ввести любое значение для числа нейронов на слое 2. Гибкий интерфейс позволяет вам задавать архитектуру сети. Шаг 5. Нажмите кнопку Create — Создать. На экране появится следующая сеть: Рис. 8. Трехслойный персептрон с 7 элементами на 2-м слое
620 Глава 17. Нейронные сети Таким образом, можно создать персептрон с нужным количеством слоев и числом элементов на каждом слое. В окне Редактор сети STATISTIC А можно послойно просмотреть и отредактировать сеть, выбирать передаточную функцию для каждого слоя, а также пост- синаптический потенциал или значение активации нейрона. Итак, создана архитектуру сети. Мы продолжим рассмотрение этого примера, но вначале дадим необходимые теоретические сведения. Обучение многослойного персептрона После того как структура многослойного персептрона определена, его нужно обучить, то есть найти значения весов и порогов сети, являющиеся свободными (неизвестными) параметрами. Их нужно определить, чтобы сеть решала поставленную задачу. Представьте, вы случайным образом выбрали значения этих параметров, — вряд ли такая сеть будет для вас полезной. Трудно угадать нужные значения параметров, однако имеется процесс, называемый обучением, который позволяет последовательно находить эти параметры, приближаясь к лучшей сети. Процесс обучения представляет собой подгонку модели, которая реализуется сетью, к обучающим данным, например, с известным ответом. Ошибка для конкретной сети определяется путем прогона всех имеющихся наблюдений и сравнения реально выдаваемых выходных значений сети с целевыми (правильными) значениями. Грубо говоря, мы обучаем сеть, продвигаясь в сторону уменьшения ошибок. В качестве функции ошибки, например, можно взять среднеквадратичную ошибку, вычисляемую следующим образом: ошибки выходных элементов для всех наблюдений возводятся в квадрат и затем суммируются. В модуле Нейронные сети выдается так называемая среднеквадратичная ошибка: описанная выше величина нормируется на число наблюдений и переменных, после чего из нее извлекается квадратный корень. Это достаточно разумная мера ошибки, усредненная по всему обучающему множеству и по всем выходным элементам. Конечно, эта мера ошибки естественна в нелинейной регрессии, но вряд ли она полезна в задачах классификации, где критерием качества может являться доля правильно классифицированных наблюдений. Заметим, что разнообразные функции ошибок можно выбрать в окне Редактор Сети. Итак, после того как мы задали архитектуру сети, нам нужно найти параметры, минимизирующие ошибку или максимизирующие качество работы сети. В линейных моделях можно определить параметры, дающие абсолютный минимум ошибки. С нелинейными моделями дело обстоит гораздо сложнее. Настраивая сеть с целью минимизации ошибки, нельзя быть уверенным, что алгоритм обучения достиг глобального минимума, иными словами, утверждать, что нельзя добиться лучшего результата. Поверхность ошибок Для контроля обучения сети полезна поверхность ошибок, к описанию которой мы сейчас переходим. Каждому из весов и порогов сети (то есть свободных параметров модели; их общее число мы обозначим через N) соответствует одно измерение в многомерном пространстве. (W+l^-мерное измерение соответствует ошибке сети.
Нейронные сети 621 Для данного набора весов соответствующую ошибку сети можно изобразить точкой в (N+l)-MepnoM пространстве. В итоге все такие точки образуют некоторую поверхность — поверхность ошибок. Цель обучения нейронной сети состоит в том, чтобы найти самую низкую точку этой поверхности. В случае линейной модели с суммой квадратов в качестве функции ошибок поверхность ошибок представляет собой параболоид, и минимум находится легко. В общем случае поверхность ошибок имеет сложную структуру, в частности, может иметь локальные минимумы (точки, самые низкие в некоторой своей окрестности, но лежащие выше глобального минимума), седловые точки и т. д. Обучение нейронной сети заключается в исследовании поверхности ошибок. Отталкиваясь от некоторой начальной конфигурации весов и порогов, алгоритм обучения производит поиск глобального минимума. Как правило, для этого вычисляется градиент в данной точке, а затем эта информация используется для продвижения вниз по склону на поверхности. В конце концов, алгоритм приводит к некоторой нижней точке (ниже спуститься нельзя), которая, однако, может оказаться лишь точкой локального минимума. Очевидно, следует использовать различные начальные приближения. STATISTICA предлагает следующие методы обучения многослойного персеп- трона: ВЕЯ £*****£$ В"" flptions &indow ]Jdp ШШШШШШт s«*p>°P«o«m.. I Conjugate Gradients... Line* JJuasbNevyiOf\ > f* *"< lever^g-MequardL. [■о. !"'' Quick Propagation.. fi>e*«-Bar-De*a... Pfr«ipal£omponentt . j &uxikary ► 1 Рис. 9. Алгоритмы обучения многослойного персептрона Для обучения многослойных персептронов в пакете Neural Networks реализовано пять различных алгоритмов: алгоритм обратного распространения, быстрые методы второго порядка — методы сопряженных градиентов и Левенберга—Маркара, а также методы быстрого распространения и Дельта-дельта с чертой (вариация метода обратного распространения). Все эти методы являются итеративными, то есть последовательно приближаются к минимуму, начиная с некоторого начального значения. Выбор алгоритма обучения В большинстве случаев вначале следует испытать метод сопряженных градиентов — в этом случае обучение происходит достаточно быстро (иногда на порядок быстрее, чем, например, методом обратного распространения). Последний метод следует предпочесть в случае, когда в очень сложной задаче требуется быстро найти удовлетворительное решение или когда данных очень много (порядка десятков тысяч наблюдений). Метод Левенберга—Маркара для некоторых типов задач может оказаться эффективнее метода сопряженных градиентов, но его можно использовать только
622 Глава 17. Нейронные сети в сетях с одним выходом, квадратичной функцией ошибок и не очень большим числом весов. Фактически область его применения ограничивается небольшими по объему задачами нелинейной регрессии. Итеративное обучение. Итеративный алгоритм обучения последовательно проходит ряд так называемых эпох — Epochs, на каждой из которых на вход сети подается наблюдение за наблюдением — весь набор обучающих данных, вычисляются ошибки и по ним подправляются веса сети. Известно, что итеративные алгоритмы подвержены нежелательному явлению переобучения (когда сеть хорошо учится выдавать те же выходные значения, что и в обучающем множестве, но оказывается не способна обобщить закономерность на новые данные). Поэтому качество работы сети следует проверять на каждой эпохе с помощью специального проверочного множества (для этого нужно выбрать опцию Кросс-проверка — Cross verification в диалоговом окне обучения). Контроль обучения За ходом обучения можно следить в окне График ошибки обучения — Training Error Graph (оно открывается из меню Статистики — Statistics), где на графике отображается среднеквадратичная ошибка на обучающем множестве на данной эпохе. Если выбрана опция Кросс-проверка — Verification, выводится также среднеквадратичная ошибка на проверочном множестве. С помощью расположенных под графиком элементов управления можно менять масштаб изображения, а если график целиком не помещается в окне, под ним появляются линейки прокрутки. Рис. 10. График ошибок обучения Если требуется сопоставить результаты различных этапов обучения, нажмите кнопку Переустановить — Reinitialize в окне обучения, а затем еще раз нажмите кнопку Обучить — Train (повторное нажатие кнопки Обучить — Train без Переустановки — Reinitialize просто продолжит обучение сети с того места, где оно было прервано). Чтобы облегчить сравнение результатов, имеется возможность перед нажатием кнопки Обучить — Train задать для графика Метку — Label: тогда очередная линия будет рисоваться новым цветом, а информация о ней будет добавлена в легенду в правой части окна. По окончании обучения график можно переслать в STATISTICA (кнопка О). На графике обучения можно легко заметить эффект переобучения. Вначале ошибка обучения и проверочная ошибка убывают. При возникновении эффекта переобуче-
Нейронные сети 623 ния ошибка обучения продолжает убывать, а ошибка проверки растет. Рост проверочной ошибки сигнализирует о начале переобучения. Если наблюдается переобучение, то обучение следует прервать, нажав кнопку Стоп — Stop в окне обучения или нажав клавишу ESCAPE. Можно также задать автоматическую остановку программы ST Neural Networks с помощью условий остановки, которые задаются в окне Условия остановки — Stopping Conditions (доступ к которому происходит через меню Обучение-дополнительные — Train- Auxiliary). ■И1...ЛИ.Л.Л1И £pod» foo~|! Target Enor Tiaining |0 Venfic«bon |° Minimum improvement 1ммг* |5 У«Лс*юп fo Window |0 (fj шшим Рис. 11. Задание условий остановки обучения Кроме максимального числа эпох, отводимого на обучение, можно потребовать, чтобы обучение прекращалось при достижении определенного уровня ошибки или когда ошибка перестает уменьшаться на определенную величину (остановка по невязке). Борьба с переобучением Самое лучшее средство борьбы с переобучением — задать нулевой уровень минимального улучшения. Однако поскольку при обучении присутствует шум, обычно не рекомендуется прекращать обучение лишь потому, что на очередной эпохе ошибка ухудшилась. Поэтому в диалоге Stopping Conditions — Условия остановки имеется специальное Окно — Window, в котором задается число эпох, на протяжении которых должно наблюдаться ухудшение, и только после этого обучение будет остановлено. Обычно в этом окне устанавливают значение 5. Сохранение лучшей сети Вы можете восстановить наилучшую конфигурацию сети из всех, полученных в процессе обучения, с помощью опции Лучшая сеть — Best Network... (меню Обучение-дополнительные — Train-Auxiliary). Если опция Сохранить лучшую — Retain Best включена, программа Neural Networks автоматически сохраняет наилучшую из сетей, полученную в ходе обучения. Если включена опция Учитывать все прогоны обучения — Span training runs, то это делается и для прогонов обучения различных сетей. Таким образом, программа Neural Networks автоматически хранит наилучший результат всех экспериментов.
624 Глава 17. Нейронные сети К Retain Best Netwcxk [X Bet*nJM ; f* Span beting runt UnJtPenaftyl0 Netwodcenort Tracing A02096 Verification Д ПЕГ Restore j £*c«d j Oote 1 Рис. 12. Опция: лучшая сеть Можно также установить Штраф за элемент — Unit Penalty с тем, чтобы при сравнении штрафовать сети с большим числом элементов (наилучшая сеть обычно представляет собой компромисс между качеством работы и размером). Наилучшая сеть Для того чтобы вызвать наилучшую сеть, нажмите кнопку Восстановить — Restore. Такая возможность, как правило, очень помогает, однако ясно, что она отрицательно сказывается на эффективности (программа Neural Networks должна копировать и сохранять сеть каждый раз, когда достигается улучшение), поэтому в некоторых случаях имеет смысл отключить эту опцию. Рис. 13. Ошибки обучения Ошибки сети (во время и по результатам обучения) можно наблюдать также в окне Ошибки наблюдений — Case Errors (доступ — через меню Статистики — Statistics). Здесь выводится диаграмма ошибок для отдельных наблюдений. Установив опцию Пересчитывать по ходу — Real-time Update, можно следить за изменением ошибок от эпохи к эпохе. Обратное распространение Перед применением алгоритма обратного распространения необходимо задать значения ряда управляющих параметров. Наиболее важными параметрами являются скорость обучения, инерция и перемешивание наблюдений в процессе обучения. Скорость обучения — Learning rate задает величину шага при изменении весов: в случае недостаточной скорости алгоритм медленно сходится, а при слишком большой алгоритм неустойчив. К сожалению, величина наилучшей скорости зависит
Пре/постпроцессирование 625 от конкретной задачи; для быстрого и грубого обучения подойдут значения от ОД до 0,6; для достижения точной сходимости требуются гораздо меньшие значения (например, 0,01 или даже 0,001, если эпох много тысяч). Momentum |03 ; [51 ■• jogWeghtt ) go*e I3 S*0P И f* $bU«eCam "=--y ; • 0p>e I У РоцувнЙсаЬоп V | Рис. 14. Опции алгоритма обратное распространение Иногда полезно уменьшить скорость обучения. В программе Neural Networks можно задать начальное и конечное значения скорости, и по мере обучения производится интерполяция между ними. Начальная скорость задается в левом поле, конечная —в правом. Инерция — Momentum помогает алгоритму, когда он застревает в низинах и локальных минимумах. Этот коэффициент может иметь значения в интервале от нуля до единицы. Реально «правильное» значение можно найти только опытным путем, и для этого в STATISTIC А имеются все возможности. Перемешивание наблюдений Перемешивать порядок наблюдения обычно рекомендуется, когда для решения задачи используется метод обратного распространения, поскольку этот способ уменьшает вероятность того, что алгоритм застрянет в локальном минимуме, а также уменьшает эффект переобучения. Чтобы воспользоваться такой возможностью, установите опцию Перемешивать наблюдения — Shuffle Cases. При работе с нейросетями следует помнить о важном моменте — процессиро- вании, или преобразовании, данных. Пре/постпроцессирование Передаточная функция для каждого элемента сети обычно выбирается так, чтобы ее входной аргумент мог принимать произвольные значения, а выходные значения лежали бы в строго ограниченном диапазоне. При этом возможен эффект насыщения, когда элемент сети оказывается чувствительным лишь к входным значениям, лежащим в некоторой ограниченной области. На этом рис. 15 представлена логистическая функция. Логистическая функция является гладкой, ее производная легко вычисляется, что существенно для алгоритмов минимизации на этапе обучения сети (в этом также кроется причина того, что ступенчатая функция для этой цели практически не используется). Если применяется логистическая функция для вычисления вы-
626 Глава 17. Нейронные сети ходного сигнала (см. формулу A)), то выходное значение всегда лежит в интервале @,1), а область чувствительности для входов чуть шире интервала (-2;+2). ;i i\m шин тугттмАпмттвяи мщ LOGISTIC FUNCTION •/" ; ' ' / ; ■■/'■ \ /i I У ■ \ '■4 2 0 2 4 Рис. 15. Логистическая функция Чтобы согласовать вход-выход при решении задач методами нейронных сетей, требуются этапы предварительной обработки (Bishop, A995) Neural Networks with Pattern recognition, Oxford: University Press). Эти преобразования включают, в частности, шкалирование и преобразование категориальных переменных в числовую форму. Шкалирование Числовые значения должны быть приведены в масштаб, подходящий для сети. В пакете Нейронные сети STреализованы алгоритмы минимакса и среднего/стандартного отклонения, которые автоматически находят масштабирующие параметры для преобразования числовых значений в нужный диапазон. В некоторых случаях более подходящим может оказаться нелинейное шкалирование (например, если заранее известно, что переменная имеет экспоненциальное распределение, есть смысл взять ее логарифм). Можно шкалировать переменную с помощью средств преобразования данных в STATISTICA, а затем работать с ней в модуле Нейронные сети ST. Номинальные переменные Номинальные, или категориальные, переменные преобразовываются в числовую форму (например, Муж = 0, Жен = 1). Для кодирования многомерных номинальных переменных используется так называемый метод 1-H3-N, так как при наивном способе кодирования, например Собака = 0, Овца = 1, Кошка = 2, может возникнуть ложное упорядочивание значений категориальной переменной: Овца окажется чем-то средним между Собакой и Кошкой. В методе 1-H3-N одна номинальная переменная представляется несколькими числовыми переменными. Количество числовых переменных равно числу возможных значений номинальной переменной; при этом всякий раз ровно одна из N переменных принимает ненулевое значение (например, Собака = {1,0,0}, Овца - {0,1,0}, Кошка = {0,0,1}). Заметим, что этот метод кодирования требует большого количества числовых переменных, если номинальная переменная принимает много значений. 08 00 04 02
Диалог в модуле Нейронные сети STATISTICA 627 Оценка качества работы сети После того как сеть обучена, стоит проверить, насколько хорошо она работает. Для этого доступны несколько показателей. Среднеквадратичная ошибка, которая выдается в окне График ошибки обучения — Training Error Graph, представляет лишь грубую меру производительности. Более полезные характеристики выводятся в окнах Статистики классификации — Classification Statistics к Статистики регрессии — Regression Statistics (доступ к обоим происходит через меню Статистики — Statistics). Окно Статистики классификации — Classification Statistics применяется для номинальных выходных переменных. Здесь выдаются сведения о том, сколько наблюдений каждого класса (классы соответствуют номинальным значениям) из файла данных было классифицировано правильно, сколько неправильно и сколько не классифицировано, а также приводятся подробности об ошибках классификации. Обучив сеть, нужно просто открыть это окно и нажать в нем кнопку Запуск —Run. Статистики выдаются раздельно для обучающего, проверочного и тестового множеств {внимание: чтобы увидеть тестовые статистики, нужно прокрутить таблицу вправо). В верхней части таблицы приводятся суммарные статистики (общее число наблюдений в каждом классе, сколько из лих классифицировано правильно, неправильно и не классифицировано), а в нижней части — кросс-результаты классификации (сколько наблюдений из данного столбца было отнесено к данной строке). Окно Статистики регрессии — Regression Statistics действует в случае числовых выходных переменных. В нем суммируется точность регрессионных оценок. Наиболее важной статистикой является S. D. ratio — отношение стандартного отклонения ошибки прогноза к стандартному отклонению исходных данных. Если бы у нас вообще не было входных данных, то лучшее, что мы могли бы взять в качестве прогноза для выходной переменной, — это ее выборочное среднее, а ошибка такого прогноза была бы равна стандартному отклонению выборки. Если нейронная сеть работает результативно, мы вправе ожидать, что ее средняя ошибка на имеющихся наблюдениях будет близка к нулю, а стандартное отклонение этой ошибки будет меньше стандартного отклонения выборочных значений (иначе сеть давала бы результат не лучше, чем простое угадывание). Таким образом, если S. D. ratio значительно меньше единицы, то сеть эффективна. Величина, равная единице минус S. D. ratio, является долей объясненной дисперсии модели. Перейдем к работе с нейронными сетями в системе STATISTICA Для того чтобы понять, как решаются задачи прогнозирования с помощью нейро- сетей, мы будем использовать файл series__g.sta, для задач классификации используем файл irissta. Диалог в модуле Нейронные сети STATISTICA Мы продолжаем работать с файлом Series_g.sta. Это классический файл данных, обычно используемый для тестирования методов прогнозирования (см., например, книгу Бокс Дж., Дженкинс Г. Д. Анализ временных рядов и прогнозирование. М.: Мир, 1974).
628 Глава 17. Нейронные сети Шаг 1. Откройте файл данных Series\g.sta из папки Examples. Данные содержат значения одной переменной: месячные перевозки пассажиров. Как мы уже заметили, для нейронной сети эта переменная будет служить входной/выходной (так как мы прогнозируем будущие значения ряда на основе предыдущих значений). ЕДШЗЕЕ— • todkft;: ■ :•") £3 Examples ~ЭМ й! [ГП osadki |f") Patients ЩРке |Й Pistons [£]Piston$2 [Г1 Plssim Li Q. Jpnevmon 0 Poverty |i""j pnvivkal [l] processes [["^Pfocmix (ГП Program [HPfcrfein [|*"| pulse [f J puenoise О Radios □ Rats (ГП Reading I П<е$< П Retail [i"'J Screws ияйЯ^ЦЯ [i""]Shoftfun □ $.te999 ±1 Яедатг |Sene$_g Fletoljype: JSTATISTICA data hie (" sta) 3 Qpen Cancel Рис. 16. Выбор файла Поэтому задайте тип переменной как входная/выходная. input Qutput tonote toput/Шр* Order Ascending Ofdei Descending £elinjtion,.. Cut Copy Paste Clear Рис. 17. Задание типа переменной Для этого выделите переменную в открытом файле данных (щелчком на заголовке столбца). Затем нажмите правую кнопку мыши и выберите из появившегося контекстного меню пункт Входная/выходная — Input/Output. Имя переменной высветится зеленым цветом. Шаг 2. С помощью мыши выберите команду Сеть — Network... из меню Файл- Новый — File—New. STATISTICA Neuial Netwofks - Senes_g I £d< Jiain $»abdics Run Qfiiom ^ndow fipwv. £lo$e £ave Network Set ► E** пгевша г InteUgent РюЫет Solver. j~~ BataSet.. Щ -ЩГ- 3IES 'л | И2Л 118 — £j Cased144 Рис. 18. Построение сети
Диалог в модуле Нейронные сети STATISTICA 629 На экране появится диалоговое окно Создать сеть — Create Network. Jype | MuMayer Perception jj T«r*Seriet РгвУРоа Rtoc«ttine Jnpult [i § flutputt EMM dote Щ U9lV*t F~@ IConvert Mim»ax Hiniaax U 11 тыщ U»»1 JLyef2 by*3 Рис. 19. Задание параметров персептрона В поле Туре — тип выберите тип сети Многослойный персептрон — Multilayer Perceptron и сделайте следующие установки: Входы — Inputs = 1, Выходы — Outputs = 1. Задайте число слоев равным трем, No Layers = 3. Выберите трехслойный персептрон. Задайте параметр Временное окно — Steps равным 12 (данные представляют собой ежемесячные авиаперевозки с присутствующей в них сезонной составляющей), а параметр Горизонт — Lookahead — равным 1. После этого нажмите кнопки Совет — Advise и Создать — Create. На экране появится схема трехслойного персептрона. Этот персептрон имеет 12 входов. Рис. 20. Трехслойный персептрон Шаг 3. Обучение сети. Структура сети определена. Теперь ее нужнотэбучить. В файле данных выберите 66 обучающих — Training и 66 контрольных — Verification наблюдений. Всего в файле содержится 144 наблюдения. Первые 12 резервируются для построения прогноза на первом шаге.
630 Глава 17. Нейронные сети мттт £fc, ДО !*•« $Ufebo< Дш fiptaro Window q«p : аштмг^амадн mm Но! Ыы шшшшзде У^Ы» >Г|Г—В; ^ F6— gfsG ^ Рис. 21. Из файла данных выбрано 66 обучающих и 66 контрольных наблюдений Далее воспользуйтесь опцией Shuffle — Перемешать. Заметьте, во временном ряде наблюдения упорядочены во времени, поэтому при перемешивании нельзя пользоваться функцией Сгруппировать множества — Group Sets. ¥* '•-vV''"' fcalrte. Ivp* IP-"! Pje/Port Proceisng... {jctacxk. ^ГЭ IienandVenTy Tia«\,y*ity jndTesi £1 Arid into V«MNe Рис. 22. Выбор функции Shuffle — Перемешивание позволяет случайным образом перемешать наблюдения в процедуре обучения Опция перемешивания позволяет распределить обучающие и контрольные наблюдения в файле данных. Для обучения сети воспользуемся методом сопряженных градиентов. . STATISTICA Nemal Netwwkt "Sm Jjjte I* РГГТЙ $t«hf«M fiur> QpliQr* ДОч&я» ЦЫр ir** ¥«wbim Leverbei a-M a»<jj* dt. 2wcfc Рюрадамоп.. Pnrxapal£ompon*n»i... "ft _ *?;■ 4и***У... Рис. 23. Выбор метода сопряженных градиентов для обучения сети Г : Conjugato'GiadienttPM(Mnfl?WBi3 ь*. № Ш Ф Got» ietrfic«»ion i^%$- ■■"■;■ i '■■■;. „ , v . I» | Stop j ОЬм | Рис. 24. Окно минимизации методом сопряженных градиентов
Диалог в модуле Нейронные сети STATISTICA 631 Обратите внимание на кнопку Переустановить — Reinitialize: она позволяет случайным образом выбрать новые начальные значения свободных параметров сети и провести обучения, исходя из этих установок. Опция Кросс-проверка — Cross verification позволяет провести обучение с кросс- проверкой (проверять сеть на контрольном множестве на каждой эпохе обучения). Шаг 4. Проекция временного ряда. Проекция ряда строится следующим образом: О сеть обрабатывает начальный набор значений (первые 12 наблюдений) и выдает прогноз; О первое наблюдение из исходного набора отбрасывается, вместо него ставится прогноз, полученный на первом шаге; О по новому набору входных значений строится следующий прогноз и т. д. Процесс проектирования можно продолжать неограниченно. Для построения проекции откройте окно Проекция временного ряда — Time Series Projection командой Проекция временного ряда — Time Series Projection... меню Запуск — Run. шъ\жж Qne-оИ... &с1*«югчи Re«pon»e Surface,, £Ы« Diagiam. Рис. 25. Открытие окна Проекция временного ряда В модуле Нейронные сети можно построить проекцию временного ряда с некоторого наблюдения текущего набора (см. опции окна). Выбирая опции окна, можно получить разнообразные проекции и прогноз ряда с помощью построенной и обученной сети. 13. i^ F~§ Рис. 26. Проекция временного ряда на 44 наблюдения
632 Глава 17. Нейронные сети Чтобы оценить качество работы сети, откройте окно Статистики регрессии Regression Statistics и нажмите кнопку Запуск — Run. фШ* ж** vmm Date Mean Data SO. Error MeeiV EwocSO AbtE Mean S.O. Ratio Correlation Tr. SERIES |ve. SERIES 200.6818 №.ЪАК$ 47.42838 Ь::.--Г-^4 -0.007445 -4Л.1Ъ-П-\ 11.12794 2i.22.0Sh 8.46584 4-1.-10607 0.2346262 0.3290319 0.9720871 0.9551597 Рис. 27. Описательные статистики позволяют оценить качество прогноза Шаг 5. Для того чтобы построить прогноз на 1 шаг с помощью обученной сети, выберите команду меню Run — Single Case... ШШШШШШ &at*$et. Ojie-ofrV X*1* Series»;. Besporoe Graph... Besporoe Surface». Cjutfet Diagram. : Рис. 28. Выбор команды Run Single Case На экране появится диалоговое окно Run Single Case. В поле Case No введите номер наблюдения, для которого нужно построить прогноз, и нажмите кнопку Run. £a*eNo Енот 1164 Ryn ЯШИ InpU . SERIES u-1 IsEftiES G 1 |sER:ES Ь-1 ! 417 39i 41? «JJ JJ OUflUfc Shown [Variables jJ laifbiin Output. Target Error SERIESJ3 | 347.866 Рис. 29. Прогноз на один шаг вперед, построенный с помощью обученной сети В строке Output появится прогноз ряда на один шаг вперед. В строке Target стоит знак ?, так как в исходном файле всего 144 наблюдения.
Диалог в модуле Нейронные сети STATISTICA 633 Классификация Для решения задачи классификации воспользуемся файлом данных Iris.sta и Мастером решения задач. Это классические данные Фишера, для классификации которых применяется дискриминантный анализ, дающий оптимальное линейное решающее правило. Заметим, что альтернативным вариантом исследования являются деревья классификации. Мы используем эти данные только в иллюстративных целях: на простых и ясных примерах можно познакомиться с возможностями нейронных сетей по классификации данных. ■WHIffff.lJffl"J,U,ii'J.lH:MI!J,!l,l,l'A!,'JJ,l SetecUhe Bali: or Advanced Vernon Thebaic version make*« many deceioro as роздЫ* automatical (or you T he advanced version atows >юу to cuelomee the detign procen. Vereon ^ Batic(nvftl^dldeciwomeuioma6c^wntfipo»«bte} <~ Advanced Caned ffie^Tf Рис. 30. Мастер решения задач (начало диалога) Шаг 1. Откройте файл Iris.sta. Первые 4 переменные — это параметры цветков ириса. Категориальная переменная IRISTYPE обозначает тип ириса. Измеряя параметры цветка, нужно отнести его к одному из трех типов (Setosa, Versicol, Virginic). Мастер решения задач последовательно открывает диалоговые окна, в которых просит сделать несложный выбор. Шаг 2. Одно окно уже открыто — это Problem Type — Тип задачи. Укажите тип задачи и нажмите кнопку Next. Intelligent Problem Solver - Problem Type Ptea$* «peciry Whether 0w » a Time Serie* or Standard problem In a Standard prob^thecA»eiritl^datatetaretrea(ed*trtieper>JenLATimeS«wj problem h one *here >ou with to predtot the value of * variable ba$edona ProbJemTjpe , • • _ ^ <• :&nr&d'(ie^Kc^ *** Tin» Sena* (preoW late» value* from ea*« one*} Cancel I < Back fje*» > Рис. 31. Выберите стандартный тип Шаг 3. В следующем окне выберите зависимую переменную.
634 Глава 17. Нейронные сети ,у*ш^1т,ут,ыщт tf you vvtth to Mha mufcipfe otfpU у*«Ы«, pm* the Muktyt button fated MuH*.. C«x*l < fiack | (Hg^> fx":« Рис. 32. Выберите переменную iristype как выходную (зависимую) переменную Выходная переменная — номинальная, она принимает три значения: Setosa, Versicol, Virginic. Нажмите кнопку Next. Шаг 4. В следующем диалоговом окне выберите входные (независимые) переменные. пгшгшпип SEBS& Stiictifto i"(ni ffidiQififlwitliMMitoi ipi thi доЫмь YoU c*w specify #ЙЫк ih*t9w IPS. feMt &• мйи$яуи$|Ым1 м pottibto input* and Mlectttoeiojt 1* $M№H^*4ft«0ttoW>rt Cm* <fi«k Qtaol .**» Рис. 33. Выберите входные переменные (параметры цветка) Нажмите кнопку Next. Мастер решения разобьет выборку на обучающую (черный цвет значений), контрольную (синий цвет) и тестовую выборку (красный цвет). Также автоматически будет произведено перемешивание наблюдений. Шаг 5. На экране появится окно Duration of Design Process.— Длительность поиска. •IKiKlWt f* b»0#dtoeftl how doMitd lh> {ЫдояниЦ be» oi spocfy th$--; A fry iwhtirrn m»<fc^»t)PSWdkcoy*rb<«qtna>woA<. ..-Vp ^ M«dMn|Cor>dyoU^*e^ ' /^:>ТМ^М^«йН«м^л^«рвс1МЬеЫЬв$ «xpired) Caned <B*ck J ["SjTJ Рис. 34. В окне Длительность поиска можно задать длительность поиска (быстрый, средний, полный, ограниченный по времени)
Заключительные комментарии 635 Шаг 6. Далее на экране появится окно Saving Networks — Сохранение сетей. В этом окне можно задать способы сохранения сетей, например, максимальное число сохраняемых сетей, сохранить сети с лучшим качеством решения и т. д. the IPS eieenmenit **h тепу networks, end may atore * number of the bett be done I*» network »et» already ful ос пеаф Jul М«чти« number o«netv«rk« savedI0 gj Selection of network* to be aaved Г K«epnebNort(ti^trwbet(per4oriMnc« $$ <V Beience pertownence ega**l fype *nd оап%Шку (memtein dwerefci Action f ihe nework tec it too ful to odd the niw nehwkt f Ipcreeje »he nrtwo*. «et tee r Replace e*wf*^ nrtw»k» I r»ew network» we better {marten dr*«tt>| Cancel I <geek I JJerf> I Г Рис. 35. В этом окне можно задать способы сохранения сетей Затем откроется окно, в котором указаны опции представления результатов. 1 ЫеЯюел* РгсЫея» Sorver • Re*** Shown - ***^ Select гы tow» of '«**• k> be d*pieyed ar t« *e пе»чю* it creeled J* Qetaeheet of «nub tor each case P* Qverel «штагу siatitbct Г Sem^MyAnaMMorBeflNetMQrk , Г ПО '•:- •H cwcrt|' a**i *,.*.{ rganfr Рис. 36. В этом окне выбираются опции представления результатов Шаг 7. Нажмите кнопку Finish. STATISTICA произведет вычисления и представит результаты в следующем виде таблицы. В этой таблице показаны 10 лучших сетей, найденных советником. В столбце Туре — Тип указан тип сетей: RBF — радиальные базисные функции, Linear — линейные, MLP — многослойный персептрон. Далее в таблице результатов идут столбцы: ошибка, входы, скрытые. В столбце Perfomance — Качество указаны доли правильно классифицированных цветков каждой сетью. ршщМ\ in mi iiiiii I—inn 1в£м*1гШ« fiuwntrwhw* F I fcetelihown j8«e Lr*>wt*M$ofe (bfartt/Detolet MMbtoewlbtw Ik oomptoNty ftm U10 network» tc b the eearch now DAntopovedr* pAnknprovedn» ТвСГ~""'" f to 11 ta 13 14 15 IUe 1 ИМИ НЙ V: 03 04 m: -:;-: OS '''У.' w p k» m: T«e.., km».. Ilrwtt,- РВГ 0.Э63ПЭ9 Linear 0.3509866 Linear 0.2963068 Linear 0.2952465 RBF 0.2301922 RBF 0.1880883 HLP 0.15Э5256 HLP 0.01849 HLP 0.0002072 HLP 7.261e-0S ~3 Qa*»»-! LfeddM - ireiOTunct 4 1 0.7837838 1 - 0.6486486 3 - 0.8378378 4 - 0.8918919 4 2 0.972973 4 4 0.9459459 1 2 0.9459459 4 6 1 4 8 1 71 * ■ -УЛ.?' Рис. 37. В результаты работы советника найдено 10 сетей
636 Глава 17. Нейронные сети Заключительные комментарии Указанная в таблице на рис. 37 сеть радиальной базисной функции (RBF) имеет промежуточный слой из радиальных элементов, каждый из которых воспроизводит гауссову поверхность отклика. Сети RBF иногда имеют некоторое преимущество перед сетями MLP. Во-первых, они моделируют любую нелинейную функцию с помощью только одного промежуточного слоя. Во-вторых, параметры линейной комбинации в выходном слое можно оптимизировать с использованием известных методов линейного программирования. В задачах классификации выходной элемент должен выдавать большой сигнал, если данное наблюдение принадлежит к интересующему нас классу, и слабый — в противоположной ситуации. Имеется и более тонкий способ интерпретации уровней выходного сигнала сети — вероятностный. В этом случае сеть выдает несколько большую информацию, чем просто «да/нет»: она сообщает, с какой вероятностью наблюдение принадлежит данному классу. В модуле Нейронные сети имеются методы, позволяющие интерпретировать выходной сигнал сети как вероятность, в результате чего сеть, по существу, учится моделировать плотность вероятности распределения для наблюдений из данного класса. Линейная модель представляет собой сеть без промежуточных слоев, которая в выходном слое содержит только линейные элементы (то есть элементы с линейной функцией активации). Линейная модель обычно записывается с помощью матрицы N х Nn вектора смещения размера N Веса соответствуют элементам матрицы, а пороги — компонентам вектора смещения. Сеть умножает вектор входов на матрицу весов, а затем к полученному вектору прибавляет вектор смещения. Можно создать линейную сеть и обучить ее с помощью стандартного алгоритма оптимизации, основанного на псевдообратных матрицах. Тот же алгоритм реализован в модуле Множественная регрессия системы STATISTICA. Это самый простой тип сетей. Линейная сеть позволяет сравнить качество построенных сетей. Может оказаться так, что задача успешно решается не только с помощью сложных нейронных сетей, но и простыми линейными методами. Заметим, что в модуле Нейронные сети реализованы также другие типы нейронных сетей, например, сети Кохонена, вероятностные сети, обобщенно-регрессионные нейронные сети (GRNN), предназначенные для решения задач регрессии, однако описание этих сетей выходит за рамки данной главы. Рассмотрим подробнее столбцы таблицы на рис. 37. Тип — Туре. В этом столбце указан тип нейронной сети. В большинстве случаев это многослойные персептроны (MLP), радиальные базисные функции (RBF) или линейные сети. Ошибка — Error. Здесь указана ошибка сети, полученная на контрольном подмножестве, которая вычисляется по всем контрольным наблюдениям. Чем меньше значение ошибки, тем лучше качество сети. Входы — Inputs. В этом столбце указано число входных переменных, используемых нейронной сетью. Заметим, что лучше использоэать сеть с меньшим числом входных переменных, если это не ухудшает существенно ее качество по сравнению с сетями, использующими большее количество переменных на входе.
Заключительные комментарии 637 Скрытые — Hidden. Здесь указано число скрытых элементов сети. Заметьте, линейные сети не имеют скрытых элементов, поэтому для них в этом столбце указан пропуск. Качество — Performance. В этом столбце показано качество сети, которое определяется по контрольному подмножеству. Для задач классификации качество — это доля правильно классифицированных наблюдений. Очевидно, предпочтительнее использовать сети с лучшими показателями качества. Однако заметим, что в задачах классификации меньшее значение ошибки не всегда соответствует лучшему качеству. Иногда сеть может улучшить ошибку на некотором множестве уже правильно классифицированных наблюдений за счет неправильной классификации дополнительного наблюдения. В результате может оказаться, что такой вариант имеет меньшую ошибку и одновременно худшее качество по сравнению с другим вариантом сети. Лучшая сеть отмечена * (в данном примере это сеть с номером 10, см. рис. 37). Заметьте, что в набор сетей включены и некоторые сети с плохим качеством (см. например, сеть с номером 2, которая правильно классифицирует лишь 65% наблюдений). На примере таких сетей можно понять, какой результат дают простые модели. Сети низкого качества легко удалить из набора. Чтобы сделать это, выделите сеть, щелкнув на ней мышью, а затем нажмите правую кнопку мыши и выберите из появившегося меню команду Удалить — Delete. Выделенная сеть будет удалена. Можно сделать выделенную нейронную сеть активной с помощью команды всплывающего меню Выбрать — Select. Если набор нейронных сетей заполнен, программа STNeural Networks должна определить, какие из имеющихся сетей заменять вновь создаваемыми. Нажмите кнопку Опции — Options... в диалоговом окне Редактор набора сетей — Network Set Editor. : Netwoik Sel Options Numbe^ndworktinsei ^0>e Cure*. ,17 :< Maximum Щ gj " A"^ >•••.'-.J-': Action when « netwotk it added to a ful tet ' Ас** j Keep D,verse jj j* ^ U|e| ^ Transfer current network to *et . Ш i*<; fieplace Metworktatepiec^f^ M Select best network (lowest error) in set gest Рис. 38. Настройка параметров набора сетей
638 Глава 17. Нейронные сети На экране появится диалоговое окно Параметры набора сетей — Network Set Options. В этом окне задается максимальное количество сетей в наборе. По умолчанию максимальный размер составляет 30 нейронных сетей. Если вы хотите, чтобы программа сообщала вам об удалении сети, включите режим Вначале сообщать пользователю — Inform User First Кроме того, взглянув на окно (рис. 38), мы видим, что при попытке добавить сеть в уже полный набор программа по умолчанию будет использовать режим Сохранять разнообразие — Keep Diverse... В этом случае решение о том, заменить ли новой сетью какую-либо из существующих, будет принято с учетом необходимости сохранить в наборе разнообразные соотношения между качеством и сложностью сетей (при этом всегда сохраняется лучшая сеть каждого типа, независимо от ее сложности). Установив нужные значения параметров набора сетей, нажмите кнопку Закрыть — Close. Если вы не хотите удалять некоторую сеть из списка, заблокируйте ее командой Блокировать — Lock из выпадающего меню правой кнопки мыши. Заблокированные сети выделяются голубым цветом и никогда не удаляются, независимо от их качества. Чтобы разблокировать сеть, используйте команду Разблокировать — Unlock. Иногда требуется изменить порядок сетей в списке, например, сгруппировать их по типам или рассортировать по величине ошибки или качеству. Чтобы осуществить это, щелкните правой кнопкой мыши на названии столбца и выберите из выпадающего меню команду Сортировать по возрастанию — Sort Ascending или Сортировать по убыванию — Sort Descending. Для исследования важности входных переменных обученной сети полезен анализ чувствительности. Представьте, вы имеете обученную сеть и вам нужно знать, как изменится качество работы сети, если некоторые входные переменные будут удалены. Чтобы ответить на этот вопрос, выберите команду Чувствительность — Sensitivity... из выпадающего меню Статистики — Statistics. Рис. 39. Выбор анализа чувствительности
Заключительные комментарии 639 В появившемся окне Анализ чувствительности нажмите кнопку Обновить Update. ■ SentuivrtyAnalysirMlf'AJH^ Prune rputc w4h tow tarotrvity ratio IhtesnoW F5T§ frune | HE3E3 'ДШХ ш<ыюя [flank Error Rato iRank ■•■"■ lEftof . [Ratb; swiDTH Ipcength MotH^- 3 2 II 0.1422066 0.3271987 0.4642051 2.110493 4.855968 6.889285 3 2 1 0.164695? 0.33:6603 0.4509132 i.328125 2.692615 3.6362:: $Sv-"--:"'4--':* Рис. 40. Диалоговое окно Анализ чувствительности Программа построит таблицу, в которой будет показана чувствительность сети по отношению к каждой переменной. Посмотрите на таблицу (рис. 40). В таблице приводятся три показателя: Ранг — Rank, Ошибка — Error и Отношение —Ratio. Показатели чувствительности даются отдельно для обучающего (первые три строки) и контрольного набора наблюдений. Столбцы таблицы — это переменные исходного файла данных. Вначале рассмотрим строку Error. Для каждой переменной значение Error показывает, каким будет качество сети, если данную переменную исключить из числа входных переменных. Очевидно, более важным для классификации переменным отвечают большие значения ошибок. Отношение — Ratio представляет собой отношение между значением в строке Ошибка — Error и основной ошибкой (Baseline Error). Baseline Error вычисляется для сети со всеми входными переменными. Если Отношение — Ratio меньше единицы, то исключение данной переменной улучшает качество работы сети. В строке Ранг — Rank переменные просто ранжированы в порядке убывания ошибки. Упражнение. Исследуйте данные об ирисах и найдите параметры цветов, наиболее важные для классификации. Сравните результаты, полученные с помощью нейронных сетей, с результатами классических методов классификации. Заметим, что для экспериментирования с набором входных переменных в SNN имеются Алгоритмы отбора входных переменных — Feature Selection Algorithms, чтобы проверять различные комбинации входных переменных и строить так называемые вероятностные сети, используемые для поиска лучшего набора входных переменных.
640 Глава 17. Нейронные сети Stepping Condi^oot.. Sebright*,, Wwgend fieguiewrfioa; Рис. 41. Выбор алгоритма отбора входных переменных нейронной сети Эти алгоритмы, включающие в себя пошаговое включение, пошаговое исключение входных переменных и так называемый генетический алгоритм отбора входных переменных, иногда позволяют найти варианты, пропущенные процедурой Intelligent Problem Solver. Упражнение. Постройте с помощью нейронных сетей прогноз продаж бензина (см. данные в приложении 1) и сравните с результатами классических методов прогнозирования.
Л Q Язык STATISTICA I О VISUAL BASIC (SVB) В этой главе мы кратко опишем возможности языка STATISTICA VISUAL BASIC (SVB), доступного в новой версии STATISTICA. Этот язык открывает огромные возможности для пользователей из самых различных областей, предоставляя намного больше возможностей, чем просто «вспомогательный язык программирования», который используется для создания пользовательских приложений. STATISTICA Visual Basic (SVB) использует огромные преимущества объектно-ориентированной структуры системы STATISTICA и позволяет получить доступ практически ко всем функциям пакета. Сложные процедуры анализа и графический вывод результатов можно записать как макрос или сценарий анализа для дальнейшего многократного использования и редактирования. Макросы представляют собой самостоятельные блоки, которые легко встраиваются в другие приложения. STATISTICA Visual Basic добавляет богатый арсенал из более чем 10,000 новых статистических и аналитических функций к стандартному синтаксису Microsoft Visual Basic и является, таким образом, одним из самых функционально богатых средств прикладного программирования. Пользователь может представлять макрос как сценарий действий, который затем может быть многократно «проигран» в STATISTICA. При этом не нужно повторять эти действия, а достаточно нажать одну лишь кнопку, выведенную на панель управления. Мы еще раз подчеркнем, что SVB предназначен для самого широкого круга пользователей, а не для узких программистов. Именно с помощью SVB пользователи из различных областей могут создать собственный модуль анализа данных. Структура языка STATISTICA Visual Basic STATISTICA Visual Basic состоит из двух основных компонент: 1. общая среда программирования Visual Basic, содержащая визуальные средства создания пользовательского интерфейса, включая собственные диалоговые окна пользователя; 2. библиотека STATISTICA, содержащая тысячи функций, обеспечивающих доступ практически ко всем аналитическим и графическим процедурам STATISTICA.. Среда программирования Visual Basic удовлетворяет стандартным соглашениям Microsoft Visual Basic. Небольшие отличия имеются в основном между способами создания диалоговых окон и появились они для того, чтобы предоставить
642 Глава 18. Язык STATISTICS VISUAL BASIC (SVB) пользователю большую гибкость в разработке собственного интерфейса при написании сложных программ анализа данных. Библиотека STATISTIC А (более 10 000 аналитических и графических процедур) открыта для использования не только в Visual Basic, но и в других языках программирования, например C/C++, Java или Delphi. Запись макросов Существуют три основные категории макросов, которые могут быть созданы при работе в STATISTICA 6.0: О макросы анализа, используемые в одном модуле; О мастер-макросы (объединение нескольких макросов анализа в один макрос или сценарий выполнения нескольких видов анализа); О клавиатурные макросы, полезные, например, для атоматизации ddjlf. Когда вы создаете макрос анализа (используя команду Options — Create Macro — Параметры — Создать макрос), точная последовательность действий сохраняется в виде программы на STATISTICA Visual Basic. Эта программа может быть в дальнейшем запущена с целью воспроизведения данного анализа. Рассмотрим макросы и приведем примеры их записи. Мы рекомендуем вслед за нами повторить описанные нами действия, а также самостоятельно поэкспериментировать с системой, чтобы убедиться, как легко записываются макросы в STATISTICA. Надеемся, что макросы или сценарии анализа станут привычным для вас способом работы в STATISTICA. Мы начнем с самого простого макроса STATISTICA, который относится к одному модулю или анализу STATISTICA. Ключевым является слово событие. Событие - это операция, которая совершается пользователем при работе с системой, например, нажатие кнопки мыши, клавиши клавиатуры, изменение значений переменных, открытие таблицы данных или рабочей книги, — это события. В STATISTICA могут отслеживаться также некоторые события, которые происходят во внешних приложениях. Они также могут быть обработаны и перепрограммированы. Данные возможности расширяют возможности STATISTICA по созданию пользовательских программ. Обработка событий - мощное средство, встроенное в STATISTICA, которое позволяет программировать сложные задачи. Макрос анализа Обычно анализ данных включает определенную последовательность действий: выбор анализа, открытие файла данных, выбор переменных, задание условий выбора наблюдений, выбор весов, выбор аналитической процедуры, установка параметров, просмотр результатов и т. д. Заметим, что термин «анализ» в STATISTICA означает определенную задачу, выбранную в меню Statistics или Graphs. Задача может быть как простой, например
Запись макросов 643 построение диаграммы рассеяния из меню Graphs — Графика, так и достаточно сложной, например пошаговая множественная регрессия, включающая разнообразные опции просмотра результатов и графики. Запись макроса анализа Следующий пример показывает создание макроса анализа для простого типа анализа: О Запустите STATISTICA. О Откройте файл heartsta. Это знакомый нам файл, содержащий данные об операциях на сердце (см. главу 14). D«« Heart (llv by 6bc) Heart transplant data from Crowley and Hu. stratified 1 щ 4] ~. Щ Щ Щ Щ it "Щ 13 Ц Щ .16 •17 Й [JANUARY [~ ,ialx{ MONTH 1 7 OAYJ 3 YEAftJ; MAY AUGUST AUGUST SEPTEMBR OCTOBER OCTOBER NOVEMBER NOVEMBER FEBRUARY FEBRUARY MARCH APRIL JULY MAY AUGUST SEPTEMBR CCOTCMOO 6 2 31 22 9 5 26 22 20 15 8 29 13 16 22 16 3 4 JANUARY MAY MAY OCTOBER JANUARY DECEMBER JULY AUGUST DECEMBER FEBRUARY NOVEMBER MAY APRIL NOVEMBER APRIL AUGUST DECEMBER W$L 21 5 17 7 14 6 7 29 13 25 29 7 13 29 1 17 18 CO МГЛ/СМОСО 68 CENSORED 68 CENSORED 70 COMPLETE 68 COMPLETE 69 CENSORED 68 COMPLETE 72 COMPLETE 69 COMPLETE 68 CENSORED 69 COMPLETE 71 COMPLETE 69 COMPLETE 71 COMPLETE 69 COMPLETE 74 CENSORED 69 CENSORED 71 COMPLETE CO ГПМО! CTC ^ i)WT«3E».*S$MAfCH; HOSPiTAfc 1.11 HILLV1EW 1.66 HILLV1EW 1.32 HILLV1EW 0.61 ST AND 0.36 STRAND 1.89 ST_AND 0.87 BINER 1.12 BINER 2.05 HILLV1EW 2.76 HILLVIEW 1.13 BINER 1.38 HILLVIEW 0.96 ST AND 1.62 ST~AND 1.06 ST~AND 0.47 BINER 1.58 BINER о со uit i \лс\а/ Выберите команду Basic Statistics/Tables — Основные статистики/Таблицы из меню Statistics. В стартовой панели модуля Basic Statistics and Tables — Основные статистики и таблицы выберите опцию Descriptive Statistics — Описательные статистики и нажмите кнопку ОК. В диалоговом окне Descriptive Statistics — Описательные статистики щелкните на кнопке Variables — Переменные и выберите для анализа переменную Age — Возраст из открытого файла данных. Далее нажмите кнопку Summary: Descriptive statistics — Подробные описательные статистики, чъобы вывести на экран таблицу результатов, содержащую описательные статистики. Когда таблица результатов появится на экране, диалоговое окно анализа сворачивается на панели Analysis — Анализ. Нажмите кнопку Descriptive Statistics — Описательные статистики на панели Analysis — Анализу чтобы развернув диалоговое окно анализа. Затем выберите вкладку Normality — Нормальность и нажмите кнопку Histograms — Гистограммы; для переменной Age — Возраст пациента будет построена следующая гистограмма:
644 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) Histogram AGE Age of patient in years K-S d=.14188, p«.15 , Lilliefors р«,01 — Expected Normal 10 У'ШШЫМ& 10 И Detcrpdvc Slarbtict (HftartJ 30 40 50 X <= Category Boundary I H»toyarftACE:Afleofp*ientif>y»*t | 70 Код программы на STATISTICA Visual Basic, который соответствует проведенному анализу, можно посмотреть в окне редактора STATISTICA Visual Basic Editor двумя способами. Если диалоговое окно текущего анализа свернуто, нажмите правую кнопку мыши на свернутом окне анализа на панели Analysis — Анализ и выберите команду Create Macro — Создать макрос. Чз'Йвшю*^ ,OH*R j^Detoripdvt St д' flow**', -fr ..;o\ гчггл '•— Если диалоговое окно анализа развернуто, воспользуйтесь кнопкой [gl-tfafem и выберите из появившегося меню команду Create Macro — Создать макрос. И Descnptn щв^тш Quck | AdVar»^ ^ pk**| Optica [TUlxj ■"'.■ Н Summey • <" Integef intaivals |c«tegaiiesi it- • (***r &0)t« fit ethw A*y4st*fit4teri№onf . to мпкичд <Utt. CtoteAneb»*
Запись макросов 645 После этого запись завершается и появляется диалоговое окно New Macro Новый макрос. [New Macro ^:™Ш1ШШ H&tm JMyMacrcj £escnpfon: [Macro recorded 10Л 2/2002 Scripting language: | STAT IS TICA Visual Basic Г" f«w •■.'&№&: '■■:■ bt df??»-.'.'d ;0r-v'..-<- Г.v.-.iV:. P Array indices stall a» one (Option Basel) Г Include STATISTICA BASIC Library £'.- -1 d JU2U: 1 0K 1 1 Cancel I О В поле Name введите текст и назовите вновь созданный макрос My Macro. О Нажмите кнопку (Ж, чтобы открыть новый макрос в автономном окне. ■ МуМасго* Object (Genetal) ~В Ртос ](declaia(ions) ^JSJiU Т? Main Pi ж newanalysis Ai Analysis bet newanalysis - Analysis (scBasicStatistics. ActlveDataSet) >\ t h newanalysis . E'ia leg Statistics » scBasDescriptives End Vith newanalysis Run Vi1";. newanalysis Dialog Vsrisbies » "8" FairvisePeletlonOtMD s Ti u-e PisplavLongVariableNames * Folce ExtendedPrecisionCalculations ж False PlotMedianQuartlleRange ж Folse PlotMeanSEAndSD - l->isc PlotHeanSL'196Ti»esSD - Tr-m PlotMeanSE196Ti»esSE - False UserDefmedPercentlies - False ValidN - True d J О Чтобы запустить макрос, нажмите клавишу F5 или кнопку > Дня Macro — Выполнить макрос на панели Макрос. О Нажмите клавишу F5 или кнопку ^ и вы увидите, что STATISTICA повторит ваши действия и построит приведенную выше гистограмму возраста пациентов. Заметьте, что имеется различие между автономными макросами и глобальными макросами. Автономные макросы перед выполнением должны быть предварительно открыты в системе, в то время как глобальные макросы становятся частью STATISTICA.
646 Глава 18. Язык STATISTICS VISUAL BASIC (SVB) Для того чтобы создать глобальный макрос, воспользуйтесь командой Save As Global Macro, доступной из меню File — Файл. В появившемся на экране окне нажмите кнопку Сохранить. :;;.: Q«*<] £а) STATISTIC* 6_eng ^J <" Й CJ* H* : ' . | Впоследствии глобальный макрос будет загружен автоматически при очередном запуске системы STATISTICA. По умолчанию глобальные макросы доступны через диалог Macro Manager — Менеджер макросов (вызываемый командой Macros — Макросы из меню Tools — Macro — Сервис — Макрос). Глобальные макросы расположены по умолчанию в директории, где расположены файлы запуска STATISTICA. Если вы выбираете команду Save as Global Macro из меню File — Файл, то STATISTICA предложит сохранить глобальный макрос именно в этой директории. Создание графика Приведем еще один пример, когда запись данного макроса полезна. Предположим, вы проводите разведочный анализ данных, используя множественную регрессию. В некоторый момент своего исследования, пользуясь командой Scatterplots — Диаграммы рассеяния в меню Graphs — Графика, вы создаете диаграмму рассеяния, которая, на ваш взгляд, заслуживает внимания. Чтобы сохранить последовательность операций выполненных при построении данной диаграммы, вы выбираете Create Macro — Создашь макрос из быстрого меню (которое можно вызвать нажатием правой кнопкой мыши на кнопке анализа) и записываете всю последовательность действий, которую сделали при построении данной диаграммы (с помощью команд Graphs — Scatterplots — Графика — Диаграммы рассеяния). Записанный макрос отражает все необходимые настройки и не содержит информации по проведению многомерного регрессионного анализа или о других графиках, которые вы строили и которые не представляют интерес.
Запись макросов 647 3$NewRec1 tim ScaMerpJot (OilAnalysis sta 13v'20c) '_j NewRecl stw i-j \_J Cluster Analysis @4Analy$i$ sta) :-i \j) Jor^ng (treecluttemg) resufcs dalog @ Tree Diagram lor Variables 3 'i$ Prrxapal Components and Classrfcation I Ct; 'j Advanced PCA factor analysis rest* jjfji Protection of the variables on the Q Factor coordinates of the variabl. : -t) 'ij Muttple Regression (Ottnab>sis sta) :) 'ij Regression resufcs dialog Summary Statistics, DV Alumnui Regression Summary lor Depenc; i-) 'ii Regression residuals oWog @ Normal Probabkty Plot of Residu} ■2 '_j Base Statistics/Tables @(Analysis sta) | !♦• Cj Descnptrve statistics dialog [r, *j 20 Scatierplots | ^g QwuWiW ? Ogiom •**""■ Qutput Manage». 8o«tttrplot(OHAn«lysiSJU 13V 20 c) Aluminum • 0.5271*0 0104%.5J0e38E-e*x*2 E э I 3 iL y^*>>- Щ2Р ScaUwptota Qui» о i о- 200 400 000 800 1000 1200 и*руГф^ 13 $V*S'(>%■■■ '< : 0*&*Ыж^Ы?&**:' Данный макрос содержит информацию о настройках и условиях выбора для построения только интересующего вас типа графика (Scatterplots — Диаграммы рассеяния). Записанный макрос может выглядеть следующим образом: с Li \хшшшшшшшяяшшшшшвшяявяшяш И*** j(Geneial) Zl Pfccr|(decleiation«) Option, P<>:7c...l. Sub Main Dim nevanalysis As Analysis Set nevanalysis ■ Analysis (sc2dScatterplots.Act With nevanalysis Dialog Variables •  | 11 | " GraphType ■ scRegularPlot FitType » scFitLogarithmс Ellipse ■ scEllipseOff EllipseCoefficient ■ 0 950000 RegressionBands • scRegresslonBandOf£ RegresslonBandsLevel » 0.950000 DisplayCorrelationAndP » False DisplayRegressionEquation » False DisplayRSquare » False GraphStyle » 2 DocimentStyle » 1 End With Set Properties » nevanalysis Dialog With Properties CategoryOne EnableCategory ■ False End With Set Properties ■ Nothing U г ■ . ■ 1кш$%$:';^< '' ' ^^^ИГЛйГ*1 d I ij iveDataSet) 1 A ji" Как видно из рисунка, запись началась в текущем анализе. Создается объект для диаграммы рассеяния. При запуске макроса будет создан нужный вам график. Таким образом, вы можете записать макрос, чтобы затем включить его в окончательный отчет или повторно запускать для разведочного анализа других данных.
648 Глава 18. Язык STATISTICS VISUAL BASIC (SVB) Мастер-макрос При записи простого макроса анализа мы работали только в одном модуле STATISTICA, однако при проведении сложных исследований возникает необходимость переключаться в различные модули системы. Здесь полезен Мастер-макрос. В отличие от простого макроса, с помощью Мастер-макроса вы можете записать сценарий исследования, который включает несколько видов анализа, например, анализ главных компонент и множественную регрессию, множественную регрессию и анализ временных рядов, различные методы классификации, например, деревья классификации и дискриминантный анализ и т. д. Итак, Мастер-макрос представляет собой сценарий исследования, включающий в себя несколько видов анализа и модулей STATISTICA. В отличие от простого макроса анализа, вы можете в любой момент начать запись Мастер-макроса или приостановить ее. Таким образом, управляя моментом начала записи и моментом окончания, вы записываете в единый макрос только те этапы исследования, которые необходимы, поскольку в Мастер-макрос попадут лишь действия, которые совершены между началом записи и ее окончанием. Данная возможность придает системе большую гибкость и позволяет связывать различные виды анализа. Для создания Мастер-макроса STATISTICA выполните следующие действия. О Выберите команду Recording Log of Analyses (Master Macro) — Записать журнал анализа (Мастер-макрос) из меню Tools — Macro — Сервис — Макрос. П55? Заметим, после старта записи Мастер-макроса на экране появляется панель инструментов Record — Запись. О Начните проведение анализа. О Чтобы приостановить запись, нажмите на кнопку остановки записи ■ на панели инструментов Record — Запись.
Среда программирования 649 После нажатия кнопки остановки ■ весь код, записанный с помощью синтаксиса Visual Basic (отражающий все виды анализа, выполненные во время сессии), будет перенесен в окно редактирования Visual Basic. О Мастер-макрос может быть в дальнейшем отредактирован, сохранен или запущен на исполнение, с целью точного повторения записанной последовательности действий. Замечание: если вы одновременно выполняете несколько видов анализа, например, Basic Statistics — Основные статистики и Multiple Regression — Множественная регрессия, то эти действия будут записаны одно за другим. В результате, когда вы воспроизведете Мастер-макрос, то вначале получите таблицу результатов Basic Statistics — Основные статистики, затем таблицу результатов Multiple Regression — Множественной регрессии. Далее могут быть выведены гистограммы, построенные в модуле Basic Statistics — Основные статистики, предсказанные значения зависимой переменной, построенные в модуле Multiple Regression — Множественная регрессия и т. д. Итак, следует запомнить: основная цель мастер-макроса заключается в том, чтобы сохранять всю последовательность действий при проведении сложного исследования данных, включающего несколько видов анализа. Когда вы запускаете этот макрос «как есть», будет повторена вся последовательность анализа. Клавиатурные макросы Если вы выбираете команду Start Recording Keyboard Macro — Записать клавиатурный макрос в меню Сервис — Макрос — Tools — Macro, то STATISTICA записывает последовательность нажатия клавиш, которую вы производите. По окончании записи в редакторе STA TISTICA Visual Basic Editor открывается окно с простой программой, содержащей единственную команду SendKeys с символами, которые перечисляют все нажатия клавиш во время рабочей сессии в STATISTICA. Заметим, что в данном типе макроса запоминается лишь последовательность нажатия клавиш, а не команды, которые выбираются при этом. Несмотря на простоту, данный макрос также оказывается полезным, например, для автоматизации ввода данных. Среда программирования Итак, мы показали, как можно записать последовательность действий в STATISTICA. Вы проводите анализ данных в STATISTICA, программа записывает код сценария, имея код, можно многократно повторять его. Очевидно, можно непосредственно записать код сценария на языке SVB и заставить программу выполнить его. Писать такой код довольно легко, язык SVB предназначен для самого широкого круга пользователей. Вначале вы можете писать программы по образцу или просто скопировать какой-либо пример, чтобы затем модифицировать его.
650 Глава 18. Язык STATISTICS VISUAL BASIC (SVB) Далее вы легко научитесь писать полезные для себя небольшие программы. Если вам понравится написание простых программ, вы сможете перейти к более сложным. Поэкспериментируйте с языком, вы быстро освоите его. Наши примеры также помогут вам в этом. Наше популярное изложение основано, главным образом, на текстах программ и комментариях к ним. Так же как при изучении иностранных языков вы стараетесь совместить чтение текста с правилами грамматики, так и при изучении языка программирования изучение программ следует совместить с основными правилами и соглашениями языка. Мы настоятельно рекомендуем вам экспериментировать с STATISTICA, писать собственные программы и модифицировать известные. Лейтмотивом нашей книги является слово «эксперимент», нельзя научиться анализировать данные, не экспериментируя всесторонне с программой. Представьте, вы врач, проводящий обследование пациентов. Вы получаете таблицу результатов обследования, в которой по строкам записаны имена пациентов, в столбцах признаки (возраст, пол), характеристики обследования, например параметры крови, результаты ультразвукового обследования и т. д. Заметьте, таких переменных может быть достаточно много, также может быть большое количество пациентов, которые прошли обследование, поэтому вам трудно обозреть полученные результаты. Получив таблицу, вы хотели бы визуально представить полученные результаты, например, выделить определенным цветом группу пациентов, которые не укладываются в норму, или выделить группы пациентов, которые близки друг к другу по ряду параметров, и т. д. В выборе способа выделения ваша фантазия ничем не ограничивается. Конечно, каждый модуль системы STATISTICA предлагает специальные средства визуализации результатов анализа, однако вам хотелось бы получить нечто свое. Здесь наступает творческий момент, связанный с использованием SVB, многие исследователи из самых различных областей, не имеющие представления о тонкостях программирования (и не обязанные их иметь!), могут получить очень эффективные результаты. Среда визуального программирования создана именно для решения таких задач, а действия, которые нужно провести, просты и понятны каждому. Конечно, наше описание не является полным, для всестороннего знакомства следует использовать руководство по стандартному Visual Basic. В следующем разделе приводятся некоторые грамматические правила языка. Вообще представление о программе как о тексте, написанном с помощью определенных правил, поможет вам продвинуться © изучении SVB. Основные соглашения STATISTICA Visual Basic О Основная программа: как минимум, в каждой программе имеется процедура Main, которая декларирована как Sub Main в начале программы. О Процедура завершается оператором End Sub. Между Sub Main и End Sub пишется текст программы.
Основные соглашения STAHSTTCA Visual Basic 651 О Комментарии: любая строчка, которая начинается с апострофа, считается комментарием. О Комментарии не исполняются программой, однако очень удобны для ее понимания. О Разбиение длинной команды на несколько строк: вы можете разбить одну команду на несколько строк, каждая из которых должна начинаться символом подчеркивания (символом «_»; который, в свою очередь, должен отстоять от предыдущего текста как минимум на один пробел). О Справочник по ключевым словам SVB: в любой момент вы можете высветить текст и нажать клавишу F1, чтобы вывести на экран общую справку по синтаксису SVB для данной конкретной команды и просмотреть пример ее использования. О Для того чтобы записать код программы на SVB, нужно выполнить следующие действия. Вначале выберите команду File New — Файл Создать. Далее в диалоге Create New Document — Создать новый документ выберите Macro (SVB) — Макрос (SVB) и создайте макрос, например с именем Example 1. Далее нажмите ОК. Cieate New Document f ^{Example 1 ' ' f 'jj)teibtjl*L§-Щ *Ш ^''Sk'' "i%^''**'4''^~- ЗГ $cfewtaW0fc | STATISTICA Visual Base  P Fo»w variable* to be d*fio«dpDp6»€)<ploi[) l? Aujp^birrftfi at or* (OpBon Saw I) • ^,QK A^ ] ^ЪшЫ | На экране появится следующее окно. Ш Гмал*р1е1 Qbj** ((General) Я Sub Mam JEnsLSi\b..__ _.... »l Prcc | (declaration*) -—з 3 J
652 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) В появившемся окне напишите текст программы. Нажмите клавишу F5 или кнопку у и пошлите код на исполнение. Типы данных, массивы, функции Следующая простая программа вычисляющая корень квадратный из суммы квадратов, иллюстрирует, как объявляются и используются переменные и массивы в SVB. Она также показывает, как следует объявлять подпрограммы (или функции) и каким образом передавать в них аргументы. Текст программы: Sub Main Dim x A То 10) As Double Dim Sum As Double. ResText As String Dim i As Integer For i =1 To 10 x(i)=i Next i Sum=ComputeSumOfSqrs ( LBound (x), UBound(x). x) ResText="The sum of the square root of values from " + _ Str(LBouncKx)) + _ " to " + _ Str(UBouncKx)) + _ " is " + _ Str(Sum) MsgBox ResText End Sub Function ComputeSumOfSqrs (iFrom As Integer. iTo As Integer, x() As Double) As Double Dim i As Integer ComputeSumOfSqrs=0 For i= iFrom To iTo ComputeSumOfSqrs=ComputeSumOfSqrs+x(iГ2 Next i End Function Просмотрите программу, заметьте, что для явного объявления переменных используется оператор Dim, который имеет следующий синтаксис: Dim Имя_переменной [As Тип_данных] Например, вы видите, что строка Dim i As Integer объявляет переменную, принимающую целые значения, Dim x A То 10) As Double объявляет вещественный массив, Dim Sum As Double, ResText As String объявляет вещественную переменную и строковую. Числа. Типы данных Double, Integer и Long наиболее часто используются в вычислениях. Переменные, объявленные как Double, могут хранить вещественные числа в интервале от +1.7Е ± 308 (приблизительно 15 знаков точности); переменные,
Основные соглашения STATISTICA Visual Basic 653 объявленные как Integer, содержат целые числа в интервале от -32,768 до 32,767, и, наконец, переменные типа Long содержат целые числа в интервале от -2,147,483,648 до 2,147,483,647. Просмотрите программу и найдите, где используются эти типы данных. Строки. Для операций со строками произвольной длины используется, как вы уже видели, тип данных String. Логический тип. Переменная типа Boolean (логическая переменная) принимает два значения: True A) и False @). Приведем некоторые другие типы: Currency (денежная величина) Date (дата/ время), Object (объект), Variant. Тип данных Object служит для хранения объектов. Заметим, язык SVB работает с объектами анализа, например для того, чтобы запустить анализ, относящийся к модулю Basic Statistics — Основные статистики, нужно создать объект анализа с константой в конструкторе scBasicStatistics и (необязательно) имя файла данных (путь к файлу, содержащему входную таблицу). После создания объекта анализа, например, Basic Statistics — Основные статистики, фактически в коде программы вы по шагам задаете параметры, обычно задаваемые в диалоговых окнах, при проведении соответствующего анализа в STATISTICA. Если вы хотите связать объект с переменной, используйте команду Set Variable = Object. Тип данных Variant устанавливает тип данных в зависимости от содержимого и может меняться в ходе выполнения программы. Переменные, декларированные как Variant, могут быть пустыми, принимать численные значения, иметь денежный формат, значения дат, содержать строки, быть объектом или кодом ошибки, указателем null или массивом. При использовании SVB для включения статистических модулей (функций) в пользовательскую программу тип Variant оказывается полезным, например, когда приходится иметь дело со списком переменных. Переменная может быть определена как строковая (то есть. Variables="My VarName"), численная (то есть .Variables=2) или массив (.Variables=VarArray). Заметим, что переменная, явно не описанная, по умолчанию имеет тип Variant. Этот тип иногда называют также хамелеоном, потому что он принимает значения в зависимости от выполнения программы. Массивы. Приведенный пример также иллюстрирует применение массивов в Visual Basic. Массив — это набор элементов определенного типа, каждый из которых имеет свой порядковый номер (индекс). Для объявления массива также используется оператор Dim с указанием в круглых скобках максимального порядкового номера либо с указанием верхней и нижней границы. По умолчанию массивы имеют нулевой элемент; это означает, что массив, объявленный как Dim xE), на самом деле содержит шесть элементов: первый элемент х@), потом хA) и шестой элемент — хE). Вы также можете декларировать массивы с точными границами; объявление Dim x(l to 5) говорит о том, что массив будет иметь только пять элементов, и к первому элементу можно обратиться как хA). Вы также можете поместить в начало программы команду Option Base 1, которая по умолчанию декларирует все массивы как массивы с первым элементом, имеющим номер 1.
654 Глава 18. Язык STATISTICS VISUAL BASIC (SVB) Например, Dim x A To 10) As Double объявляет массив с номерами 1, 2 ... 10. Для того чтобы определить нижнюю и верхнюю границу массива, используются функции Lbound (Массив, Размерность), Ubound (Массив,Размерность). Эти функции помогают определить фактические размеры массива. Посмотрите на приведенную в начале раздела программу, и вы поймете, как используются эти функции. Естественным образом задаются многомерные массивы, верхние границы которых разделяются запятыми, например, Dim xy A.10) As Double Этот двумерный массив ху содержит 22 значения Bx11 = 22). Коллекции и массивы. Во многих случаях работа с коллекциями более удобна, чем работа с массивами. В STATISTICA Visual Basic все таблицы результатов и графики из анализа сохраняются по умолчанию как коллекции, которые допускают редактирование, сохранение и делают дальнейшую обработку данных очень удобной. Циклы. Для многократного выполнения одного или нескольких операторов применяются циклы. В разбираемой нами программе применяется цикл вида: For Счетчик = Начальное_значение То Конечное_значение [Step Шаг] Операторы Next Счетчик Действие этого оператора легко понять. Рассмотрим только цикл вида: For Счетчик = Начальное_значение То Конечное_значение Операторы Next Счетчик В приведенной программе вы легко найдете цикл: For i =1 То 10 x(i)-i Next i Счетчиком в нашем случае является переменная i, объявленная как Integer (см. программу). В начале цикла значение счетчика принимает начальное значение (в нашем случае 1), выполняются все операторы. Значение счетчика увеличивается на 1. Если это значение становится равным или превышает Конечное_значение, цикл завершается. Если значение счетчика меньше величины Конечное_значение, цикл повторяется. Значение счетчика вновь увеличивается на 1 и т. д. Если число проходов зависит от некоторого условия, то применяется конструкция цикла типа: Do... Loop. Приведем еще один пример цикла: For j=l To NumberCriterionVars VariableCateg(j.CountCatComb) = r(j).Text VarCategCode(j.CountCatComb) = r(j) Next j 'Этот цикл перебирает значения категориальных переменных, задавая 'текстовые и численные значения кодов.
Основные соглашения STATISTICA Visual Basic 655 Операторы управления порядком выполнения команд Хотя эти операторы не встретились нам в программе, кратко их опишем. Наиболее часто используется оператор If... Then. Однострочный синтаксис этого оператора имеет вид: If Условие Then Оператор [Else Оператор] Заметьте, в квадратных скобках как всегда мы записываем необязательную часть оператора. Часто этот оператор записывают в несколько строк (блочный синтаксис), при этом в последней строке следует написать End If, например: If Ret-0 Then VariablesSpeci fi cati ons=False Else Van' abl esSpeci f i cati ons=True End If 'Этот оператор выполняет проверку значения Ret. 'В случае если Ret=0. то присваиваем VariablesSpecifications значение 'False, иначе значение True. Приведем еще один пример: If CurrentDataSet.MissingData(vr,VarCodeNumber(j)) Then GoTo NextCase Else Set r(j) - CurrentDataSet.Cells (vr.VarCodeNumber(j)) End If Приведем еще несколько фрагментов программ, позволяющих почувствовать SVB. Фрагмент 1: 'Создаем рабочую книгу, в которую будут включены таблицы результатов 'и графики. Set ResultsWorkbook = Application.Workbooks.New 'Начинаем анализ для всех возможных комбинаций 'категорий переменных. For i - 1 То NumberOfCategCombns 'Объявляем модуль Statistica для использования в 'данном анализе и определяем набор данных, с которым 'будет связан анализ. Dim newanalysis As Analysis Set newanalysis = Analysis (scMultipleRegression, CurrentDataSet) 'Добавляем папки в рабочую книгу и задаем для них имена: папки 'будут содержать результаты для каждой комбинации категорий. Set Folder=ResultsWorkbook.InsertFolder( ResultsWorkbook.Root. scWorkbookLastChild) Folder.Name="" Folder.Name= FolderTitle + FolderCaseName(i)
656 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) Фрагмент 2: 'Объявляем переменные типа String. Dim ListlTitle As String Dim List2Title As String Dim List3Title As String Dim List4Title As String 'Объявляем переменные типам Long. Dim VarCodeNumberO As Long Dim Nvars As Long Dim Ncases As Long 'Объявляем переменную типа String. Dim NumberAnalysisVarLists As String 'Объявляем переменную типа Long. Dim NumberCriterionVars As Long 'Объявляем переменную типа String. Dim AdditionalCaseSelectCondO As String 'Объявляем переменную типа Workbook. Public ResultsWorkbook As Workbook 'Объявляем переменную типа String. Dim FolderCaseNameO As String 'Объявляем переменную типа Workbookltem. Public Folder As Workbookltem 'Объявляем переменную типа Spreadsheet. Public CurrentDataSet As Spreadsheet Фрагмент 3: 'Определяем число переменных для анализа. NumberAnalysisVarLists = " 'Задаем заголовки списков переменных для анализа. ListlTitle = "Dependent variables" List2Title = "Independent variables" 'Задаем заголовок папки. FolderTitle = "Multiple Regression Analysis" 'Задаем таблицу результатов, в которой будут находиться результаты. Dim ResSpreadsheet As Spreadsheet 'Задаем результирующий график. Dim Resgraph As Graph 'Объявляем переменную типа Long. Dim MaxNoCriterionVars As Long Глобальные переменные, передача аргументов по значению и по ссылке Оператор ByRef. В разбираемой нами программе используется функция Compute- SumOfSqrs. По умолчанию переменные передаются в процедуры и функции по ссылке. Это позволяет процедурам и функциям изменять переданную переменную. Таким образом, если в процедуре или функции необходимо изменять определенное значение, передавайте его по ссылке (то есть используйте режим по умолча-
Основные соглашения STATISTICA Visual Basic 657 нию или в явном виде в заголовке функции декларируйте аргументы как передаваемые по ссылке с помощью оператора ByRef). Когда переменная передается в процедуру или функцию по ссылке, то передается сама переменная (если говорить более точно, то в процедуру передается не сама переменная, а ее адрес, отсюда и название «по ссылке»). Если внутри процедуры ее значение изменяется, эти изменения сохраняются и после завершения процедуры. Таким образом, в то место, откуда была вызвана процедура, возвращается уже измененная переменная. 'Место вызова процедуры. ComputeX x. yl.y2 'Описание процедуры. Sub ComputeX(ByRef x As Double. ByVal yl As Double. ByVal y2 As Double) ' or: Sub ComputeX(x As Double. ByVal yl As Double. ByVal y2 As Double) x-yl+y2 End Sub Оператор ByVal. Переменные также могут быть переданы в процедуру или функцию по значению. Это означает, что в процедуру передается не сама переменная, а лишь ее копия. С практической точки зрения это выражается в том, что если внутри процедуры значение копии меняется, это никак не изменяет переменную (ее значение в том блоке, откуда вызвали процедуру, остается без изменения); таким образом, аргументы, передаваемые по значению, используются только как входные переменные. Приведем пример: 'Место вызова функции. х - ComputeX(yl.y2) 'Описание функции. Function ComputeX(ByVal yl As Double. ByVal y2 As Double) As Double ComputeX-yl+y2 End Function Глобальные переменные. Вы можете декларировать некоторые переменные вне процедур и функций. В таком случае они имеют характер «глобальных» и доступны во всех подпрограммах и функциях соответствующей SVB-программы. 'Задание глобальных переменных. Dim х as double, yl as double. y2 as double Sub Main 'Место вызова процедуры. ComputeX End Sub
658 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) 'Описание процедуры. Обратите внимание на то. что при использовании 'глобальных переменных описание их в процедурах или в функциях не 'требуется. Sub ComputeX x=yl+y2 End Sub Передача массивов. Кроме отдельных значений, процедуры и функции Visual Basic могут быть вызваны с аргументами, которые являются массивами. Массивы всегда передаются по ссылке. 'Описание массива. Dim xyC) As Double 'Место вызова процедуры для массива ху. ComputeX ху 'Описание процедуры. Sub ComputeX (xy() As Double) хуA) =хуB)+хуC) End Sub Приведем еще несколько примеров программ. Примеры программ с комментариями Sub Main ' Замечание: файл exp.sta может находиться в другом месте. ' В зависимости от места расположения вашей установочной директории. ' Также вы можете создать этот код при помощи Мастер-макрос. ' по умолчанию последовательность анализов будет объявлена как ' newanalysisl. newanalysis2. а таблицы данных будут объявлены ' как SI. S2. и т.д. Set newanalysis = Analysis (scBasicStatisties. "j:\STATISTICA\Examples\Datasets\exp.sta") newanalysis.Dialog.Statistics - scBasDescriptives newanalysis.Run newanalysis.Dialog.Variables - -8" ' Замечание: следующая строка отображает наипростейший путь ' визуализации проведенного анализа. newanalysis.Dialog.Summary.Visible = True End Sub Пример: формирование коллекции таблиц данных Выберите команду File New — Файл Создать. В диалоге Create New Document — Создать новый документ выберите диалог Macro (SVB) Program — Макросы и создайте макрос.
Примеры программ с комментариями 659 Затем введите код: Sub Main ' Замечание: файл exp.sta может находиться в другом месте. ' В зависимости от места расположения вашей установочной директории. Set newanalysis = Analysis (scBasicStatisties. "j:\STATISTICA\Examples\Datasets\exp.sta") newanalysis.Dialog.Statistics - scBasFrequencies newanalysis.Run newanalysis.Dialog.Variables = -8" Set s=newanalysis.Dialog.Summary s.Visible-False MsgBox "Number of Spreadsheets: " + s.Count s.Item(s.Count).Visible=True End Sub Создание таблицы данных и заполнение ее случайными числами Следующая программа создает новую таблицу результатов и заполняет ее случайными значениями. Первый столбец заполняется равномерно распределенными случайными числами. Второй столбец — нормально распределенными случайными числами. Option Base l Sub Main Dim n As Long.i As Long n=1000 ' Создаем новую таблицу результатов. Dim s As New Spreadsheet ' Задаем размеры таблицы: n - число наблюдений. 2 - число переменных. s.SetSize(n.2) 1 Заполняем таблицу случайными числами. For i-1 To n s.Value(i.l)-Rndd) s.Value(i.2)=RndNormal(l) Next i ' Устанавливаем имена переменных. s.VariableName(l)="Uniform" s.VariableNameB)="Normal" s.Visible=True End Sub Вывод индикатора состояния Иногда в процессе длительных вычислений желательно отображать индикатор состояния, который показывает процент выполненных операций. Индикатор состояния отображается в STATISTICA во время вычислений на больших объемах данных. Приведем пример кода, реализующего индикатор состояния в программе, генерирующей нормально распределенные случайные числа:
660 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) Option Base 1 Sub Main Dim n As Long.i As Long n-1000 1 Создаем новую таблицу результатов. Dim s As New Spreadsheet 1 Задаем размеры таблицы: n - число наблюдений, 2 - число переменных. s.SetS1ze(n.2) 1 Устанавливаем индикатор состояния. Dim pb As ProgressBar Set pb - AddProgressBar("Generating random numbers". 1. n) For 1-1 To n 1 Обновляем индикатор состояния. pb.CurrentCounter - i ' Заполняем таблицу случайными числами. s.ValueCi.l)-Rnd(l) s. Valued. 2)-RndNormal(l) Next 1 ' Закрываем индикатор состояния. Set pb - Nothing ' Сохраняем имена переменных. s. Van'ableName(l)-"Uni form" s.VariableNameB)-"Normal" s.Visible-True End Sub Построение гистограммы с подгонкой нормального распределения Следующий пример иллюстрирует построение гистограмм для выборки, сгенерированной ранее. Option Base l Sub Main Dim n As Long n-1000 Dim s As New Spreadsheet 1 Заполняем таблицу s случайными числами. ComputeRandomNumbers s. n 1 Строим гистограмму для s. CreateHistograms s End Sub 1 Описание процедуры заполнения таблицы s случайными числами. Sub ComputeRandomNumbers (s As Spreadsheet, n As Long) Dim i As Long ReDim x(n.2) As Double s.SetSize(n.2) For i-1 To n x(i.l)-Rndd) x(i.2)-RndNormal(l) Next i
Примеры программ с комментариями 661 s.Data=x s. Van' ableName(l)="Uni form" s.VariableNameB)-"Normal" End Sub ' Описание процедуры построения гистограммы. Sub CreateHistograms (s As Spreadsheet) ' Задание и описание вида анализа. Dim newanalysis As Analysis Set newanalysis - Analysis (sc2dHistograms. s) ' Описание параметров гистограммы. With newanalysis.Dialog .Variables -  2 | " .GraphType - scHistgoramRegularPlot End With ' Активация гистограммы (построение гистограммы). newanalysis.Dialog.Graphs.Visible - True End Sub Отметим, что в программе вызываются две процедуры: подготовка данных и построение гистограммы. Гистограмма строится с использованием встроенных процедур STATISTICA. Раскраска таблицы Option Base l 'Данный макрос выделяет ячейки рабочей таблицы 'шрифтом Arlal Black с наклоном, размером 12 и цветом B55.12.255). 'где ix.y.z)- координаты цвета в (красном.зеленом.синем) тонах. 'Предполагается, что таблица содержит в ячейках числа, отличные от 0. Sub Main
662 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) 'Выбираем активную таблицу Set s = ActiveSpreadsheet 'Цикл по переменным таблицы For j=l To s.NumberOfVariables 'Цикл по наблюдениям таблицы For i=l To s.NumberOfCases-1 'Условия выбора ячейки, которую мы хотим отметить If s.Valued.j)/s.Value(i+l.j)>l Then 'Задание названия шрифта в данной ячейке s.Cells(i.j).Font.Name = "Arial Black" 'Задание размера шрифта в данной ячейке s.Cells(i.j).Font.Size = 12 'Задание наклона шрифта в данной ячейке s.Cells(i.j).Font.Italic - True 'Задание цвета шрифта в данной ячейке s.Cells(i.j).Font.Color = RGBB55.12.255) End If Next i Next j End Sub Создание пользовательских диалогов Нажмите левую верхнюю кнопку User Dialog, на экране появится окно User Dialog Editor, Это редактор пользовательских диалоговых окон, который позволяет вам визуально создавать необходимые диалоговые окна. • UserDialog Editor *:* л Чав:\ Ч а» rjoHA lB»gir, 6i^ iT««KAg ШШ'ШШюзТЛ ITju ш ш щ 1ШШ^^Ш^ Например, работая только мышью, вы мгновенно создадите окно. Последовательность ваших действий очень проста: с помощью мыши вы выбираете кнопку в левой части и перетаскиваете ее в нужное место справа в создаваемом диалоговом окне. Итак, из типовых заготовок вы последовательно собираете нужное вам окно.
Просмотр объектов и функций 663 < User Dialog Iditor df|X» R^ft 4% ^qh н It, га "' ' AY Ш| 11 щ\ ;яош Мой анализ дажых щшш ♦ '. . ♦ ... . >l'»4ir'llfl4l'>">i|i> 1-Е » 7 :—ri:: * > :••; л|ТжсгТТТ §• ♦ ♦• ♦■ Двойной щелчок левой мышью на кнопке позволяет редактировать свойства кнопки, вносить текст, менять положение и т.д. Height JIT Caption [Анализ текстов field |Pu$hButton2 Qofivnent 1 F Quoted Просмотр объектов и функций Нажав на клавиатуре кнопку F2 или кнопку Object Browser, вы откроете окно, в котором можете просмотреть доступные вам объекты. '•'(STATISTICA jflfftTtt 1& InputDescnpto» USlKeyt Ш1*и* 19 LineCaseProffes |#LneP1ot2D US Macro HI ..d^LLlBJ d J _J^ M*Ae*ofU>feiy* fcpName Bfi1 Option tf Parent tfPath Bfi1 Property rfRange fifi1 Reports (propeW"aiub А$алш I rettorty { Member d$IAjailCAU«*x , . . I Return* the SteUJb а ДО.ДО&еах r$«ioeteti»tk^«ndpfobeb«yfurceom. d J zj '
664 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) В левом списке выбираются классы объектов, в правом прокручиваются элементы выбранного класса. В нижней части окна приводится краткое описание выбранного объекта (см. рисунок). Кнопка/п позволяет просмотреть доступные в SVB функции, например, выбрав, в левом окне тип Distributions - Распределения вы можете просмотреть функции распределения, плотности и обратные функции распределения. [CrittflWy «$ Constant 4( Conversion 4fc Data Type «4 DDE «$ Declaration #£ Dialog Function ^OMutkyv «$ Error Handing *F*> 4t Flow Control «gMeth 4t Matrix  zi ■:'Х^У^ •a р&щШтМ I Заметьте, имена обратных функций распределения начинаются с буквы V, имена интегральных функций распределения начинаются с I, плотности распределения записываются непосредственно. Например, Normal обозначает плотность нормального распределения, INormal кумулятивную или интегральную функцию распределения (интеграл от плотности), VNormal обратную кумулятивную функцию распределения. Эти функции подробно описаны в главе 3. Вы можете, например, использовать обратные функции распределения для того, чтобы преобразовать равномерно распределенную случайную величину в переменную, имеющую данное распределение F. Более точно, пусть переменная X имеет равномерное распределение на отрезке [О, 1]. Тогда переменная VF(X) имеет распределение /. Например, переменная VNormal(Xf0,1) будет иметь стандартное нормальное распределение со средним О и дисперсией 1. Переменная VPareto(X,2) будет иметь распределение Парето с параметром 2 и т. д. Этот прием удобен, если вы хотите сгенерировать случайную величину, имеющую заданное распределение, исходя из равномерно распределенной переменной. В SVB доступно огромное количество функций, например, вы можете выполнить разнообразные действия с матрицами. Выберите в разделе Category пункт Matrix. Прокрутив правый список, вы увидите набор доступных матричных функций, например, декомпозицию Холецкого, вычисление собственных значений, собственных векторов, вычисление обратных матриц, обобщенных псевдообратных, выметания и т. д. Таким образом, вам не нужно программировать эти методы, а следует воспользоваться ими в своей программе.
Просмотр объектов и функций 665 а Function Browser - Macro I 4ЫЛ,,, . fcUtogoiy |«£DDE jj |«$ Declaration |«2£ Dialog Function L$ D «tributes * L$ Error Handing kFte 4t Flow Control -^ L$Math |«$M*m jj Ittro ^Lowe$$ ^MatrrxAdd ^MatrixAINonZero ■-Л MatrrxAnyNonZero .%пиятаишиыиил/ятт1 ■Л M atr rxCombirr jH oriz •Л MatrixConibineVert ^MatrixCopy Л MatrrxCorreiatioro |M«tri)rChol#$kyOeccnipoeftJOri tfrtbcCltotesW^^ 4« 4ЭД>*, fly** ШДО<ОД^4*{ЭД*) I Performe a Cholesky Decomposition on the upper diagonal of Matrix and iDlacMlnMatrteResult a] -J t] .':-d —J ^j В заключение приведем список библиотек и модулей SVB на английском и русском языках. Список библиотек и модулей STATISTICA Visual Basic Модуль Библиотека Константа ANOVA* Basic Statistics Canonical Analysis Classification Trees Cluster Analysis Correspondence Analysis Discriminant Analysis Distribution Fitting1 Experimental Design (DOE) Factor Analysis General CHAID Models General Classification and Regression Trees General Discriminant Analysis Models Generalized Additive Models Generalized Linear/Nonlinear Models General Linear Models General Partial Least Squares Models General Regression Models Log-Linear Analysis Multidimensional Scaling Multiple Regression Nonlinear Estimation Nonparametrics Principal Componentsand Classification Analysis* Process Analysis Techniques Quality Control Reliability/Item Analysis STAMANOVA STABasicStatistics STACanonical STAQuickTrees STACIuster STACorrespondence STADiscriminant STANonparametrics STAExperimental STAFactor STAGCHAID STAGTrees STAGDA STAGAM SJAGLZ STAGLM STAPLS STAGRM STALogLinear STAMultidimensional STARegression STANonlinear STANonparametrics STAFactor STAProcessAnalysis STAQuality STAReliability scMANOVA scBasicStatistics scCanonicalAnalysis scClassificationTrees scClusterAnalysis scCorrespondenceAnalysis scDiscriminantAnalysis scDistributions scDesignOfExperiments scFactor Analysis scGCHAID scGTrees scGDA scGAM scGLZ scGLM scPLS scGSR scLoglinearAnalysis scMultidimensionalScaling scMultipleRegression scNonlinearEstimation scNonparametrics scAdvancedPCA scProcessAnalysis scQualityControl scReliabilityandltemAnalysis
666 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) Модуль Библиотека Константа Survival Analysis Time Series Variance Components Дисперсионный анализ* Основные статистики Канонический анализ Деревья классификации Кластерный анализ Анализ соответствий Дискриминантный анализ Подгонка распределений1 Планирование эксперимента Факторный анализ Общие модели хи-квадрат Общие модели деревьев классификации/регрессии Общие модели дискриминантного анализа Обобщенные аддитивные модели Обобщенные линейные/нелинейные модели Общие линейные модели Общие модели частных наименьших квадратов Общие регрессионные модели Логлинейный анализ Многомерное шкалирование Множественная регрессия Нелинейное оценивание Непараметрические методы Анализ главных компонент и классификация* Анализ процессов Контроль качества Надежность и позиционный анализ Анализ выживаемости Временные ряды Компоненты дисперсии STASurvival STATimeSeries STAVarianceComponents STAMANOVA STABasicStatistics STACanonical STAQuickTrees STACIuster STACorrespondence STADiscriminant STANonparametrics STAExperimental STAFactor STAGCHAID STAGTrees STAGDA STAGAM STAGLZ STAGLM STAPLS STAGRM STALogLinear STAMultidimensional STARegression STANonlinear STANonparametrics STAFactor STAProcessAnalysis STAQuality STAReliability STASurvival STATimeSeries STAVarianceComponents scSurvivalAnalysis scTimeSeries scVarianceComponents scMANOVA scBasicStatistics scCanonicalAnalysis scClassificationTrees scClusterAnalysis scCorrespondenceAnalysis scDischminantAnalysis scDistributions scDesignOfExperiments scFactor Analysis scGCHAID scGTrees scGDA scGAM scGLZ scGLM scPLS scGSR scLoglinearAnalysis scMultidimensionalScaling scMuIti pie Regression scNonlinearEstimation scNonparametrics scAdvancedPCA scProcessAnalysis scQualityControl scReliabilityandltemAnalysis scSurvivalAnalysis scTimeSeries scVarianceComponents * Функции доступа к ANOVA — Дисперсионному анализу содержатся в библиотеке General Linear Models — Общие линейные модели. f Функции и процедуры модуля Distribution Fitting — Подгонка распределений являются частью библиотеки Nonparametrics — Непараметрическая статистика. * Методы Principal Components — Главные компоненты и Classification Analysis — Классификация собраны в библиотеке Factor Analysis — Факторный анализ. Замечание 1: Список модулей и процедур STATISTICA, доступных в Visual Basic, постоянно расширяется. Советуем регулярно отслеживать информацию на сайте StatSoft, Inc. (www.statsoft.com). Замечание 2: Процедуры, реализующие все команды меню Graphs — Графика, полностью содержатся в справочной библиотеке STATISTICA. В диалоге Object Browser — Просмотр объектов вы можете просмотреть соответствующие константы, которые передаются в конструктор объекта — анализа (графика) и инициализируют его.
Приложение 1 Розничные продажи бензина в США (источник: www.economagic.com в разделе Census Bureau: Retail Sales by Kind of Business). Переменные: Т - месяц/год, V - объем продаж. т Янв-1967 Фев-1967 Map-1967 Апр-1967 Май-1967 Июн-1967 Июл-1967 Авг-1967 Сен-1967 Окт-1967 Ноя-1967 Дек-1967 Янв-1968 Фев-1968 Map-1968 Апр-1968 Май-1968 Июн-1968 Июл-1968 Авг-1968 Сен-1968 Окт-1968 Ноя-1968 Дек-1968 Янв-1969 Фев-1969 Map-1969 Апр-1969 Май-1969 Июн-1969 Июл-1969 Авг-1969 Сен-1969 Окт-1969 Ноя-1969 Дек-1969 Янв-1970 Фев-1970 Map-1970 Апр-1970 Май-1970 Июн-1970 Июл-1970 Авг-1970 Сен-1970 Окт-1970 Ноя-1970 Дек-1970 V 1697 1599 1765 1803 1891 1986 2009 1969 1893 1900 1914 1936 1858 1799 1966 2013 2106 2165 2220 2232 2051 2105 2102 2133 2051 1896 2126 2151 2277 2283 2331 2323 2173 2242 2179 2269 2220 2053 2287 2347 2484 2541 2625 2482 2366 2506 2458 2534 Т Янв-1971 Фев-1971 Map-1971 Апр-1971 Май-1971 Июн-1971 Июл-1971 Авг-1971 Сен-1971 Окт-1971 Ноя-1971 Дек-1971 Янв-1972 Фев-1972 Map-1972 Апр-1972 Май-1972 Июн-1972 Июл-1972 Авг-1972 Сен-1972 Окт-1972 Ноя-1972 Дек-1972 Янв-1973 Фев-1973 Map-1973 Апр-1973 Май-1973 Июн-1973 Июл-1973 Авг-1973 Сен-1973 Окт-1973 Ноя-1973 Дек-1973 Янв-1974 Фев-1974 Map-1974 Апр-197^ Май-1974 Июн-1974 Июл-1974 Авг-1974 Сен-1974 Окт-1974 Ноя-1974 Дек-1974 V 2332 2164 2404 2446 2551 2635 2766 2763 2607 2646 2633 2673 2529 2401 2641 2612 2775 2817 2934 2943 2782 2871 2853 2914 2771 2648 2970 3009 3160 3226 3314 3246 3046 3203 3221 3128 3005 2898 3325 3427 3674 3815 3987 4034 3700 3831 3675 3683 Т Янв-1975 Фев-1975 Мар-1975 Апр-1975 Май-1975 Июн-1975 Июл-1975 Авг-1975 Сен-1975 Окт-1975 Ноя-1975 Дек-1975 Янв-1976 Фев-1976 Map-1976 Апр-1976 Май-1976 Июн-1976 Июл-1976 Авг-1976 Сен-1976 Окт-1976 Ноя-1976 Дек-1976 Янв-1977 Фев-1977 Map-1977 Апр-1977 Май-1977 Июн-1977 Июл-1977 Авг-1977 Сен-1977 Окт-1977 Ноя-1977 Дек-1977 Янв-1978 Фев-1978 Map-1978 Апр-1978 Май-1978 Июн-1978 Июл-1978 Авг-1978 Сен-1978 Окт-1978 Ноя-1978 Дек-1978 V 3546 3305 3708 3756 4026 4065 4410 4448 4078 4145 3966 4150 3974 3781 4113 4193 4287 4446 4714 4602 4353 4494 4438 4642 4339 4053 4555 4749 4828 4862 5101 5011 4736 4806 4699 4899 4525 4306 4802 4790 5059 5163 5196 5307 5122 5202 5144 5273 Т Янв-1979 Фев-1979 Map-1979 Апр-1979 Май-1979 Июн-1979 Июл-1979 Авг-1979 Сен-1979 Окт-1979 Ноя-1979 Дек-1979 Янв-1980 Фев-1980 Map-1980 Апр-1980 Май-1980 Июн-1980 Июл-1980 Авг-1980 Сен-1980 Окт-1980 Ноя-1980 Дек-1980 Янв-1981 Фев-1981 Map-1981 Апр-1981 Май-1981 Июн-1981 Июл-1981 Авг-1981 Сен-1981 Окт-1981 Ноя-1981 Дек-1981 Янв-1982 Фев-1982 Map-1982 Апр-1982 Май-1982 Июн-1982 Июл-1982 Авг-1982 Сен-1982 Окт-1982 Ноя-1982 Дек-1982 V 5026 4873 5460 5590 6055 6282 6366 6834 6531 6822 6777 6905 6800 6818 7401 7580 7964 8205 8456 8425 7946 8215 7936 8347 8062 7643 8419 8538 8784 9046 9219 8989 8665 8762 8341 8604 8102 7416 7850 7735 7969 8365 8758 8508 8110 8297 8081 8249
668 Приложение 1 т Янв-1983 Фев-1983 Map-1983 Апр-1983 Май-1983 Июн-1983 Июл-1983 Авг-1983 Сен-1983 Окт-1983 Ноя-1983 Дек-1983 Янв-1984 Фев-1984 Map-1984 Апр-1984 Май-1984 Июн-1984 Июл-1984 Авг-1984 Сен-1984 Окт-1984 Ноя-1984 Дек-1984 Янв-1985 Фйв-1985 Map-1985 Апр-1985 Май-1985 Июн-1985 Июл-1985 Авг-1985 Сен-1985 Окт-1985 Ноя-1985 Дек-1985 Янв-1986 Фев-1986 Map-1986 Апр-1986 Май-1986 Июн-1986 Июл-1986 Авг-1986 Сен-1986 Окт-1986 Ноя-1986 Дек-1986 Янв-1999 Фев-1999 Мар-1999 Апр-1999 Май-1999 Июн-1999 Июл-1999 Авг-1999 Сен-1999 Окт-1999 Ноя-1999 Дек-1999 V 7717 7092 7835 8124 8704 8992 9388 9417 8929 8953 8704 9072 8497 8108 8763 8812 9341 9411 9357 9358 8908 9179 8954 8877 8620 7796 8793 9265 9794 9814 10189 10169 9522 9879 9528 9972 9407 8368 8468 8229 8846 8875 8812 8482 8191 8356 7919 8140 12624 11924 13700 14633 15185 15289 16325 16622 15938 16339 15657 16737 Т Янв-1987 Фев-1987 Map-1987 Апр-1987 Май-1987 Июн-1987 Июл-1987 Авг-1987 Сен-1987 Окт-1987 Ноя-1987 Дек-1987 Янв-1988 Фев-1988 Map-1988 Апр-1988 Май-1988 Июн-1988 Июл-1988 Авг-1988 Сен-1988 Окт-1988 Ноя-1988 Дек-1988 Янв-1989 Фев-1989 Map-1989 Апр-1989 Май-1989 Июн-1989 Июл-1989 Авг-1989 Сен-1989 Окт-1989 Ноя-1989 Дек-1989 Янв-1990 Фев-1990 Map-1990 Апр-1990 Май-1990 Июн-1990 Июл-1990 Авг-1990 Сен-1990 Окт-1990 Ноя-1990 Дек-1990 Янв-2000 Фев-2000 Мар-2000 Апр-2000 Май-2000 Июн-2000 Июл-2000 Авг-2000 Сен-2000 Окт-2000 Ноя-2000 Дек-2000 Янв-2001 V 7761 7481 8278 8639 8936 9144 9490 9446 8928 9092 8672 8902 8408 8119 8830 8957 9415 9484 9689 10006 9359 9532 9179 9363 8840 8505 9590 10195 11058 11044 11147 10967 10268 10572 10221 10475 10120 9434 10497 10537 11210 11442 11548 12739 12406 13242 12952 12377 15272 15971 18313 17259 18619 19649 19561 19387 18901 18856 17856 17647 16941 Т Янв-1991 Фев-1991 Map-1991 Апр-1991 Май-1991 Июн-1991 Июл-1991 Авг-1991 Сен-1991 Окт-1991 Ноя-1991 Дек-1991 Янв-1992 Фев-1992 Map-1992 Апр-1992 Май-1992 Июн-1992 Июл-1992 Авг-1992 Сен-1992 Окт-1992 Ноя-1992 Дек-1992 Янв-1993 Фев-1993 Map-1993 Апр-1993 Май-1993 Июн-1993 Июл-1993 Авг-1993 Сен-1993 Окт-1993 Ноя-1993 Дек-1993 Янв-1994 Фев-1994 Map-1994 Апр-1994 Май-1994 Июн-1994 Июл-1994 Авг-1994 Сен-1994 Окт-1994 Ноя-1994 Дек-1994 V 11297 10064 10883 11052 11960 11846 12091 12406 11350 11678 11360 11308 10508 10071 10725 10885 11836 11874 12225 12218 11569 12002 11418 11619 10839 10498 11476 11684 12346 12291 12638 12418 11679 12237 11806 11785 10966 10652 11800 11842 12491 12835 13207 13710 12854 12983 12647 12880 Т Янв-1995 Фев-1995 Мар-1995 Апр-1995 Май-1995 Июн-1995 Июл-1995 Авг-1995 Сен-1995 Окт-1995 Ноя-1995 Дек-1995 Янв-1996 Фев-1996 Map-1996 Апр-1996 Май-1996 Июн-1996 Июл-1996 Авг-1996 Сен-1996 Окт-1996 Ноя-1996 Дек-1996 Янв-1997 Фев-1997 Map-1997 Апр-1997 Май-1997 Июн-1997 Июл-1997 Авг-1997 Сен-1997 Окт-1997 Ноя-1997 Дек-1997 Янв-1998 Фев-1998 Map-1998 Апр-1998 Май-1998 Июн-1998 Июл-1998 Авг-1998 Сен-1998 Окт-1998 Ноя-1998 Дек-1998 V 11981 11443 12790 12701 13937 14210 14013 14186 13213 13190 12650 12931 12456 12203 13518 13998 15258 14840 14839 15034 13885 14488 14007 14224 13732 12863 14240 14163 14912 14786 15077 15348 14547 14827 13685 13901 12945 11982 13088 13394 14366 14412 14820 14393 13505 13947 12943 13404
Приложение 2 Прогнозирование месячных розничных продаж на бензоколонках США с помощью мастера решения задач STATISTICA Neural Networks (версия 4.0). Ниже приведены последовательные диалоговые окна, которые возникают в SNN при построении прогноза данных о продажах бензина, приведенных в приложении 1. Данные имеются также на диске. кзш Рис. 1. Открытие файла данных retain. Переменная varl — исходный ряд месячных продаж, переменная var2 — первые разности Рис. 2. Файл данных и рабочее окно SNN Рис. 3. Вызов мастера решения задач — Intelligent Problem Solver pf» send Lj Презентации fa Bank He lection» 0PfW &еы
670 Приложение 2 : ...r;o^(mik»altteOwto<iakii>>^%Wwft|io»<b>{/; . Рис. 4. Выбор в мастере решения задач режима Advanced тшшшашшвшвшшшшшщ ***! <g«*l E>1 >- 1 Рис. 5. Выбор в мастере решения задач типа задачи — Problem Type. Решаемая задача — прогнозирование временного ряда — predict later values from earlier ones Рис. 6. Задание периода ряда (анализируемый ряд имеет период 12). Если период неизвестен или ряд непериодичный, то в поле Period ставится 1 Рис. 7. Выбор «выходной» или прогнозируемой переменной
Приложение 2 671 ■ ' tai tfitlPS imtfffn litecMtt 1|мЫ<| if jqhHihMi cn4 vtfpirt м wnl*. Рис. 8. В этом окне выбираются входные (независимые) переменные. Переменная varl — исходный ряд. Переменная var2 — ряд первых разностей. На первом этапе в качестве единственной независимой переменной выбираем varl Yrti кцр ipitijf (wtm>w It» IfTt #jwtf MMjbrtfc fruifafl пол К» №>ii> • "* Рис. 9. Задание обучающего, контрольного и тестового множества швшшшшшашшш Рис. 10. Выбираются типы сетей, среди которых организован поиск int/irtiff I .* *&>— Рис. И. Количество нейронов в скрытом слое (трехслойный персептрон)
672 Приложение 2 Рис. 12. Способы поиска сети (по полноте и времени) Рис. 13. Количество сохраняемых сетей Рис. 14. Форма отчета Рис. 15. Окно сообщений. Процесс поиска: 30 секунд работы, найдено 2 конфигурации сети, способных решить задачу
Приложение 2 673 явшрвш Рис. 16. Окно сообщений спустя 3 минуты i и т т ■тяшшшшшшшшшшшштвт ш Щф шл ж HIP 581.1412 1 1 0.1Э74195^| HIP 580.7396 1 20 0.1407334 :' HIP 572. 4562 1 ЗОЛ391212" ' HLP 535.3925 1 4 0.1300702 *:• HLP 461.9709 1 13 0.112509^ ЕЗСЗЗГЛЗСШЗ Рис. 17. Список найденных сетей в порядке убывания ошибки — error Рис. 18. Статистики лучшей сети Рис. 19. Архитектура сети
674 Приложение 2 Рис. 20. Процедура квазиньютоновского дообучения (кнопка Q — Run Quasi Newton Training — на панели инструментов) шэщ шщшшшшшшшшшшшршшшшшш w Ш 1й;:*+ХШн1?кШШ*& i,uu ; i mm _Тгет Veriy 4Z1 Рис. 21. График ошибки обучения ш Рис. 22. Восстановление наилучшей сети |fflpUp TtRW StMM QOJNttOft К^'^;\^^^?:на-^;^,^^^^аж^»^..^-:, .**". '* ч,'*> Рис. 23. Построение прогноза на 50 шагов, начиная с наблюдения 200
Приложение 2 675 (Г)I рафик 1 Линейный график 22000 Продажи автозаправочных станций США 18000 14000 10000 6000 2000 Рис. 24. Исходный временной ряд месячных продаж бензина Линейный график (RETAIL1 STA 4v*265c) 22000 , 4000 PoTxl ПРОГНОЗ исходный Рис. 25. Сравнение исходного ряда и прогноза на 1 шаг
676 Приложение 2 Рис. 26. Прогноз «тестового» множества на 2 года B4 точки) Комментарий. Для повышения качества прогноза рекомендуется добавить еще одну переменную — var2 (см. рис. 8). Тогда прогноз будет строиться исходя из двух рядов: исходного ряда varl и ряда первых разностей var2. Заметьте, для построения прогноза можно использовать также другие дополнительные переменные (предикторы ). о- РЕАЛЬН о ПР0ГН0Э1 Рис. 27. Новый прогноз и реальные данные из тестового множества 21000 10000 17000 16000 1Э000 11000 7 ж J 9t i / 9s>\ V* / ч в/ .4 | Ч0 \ /S х -»- ПРОГНОЗ -о Р|АЛЬН ** ПР0ГМ0Э1 Рис. 28. Сравнение прогнозов
Приложение 3 Словарь терминов пакета SNN (версия 4.0) Add Add Cases Add Variables Advanced Intellegent Problem Solver Advise Accept Action Activation Activation Function Add Cases All Layers Append Network Apply Area Under Curve Assigned Cases Automatic Network Design Automatic Network Designer Automatic update on Exit Auxiliary Back Propagation Backwards Stepwise Baseline Errors Basic Basic Intellegent Problem Solver Best Best Network Retention Candidate Network Types Cases (Train, Verify, Test) Case Errors City-Block Error Class Labeling Class Labeling of Radial Units Добавить Добавить наблюдения Добавить переменные Расширенный мастер решения задач Совет Принять Действие Активация Функция активации Добавить наблюдения Все слои Присоединить сеть Применить Площадь под кривой Связанные наблюдения Автоматическое построение сети Автоматический конструктор сети Автоматически обновлять при выходе Дополнительно Обратное распространение Пошаговое исключение Исходные ошибки Основной Основной мастер решения задач Лучшая Сохранение лучшей сети Типы сетей, среди которых производится поиск (сети-кандидаты) Наблюдения (обучающие, контрольные, тестовые) Ошибки наблюдений Ошибка «городских кварталов» Разметка классов Присвоение меток классов радиальным элементам
678 Приложение 3 # Classes Classification Classification Output Type Classification Statistics Classification Confidence Threshold Classification Statistics Datasheet Cluster Diagram Clustering Networks Commit Network to Network Set Complexity Confidence Confidence limits Conjugate Gradient Descent Convert Create Data Set Create Network Cross Verification Crossover Rate Current Layer Data Management Data Set Data Set Datasheet Data Set Editor Data Set Shuffle Default Definition Delimiter Delta-Bar-Delta Details Detail Shown Deviation Dimenionality Reduction Direct Discard Division Division of Cases Duration of Design Process Dynamic Link Library Edit Case Names Editing Pre/Post Processing Enlarge Set Entropy Epochs Epsilon Error Классы Классификация Форма результата классификации Статистики классификации Доверительный порог классификации Таблица статистик классификации Диаграмма кластеров Сети для кластеризации Поместить сеть в набор сетей Сложность Доверие Доверительные границы Спуск по сопряженным градиентам Преобразование Создать набор данных Создать сеть Кросс-проверка Скорость скрещивания Текущий слой Управление данными Набор данных Таблица данных Редактор данных Перемешать данные По умолчанию Определение Разделитель Дельта-дельта с чертой Подробности Степень подробности Отклонение Понижение размерности Прямой Отвергнуть Деление Разбиение наблюдений Длительность поиска Динамически подключаемая библиотека Редактировать имена наблюдений Редактирование параметров пре/пост-процессирования Увеличить набор Энтропия Эпохи Эпсилон Ошибка
Приложение 3 679 Error function Error Mean Explicit Deviation Assignment Exponential distribution Feature Selection Hidden Hidden Units Generalized Regression Generalized Regression Training Generation Genetic Algorithm Input Selection GRNN Group Sets Ignore Inform User First Initialization Algorithms Input Variable Input Feature Selection Input/Output Variable Inputs Datasheet Intelligent Problem Solver Intelligent Problem Solver Message 10 Settings Isotropic Isotropic Deviation Assignment Iterations Jog Weights Keep Diverse K-Means K-Means Center Assignment K-Nearest Neighbor Deviation Kohonen Network Kohonen Training Layer Layers Datasheet Layers Shown Learned Vector Quantization Training Learning rate Levenberg—Marquardt Linear Linear Network Lock Logistic Lookahead Loss Coefficient Loss Matrix Функция ошибки Среднее ошибки Явное задание отклонений Экспоненциальное распределение Отбор признаков Скрытый Скрытые элементы Обобщенная регрессия Обучение обобщенной регрессии Поколение Генетический алгоритм отбора входных данных Обобщенно-регрессионные сети Сгруппировать множества Не учитывать Сначала сообщать пользователю Алгоритмы инициализации Входная переменная Отбор входных признаков Входная/выходная переменная Таблица входных значений Мастер решения задач Сообщения мастера решения задач Параметры ввода/вывода Изотропный Изотропный выбор отклонений Число итераций Встряхнуть веса Сохранять разнообразие К-средних Выбор центров по К-средним Отклонение по К-ближайшим соседям Сеть Кохонена Обучение Кохонена Слой Таблица слоев Показываемые слои Квантование обучающего вектора Скорость обучения Левенберга— Маркара Линейный Линейная сеть Блокировать Логистическая Горизонт Коэффициент потерь Матрица потерь
680 Приложение 3 Main Mask Max/SD Mean/SD Median Medium Merge Method MicroScroll Min/Mean Minimax Minimum Improvement Min Proportion Missing Value Momentum Move Cases Multilayer Perceptron (MLP) Mutation Rate Name Name and Nominals Nearest Neighbor Neighborhood Network Advisor Network (Append)... Network Illustration Network Set Network Set Editor Network Set Options Network to Replace Network Wizard Networks for Classification Neuro-Genetic Input Selection Algorithm No Layers Noise Nominal Variables Nonlinear Normal Distribution Normalization One-off Input Datasheet One-of-N Open Data Set Open Network Optimum Threshold Главное Маска Максимальное/(стандартное отклонение) СреднееДстандартное отклонение) Медиана Средняя (длительность поиска) Объединить Метод Микропрокрутка Минимум/среднее Минимаксное Минимальное улучшение Минимальная доля Пропущенное значение Инерция Переместить наблюдения Многослойный персептрон Скорость мутаций Имя Имя и номинальные Ближайший сосед Окрестность Наставник Сеть (добавить) Схема сети Набор сетей Редактор набора сетей Параметры набора сетей Заменяемая сеть Мастер создания сети Сети для задач классификации Нейрогенетический алгоритм отбора входных данных Число слоев Шум Номинальные (категориальные) переменные Нелинейный Нормальное распределение Нормировка Таблица задания одного входного вектора Один-из-N Открыть набор данных Открыть сеть Оптимальный порог
Приложение 3 681 Options Output Type Output Variable Outputs Datasheet Outputs Shown Partially or unusually defined text values Penalty Performance Plot PNN Population Popup Class Selector Predict Prediction Pre/Post Processing Pre/Post Processing Datasheet Pre/Post Processing Editor Pre/Post Processing Editor's Datasheet Principal Components Principal Components Analysis Prior probabilities Probabilistic Probabilistic Training Problem Type Producing a Reduced Data Set Prune Pseudo-Inverse PSP-function Quick Propagation Radial Basis Function (RBF) Radial Sampling Rank Range Range selection Ratio Real number fields Real-time update Receiver Operating Characteristic (ROC) Redundancy of variables Regression Regression Statistics Regularization Reinitialize Опции Тип выхода Выходная переменная Таблица выходных значений Показывать при выводе Частично или нестандартно заданные текстовые значения Штраф Качество График Вероятностная нейронная сеть Популяция Контекстный выбор класса Прогнозировать, предсказывать Прогноз Пре/постпроцессирование Таблица пре/постпроцессирования Редактор пре/постпроцессирования Таблица редактора пре/постпроцессирования Главные компоненты Анализ главных компонент Априорные вероятности Вероятность Вероятностное обучение Тип задачи Формирование уменьшенного набора данных Удалить Псевдообратный Постсинаптическая функция Быстрое распространение Радиальные базисные функции Радиальная выборка Ранг Диапазон, размах Выделение диапазона ячеек Отношение Поля для вещественных чисел Пересчитывать по ходу Операционная характеристика Избыточность переменных Регрессия, зависимость Статистики регрессии Регуляризация Переустановить, инициализировать
682 Приложение 3 Reject Replace Replace Oldest Replace Worst Response Graph Response Surface Restore Retain Best Network RMS (Root Mean Squared) error Run Run All Cases Run Data Set Run One-off Case Run Single Case Run/Activations S.D. (Standard Deviation) Ratio Sample Subsample Save as Type Scale Select Sensitivity Ananlysis Set Case Types Set Variable Types Set Weights Shift Shuffle Shuffle Cases Single Case Single output networks Smoothing Smoothing Constant Sort Ascending Sort Descending Standard (each case is independent) Statistics Step Stopping Conditions Sum-squared error function Target Error Test Text Import Wizard Threshold Thorough Time Series Отвергнуть Заменить Заменить самую первую Заменить худшую График отклика Поверхность отклика Восстановить Восстановить лучшую сеть Среднеквадратичная ошибка Запуск Прогнать все наблюдения Прогнать набор данных Прогнать отдельное наблюдение Прогнать одно наблюдение Запуск/активации Отношение стандартных отклонений Выборка Подвыборка Тип сохраняемого файла Масштаб Выбрать Анализ чувствительности Задать типы наблюдений Задать типы переменных Задать веса Сдвиг, смещение Перемешать Перемешать наблюдения Одно наблюдение Сети с одним выходом Сглаживание Константа сглаживания Сортировать по возрастанию Сортировать по убыванию Стандартная (наблюдения независимы) Статистики Шаг Условия остановки Функция ошибки как сумма квадратов разностей между выходами сети и целевыми значениями Целевая ошибка Тестовое (множество) Мастер импорта текста Порог Полный (режим поиска) §|^щшюйряд
Приложение 3 683 Time Series Period Time Series (predict later values from earlier ones) Time Series Projection Topological Classes Topological Map Total Train Train RMS (Root Mean Squared) Error Training Error Training Error Graph Training Graph Training Set Train-Multilayer Perceptrons Two-State Conversion Type Type of Network Unit Length Unit Names Unit Penalty Unit Number Unknown Unlock Update Value Variable Definition Variable type in Data Files Variant Verbose Verification Error Verification Standard Deviation Ratio Verification Set Verify Weigend Weight Regularization Weights Distribution Win Frequencies Datasheet Период временного ряда Временной ряд (прогноз следующих значений по предыдущим) Проекция временного ряда Топологические классы Топологическая карта Всего Обучить, обучающее множество Среднеквадратичная ошибка обучения Ошибка обучения График ошибки обучения График обучения Обучающее множество Обучение многослойного персептрона Преобразование в два значения Тип Тип сети Единичная длина Имена элементов Штраф за элемент Номер элемента Неизвестно Разблокировать Пересчитать, обновить Значение Определение переменной Тип переменных в файлах данных Вариант Подробно Контрольная ошибка Контрольное отношение стандартных отклонений Контрольное множество Контрольное (множество) Регуляризация весов по Вигенду Распределение весов Таблица частот выигрышей Функции активации, реализованные в SNN Все эти функции доступны в окне Network Editor, вызываемом из меню Edit Network... или с помощью кнопки ННна панели инструментов.
684 Приложение 3 Линейная. Уровень активации нейрона передается на выход в неизменном виде. Эта функция используется в сетях различных типов, в том числе линейных, а также в выходных слоях сетей радиальных базисных функций. Логистическая. Ее график имеет форму S-образной кривой, выходные значения лежат в интервале @,1). Этот тип функций активации нейронов используется в сетях наиболее часто. Гиперболическая. Функция гиперболического тангенса (tanh). Ее график также имеет вид S-образной кривой, выходные значения лежат в интервале (-1,+1). Эта "функция часто дает лучшие результаты, чем логистическая из-за свойства симметрии. Экспоненциальная с отрицательным показателем. Экспоненциальная функция с аргументом со знаком минус. Софтмакс. Экспоненциальные функции с нормировкой. При использовании этой функции сумма всех активаций в слое становится равной 1. Применяется в многослойных персептронах для задач классификации, так что выходные значения сети можно интерпретировать как вероятности, задающие принадлежность к классу. Квадратный корень. Функция квадратного корня. Синус. Может быть полезна для распознавания радиально распределенных данных. По умолчанию не используется. Кусочно-линейная. Кусочно-линейный вариант S-образной функции. Ступенчатая (кусочно-постоянная). Дает на выходе значения 0, если аргумент отрицательный, и 1, если аргумент неотрицательный. Может использоваться при моделировании простых сетей, например персептронов. Ниже приведены точные формулы функций активации. Функции активации Название Формула Значения (-оо,+оо) @,+1) (-1|+1) Линейная х 1 Логистическая " : \ + е Гиперболическая —: ех + е'-
Приложение 3 685 Название Формула Значения (О, +оо) @,+1) [О, +оо) [-1,+1] [0,+1] Функции ошибок, доступные в SNN Функции ошибок — Error functions выбираются в том же окне Network Editor, что и функции активации. Квадратичная. Ошибка полагается равной сумме квадратов разностей между целевыми и фактическими выходными значениями каждого выходного элемента. При обучении сетей такая функция ошибок является стандартной, часто применяется для задач регрессии (построения нелинейных зависимостей). Городских кварталов. Ошибка равна сумме абсолютных значений разностей между целевыми и фактическими выходными значениями каждого выходного элемента. Эта функция менее чувствительна к выбросам, чем среднеквадратичная функция ошибок. Кросс-энтропия (простая и множественная). Ошибка этого типа вычисляется как сумма произведений целевых значений на логарифмы ошибок по всем выходным элементам. Имеется два варианта функции: для сетей с одним выходом (двумя классами) и для сетей с несколькими выходами. Эта функция ошибок специально предназначена для задач классификации. Ее применение может улучшить результаты классификации сети, особенно если в выходном слое сети используются логистическая (случай одного выхода) или софтмакс (несколько выходов) функции активации. Кохонена. Вычисление ошибки по Кохонену предполагает, что второй слой сети состоит из радиальных элементов, представляющих центры кластеров. Ошибка вычисляется как расстояние от входного набора данных до ближайшего из этих центров. Функция ошибок Кохонена предназначена для использования только в сетях Кохонена. Экспоненциальная Софтмакс е~х ех i Квадратный корень 7х Синус sin(x) . Кусочно-линейная -1 х<-\ х -\<х<+\ +1 *>+1 Ступенчатая ' 0 *<0 +1 *>0
686 Приложение 3 PSP-функции Эти функции также доступны в диалоговом окне Network Editor. В пакете STATISTICA Neural Networks используются два основных типа PSP- функций. Линейная. Линейные PSP-элементы берут взвешенную сумму своих входов и сдвигают на пороговое значение {Threshold), см. нижнюю часть диалогового окна, приведенного выше. Такие элементы стремятся осуществить классификацию, разбивая пространство входов на классы с помощью системы гиперплоскостей. Радиальная. Радиальные PSP-элементы вычисляют квадрат расстояния между двумя точками в N-мерном пространстве (где N — число входов), соответствующими входному вектору и вектору весов данного элемента. Такие элементы стремятся осуществить классификацию, измеряя расстояния от входных наборов до эталонных точек в пространстве входов (координаты этих эталонных точек хранятся в весах элементов). Линейные PSP-элементы используются в многослойных персептронах и линейных сетях, а также в последних слоях сетей на радиальных базисных функциях, вероятностных и регрессионных сетей. Радиальные элементы используются во втором слое сетей Кохонена, радиальных базисных функций, вероятностных и регрессионных сетей и не используются ни в каких других слоях сетей стандартной архитектуры. В пакете SNN имеется еще один тип PSP-функций, предназначенный только для регрессионных сетей. Деление. Эта функция ожидает, что один из входных весов равен +1, другой -1, все остальные — нулю. Значение, которое выдает функция, равно частному от деления входа, соответствующего +1, на вход, соответствующий -1.
Алфавитный указатель А Анализ выживаемости Модель Кокса, 544 Оценка Каплана-Мейера, 538 регрессионные модели, 552 согласие, 552 составная таблица времен жизни, 554 Сравнение выживаемости в группах, 541 Функция риска, 537 Анализ мощности, 141—144 Анализ соответствий, 561 Асимметрия, 109 Анализ таблиц времен жизни, 550 Б Броуновское движение, 148,149 в Вероятностный калькулятор STATISTICA, 454 Внутригрупповая вариация, 492 г Гамма распределение, 155 Гистограмма, 210—212 Графики для таблиц результатов, 418 Группировка итоговая таблица средних, 423 пример, 421 Группирующая переменная, 464 д Дисперсия, 106 Дисперсионный анализ, однофакторный, 421,501 3 Зависимость, 112—113 Зависимые переменные, 496 Значимость, 128 к Корреляции выделение значимых корреляций, 416 корреляция Пирсона, 414 Корреляции (продолжение) ложные, 120 множественные, 118—119 ранговые, 117 частные, 117,118 частные корреляции с точки зрения линейной регрессии, 119 Контроль качества, 32-38,602-607 Кохонена ошибка, 685 Коэффициент сопряженности, 445 Критерий Стюдента (t-критерий), 480-481 Критерий Фишера, 507 Критерий хи-квадрат Макнемара хи-квадрат, 444 Пирсона хи-квадрат, 442 поправка Йетса, 443 Кросстабуляция графическое представление, 439 2 на 2 таблицы, 437 Кросстабуляция данных, 432,436,442 Кросстабуляция многомерных откликов и дихотомий, 472 л Логистическая, 684 Логлинейный анализ кросстабуляция данных, 432 м Медиана, 108 Мода, 109 Макнемара хи-квадрат, 444 Маргинальные частоты, 438 Меры сопряженности, 445 Многовходовые таблицы с контрольными переменными, 441 Многомерные дихотомии, 445,466 задание многомерной дихотомии, 470 кросстабуляция многомерных дихотомий, 447 определение факторов, 468 парная кросстабуляция, 448 переменные, 465 пример, 463 Многомерные отклики, 447,466 кодирование многомерных переменных, 446 кросстабуляции многомерных откликов, 447 определение факторов, 468
688 Алфавитный указатель Многомерные отклики (продолжение) парная кросстабуляция, 448 переменные, 445 пример, 463 таблицы частот, 468 н Независимые переменные, 496 Нейронные сети математическая модель нейрона, 611, 612 многослойный персептрон, 616 принципы обучения, 614 поверхность ошибки, 620 примеры классификация, 633,634 погнозирование, 627-632 Непараметрические критерии, 504—507 Номинальные переменные, 110,111 о Однофакторный дисперсионный анализ апостериорные сравнения средних, 501 пример, 421 Оценка объема выборки, 137,141 п Переменная категориальная, 110,111 порядковая, 111 Планирование эксперимента, 32—34,504—602 Прогнозирование, 17—20 Переменная с многомерными откликами, 464 Поправка Йетса, 443 Порог, 686 Построение графиков для таблиц результатов, 418 р Распределение Арксинуса, 165—166 Бета, 171-182 Биномиальное, 160—165 Вейбулла, 173-177 Гамма, 155—157 Геометрическое, 170 Гипергеометрическое, 170-171 Коши, 181 Лапласа, 154—155 Логнормальное, 157—158 Логистическое, 178 Максвелла, 180-181 Нормальное, 147—151 Отрицательное Биномиальное, 166— 167 Парето, 177-178 Полиномиальное (мультиминальное), 171 Пуассона, 167-170 равномерное, 151—152 Релея, 172 Распределение (продолжение) Стьюдента (t-распределение), 182—183 Фишера (F-распределение), 183—184 хи-квадрат, 159—160 Хотеллинга, 179-180 Экспоненциальное, 152-153 Экстремальных значений, 172 Эрланга, 153-154 Разность между средними (t-критерий), 495 Распределения подгонка, 550 Регрессия, 23,24,577-583 С Согласие, 552 Среднее, 107 Стандартное отклонение, 108 Статистика Дарбина-Уотсона, 584 Стьюдента t-критерий t-критерий для зависимых выборок, 492 t-критерий для независимых выборок, 489 графики, 497 матрицы t-критериев, 493 разности между средними, 495 результаты, 497 т Таблицы 2 на 2, 437 Таблицы времен жизни, анализ, 554 Таблицы времен жизни в страховании, 550 Таблицы сопряженности, 461 Таблицы флагов и заголовков, 440,456 Таблицы частот, 434,452 ф Функция риска, 535 Фукнция выживаемости, 30-31 Фи-квадрат, 444 х хи-квадрат критерий согласия, 192-193, хи-квадрат критерий независимости признаков в таблицах сопряженности, 440—442 ч Частоты преобразования логит, 452 пробит, 452 маргинальные, 438 э Эксцесс, 109 множественная, 685 простая, 685