Введение
Вступительное эссе: приглашение к анализу данных на компьютере
Глава 1. Краткая экскурсия по системе STATTSTICA
Кнопки автозадач
Взгляд в будущее
Первые шаги в системе STATISTICA
Графический анализ таблиц сопряженности
Простейшие описательные статистики
Свойства описательных статистик
Шкалы измерений
Какие статистики выбирать?
Зависимости между переменными
Исследование связей между наблюдаемыми переменными в сравнении с экспериментальными исследованиями
Корреляции
Почему зависимости между переменными являются важными
Зависимые и независимые переменные
Как измерить величину зависимости между переменными
Две черты зависимости между переменными
Статистическая значимость и количество выполненных анализов
Почему объем выборки влияет на значимость зависимости
Почему слабые зависимости могут быть значимо доказаны только на больших выборках
Как вычисляется статистическая значимость
Как определить, являются ли два коэффициента корреляции значимо различными
Почему важно нормальное распределение
Как проверить нормальность наблюдаемых величин
Всели статистики критериев нормально распределены?
Оценка объема выборки
Визуальный подход к анализу мощности
Понижение размерности данных
Глава 3. Вероятностные распределения и их свойства
Нормальное распределение
Равномерное распределение
Экспоненциальное распределение ;
Распределение Эрланга
Распределение Лапласа
Гамма-распределение
Логнормальное распределение
Хи-квадрат-распределение
Биномиальное распределение
Распределение арксинуса
Отрицательное биномиальное распределение
Распределение Пуассона
Гипергеометрическое распределение ,....
Бета-распределение
Распределения Релея
Распределение Вейбулла
Распределение Парето
Логистическое распределение
Хотеллинга Т2-распределение
Распределение Максвелла
Распределение Коши
Распределение Стьюдента
F-распределение
Глава 4. Подгонка вероятностных распределений к реальным данным
Пример 2. Подгонка распределения к данным: посещение популярного сайта
Пример 4. Количество покупок в магазине
Пример 5. Подгонка распределения Вейбулла к данным об отказах
Глава 5. Двумерный визуальный анализ данных
Гистограммы и описательные статистики
Группировка
Подгонка теоретических распределений к наблюдаемым распределениям
Диаграммы рассеяния
Выбросы
Диаграммы рассеяния с диаграммами размаха
Нормальные вероятностные графики
Графики вероятность — вероятность
Диаграммы диапазонов
Диаграммы размаха
Столбчатые диаграммы ,
Последовательные/наложенные графики
Круговые диаграммы
Диаграммы пропущенных значений и интервалов
Графики функций пользователя
Глава 6. Трехмерный визуальный анализ данных
ЗМ диаграммы диапазонов
ЗМ диаграммы размаха
Трехмерные диаграммы рассеяния
Графики поверхности
Карты линий уровня
Трассировочные графики
Тернарные графики
Трехмерные категоризованные графики
Категоризованные тернарные графики
Графики пользовательских функций
Матричные графики
Глава 7. Визуальный анализ категоризованных данных
Категоризованные графики и матричные графики
Гистограммы и описательные статистики
Категоризация значений в составных графиках
Категоризованные гистограммы и диаграммы рассеяния
Подгонка теоретических распределений к наблюдаемым распределениям
Подгонка распределений к множественным гистограммам
Категоризованные диаграммы рассеяния
Нелинейная зависимость
Категоризованные вероятностные графики
Категоризованные графики квантиль — квантиль
Категоризованные линейные графики
Категоризованные прямоугольные диаграммы
Связанные графики
Категоризованные круговые диаграммы
Круговые диаграммы рассеяния
Категоризованные трехмерные графики
Категоризованные тернарные графики
Глава 8. Пиктографики
Классификация пиктографиков
Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA ....
Настройка трехмерных графиков
Пример 2. Подгонка функций, увеличение и закрашивание
Приближение полиномами
Увеличение
Рисование пользовательской функции
Добавление зависимости
Построение матричного графика
Закрашивание в редакторе данных графика
Пример 4. Связывание и внедрение
Копирование и вставка графических объектов
Вставка в виде растрового изображения
Вставка в виде собственного графического объекта системы STATISTICA
Сетка
Внедрение диаграммы рассеяния
Внедрение или связывание графиков из файлов
Управление несколькими графическими объектами
Изменение очередности изображения графических объектов
Управление графиками системы STATISTICA в других приложениях Windows средствами OLE
Связывание графика системы STATISTICA
Редактирование связанного графика
Пример 5. Добавление заданных пользователем статистических графиков в окно Галерея графиков и в меню Графика
Определение параметров графика
Создание нового графика пользователя
Выбор заданного пользователем графика
Просмотр и редактирование списка графиков пользователя
Глава 10. Описательные статистики
Вычисление описательных статистик для группированных данных
Внутригрупповые корреляции
Глава 11. Построение и анализ таблиц
Таблицы частот
Таблицы сопряженности и таблицы флагов и заголовков
Статистики таблиц сопряженности
Многомерные отклики
Кросстабуляция многомерных откликов и дихотомий
Парная кросстабуляция переменных с многомерными откликами
Средства построения таблиц системы STATISTICA
Таблицы сопряженности и таблицы флагов и заголовков
Многомерные отклики и дихотомии
Примеры
Пример 2. Таблицы флагов и заголовков
Пример 3. Таблицы сопряженности
Пример 4. Табулирование многомерных откликов и дихотомий
Глава 12. Г-критерий сравнения средних в двух группах данных
Формальное определение t-критерия
Г-критерий для зависимых выборок
Пример 1
Пример 2
Однофакторный дисперсионный анализ и апостериорные сравнения средних
Глава 13. Непараметрическая статистика
Описание непараметрических процедур на примерах
Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнемара, точный критерий Фишера
Матричная диаграмма
Критерий серий Вальда—Вольфовица
Пример. Критерий серий Вальда—Вольфовица, Манна—Уитни U-критерий, двухвыборочный критерий Колмогорова—Смирнова
ANOVA Краскела—Уоллиса и медианный тест
Критерий знаков
Критерий Вилкоксона
ANOVA Фридмана и коэффициент конкордации, или согласия, Кендалла
Q-критерий Кохрена
Мода
Квартильный размах
Эксцесс
Глава 14. Анализ выживаемости
Оценки Каплана—Мейера
Сравнение выживаемости в группах
Регрессионные модели в анализе выживаемости
Экспоненциальная регрессия
Нормальная и логнормальная регрессия ,..
Обзор системы
Пример 1. Таблицы времен жизни
Пример 2. Регрессионная модель Кокса
Оценивание параметров
Результаты
Глава 15. Анализ соответствий
Глава 16. Примеры анализа данных в системе STATISTICA
Анализ экспериментальных данных
Глава 17. Нейронные сети
Диалог в модуле Нейронные сети STATISTICA
Заключительные комментарии
Структура языка STATISTICA Visual Basic
Запись макросов
Запись макроса анализа
Создание графика
Мастер-макрос
Среда программирования
Основные соглашения STATISTICA Visual Basic
Операторы управления порядком выполнения команд
Глобальные переменные, передача аргументов по значению и по ссылке
Примеры программ с комментариями
Вывод индикатора состояния
Построение гистограммы с подгонкой нормального распределения
Создание пользовательских диалогов
Просмотр объектов и функций
Приложение 1
Приложение 2
Приложение 3
Функции активации, реализованные в SNN
Функции ошибок, доступные в SNN
PSP-функции
Алфавитный указатель
Текст
                    СЕРИЯ
ЖЖЛ Ш 11 шгшЗ UJ кАмЩ^ I 11 О Iff ЛЛ 1
Е^пптер


f * 9 m * V\ # 4 "• 9
Владимир Боровиков ДЛЯ ПРОФЕССИОНАЛОВ STXnSTICA ИСКУССТВО АНАЛИЗА ДАННЫХ НА КОМПЬЮТЕРЕ 2-Е ИЗДАНИЕ [^ПИТЕР Москва - Санкт-Петербург - Нижний Новгород - Воронеж Ростов-на-Дону - Екатеринбург - Самара Киев - Харьков - Минск 2003
В. Боровиков STATISTICA. Искусство анализа данных на компьютере: Для профессионалов 2-е издание Главный редактор Е. Строганова Заведующий редакцией //. Корнесв Художник //. Биржаков Корректор С. Беляева Верстка Р. Гришанов ББК 32.973.233 УДК 681.3.01 Боровиков В. Б83 STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. (+CD). — СПб.: Питер, 2003. — 688 с: ил. ISBN 5-272-00078-1 Во втором, исправленном и дополненном, издании книги, написанной известным специалистом, научным директором компании StatSoft Russia, изложена концепция и технология современного анализа данных на компьютере. На основе элементарных понятий описываются углубленные методы анализа в системе STATISTICA (StatSoft) с многочисленными примерами из экономики, маркетинга, рекламы, бизнеса, медицины, промышленности и других областей. Второе издание дополнено описанием языка STATISTICA VISUAL BASIC. Книга адресована самому широкому кругу читателей, желающих стать профессионалами в компьютерном анализе данных. К книге прилагается компакт-диск, включающий учебник StatSoft по анализу данных, учебник по промышленной статистике, материалы обучающих курсов, демо-версии STATISTICA и SNN (нейронные сети) и большое количество данных для обучения и проведения самостоятельных исследований в STATISTICA и SNN © ЗАО Издательский дом «Питер», 2003 Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав. Информация, содержащаяся в данной книге, получена из источников, рассматриваемых издательством как надежные. Тем не менее, имея в виду возможные человеческие или технические ошибки, издательство не может гарантировать абсолютную точность и полноту приводимых сведений и не несет ответственности за возможные ошибки, связанные с использованием книги. ISBN 5-272-00078-1 ООО «Питер Принт». 196105, Санкт-Петербург, ул. Благодатная, д. 67в. Лицензия ИД № 05784 от 07.09.01. Налоговая льгота - общероссийский классификатор продукции ОК 005-93, том 2; 953005 - литература учебная. Подписано в печать 11.08.03. Формат 70X100/16. Усл. п. л. 55,47. Доп. тираж 3000 экз. Заказ № 389. Отпечатано с фотоформ в ФГУП «Печатный двор» им. А. М. Горького Министерства РФ по делам печати, телерадиовещания и средств массовых коммуникаций. 197110, Санкт-Петербург, Чкаловский пр., 15.
Краткое содержание Введение 13 Вступительное эссе: приглашение к анализу данных на компьютере 14 Глава 1. Краткая экскурсия по системе STATISTICA 44 Глава 2. Элементарные понятия анализа данных 105 Глава 3. Вероятностные распределения и их свойства 146 Глава 4. Подгонка вероятностных распределений к реальным данным 185 Глава 5. Двумерный визуальный анализ данных 210 Глава б. Трехмерный визуальный анализ данных 251 Глава 7. Визуальный анализ категоризованных данных 307 Глава 8. Пиктографики 333 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA.... 341 Глава 10. Описательные статистики 409 Глава 11. Построение и анализ таблиц 429 Глава 12. Т-критерий сравнения средних в двух группах данных 487 Глава 13. Непараметрическая статистика 504 Глава 14. Анализ выживаемости 533 Глава 15. Анализ соответствий 561 Глава 16. Примеры анализа данных в системе STATISTICA 577 Глава 17. Нейронные сети 611 Глава 18. Язык STATISTICA VISUAL BASIC (SVB) 641 Приложение 1 667 Приложение 2 669 Приложение 3 677 Алфавитный указатель 687
Содержание Введение 13 Вступительное эссе: приглашение к анализу данных на компьютере 14 Для кого эта книга? 40 Глава 1. Краткая экскурсия по системе STATTSTICA 44 Вступление 44 Командный язык STATISTICA (SCL) 76 Кнопки автозадач 80 Взгляд в будущее 84 Первые шаги в системе STATISTICA 85 Графический анализ таблиц сопряженности 97 Глава 2. Элементарные понятия анализа данных 105 Что такое переменная? 105 Простейшие описательные статистики 105 Свойства описательных статистик 107 Шкалы измерений ПО Какие статистики выбирать? 111 Распределение переменной 112 Зависимости между переменными 112 Исследование связей между наблюдаемыми переменными в сравнении с экспериментальными исследованиями 113 Корреляции 114 Почему зависимости между переменными являются важными 120 Зависимые и независимые переменные 121 Как измерить величину зависимости между переменными 122 Две черты зависимости между переменными 123 Что такое статистическая значимость (р-уровень)? 123 Как определить, является ли результат действительно значимым 124 Статистическая значимость и количество выполненных анализов 124 Величина зависимости между переменными в сравнении с надежностью зависимости 125 Почему более сильные зависимости между переменными являются более значимыми 125 Почему объем выборки влияет на значимость зависимости 125 Почему слабые зависимости могут быть значимо доказаны только на больших выборках 126 Можно ли рассматривать отсутствие связей как значимый результат? 127 Общая конструкция статистических тестов 127 Как вычисляется статистическая значимость 127
Содержание 7 Значимость коэффициента корреляции 128 Как определить, являются ли два коэффициента корреляции значимо различными 128 Почему важно нормальное распределение 129 Иллюстрация того, как нормальное распределение используется в статистических рассуждениях 131 Как проверить нормальность наблюдаемых величин 131 Всели статистики критериев нормально распределены? 136 Как узнать последствия нарушений предположений нормальности? 137 Оценка объема выборки 137 Визуальный подход к анализу мощности 141 Понижение размерности данных 144 Глава 3. Вероятностные распределения и их свойства 146 В чем состоит идея вероятностных рассуждений? 146 Нормальное распределение 147 Равномерное распределение 151 Экспоненциальное распределение ; 152 Распределение Эрланга 153 Распределение Лапласа 154 Гамма-распределение 155 Логнормальное распределение 157 Хи-квадрат-распределение 159 Биномиальное распределение 160 Распределение арксинуса 165 Отрицательное биномиальное распределение 166 Распределение Пуассона 167 Геометрическое распределение 170 Гипергеометрическое распределение ,.... 170 Полиномиальное распределение 171 Бета-распределение 171 Распределение экстремальных значений 172 Распределения Релея 172 Распределение Вейбулла 173 Распределение Парето 177 Логистическое распределение 178 Хотеллинга Т2-распределение 179 Распределение Максвелла 180 Распределение Коши 181 Распределение Стьюдента 182 F-распределение 183 Глава 4. Подгонка вероятностных распределений к реальным данным 185 Пример 1. Подгонка распределения к данным: посещение непопулярного сайта 187 Пример 2. Подгонка распределения к данным: посещение популярного сайта 193 Пример 3. Скачки вверх и вниз курса акций 197 Пример 4. Количество покупок в магазине 197 Пример 5. Подгонка распределения Вейбулла к данным об отказах 200 Глава 5. Двумерный визуальный анализ данных 210 Гистограммы 210 Гистограммы и описательные статистики 212 Группировка 213
8 Содержание Подгонка теоретических распределений к наблюдаемым распределениям 216 Пересекающиеся категории 219 Диаграммы рассеяния 219 Однородность распределений двух переменных (формы зависимостей) 221 Выбросы 222 Диаграммы рассеяния с гистограммами 226 Диаграммы рассеяния с диаграммами размаха 226 Нормальные вероятностные графики 227 Графики вероятность — вероятность 230 Диаграммы диапазонов 231 Диаграммы размаха 232 Столбчатые диаграммы , 234 Линейные графики (для переменных) 236 Линейные графики (профили наблюдений) 241 Последовательные/наложенные графики 242 Круговые диаграммы 247 Диаграммы пропущенных значений и интервалов 248 Графики функций пользователя 249 Глава 6. Трехмерный визуальный анализ данных 251 Гистограммы двух переменных 256 ЗМ диаграммы диапазонов 260 ЗМ диаграммы размаха 264 Трехмерные диаграммы рассеяния 269 Графики поверхности 276 Карты линий уровня 280 Трассировочные графики 281 Тернарные графики 283 Трехмерные категоризованные графики 289 Категоризованные тернарные графики 293 Графики пользовательских функций 298 Матричные графики 299 Глава 7. Визуальный анализ категоризованных данных 307 Что такое категоризованные графики? 307 Категоризованные графики и матричные графики 309 Гистограммы и описательные статистики 311 Категоризация значений в каждой гистограмме 312 Категоризация значений в составных графиках 312 Категоризованные гистограммы и диаграммы рассеяния 315 Подгонка теоретических распределений к наблюдаемым распределениям 316 Подгонка распределений к множественным гистограммам 317 Категоризованные диаграммы рассеяния 318 Нелинейная зависимость 319 Категоризованные вероятностные графики 320 Категоризованные графики квантиль — квантиль 321 Категоризованные графики вероятность — вероятность 322 Категоризованные линейные графики 322 Методы сглаживания 323 Категоризованные прямоугольные диаграммы 323
Содержание 9 Связанные графики 325 Категоризованные круговые диаграммы 327 Круговые диаграммы рассеяния 328 Категоризованные диаграммы пропущенных данных и диаграммы диапазонов 329 Категоризованные трехмерные графики 329 Категоризованные тернарные графики 331 Глава 8. Пиктографики 333 Анализ пиктографиков 333 Классификация пиктографиков 334 Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA .... 341 Пример 1. Настройка двумерных и трехмерных графиков 341 Настройка двумерных графиков 341 Настройка трехмерных графиков 361 Пример 2. Подгонка функций, увеличение и закрашивание 374 Построение диаграммы рассеяния .- 374 Приближение полиномами 375 Интерактивное удаление выбросов (Закрашивание) 377 Увеличение 379 Рисование пользовательской функции 381 Добавление зависимости 382 Пример 3. Динамическое закрашивание (Кисть) 384 Файл данных 384 Построение матричного графика 384 Закрашивание в редакторе данных графика 386 Пример 4. Связывание и внедрение 387 Растровые изображения 387 Метафайлы Windows («картинки») 387 Собственный графический формат системы STATISTICA 388 Копирование и вставка графических объектов 388 Вставка в виде текста 391 Вставка в виде растрового изображения 391 Вставка в виде собственного графического объекта системы STATISTICA 393 Сетка 394 Функции клиента и сервера в OLE 395 Создание трехмерной гистограммы 395 Внедрение диаграммы рассеяния 395 Редактирование внедренного графика 397 Внедрение или связывание графиков из файлов 397 Автоматическое обновление связанных графиков 398 Управление несколькими графическими объектами 398 Изменение очередности изображения графических объектов 399 Управление графиками системы STATISTICA в других приложениях Windows средствами OLE 400 Связывание графика системы STATISTICA 401 Редактирование связанного графика 402 Пример 5. Добавление заданных пользователем статистических графиков в окно Галерея графиков и в меню Графика 403 Файл данных 404 Определение параметров графика 404
10 Содержание Создание нового графика пользователя 405 Выбор заданного пользователем графика 406 Просмотр и редактирование списка графиков пользователя 407 Глава 10. Описательные статистики 409 Корреляции 414 Вычисление описательных статистик для группированных данных 420 Внутригрупповые корреляции 424 Глава 11. Построение и анализ таблиц 429 Вводный обзор 429 Таблицы частот 434 Таблицы сопряженности и таблицы флагов и заголовков 436 Таблицы флагов и заголовков 440 Статистики таблиц сопряженности 442 Статистики, основанные на рангах 445 Многомерные отклики и дихотомии 445 Многомерные отклики 445 Многомерные дихотомии 447 Кросстабуляция многомерных откликов и дихотомий 447 Парная кросстабуляция переменных с многомерными откликами 448 Средства построения таблиц системы STATISTICA 449 Таблицы частот 449 Таблицы сопряженности и таблицы флагов и заголовков 450 Многомерные отклики и дихотомии 451 Примеры 452 Пример 1. Таблицы частот 452 Пример 2. Таблицы флагов и заголовков 456 Пример 3. Таблицы сопряженности 461 Пример 4. Табулирование многомерных откликов и дихотомий 463 Пример (анализ продаж) 474 Глава 12. Г-критерий сравнения средних в двух группах данных 487 Г-критерий для независимых выборок 489 Формальное определение t-критерия 491 Г-критерий для зависимых выборок 492 Пример 1 493 Пример 2 495 Множественные сравнения 498 Однофакторный дисперсионный анализ и апостериорные сравнения средних 500 Глава 13. Непараметрическая статистика 504 Краткий обзор непараметрических процедур 504 Описание непараметрических процедур на примерах 507 Стартовая панель модуля Непараметрические статистики 507 Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнемара, точный критерий Фишера 508 Наблюдаемые частоты в сравнении с ожидаемыми 511 Корреляции (Спирмена R, тау Кендалла, Гамма) 512 Матричная диаграмма 515 Критерий серий Вальда—Вольфовица 516 U-критерий Манна—Уитни 516
Содержание 11 Двухвыборочный критерий Колмогорова—Смирнова 517 Пример. Критерий серий Вальда—Вольфовица, Манна—Уитни U-критерий, двухвыборочный критерий Колмогорова—Смирнова 517 ANOVA Краскела—Уоллиса и медианный тест 522 Критерий знаков 526 Критерий Вилкоксона 527 ANOVA Фридмана и коэффициент конкордации, или согласия, Кендалла 528 Q-критерий Кохрена 529 Описательные статистики 530 Медиана 530 Мода 530 Геометрическое среднее 531 Гармоническое среднее 531 Дисперсия и стандартное отклонение 531 Размах 531 Квартильный размах 531 Асимметрия 532 Эксцесс 532 Глава 14. Анализ выживаемости 533 Введение в анализ выживаемости 533 Таблицы времен жизни 534 Оценки Каплана—Мейера 538 Сравнение выживаемости в группах 541 Регрессионные модели в анализе выживаемости 543 Модель Кокса 544 Экспоненциальная регрессия 546 Нормальная и логнормальная регрессия ,.. 547 Обзор системы 548 Альтернативные процедуры 549 Пример 1. Таблицы времен жизни 550 Задание параметров анализа 550 Пример 2. Регрессионная модель Кокса 554 Задание параметров анализа 555 Оценивание параметров 556 Результаты 558 Глава 15. Анализ соответствий 561 Пример 1 (анализ курильщиков) 571 Пример 2 (анализ продаж) 574 Глава 16. Примеры анализа данных в системе STATISTICA 577 Построение плана 589 Задание имени и сохранение экспериментального плана 591 Анализ экспериментальных данных 591 Глава 17. Нейронные сети 611 Пре/постпроцессирование 625 Оценка качества работы сети 627 Диалог в модуле Нейронные сети STATISTICA 627 Заключительные комментарии 636
12 Содержание Глава 18. Язык STATISTICA VISUAL BASIC (SVB) 641 Структура языка STATISTICA Visual Basic 641 Запись макросов 642 Макрос анализа 642 Запись макроса анализа 643 Создание графика 646 Мастер-макрос 648 Клавиатурные макросы 649 Среда программирования 649 Основные соглашения STATISTICA Visual Basic 650 Типы данных, массивы, функции 652 Операторы управления порядком выполнения команд 655 Глобальные переменные, передача аргументов по значению и по ссылке 656 Примеры программ с комментариями 658 Пример: формирование коллекции таблиц данных 658 Создание таблицы данных и заполнение ее случайными числами 659 Вывод индикатора состояния 659 Построение гистограммы с подгонкой нормального распределения 660 Создание пользовательских диалогов 662 Просмотр объектов и функций 663 Приложение 1 667 Приложение 2 669 Приложение 3 677 Словарь терминов пакета SNN (версия 4.0) 677 Функции активации, реализованные в SNN 683 Функции ошибок, доступные в SNN 685 PSP-функции 686 Алфавитный указатель 687
Введение В книге, написанной научным директором компании StatSoft Russia, изложена концепция и технология современного анализа данных на компьютере. На основе элементарных понятий описываются углубленные методы анализа в системе STATISTICA (StatSoft), иллюстрированные многочисленными примерами из экономики, маркетинга, рекламы, бизнеса, медицины, промышленности и других областей. Большое внимание уделяется основным понятиям анализа данных, разведочному анализу данных, группировке, анализу и построению таблиц — важным этапам анализа данных, на которых формируются и проверяются гипотезы о структуре данных и связях между ними. В книге изложены классические и современные методы анализа данных, позволяющие получить всестороннее описание данных (например, в задачах массового обследования и мониторинга), провести классификацию, найти закономерности и зависимости между переменными, — иными словами, ответить на важные вопросы, которые задает исследователь, впервые столкнувшийся с огромным массивом информации. Подробно описан визуальный анализ как первый этап сложного исследования, — сотни типов графиков в STATISTICA, включая двумерные, трехмерные, категори- зованные графики и пиктографики подробно рассмотрены с описанием опций и настроек. Все это делает книгу настольной для многочисленных пользователей STATISTICA. Предлагаемая книга адресована самому широкому кругу читателей, желающих стать профессионалами в анализе данных на STATISTICA в бизнесе, маркетинге, финансах, управлении, экономике, промышленности, страховании, медицине и других приложениях. Книга дополнена компакт-диском, включающим последнюю версию знаменитого учебника StatSoft по анализу данных, а также учебник по промышленной статистике, материалы обучающих курсов, демо-версии STATISTICA и SNN (нейронные сети), огромое количество данных для обучения и проведения самостоятельных исследований в STATISTICA и SNN. Во второе издание книги добавлены новые материалы, исправлены ошибки первого издания, а также написана новая глава о языке STATISTICA VISUAL BASIC (SVB), появившемся в 6-й версии STATISTICA. Кроме того, произведено обновление диска с добавлением некоторых программ на SVB, снабженных комментариями на русском языке.
Вступительное эссе: приглашение к анализу данных на компьютере Окружающий нас мир насыщен информацией — разнообразные потоки данных окружают нас, захватывая в поле своего действия, лишая правильного восприятия действительности. Не будет преувеличением сказать, что информация становится частью действительности и нашего сознания. Без адекватных технологий анализа данных человек оказывается беспомощным в жестокой информационной среде и скорее напоминает броуновскую частицу, испытывающую жестокие удары со стороны и не имеющую возможности рационально принять решение. Статистика позволяет компактно описать данные, понять их структуру, провести классификацию, увидеть закономерности в хаосе случайных явлений. Удивительно, что даже простейшие методы визуального и разведочного анализа данных позволяют существенно прояснить сложную ситуацию, первоначально поражающую нагромождением цифр. Особенность этой книги заключается в том, что в ней всесторонне, с подробными примерами описано применение разнообразных методов анализа данных. Вообще, наша идея состояла в том, чтобы вывалить из мешка различные методы, написав своего рода популярную энциклопедию всевозможных методов анализа данных, и позволить пользователю, применяя систему STATISTIC А, свободно экспериментировать с этими методами, работая как с собственными данными, так и с предлагаемыми нами. Мы дополнили книгу компакт-диском, на котором записаны демо-версии системы STATISTICA, файлы данных, материалы курсов и многое другое. Запустите диск и одновременно читайте книгу — это позволит всесторонне освоить технологии анализа данных. Мы описываем как классические методы анализа, так и современные, включая нейронные сети, в частности, чрезвычайно интересный анализ соответствий, позволяющий исследовать сложные многомерные таблицы, возникающие в экономике, маркетинге, медицине и других областях. Даже традиционные методы мы стараемся рассмотреть под новым углом зрения, акцентируя внимание на нестандартных приложениях. Визуальные методы анализа данных чрезвычайно важны, и мы посвящаем им несколько глав. Многие явления, остающиеся за кадром, становятся отчетливыми, если найти подходящее графическое представление.
Вступительное эссе: приглашение к анализу данных на компьютере 15 Например, на графике, приведенном ниже, мы видим два временных ряда: цены на нефть в долларах за баррель и курс доллара по отношению к рублю за несколько лет. Рассматривая график, вы видите, какие тенденции имеются в данных. Конечно, это простейший вариант графического представления! Далее вы можете перейти к построению более сложных моделей, однако первые закономерности, найденные визуально, сохранятся и в углубленных моделях. Именно поэтому мы уделяем визуализации столь большое внимание. Множество практических примеров рассмотрено в данной книге. Чтобы сделать изложение систематическим, мы начинаем с простейших понятий — которых, к счастью, не так и много — и учимся говорить на языке анализа данных, рассматривая простые и понятные всем примеры, постепенно развивая их до сложных задач. Мы не следим тщательно за строгим обоснованием методов, а просто говорим: имеются такие-то методы и там-то их применение принесло успех. Если вы желаете, попробуйте применить эти методы для анализа собственных данных и, быть может, получите обнадеживающий результат. Деты (и$ переменном: DATE ) - * * ЦЕНА Д.РУБЛЬ Рис. 1. Динамика цены 1-го барреля нефти (в долларах) и реального курса доллара (покупательной способности доллара, выраженной в рублях) Но что значит обнадеживающий результат? Если из множества возможных вариантов действий вы с большей вероятностью, чем ваш противник, выбираете правильный вариант или добиваетесь более ясного понимания действительности, «снимая» случайность, то, очевидно, вы находитесь в лучшей ситуации, чем ранее, когда полагались на волю случая и отдавали себя во власть неопределенности. Итак, разнообразие методов и обилие примеров — вот основная идея книги, которая по этой причине может быть названа энциклопедией методов анализа и областей их применения. Строгое обоснование методов — не наша цель, так как многие интуитивно понятные методы и родились из решения практических задач и лишь позднее получили строгое математическое обоснование, что никак не уменьшает их прагматической ценности. Для широкого круга пользователей полезно знать, где и какие методы применялись на практике и когда привели к успеху, и мы хотим максимально развить интуитивное представление пользователя об анализе данных, не предполагая наличия
16 Вступительное эссе: приглашение к анализу данных на компьютере у него специальной подготовки. Таким образом, мы хотим познакомить читателя с культурой анализа данных. В качестве источника данных мы используем, например, Интернет и иллюстрируем применение методов анализа на этих данных. Популярность Интернета общеизвестна, но что нового может дать анализ данных в этой области? Вот один из примеров. Вы производите поиск по различным ключевым словам в некоторых поисковых системах и отмечаете количество ссылок; спрашивается, различаются системы поиска или нет? Именно с такого рода примерами мы будем иметь дело. Ниже приведены графики количества посетителей сайта. Спрашивается, как строго доказать, что реклама имела успех? Правило 3-сигма позволяет оценить эффективность рекламной кампании и, следовательно, работу менеджера по рекламе. CTSITEGRF6STG ЛинеАмыв грв«мв Число заходов иа сайт Чмсяо н«6ямдеимм: 346 Среднее: 21.155 Максимум: Ж.— Оамд. отклонение: 3«.4fS ° М Пиния среднего [ ж а ' Л " „ а т ' п 1 9 ГС 71 7Г 53 » * «I Я «3 «в ДНИ Рис. 2. Оценка эффективности рекламы График спектральной плотности показывает, что в данных имеется отчетливая периодичность с лагом 7, так как пик спектральной плотности приходится на 7 дней. nSPECTRI STG: Спектр аиалиэ: HOST Спектр, анализ: HOST Число набл.: 72 ВесаХемминга: .0357 .2411 .4464 .2411 .0357 Рис. 3. График спектральной плотности
Вступительное эссе: приглашение к анализу данных на компьютере 17 График недельной составляющей позволяет увидеть, как изменяется (в процентах) число посещений сайта в зависимости от дня недели. Исследуя разность нагрузки Интернета в рабочие и выходные дни, можно оценить долю «домашних» подключений к сети. Подобного рода закономерности возникают в самых различных областях: в торговле, бизнесе, промышленности, — важно уметь находить их и использовать в своих целях. flseasonl.STG: Гра+ переменны* HOST Недельная составляющая посещений сайта компании Сеаон. составл. (се*он * 7); Понедельник Среда Пятница Воскресенье Вторник Четверг Суббота Рис. 4. Зависмость заходов на сайт от дней недели Прогнозирование: представьте, что вы имеете данные ежемесячных продаж. Вам нужно спрогнозировать продажи на текущий месяц. Как вам поступить? Вполне разумный подход состоит в том, чтобы взять в качестве прогноза продажи предыдущего месяца. Далее вы можете развить этот подход, использовать для прогноза продажи нескольких предыдущих месяцев, усреднить их, например, с разными весами. Как крайний случай, вы усредняете все продажи. Так из вполне естественных рассуждений возникает метод скользящего среднего. Если вы хотите учесть сезонный фактор, например прогнозировать продажи в январе текущего года, используя информацию о продажах в январе предыдущего года, то следует использовать сезонное скользящее среднее. Если вы хотите учесть все продажи, но с разными весами, то используется экспоненциальное сглаживание (exponential smoothing) с очевидными вариациями: сезонное или несезонное, с трендом (отчетливо выраженной тенденцией) или без тренда. Обобщение модели скользящего среднего приводит к моделям АРПСС — авторегрессии и проинтегрированного скользящего среднего, или, в английской терминологии, ARIMA (Autoregressive Integrated Moving Average). Какую из этих моделей выбрать? Ответ: запустите STATISTICA и поэкспериментируйте с различными моделями. Разбейте данные на две группы — используйте данные второй группы для проверки качества прогноза (для проверки можно оставить, например, пятую часть ряда). STATISTICA позволяет экспериментировать с методами анализа, а это огромное достижение! В тех ситуациях, когда классические методы не работают, можно испытать нейронные сети. Мы рассматриваем их как полезный инструмент анализа, имеющий свои достоинства и ограничения (см. главу 17).
18 Вступительное эссе: приглашение к анализу данных на компьютере Вот типичный пример. Рассмотрим данные о розничных продажах бензина в США (данные доступны на сайте www.economagJc.com в разделе Census Bureau: Retail Sales by Kind of Business). В численном виде данные приведены в приложении 1. Прогнозирование тех же данных с помощью нейронных сетей описано в приложении 2. На графике данные имеют вид: Gagii'iii.-ir.i.i'f-ii'-.iii-.ii'iti^y-i'i1 Объем продаж автозаправочных станций 24000 | S 12000 £ 8000 4006 Можно выделить два временных интервала, на которых динамика показателя различается ' ,^ vyvs ./W\<W VI лл/^W Ш: ! гЛ г^ СО ^-СЭ «- Гч гп «» ю 1Л-»«-' » W О ^- гм о *» ц-> ю Рис. 5. Розничные продажи бензина в США С помощью графика можно выделить два временных интервала, на которых поведение ряда существенно различается. Технологии прогнозирования, описанные в книге: Боровиков В. П., Ивченко Г. И. «Прогнозирование в системе STATISTICA в среде Windows», M.: Финансы и статистика, 2000, позволяют построить прогноз продаж бензина с помощью моделей ARIMA — АРПСС (авторегрессии и проинтегрированного скользящего среднего). ffetftM квпиИ и» порвммтуо &>*tf j1 ° АРПСС (Бокс и Джмжмис) » ютокоиин В «М«*«НДЛЯ ЙИМА0М4ОЙ парвмвм* [р*лА < »егмздЛл«р««ггмрам^*«»«пе0ем»««*, | дауэдм щвжнит» по нам» Чтобы защитит» перв*и>му> 1<г^»1Ш1»1г<»мпрс«адюш1вгпрао6р«ао»*нмяу,дмж»м щелкните и» соагмггстяуошеА строке в столбце Блок. Рис. 6. Модуль анализ временных рядов в STATISTICA
Вступительное эссе: приглашение к анализу данных на компьютере 19 Г М«. лопфн+ц Г ipmmetmвегочикр Щ I & <:р«Э £|1;Кач«ооЛр . уточит*» д| Р Р**«кя» 3, lUr.fi Щ По»«»о*:П 3 ;Г 2:|:: fcj < •••>-'••■•■ < •'•■• =:=-■ ^J Vl Друтпрвибрстмашиигра&нц» I ; f 4:[ С ТотиыД (Мм*»*) Odawwm nn»wwr. fo"~ | У НМММММ.Ч1 ;rs:F ,r*F Рис. 7. Построение прогноза продаж с помощью моделей АРПСС UIJ.li.■ЦЩ.1М Я I.MJ 11.Ш НИШМ. ■■■■■ ВИ Г^югьо>ы. Моде* IO.t 0 »1.0 1Ке «►•«>•■ члг i Ис«од ПРОДАЖИ Нечего исходны» 1ЭЗ комецмсходи 409 Прогмо) сотасмо полученной мидепи к WV-Av^/' vAvvVv' лМУ 120 140 160 190 200 220 240 260 280 300 320 340 360 360 400 420 440 маОпюдаемь* • Пролом J 90 0000% Рис. 8. Прогноз продаж бензина с помощью моделей АРПСС В качестве альтернативы можно использовать экспоненциальное сглаживание. На следующих рисунках показан прогноз, построенный с помощью экспоненциального сглаживания, который сравнивается с прогнозом на основе модели ARIMA — АРПСС. Мы использовали часть данных для построения модели, а на оставшихся данных сравнивали прогнозы. inn mill hi ii in \\шшшшшшшшшшшшшшсшш Рис. 9. Прогноз с помощью экспоненциального сглаживания
20 Вступительное эссе: приглашение к анализу данных на компьютере ■ ..101x1 График прогнозов экспоненциального сглажиеамия и с помощью АР'МА модели '. гншинп.м» ЛН1МЛ модем» У ^ ■V'/" И|Ю1НПЗ Наблюдаемые :>ьспо»к>»<ииим,1 1.ГП»ЖИР 1МИРИ Рис. 10. Сравнение прогнозов Хотя в книге мы обращаем внимание на тонкие моменты исследования, более важная наша задача — показать читателям, на какие результаты вообще можно рассчитывать, применяя данный метод, и как избежать явных ошибок. Итак, нам хотелось бы донести до читателя клише анализа данных: от визуального анализа данных, описания данных с помощью простейших дескриптивных статистик до сложных продвинутых методов, позволяющих понять структуру данных, классифицировать данные и оценить связи между ними. Ранее, до появления персональных компьютеров, анализ реальных данных был чрезвычайно сложным, требующим больших интеллектуальных усилий делом, и ни о каких технологиях не могло быть и речи. Это было дело небольшого круга посвященных. Благодаря таким системам, как STATISTICA, открылся путь к новым технологиям анализа данных, максимально сокращающий рутинные процедуры и делающий анализ максимально доступным для широкого круга пользователей. На следующих рисунках показан типичный диалог в STATISTICA. 2«А* fjp*»*-* tm 4"*"* С*>*»« С«*ис 0»м* I адшявге гт *«.-11П«Ч.я.,ятг, Д |П»р»| наги и]НЫЦ| 7:оо 7:оо 7 400 ■ЗКН за^г П 118 о не 'JAW< '-bOlj'SV tOJ-tfc-' 15716 00 033 0 000 С*1-' •.о Ч «0 :isn щвг I Отие«« ] Ш»(— «л.*.: [Г"| д.*. в.м. (о~~| Q j»fw. ] 1.1 p»ft" {bw^&>$ |К£блй Рис. 11. Рабочее окно STATISTICA с файлом данных о проблемных банках
Вступительное эссе: приглашение к анализу данных на компьютере 21 STATISTIC* ■з! .;. л*.-|.»-.»м ;/W *?.* ~*'rj:.<»< ouii, •г1>;чи:»Н1«.н i-i no i>.;umi.m4mi»(m Г~| Qfc Лотт porpocom робкт регрессия f-l' ' I ' 1 |L2» Отмсч* Ш i,J»t»t!Vtt^<««*«M<Vt* } ' Рис. 12. Логит-регрессия в STATISTICA — выбор метода оценивания Задание начальных знамений Конст.ВО ID BANK 000001 f PR0TJ*P ] 0001 EQ_PERF jl j OVJJQ p02 Ш ok j Отмена 0£щее значение : 0 1 ±H l Применить га Модель: Логит регрессия (bank.sta) НЕЛИН. ОЦЕНИВ. N = 182 шш Зав.перем: BAD Потери: Макс правд Ок.потери: 75.688258305 Хи2( 4)=52.208 р= 00000 Ко*к&:во BANK -2 6 '=» 2 О Б | 0000007 4 59557 0677422 1 000001 99 04430 1059 .151 95 94308 PROTLCAP 1 ECLPERF 1 OV^IIQ Олн.несогл.-eg.иэм. Оты.несогл.-размах ы — 25 5 6 6 0 5 3 9 00026 1 0554 00301 103 8087 :.Г Рис. 13. Задание начальных приближений и оценки параметров модели
22 Вступительное эссе: приглашение к анализу данных на компьютере j£j График 11 Нормальный вероятностный график остатков НйЕЗ НорЯМЛЬНЫИ |#рОЯТМОСТИЫИ ф1+ИС ОСТ1ТГ01 Рис. 14. График остатков показывает адекватность построенной модели Если раньше каждый шаг исследований: представление данных, перевод их в нужный формат, проверка, группировка, сортировка, сжатие, графическая интерпретация, запуск программы обработки, задание параметров анализа, просмотр результатов, был трудной задачей, то теперь достаточно двух-трех щелчков мыши, чтобы огромные объемы данных чрезвычайно быстро преобразовались, обработались и появились на экране в виде графиков, диаграмм, таблиц, статистик критериев. Наша точка зрения состоит в том, что при современном развитии компьютерных технологий начальные этапы анализа данных, визуальный и описательный анализ, а также пробное применение сложных методов вполне могут проводить специалисты из конкретных областей — те, кому результаты анализа в первую очередь нужны и кто располагает реальными данными, «вжился» в них. Представьте, вы анализируете некоторый рынок, то есть множество товаров, цен, продавцов, покупателей и т. д. Прежде всего, ваша задача состоит в том, чтобы разумно описать рынок, например рынок недвижимости, — ввести данные, провести визуальный анализ, сгруппировать данные и найти некоторые первые устойчивые закономерности в организации рынка. Уже первые шаги такого анализа показывают, что на цены, в основном, влияет тип квартиры и район. Остальные характеристики менее значимы. Так, первый этаж снижает стоимость квартиры примерно на 1/10, последний — в 2-3 раза меньше. Отсутствие балкона или лоджии также снижает стоимость (примерно на ту же величину, что последний этаж). Наличие или отсутствие телефона практически не влияет на цену, но продать телефонизированную квартиру значительно проще. В общем, разница цен между кирпичными и панельными домами невелика, скажем, процентов 5, — имейте в виду, что данный пример во многом искусственный, — но ближе к центру больше ценятся кирпичные дома и т. д. Проведение такого рода описательного анализа, построение понятных графиков и ответы на разнообразные простые вопросы типа: «А что у нас по пятницам?» и т. д. — это первый естественный шаг всякого исследования. При этом используются самые простые описательные статистики, графики, группировка данных...
Вступительное эссе: приглашение к анализу данных на компьютере 23 Далее, после разбиения жилья на однородные группы, возникают более сложные аналитические вопросы, например, как влияет на стоимость типового жилья появление элитных квартир? Или как повлияют большие продажи муниципального жилья на цены? Как зависит спрос от сезонной составляющей? Как зависят продажи от текущего строительства в городе? Мы рассмотрели рынок недвижимости, но точно такие же методы применяются при исследовании других рынков: финансового, фондовых, товарных, сырьевых... Здесь нужно перейти от описательного анализа к более сложным статистическим моделям, например регрессионным. Любой рынок по существу своему многомерен, то есть описывается многими параметрами, поэтому необходимо применять многомерные методы, например факторный анализ, чтобы понять, какие факторы в основном влияют на цену квартиры, многомерное шкалирование, деревья классификации и т. д. Для анализа динамики цен и прогнозирования изменения цен в зависимости от времени применяются методы анализа временных рядов. Очень многие сложные задачи успешно решаются довольно простыми статистическими методами. Например, известно, что краткосрочная финансовая политика США строится на основе модели линейной регрессии с учетом сезонной информации о финансах. Однако применение даже простых методов приносит эффект. В бурно развивающейся отрасли средств телекоммуникации важно решать следующие задачи: О прогнозировать пиковые нагрузки в сети, О оценивать недельные колебания нагрузки, О рационально выбирать место строительства новой станции для эффективного развития сети. В принципе, задача рационального выбора места строительства станции может быть решена с помощью методов множественной (многомерной)'регрессии. Она вполне аналогична разбираемой нами задачи о строительстве атомной станции. Оценка колебаний нагрузки сети в зависимости от дней недели решается с помощью метода сезонной декомпозиции. Для прогнозирования нагрузки в сети можно использовать модели авторегрессии и проинтегрированного скользящего среднего. Регрессионные модели также используются для процентного выражения прибыли магазина определенного типа в текущем году. В качестве регрессоров используются величина спроса, качество товаров, рост доходов и др. (см. например, статью Thurik A. R. A985). Retail margins during recession and growth, Econ. Lett., 17, № 3, p. 281-284, где даются расчеты по данным реальных наблюдений и финансово-экономический анализ результатов). Регрессия эффективно применяется для анализа экономической активности в различных регионах. Такая модель, например, с успехом применялась для анализа реальных данных в Швеции. Степень вариации или изменчивости параметров модели для различных муниципалитетов интерпретировалась как пространственная изменчивость, а для эффективного оценивания неизвестных параметров принимались некоторые априорные допущения о величине их изменения, см. например, работу Westlund Anders H. A986) On econometric analysis of regional structural variability, Adv. Modell. And Simul., 5, № 3, p. 25-44.
24 Вступительное эссе: приглашение к анализу данных на компьютере Интересные результаты регрессии для прогнозирования доходов телевизионных компаний в зависимости от трех факторов: числа продаваемых телевизоров, общего числа рекламных объявлений и правительственных мер, ограничивающих некоторую рекламу (например, рекламу сигарет), можно также получить с помощью регрессионных моделей и т. д. Мы употребили слово «регрессия», которое в анализе данных имеет почти магическое значение и, возможно, отпугивает своей странностью многих. Но что такое регрессия? В действительности, регрессия — это очень просто, и если отбросить статистический жаргон, включающий такое малопонятное слово, как «регрессия», то вы легко поймете, в чем здесь дело. Представьте, вы изучаете годовой доход телевизионных компаний. «От чего он может зависеть?» — спрашиваете вы себя и перечисляете следующие факторы, от которых зависит доход: число зрителей, смотрящих ТВ, затраты на рекламу в год и некоторые другие. Тогда регрессия — это просто уравнение, в котором в левой части стоит интересующая вас переменная, например годовой доход, а в правой число зрителей, умноженное на некоторый коэффициент, плюс затраты на рекламу, умноженные на другой коэффициент, плюс другие параметры. То есть вы имеете уравнение: ДОХОД = А1 х ЧИСЛО_ЗРИТЕЛЕЙ + А2 х РЕКЛАМА+... Итак, у вас есть просто зависимость одной переменной от других. Замечательно, что все параметры (коэффициенты уравнения в правой части) рассчитываются по реальным данным, а не назначаются умозрительно. «А для чего мне нужна эта зависимость, выраженная в явном виде?» — спросите вы. Предположим, вы расширили сеть кабельного телевидения, то есть увеличили число зрителей, тогда вы можете спрогнозировать свой доход. Именно так и поступал R. Sassone в исследовании, выполненном в 1978 году в США (данные были получены частично от McCann-Erickson, Inc., частично от Television Bureau of Advertising). Аналогично вы можете спросить себя, каким образом изменятся внутренние цены на нефть при изменении цен на международном рынке, и попытаться ответить на этот вопрос с помощью регрессионного анализа. Типичная задача анализа качества: вы имеете группы поставщиков сырья и показатели качества продукции. Как зависит качество продукции от качества сырья? Слово «регрессия» мы часто будем заменять словом «зависимость» и надеемся, нас правильно поймут. Вообще, мы будем стараться максимально уходить от статистического жаргона и выражаться доступным для каждого здравомыслящего человека языком. Потому что наэтом языке изначально формулируются задачи анализа данных. Известны сотни эффективных применений статистических методов и регрессии, в том числе в экономике, маркетинге, финансах, медицине, промышленности и т. д. Результаты выглядят очень простыми, естественными и впечатляющими. Невозможно проведение актуарных расчетов без анализа конкретных данных — клиента интересует реальный риск, а не виртуальный, так как от оценки риска зависит конкретная процентная ставка и реальный платеж. Важным полем применения статистических методов являются современные системы электронной торговли. Успешные действия систем онлайновой торговли требуют от фирм предсказания поведения индивидуальных покупателей.
Вступительное эссе: приглашение к анализу данных на компьютере 25 Крупнейшие фирмы, занимаясь электронной коммерцией, несут ежегодно огромные убытки из-за того, что 5-10% покупателей меняют фирму или переходят в пассивное состояние (см. Greg M. Allenby, Robert P. Leone and Lichung Jen A999). A dynamic model of purchase timing with application to direct marketing, J. American Statistical Association, v. 94, № 446, p. 365-374). Системы регистрации электронной торговли позволяют зафиксировать моменты прихода каждого покупателя в магазин, сумму сделки, количество товаров и другие параметры. Здесь уже все готово для проведения статистического анализа. Важно спланировать его и провести анализ системно. Одна из возможных задач состоит, например, в том, чтобы оценить периоды между покупками и изменить стратегию воздействия на покупателя — например, провести более активную рекламную кампанию, если покупатель не обращается на фирму в течение чрезмерно долгого времени. Для описания интервалов времени между приходами посетителей в электронный магазин можно использовать, например, гамма-распределение. На модельных данных, отражающих реальную ситуацию, нами подробно разбирается пример СУПЕРМАРКЕТ: от первичного, описательного анализа данных о покупках в течение дня до углубленного анализа и получения неочевидных выводов. Мы начинаем с корреляционной матрицы продаж: [ф Данные coiil STA 6п * 6и мясо РЫБА СПИРТНЫЕ НАЛИТКИ ЧАР) " ГОФЕ К 1 коп эасы.И 1 00[ lb 1 ми 1.' Н JM P'U&A (СПИРТНЫЕ 1 16 i: 1 ЛП IF, 14 1Г 1 00 .... ЧАИ J 11 1 00 1 ? И 6 КОФЕ \Г.\ х| т 07 10 1Ь 11 I7 0A » ч Рис. 15. Корреляции между покупками различных товаров Затем рассматриваются графики, исследуется вариабельность покупок в зависимости от дней недели, применяется многомерный анализ, анализируется потребительская корзина для различных категорий пользователей, различных дней недели и т. д. СПИРТНЫЕ НАШ ТКИ Срд Ч1В П1И Сб1 ДЕНЬ НЕДЕ ПИ Т~ *Ci. они!. СЗ iCi.oui. " Среднее Рис. 16. Продажа спиртного в зависимости от дней недели
26 Вступительное эссе: приглашение к анализу данных на компьютере 1.Ц.1!|1|Д,|1Ш1Ц|.ШИ1Ш1.и11.Ы.1 Диаграмма размаха: КОЛЬАСА Т" ■rU 1" ! ''"" ~т~ ПЖ2 Пид Bip Срд Чт Ши СО! Век ДЕНЬ ~Г~ iCi. 01кл. I'Z'J *Ci. ош. г- Среднее Рис. 17. Продажа колбас в различные дни недели hlMli;i^'""ill 'll'r" "IJI'II'I Диа! рамма размаха суммарных покупок Рис. 18. Зависимость суммарных покупок от дней недели Как уже говорилось, много примеров связано с Интернетом. Имея файл с частотами посещений различных страниц сайта, можно изучить структуру посещений различных страниц. \ти* число* 1 2 3 4 б 6 7 6 9 Я иные sile99STA11 Частота 1 НОМЕ п- 100м посещения различных страниц сайта I 2 шаг ^новостижгдд: 5 2 1 1 3 1 1 1 2 1 1 2 1 1 2 I • i 1 1 1 2 1 —I 4 ПРОДУКТЫ 2 2 1 1 5 б ЛЕКЦИИ 1 2 1 1 1 6 ПОДДЕ РЖ 2 1 2 3 7 нн УЧЕБНИК 8 ВАКАНСИИ 3 1 2 2 1 3 1 1 б 1 \ Рис. 19. Посещение страниц сайта пользователями
Вступительное эссе: приглашение к анализу данных на компьютере 27 В частности, можно получить выводы типа: из 100 человек, посетивших страницу 0_ФИРМЕ, 70 человек посетили страницу ПРОДУКТЫ, 50 человек посетили страницу ПОДДЕРЖКА, 20 человек посетили страницу ВАКАНСИИ. Все это делается в модуле Основные статистики и таблицы системы STATISTICA. Нетрудно также оценить вероятность того, что пользователь с определенной страницы сайта, например страницы А, перейдет на страницу В. Блуждание пользователя по сайту вполне описывается вероятностной моделью. Имея исходные данные, можно оценить параметры этой модели и рассчитать типичный «путь». В отдельной главе нами всесторонне описываются различные распределения вероятностей и их применение на практике. Зная вероятные распределения, можно описать многие реальные явления, например спрогнозировать число покупателей в определенные промежутки времени. 22 20 18 8 16 i и | 12 S ю с о 8 х « т 4 2 0 С ПЗЕЗШЯ S ) 20 График прихода покупателей • магазин электронной торговли Данные: torgl .8ТА 10п * 20н I _Н 40 60 80 100 120 Время (мин.) 140 ■ ЛР1х1 1С Ю Рис. 20. Приход покупателей в магазин электронной торговли ФуНМЦИЯ ПЛ01НОС1И У«пт«<х,2) 1.1 Рис. 21. Гамма-распределение может быть использовано для моделирования моментов посещения электронного магазина
28 Вступительное эссе: приглашение к анализу данных на компьютере Общеизвестно применение статистики в медицине и фармакологии. Оценка эффективности лекарств, классификация больных по степени тяжести заболевания, исследование кардиограмм, самые разнообразные тесты, позволяющие диагностировать пациентов на раннем этапе заболевания, и многие другие задачи хорошо известны. Только математика открывает путь к доказательной медицине. В знаменитом фрэмингхемском исследовании, выполненном в США (см. Truett, J., Cornfield, J., and Kendall, W. A967). A Multivariate Analysis of the Risk of Coronary Heart Disease in Framingham, Journal of Chronic Disease 20, p. 511-524), статистический анализ применялся для оценивания зависимости риска развития ишемической болезни сердца от семи факторов. В этом исследовании в течение 12 лет были собраны данные о проявлениях ишемической болезни у 1929 мужчин и 2540 женщин в возрасте от 30 до 62 лет. В начале обследования все пациенты были здоровы. Факторами риска служили: возраст, количество холестерина в крови, систолическое давление, вес, количество гемоглобина в крови, количество выкуриваемых в день сигарет @ — для некурящих, 1 — для выкуривающих меньше одной пачки, 2 — одну пачку, 3 — больше одной пачки), электрокардиограмма @ — нормальная, 1 — ненормальная или неясная). Проведенный анализ позволил изучить влияние факторов риска на развитие ишемической болезни сердца и стимулировал целый ряд подобных примеров в самых различных медицинских приложениях. Рассмотрим классические данные Гринвуда и Юла о влиянии прививки на заболеваемость холерой (данные относятся к началу XX века, см., например, Справочник по прикладной статистике, т. 1, М.: 1989, с. 245). В приведенной ниже таблице показаны 2663 пациента, части из которых были сделаны прививки против холеры (привитые пациенты), а части нет (непривитые пациенты). Привитые Не привитые Сумма Не заболевшие 1625 1022 2 647 Заболевшие 5 11 16 Сумма 1630 1033 2 663 Что можно сказать, глядя на эту таблицу? Прежде всего, видно, что среди тех, кто сделал прививку, число заболевших меньше, чем среди тех, кто не сделал прививку (второй столбец таблицы, первая и вторая строка). Кроме того, число не заболевших среди привитых пациентов больше, чем не заболевших среди не привитых (первый столбец таблицы). Это делает правдоподобным заключение об эффективности прививки. Но как перевести эти рассуждения на рациональный язык? Имеется ли вообще такой язык? Представьте, нашелся критик результатов (нового метода лечения, нового лекарства), который, заняв крайнюю позицию, резонно замечает, что и в том и в другом случае, то есть и среди привитых пациентов, и среди не привитых, были отмечены случаи заболевания, иными словами, полученные результаты носят чисто случайный характер, и утверждение об эффективности прививки весьма сомнительно. Как рационально ответить на подобную критику?
Вступительное эссе: приглашение к анализу данных на компьютере 29 Лучше всего воспользоваться вероятностными рассуждениями и подходящим статистическим критерием. Для такого рода таблиц, называемых таблицами сопряженности, имеются специально разработанные критерии, например критерий хн- квадрат и критерий Фишера, названный по имени знаменитого английского статистика Р. А. Фишера. Эти критерии измеряют силу связи между признаками (переменными) таблицы, в данном примере между признаком прививка и признаком болезнь. Для представленной выше таблицы величина статистики хи-квадрат равна 6,08, что значимо на уровне 0,0136 (чтобы получить эти цифры, мы сделали два щелчка мыши в системе STATISTICA). Следовательно, с небольшой вероятностью ошибки (меньше 0,0136) вы можете утверждать, что среди привитых пациентов количество заболевших существенно меньше, чем среди непривитых. Поэтому вероятность того, что суждение критика о неэффективности вакцины справедливо, равна всего 0,0136 (примерно один шанс из 70). Ваша же оценка достоверности результатов существенно выше. Весьма полезным визуальным методом изучения зависимостей между признаками таблицы являются графики взаимодействий: Гр«фим в 17М 1SM 13М 11М ! - 1 '» SM зм 1U •1М к вэаимо* ПРИВИВКА к БОЛЕЗНЬ ЯИЕЗ »*имод.: ПРИВИВКА х БОЛЕЗНЬ \ \ \ \ °V \ >W Ч ^v ч Л.Ч ^у. _ Не »«6олеяи Заболели БОЛЕЗНЬ -«- ПРИВИВКИ НЕТ ♦ г, ПРИВИВКА ЕСТЬ Рис. 22. График зависимости БОЛЕЗНЬ — ПРИВИВКА Здесь показаны две прямые, сооткетствующие категориям больных: привитые — не привитые. Если прямые пересекаются, то говорят, что признаки взаимодействуют, влияют друг на друга. Если прямые параллельны, то говорят, что взаимодействия или зависимости между признаками нет. Это визуальный подход, точные результаты дают статистические критерии. Первые применения статистики в медицине, по-видимому, относятся к XVIII веку, когда в Англии было замечено, что относительная частота смертности мужчин и женщин одного возраста, живущих примерно в одинаковых условиях, из года в год колеблется, но колеблется в весьма узких пределах. Самым интересным здесь является замечание: «колеблется в узких пределах», — всем известно, что колебания происходят, — неожиданным фактом являются узкие границы колебания, что позволяет с большой точностью предсказать долю умерших в той или иной категории населения и служит основой актуарных расчетов. Итак, в случайном явлении — смертности или, наоборот, выживаемости людей — была открыта устойчивая закономерность: относительная частота или доля для
30 Вступительное эссе: приглашение к анализу данных на компьютере людей одного пола и близкого возраста примерно постоянна. А это удивительное открытие, повлекшее за собой множество событий, в частности современное страхование. В современной медицине накопились огромные архивы данных, и их исследование с помощью новых технологий чрезвычайно важная задача. STATISTICA позволяет реализовать системный подход к анализу данных. У каждого врача имеется собственный архив данных, отражающий многолетний опыт его работы, — огромный массив знаний, имеющий большую познавательную ценность. Ценность этой ш1формации может быть многократно увеличена, если воспользоваться методами анализа данных. И в этот момент на помощь врачу приходит система STATISTICA, позволяющая перевести клинический опыт на язык количественных оценок (подробнее о применении статистики в медицине см.: Ст. Гланц. Медико-биологическая статистика. М, 1999). В STATISTICA реализованы множество методов, чрезвычайно полезных врачам для анализа их данных, в частности описательные статистики и таблицы, анализ выживаемости, непараметрическая статистика, дискриминантиый анализ и др. Щ Анализ выживаемости и времен отказов |ЕШ Таблицы и распределения времен жизни |гг|/" Метод множительных оценок Каплана-Мейера j!|1j Сравнение двух выборок ||Л Сравнение нескольких выборок ■ ВД Регрессионные модели 1 ИЕЗ а ак Отмена (^? Данные «ист и сязи я. & а Рис. 23. Анализ выживаемости в системе STATISTICA Анализ выживаемости позволяет проанализировать неполные или цензуриро- ваниые данные, например, о выживаемости больных после операции (рис. 24). к h i 2 3 А 5 6 7 1« Данные: HEART STA 11 Heort transplant data trc ■ци JANUARY MAY AUG'JST AUGUST SEPTEMBR OCTOBER OCTOBER .1 DAY n " 65m m Crowlev and Hu. stratitied 3 YEARJ Г e 2 31 22 9 5 26 4 MONTHJ 68 JANUARY 68 MAY 68 MAY 68 OCTOBER 68 JANUARY 68 DECEMBER 68 JULY 5 DAY 21 5 17 i 14 8 7 6 YHARJ 7 :ensor£c 68:ensored 68:ensored 70 COMPLETE 68 COMPLETE 69:ensored 68 COMPLETE 72 COMPLETE 8 AGE 54 40 51 42 48 54 54 9 ANTI 0 0 0 0 0 0 0 10 MJ5MA 1 11 1 66 1 32 61 36 1 89 87 и ran I ~ и HOSPITAL HILLVIEW HILLV1EW | HILLVIEW ! ST_AND | ST AND ST.AND BINER Г Рис. 24. Данные по трансплантации сердца Одной из важных характеристик является функция выживаемости (вероятности того, что пациент проживет t дней после операции. Для оценки функции выживаемости по неполным данным используют так называемую оценку Каплана—Мей- ера, которая может быть легко получена в STATISTICA (рис. 25).
Вступительное эссе: приглашение к анализу данных на компьютере 31 UIJII.NIII.MJII1II|I|I|.II||I|J.IJIUJI1 Функция выживаемости о Завершен. + Цеизурироваииые 500 1000 Время жизни (дни) 2000 Рис. 25. Функция выживаемости после операции Этот график легко «читается»: вы легко видите, например, что доля пациентов, проживших больше 1000 дней, равна 0,4. Можно сравнить функции выживаемости в разных больницах, для разных возрастных групп (рис. 26). iTid-r1, ,'м дл,',', .г Л", 11-1; 11И1 г' mi. -i,f м/1;, I in1 ij-iih^ к j -i Кумулятивная доля выживших о Завершен. + Цеизуририроваииые 0 400 800 1200 1600 2000 200 600 1000 1400 1800 Время (дни) — HILLVIEW ■- ST_AND •• BINER Рис. 26. Сравнение выживаемости в разных группах \ лштшттштт <•* Неоараметрнчаоше тшшпт» С Подсоика р^уфтагтшт Цепаремотрмчаоциа статистики: "' В о* Таблицы 2 я 2: хи/V/e*. Мекиемара. точный Фмиера Ш0 Наблюдаемые частоты ■ сравнении с ожидаемыми Коррелядии (Спирмема, та*. К вид а л да. гамма) И8 Критерий серий Вальда-Вояьфовида метод для нес* щЩ Леу»еыборочный критерий Колиогороее-Смирнова J5J AN OVA Краскела-Уоллиса и медианный тест Критерия знаков ДЗЛ Критерий Вилкоксома (Jjjjj] AN0VA Фридмана и коикордадиа Кеидалла Q критерий Кохрена СЛ Обычные описательные статистики (медиана, мода...) & Рис. 27. Модуль Непараметрические статистики в системе STATISTICA
32 Вступительное эссе: приглашение к анализу данных на компьютере Опишем еще одну важную область применения статистических методов — современное высокотехнологичное производство. Традиционную область применения статистического анализа данных составляет промышленность. Обычно любая машина или станок, используемые на производстве, позволяют операторам производить настройки, чтобы воздействовать на качество производимого продукта. Изменяя настройки, инженер стремится добиться максимального эффекта, а также выяснить, какие факторы играют наиболее важную роль в улучшении качества продукции. Использование этой информации позволяет достигнуть оптимального качества в условиях данного производства. Например, на производстве (см. например, книгу: Box, Draper A990), Empirical model-building and response surfaces, New York: Wiley, 115) проводился эксперимент по нахождению оптимальных условий для изготовления красителя ткани. Качество красителя описывается насыщенностью, яркостью и стойкостью. Другими словами, в этом эксперименте нам хотелось бы выявить факторы, наиболее заметно (значимо) влияющие на яркость, насыщенность и стойкость производимого красителя. В примере Бокса и Дрейпера рассматривается 6 различных факторов, влияние которых оценивается с помощью так называемого плана2F0). В данном плане первоначально рассматривались 6 факторов, принимающих 2 значения, то есть всего имелось 26 = 32 различных вариантов установок. Результаты эксперимента выявили три наиболее важных фактора: Polysulfide (Полисульфид), Time (Время) и Temperature (Температура). Можно представить ожидаемое воздействие на интересующую нас переменную (например, светостойкость окраски) в виде так называемой кубической диаграммы, которая показывает ожидаемую (предсказываемую) среднюю стойкость краски, нанесенной на ткань, на верхних и нижних уровнях каждого из трех факторов, и определить те значения факторов, которые обеспечивают максимальное качество продукции (рис. 28). Рис. 28. Кубическая диаграмма показывает значимость факторов, установленных на разных уровнях
Вступительное эссе: приглашение к анализу данных на компьютере 33 Глядя на эту диаграмму, легко можно понять, что наилучшее расположение факторов для максимизации качества красителя следующее: Polysulfide установлен на верхнем уровне HIGH, Time — на верхнем уровне LONG, Temperature — на верхнем уровне HIGH. Таким образом, оптимум достигается на дальней вершине куба (см. рис. 28). В описанном эксперименте присутствовало 6 факторов, нередки, однако, случаи, когда очень много (до 100) различных факторов являются потенциально важными на производстве, однако заранее вы не знаете, какие факторы важны, а какие нет. • Специальные планы, например план Плакетта—Бермана или планы с матрицей Адамара, позволяют эффективно «просеять» или, как говорят на статистическом сленге, проскринировать большое число факторов, используя минимальное число наблюдений. Например, вы можете спланировать и проанализировать эксперимент со 127 факторами, используя всего 128 опытов, а затем оценить главный эффект каждого фактора, определив, какие факторы играют доминирующую роль, а какие нет. Выход продукта многих химических реакций является функцией времени и температуры. К сожалению, эти переменные влияют на выход не линейно. Другими словами, нельзя сказать: «чем больше продолжительность реакции, тем больше выход» и «чем выше температура, тем больше выход». Цель экспериментатора заключается в определении оптимального выхода или экстремальной точки поверхности выхода, образованной двумя переменными: временем и температурой. При проведении таких экспериментов используют так называемые центральные композиционные планы, позволяющие инженерам-технологам оценить поверхность регрессии (рис. 29 и 30) и найти экстремумы этой поверхности, или точки, отвечающие заданному значению зависимой переменной. Подобные планы применялись, например, для исследования ракетного топлива, в состав которого входили три компоненты: связывающее вещество, окислитель и горючее, а характеристикой качества являлась эластичность продукта (см. также планы для смесей в модуле Планирование эксперимента в системе STATISTIC А). Требовалось найти такие пропорции (доли) компонент, чтобы эластичность достигала заданного значения (см. Kurotori I. S. A966). Experiment with mixtures of components having lower bounds, Industrial Quality Control, № 2, p. 592-596). ■156 000 ■I 60 000 ■164 000 Ш 68 000 CU 72 000 CD 76 000 ■I 80 000 ■184 000 ■I 86 000 ■I 92 000 ■I «bow Fitted Surface. Variable YIELD 2 factors, 1 Blocks, 12 Runs, MS Re$idu«l=4 014637 DV YIELD Vield of process in grams Рис. 29. Поверхность регрессии
34 Вступительное эссе: приглашение к анализу данных на компьютере fti Г|*йфми I > Хъ*% Гркафш ИЮ01Г1Графм*4 XYZ графи* &ЩкШ& :Ц№¥&фМ$ WF113 i &Т№№&Ш£ЩржШ* ■Л -юго ■Л -OTfti ■■ о из Вй -0 30) О ооет СП от I 1 0 403 I ом? Рис. 30. Визуальные методы STATISTICA при планировании экспериментов Это типичные задачи планирования эксперимента, возникающие на производстве, и система STATISTICA предоставляет эффективные методы их решения. Ниже показаны методы планирования эксперимента, доступные в системе. iMiiimiJi'iiiwHW-iiiuii j£A Планы 2"|кр) (Бокса, Хаит ера и Хантера) '0г в а* 2-х уровневые отсеивающие Максимально несмешанные (П лакетта-Бермана) порядка 2"(к-р) Отмена с Планы 3""(к-р) и пианы Бокса Бенкена Е Смешанные 2-х и 3-х «ровиевые 1^/ Центр, составные, нефакториые. поверхности отклика ;Ц| Латинские и греко-латинские квадраты \£$\ Робастные планы Тагами /§>, Планы для смесей и триангул.поверхности Дли 4НвлИЗ* ПОЛНЫХ Факторных планов/ иерархически вложенных и с несЯа/чисированным вложением, смешанных моделей {со случайными мх^ктами! см. также модули Компонвитм дисперсии и Дисперсионный анализ № Планы для поверхностей с ограничениями и смесей D- и А- (Т-) оптимальные планы е- Данные & а Рис. 31. Модуль планирования экспериментов в STATISTICA Не менее важны в промышленности задачи контроля качества. Для всех производственных процессов возникает необходимость установить пределы характеристик изделия, в рамках которых произведенная продукция удовлетворяет своему предназначению. Вообще говоря, существует два «врага» качества продукции: 1. Уклонения от значений плановых спецификаций изделия. 2. Слишком высокая изменчивость реальных характеристик изделий относительно значений плановых спецификаций, что говорит о несбалансированности процесса.
Вступительное эссе: приглашение к анализу данных на компьютере 35 На более ранних стадиях отладки производственного процесса для оптимизации этих двух показателей качества производства часто используются описанные выше методы планирования эксперимента. Методы контроля качества предназначены для построения процедур контроля качества продукции в процессе ее производства, то есть текущего контроля качества. Детальное описание принципов построения контрольных карт и подробные примеры можно найти в работах: Buffa A972) Operation management: Problems and models Crd ed), New York:Wiley, Duncan A974) Quality control and industrial statistics, Homewood, IL: Richard D. Irwin, Grant and Leavenworth A980) Statistical quality control Eth ed.) New York: McGraw-Hill, Juran and Gryna A988) Quality planning and analysis Bnd ed.) New York: McGraw-Hill, Montgomery A985) Statistical quality control New York: Wiley, Montgomery A991) Design and analysis of experiment Crd ed.) New York: Wiley, Shirland A993) или Vaughn A974). В качестве превосходного вводного курса, построенного на основе подхода «как — чтобы», можно указать монографию Hart and Hart A989) Quantitative methods for quality improvement. Milwaukee, WI: ASQC Quality Press. Особенно интенсивно методы контроля качества используются в США, Германии, Японии. Общий подход к текущему контролю качества заключается в следующем. В процессе производства из произведенной продукции или поступающего сырья проводится отбор выборок изделий заданного объема. После этого на специально разлинованной бумаге строятся диаграммы средних значений и изменчивости выборочных значений плановых спецификаций в этих выборках и рассматривается степень их близости к плановым значениям. Если диаграммы обнаруживают наличие тренда выборочных значений или выборочные значения оказываются вне заданных пределов, то считается, что процесс вышел из-под контроля, и предпринимаются необходимые действия для того, чтобы найти причину разладки. Такие специальные карты называются контрольными картами Шухарта (названные в честь W. A. Shewhart, который общепризнанно считается первым, применившим их на практике в начале 30-х годов XX века). Один из примеров карты Шухарта показан на рис. 33. Смысл этой карты ясен. В последовательно поступающих партиях нефтепродуктов измерялась примесь вредных веществ. Строятся два линейных графика: для средних и размахов (разностей между максимальными и минимальными значениями выборки, что характеризует изменчивость характеристик производственного процесса). Вначале посмотрим на график средних. Если средние выходят за определенные границы, то мы говорим о неудовлетворительном качестве сырья. На графике средних значений партии неудовлетворительного качества имеют специальную метку. Далее рассматриваем график размахов. Размах — это разность между максимальным и минимальным значением выборки. Прагматическая ценность этой характеристики в том, что она служит мерой изменчивости. По расположению точек на графике размахов принимают решение о случайности или систематичности отклонения в качестве продукции. Ниже показаны карты контроля качества, доступные в системе:
36 Вступительное эссе: приглашение к анализу данных на компьютере ^^С-ларта по альтариашамом) лрмамак) £л^ U-парта по альтернативному признак) j£23 Np-карта по ааьтарнапммощ признак) [«. Р-карт а по а 5S Н 1<5> I fc^l Карта Т2 Хотаялммга гасивим-ларта**» 1> МА-карта дня £3 EWMA-карта »м Ь'Я Раграссмоииая контры IZT1 Карта Парато вывврип w карты. Друи»пртищ)ы . «литот» кчаст»» •- Рис. 32. Контрольные карты системы STATISTICA На практике могут возникнуть трудности при выборе наилучшей контрольной карты. Чтобы сделать выбор осознанно, нужно учитывать специфику производства, например, если исследуется концентрация определенных веществ в химическом процессе в режиме реального времени, то сложно провести группировку данных и следует применять карты для индивидуальных наблюдений. В отличие от этого, в машиностроении при измерении параметров продукции, например диаметров поршневых колец, легко разбить партию данных на подгруппы и применить соответствующие Х- и R-карты (рис. 33). Еще одной типичной проблемой, с которой сталкиваются инженеры по контролю качества на производстве, является следующая: определить, сколько именно изделий из партии (например, полученной от поставщика) необходимо исследовать, чтобы с высокой степенью уверенности утверждать, что изделия всей партии обладают приемлемым качеством. Допустим, что у вашей автомобильной компании есть поставщик поршневых колец для небольших двигателей, и ваша цель — разработать процедуру выборочного контроля поршневых колец в присылаемых партиях, обеспечивающую требуемое качество. Процедуры выборочного контроля применяются в том случае, когда нужно решить, удовлетворяет ли определенным спецификациям партия изделий, не изучая при этом все изделия. Ш11. LB1IIIH. Гистограмма средних Г4Л16 | Срад-74.0012 G4.0012) Сигма проц.-.009786 (.009754; f^w^^^T\: Эти продукты не удовлетворяют требуемому качеству! Выборки Р*~«хо1 ,мах Сред- 022760 (.0227*0) Сигма-.008466 (.008455) г Рис. 33. Х- и R-карты Шухарта для группированных данных
Вступительное эссе: приглашение к анализу данных на компьютере 37 В силу природы проблемы — принимать или не принимать партию изделий — эти методы иногда называют статистическим приемочным контролем (acceptance sampling). Очевидное преимущество выборочного контроля над полным, или сплошным, контролем продукции состоит в том, что изучение только выборки (а не всей партии целиком) требует меньше времени и финансовых затрат. В некоторых случаях исследование изделия является разрушающим (например, испытание стали на предельную прочность), и сплошной контроль уничтожил бы всю партию. Наконец, с точки зрения управления производством отбраковка всей партии или поставки от данного поставщика (на основании выборочного контроля) вместо браковки лишь определенного процента дефектных изделий (на основании сплошного контроля) часто заставляет поставщиков строже придерживаться стандартов качества. Если взять повторные выборки определенного объема из совокупности, скажем, поршневых колец и вычислить их средние диаметры, то распределение этих средних значений будет приближаться к нормальному распределению с определенным средним значением и стандартным отклонением (или стандартной ошибкой; для выборочных распределений термин «стандартная ошибка» предпочтительнее, чтобы отличать изменчивость средних значений от изменчивости изделий в генеральной совокупности). К счастью, нет необходимости брать повторные выборки из совокупности, чтобы оценить среднее значение и изменчивость (стандартную ошибку) выборочного распределения. Располагая хорошей оценкой того, какова изменчивость (стандартное отклонение, или сигма) в данной совокупности, можно вывести выборочное распределение среднего значения. В принципе этой информации достаточно, чтобы оценить объем выборки, необходимый для обнаружения некоторого изменения качества (по сравнению с заданными спецификациями). Обычно технические условия задают некий диапазон допустимых значений. Например, считается приемлемым, если значения диаметров поршневых колец лежат в пределах 74,0 мм ± 0,02 мм. Таким образом, нижняя граница допуска для данного процесса равна 73,98; верхняя граница допуска — 74,02. Разность между верхней границей допуска (ВГД) и нижней границей допуска (НГД) называется размахом допуска. Простейшим и самым естественным показателем пригодности производственного процесса служит потенциальная пригодность. Она определяется как отношение размаха допуска к размаху процесса; при использовании правила 3 сигма данный показатель можно выразить в виде Ср = (ВГД - НГД)/F х сигма). Данное отношение выражает долю размаха кривой нормального распределения, попадающую в границы допуска (при условии, что среднее значение распределения является номинальным, то есть процесс центрирован). В книге Bhote A988) World class quality, New York: AM A Membership Publications отмечается, что до повсеместного внедрения методов статистического контроля качества (до 1980 г.) обычное качество производственных процессов в США составляло примерно Ср = 0,67. Иными словами, два хвоста кривой нормального распре-
38 Вступительное эссе: приглашение к анализу данных на компьютере деления, каждый из которых содержал 33/2% общего количества изделий, попадали за границы допуска. В конце 80-х годов лишь около 30% производств в США находились на этом или еще худшем уровне качества (см. Bhote, 1988, стр. 51). В идеале, конечно, было бы хорошо, если бы этот показатель превышал 1, то есть хотелось бы достигнуть такого уровня пригодности процесса, чтобы никакое (или почти никакое) изделие не выходило за границы допуска. Любопытно, что в начале 80-х годов японская промышленность приняла в качестве стандарта Ср = 1,33! Пригодность процесса, требуемая для изготовления высокотехнологичных изделий, еще выше; компания Minolta установила показатель Ср = 2,0 как минимальный стандарт для себя (Bhote, 1988, с. 53) и как общий стандарт для своих поставщиков. Заметим, что высокая пригодность процесса обычно приводит к более низкой, а не к более высокой себестоимости, если учесть затраты на рекламацию, связанную с низким качеством производимой продукции. Как правило, более высокое качество обычно приводит к снижению общей себестоимости. Хотя издержки производства при этом увеличиваются, но убытки, вызванные плохим качеством, например из-за рекламаций потребителей, потери доли рынка и т. п., обычно намного превышают затраты на контроль качества. На практике два или три хорошо спланированных эксперимента, проведенных в течение нескольких недель, часто позволяют достичь высокого показателя Ср. В качестве одного из интересных примеров применения статистики в промышленности отметим задачу классификации сортов бензина, решаемую с помощью дискриминантного анализа. Важная роль статистики в управлении экономикой США отмечена в статье: Moynihan D. Р. A999) Data and dogma in public policy, J. American Statistical Association, v. 94, № 446, p. 359-364: «статистика, — по словам автора, — помогает понять силы, воздействующие на экономику». Без статистики трудно выделить основные факторы, влияющие на экономику, и предпринимать шаги, позволяющие минимизировать неблагоприятные флуктуации рынка. Разнообразные задачи могут быть решены с помощью статистики на региональном уровне, начиная с задач описательной статистики, например цен на потребительском рынке продуктов питания, зависимости внутрирегиональных цен от цен в соседних регионах, ввоза товаров из других регионов в пределах экономической территории региона, доходов населения, описания рынка труда, уровня жизни, экологической ситуации, здравоохранения и т. д. Также могут быть решены задачи оценки технического состояния транспортных средств города, расчет налоговых льгот для осуществления инвестиций в транспортную систему, классификация объектов незавершенного строительства, классификация должников, классификация источников выбросов загрязняющих веществ и множество других, где до сих пор применяются эмпирические правила. Методы множественной регрессии позволяют исследовать рынок сельскохозяйственной продукции. В качестве примера укажем статью Honma Masayoshi, Hayami Yujioro A986) Structure of agricultural protection in industrial countries, J. Int. Econ., 20, №1-2, p. 115-129, в которой исследована система протекции 10 индустриально развитых стран и дан социально-экономический анализ коэффициентов регрессии. Известно, что сельскохозяйственная политика индустриально развитых стран ха-
Вступительное эссе: приглашение к анализу данных на компьютере 39 рактеризуется сильными протекционистскими (защитными) мерами в отношении собственных производителей, иными словами, создаются такие торговые ограничения и система управления ценами, которые позволяют собственным производителям находиться в заведомо выгодном положении. Система протекции включает, в частности, экспортные налоги и завышенные обменные курсы валют. Следствие такой политики — дискриминационное положение сельскохозяйственных производителей развивающихся стран и неравномерное распределение продовольствия в мире. Подобные методы можно, конечно, применить и к изучению российского рынка. Как и все математические науки, статистика родилась из практики. Подобно тому как древние египтяне после разливов Нила вынуждены были заново измерять свои участки и для этого разработали начала геометрии, так и современные люди, вовлеченные в стремительно меняющиеся потоки данных (Интернет, газеты, ТВ, слухи, сплетни, мнения экспертов и т. д.), вынуждены анализировать их. Для этого попросту нет ничего иного, кроме статистики и анализа данных. Классическая математика имеет дело с детерминированными величинами и принципиально не приспособлена для работы со случайными данными. Конечно, мы стремимся интуитивно сузить пределы случайности, максимально уменьшить неопределенность, но сделать это полностью не удается. По-видимому, случайность является важным элементом мироздания: выброшенные в открытый хаотически меняющийся мир, мы вынуждены либо приспосабливаться к нему и побеждать, либо погибнуть или влачить жалкое существование, не понимая ни сущности вещей, ни событий, происходящих в нем. Ни у кого не вызывает сомнения, что при строительстве дома следует использовать начальные знания геометрии. Попробуйте точно начертить прямоугольник на участке земли, и вы увидите, что сделать это не так просто. Как проверить, что начерченный четырехугольник действительно является прямоугольником? Если вы не знаете, что диагонали прямоугольника равны, то столкнетесь с непростой задачей. Точно так же при исследовании сложных систем, хаотических явлений и потоков информации вы применяете статистику, в которой для измерения случайностей разработаны как простейшие, но очень полезные инструменты, подобные циркулю и транспортиру, так и весьма тонкие и совершенные методы. Интересен следующий пример, приведенный Ж. Бертраном в его курсе «Исчисление вероятностей»: Некто, прогуливаясь в Неаполе, увидел человека из Базили- каты, который держал пари, что теперь же выбросит 3 шестерки, бросив 3 игральные кости... Удивительный человек из Базиликаты на глазах изумленной публики сделал это, а затем повторил фокус 2, 3, 4 и 5 раз подряд... «Черт побери, — воскликнул Некто, — кости же, конечно, налиты свинцом!» — и был прав, потому что наблюдаемое событие, бросить 3 кости 5 раз подряд и каждый раз получать 3 шестерки, имеет ничтожно малую вероятность, равную (A/6) х A/6 х A/6))А5 = 4,71 х 101. Другими словами, он имел лишь 471 шанс из 10 х 1012 ошибиться в своем заключении. Заметим, что склонность использовать случай в свою пользу была свойственна еще египетским фараонам, в гробнице которых обнаружены игральные кости со смещенными центрами тяжести. Классическим, и вместе с тем забавным, является пример шевалье де Мере, когда ставший известным в веках благодаря своей любознательности, азартный
40 Вступительное эссе: приглашение к анализу данных на компьютере игрок спросил себя: стоит ли ему ставить на выпадение двух шестерок одновременно при бросании двух костей 24 раза или нет? Его собственные вычисления показали, что стоит, так как вероятность данного события при 24 бросках костей больше 1/2. Как же он удивился, когда с течением времени обнаружил, что постоянно оказывается в проигрыше! Оскорбленный игрок во всем обвинил статистику. И только знаменитый Паскаль нашел, в чем состоит ошибка игрока: оказывается, вероятность данного события 0,49 (меньше 0,5!), следовательно, в длинной серии игр, состоящих в 24 подбрасываниях двух костей, выигрыш происходит лишь в 49%, а не в более 50% игр, как ожидал де Мере. В STATISTIC А эта задача, то есть вычисление вероятности выпадения двух шестерок, решается несколькими щелчками мыши. Интересно, что не стоит делать ставку на выпадение двух шестерок при 24 бросках пары костей, но стоит это делать при 25 бросках, так как вероятность выпадения хотя бы раз пары костей при 25 бросках больше 1/2, следовательно, в длинной серии игр игрок, поставивший на две шестерки, будет в выигрыше чаще, чем в проигрыше. Если бы правила игры были изменены и проводилось 25 бросков, то в длинной серии игр де Мере оказался бы в выигрыше. Конечно, теперь этот пример кажется забавным. Современное взаимодействие статистики с практикой много изощреннее, но суть остается той же: применяя статистические методы, вы должны найти устойчивые закономерности в случайных данных и воспользоваться ими с пользой для себя. Применение даже простых статистических методов позволяет добиться эффектов там, где непосвященные опускают руки. Одной из таких задач является пересчет голосов при голосовании. Предположим, что в ходе выборов один из кандидатов уступил другому несколько десятых процентов голосов. Так как разница очень небольшая, то потерпевший неудачу может усомниться в правильности подсчета и поставить вопрос о пересчете. Если пересчет подтвердит результаты голосования, то, по закону, ему нужно будет оплатить расходы, связанные с пересчетом. В противном случае он окажется победителем. Формально, на языке статистики, эта задача сводится к проверке гипотезы о неравенстве математических ожиданий двух биномиальных величин, см. например, работу, Harris Bernard A988) Election recounting, Amer. Statis., 42, № 1, p. 66-68. Для кого эта книга? Книга рассчитана на самый широкий круг читателей, для которых важен анализ данных: статистиков, экономистов, маркетологов, аналитиков, актуариев, бизнесменов, инженеров, лиц, принимающих решения, и многих других. Иными словами, она полезна тем, кто интуитивно понимает, что из анализа данных можно извлечь реальную пользу. Всех их мы хотим научить искусству анализа данных на компьютере. Она также чрезвычайно полезна врачам, инженерам, научным работникам, преподавателям и студентам. Разбираемые нами примеры охватывают самый широкий спектр приложений. Предлагаемая книга является синтезом двух частей: описания разнообразных статистических методов — от элементарных понятий и принципов до возможных
Вступительное эссе: приглашение к анализу данных на компьютере 41 конкретных приложении, и описание анализа данных с помощью этих методов в системе STATISTIC А в среде Windows и отражает многолетний опыт автора в этой области. Система STATISTICA включает в себя все известные методы статистического анализа данных и позволяет сделать процесс анализа высокотехнологичным. Методы, известные ранее по учебникам и научным публикациям, теперь доступны всем. В книге содержится подробное описание основных возможностей системы STATISTICA, описаны основные диалоговые окна и команды системы. Особое внимание уделено новой технологии компьютерной обработки данных, максимально совмещенной со стандартами Windows. STATISTICA позволяет реализовать системный подход к анализу данных, в частности, средствами STATISTICA можно создать свои модули анализа данных (см. рис. 34). Дополненные методами визуального программирования, эти средства открывают захватывающие перспективы. Каждая глава книги наряду с примерами содержит большой справочный материал. Книга написана в двух срезах — для неподготовленного пользователя, впервые знакомящегося с методами анализа, и для тех, кто имеет специальную математическую подготовку и опыт работы на компьютере. Начнем мы с изложения элементарных понятий. Вообще эти понятия следует разделить на два класса: понятия, относящиеся собственно к статистике, и понятия, относящиеся к анализу данных. И здесь есть некоторая тонкость. В статистических исследованиях, например в эконометрике (приложении методов статистики в экономике), мы исходим из априорной экономической модели и пытаемся оценить ее параметры. Это так называемый дедуктивный подход, в котором первична модель, а данные используются для оценки неизвестных параметров и проверки различных гипотез относительно модели. Здесь возникают понятия качества.оце- нок, уровня значимости и т. д. ЕЗЗШ ^я^явичшшвшмя. Панели инструментов КНОПКИ АВТОЗАДАЧ Панелям инструментов КНОПКИ АВТОЗАДАЧ можно присваивать различные задачи, от простых, таких, как выбор переменных или добавление комментариев, до самых сложных, например, длинные последовательности | многозадачных процедур... ррррш Рис. 34. Настройка STATISTICA на конкретный проект
42 Вступительное эссе: приглашение к анализу данных на компьютере В анализе данных мы желаем исходить из данных как таковых, имея минимум априорных идей относительно их структуры. Далее мы стремимся понять, как организованы данные, какие переменные или группы переменных связаны (коррелируют) между собой, иными словами, стремимся понять структуру данных, исходя из них самих. Наиболее известная крайняя точка зрения этого подхода выражена в лозунге Бензекри (Benzecri), одного из создателей анализа соответствий: «Модель должна соответствовать данным, а не наоборот!» Насколько правомерен такой подход, судить философам, но он существует и его нельзя отвергать. Приверженцы анализа данных зачастую критикуют эконометрику, утверждая, что она имеет дело с абстрактными гипотезами, которые никогда не работают на практике. В действительности, между этими направлениями нет бездонной пропасти — известно, что анализ данных черпает свои идеи из классической статистики и наоборот. Типичный пример — анализ соответствий, чисто индуктивный метод, корни которого «тем не менее» лежат в математической статистике и свойствах знаменитого критерия хи-квадрат, открытого Карлом Пирсоном. Рис. 35. Рабочие окна STATISTICA Пример индуктивного подхода можно найти в интересной статье F.-X. Micheloud, бывшей долгое время доступной на сайте http://www.micheloud.eom/FXM/cor/e/genera.htm,
Вступительное эссе: приглашение к анализу данных на компьютере 43 где разведочный анализ данных (анализ соответствий) применяется к исследованию уровня образования жителей Лозанны (Швейцария). Автор, не используя прямо статистические рассуждения, работаете выборкой из 169 836 человек. Спрашивается, а почему не с выборкой, состоящей из 100 человек? Очевидно, что для него интерес представляют перманентные, или устойчивые, выводы. Но понять, с какой выборкой нужно иметь дело, можно лишь с помощью теоретико-вероятностных и статистических рассуждений. В данной книге мы стремились синтезировать классические методы статистики с методами анализа данных и таким образом открыть новые возможности для исследователей. Лейтмотивом нашей книги является утверждение, что невозможно умозрительно научиться анализу данных. Если вы хотите овладеть анализом данных, вам следует совместить основные принципы анализа данных с работой в системе STATISTIC А. Ключевым является понятие технологии, совмещение идей (коуос,) с действием (xexvaco), иными словами, вы не просто мыслите, но и производите с помощью компьютера действия, которые усиливают и развивают ваши мысли. Мы трактуем нейронные сети как развитие классических методов анализа. Основное отличие состоит в том, что в нейронных сетях используется специальный базис исходных функций, и собираются сложные многомерные зависимости из элементарных одномерных функций, реализуемых нейронами. Таким образом, вы можете использовать нейронные сети для построения сложных нелинейных зависимостей или нелинейных классификаций, которые недоступны другим методам. Формально нейронные сети могут быть изложены чисто математически, без привлечения понятия нейрон, однако биологический язык и нейронная интерпретация создают новую реальность, открывающую массу возможностей для исследователя. Математическим основанием нейронных сетей является знаменитая теорема Колмогорова, утверждающая, что сложные нелинейные функции могут быть собраны на двухслойных или трехслойных сетях персептронов. В частности, если нужно приблизить непрерывную /2-мерную функцию, то достаточно сети с одним скрытым слоем, содержащим 2п + 1 нейрона. Никто не утверждает, что вам удастся быстро построить нужную сеть, которая хорошо приближает сложную зависимость на имеющихся реальных данных, однако заведомо невозможно сделать это чисто умозрительно. Используя компьютерные технологии, вы можете испытать как классические методы анализа, так и нейронные сети. В нашем изложении мы опирались на фундаментальные тексты Кендалла М. Дж. и Стьюарта А., особенно на их замечательную книгу Статистические выводы и связи. М.: Наука, 1973. Для описания функций распределения мы использовали фундаментальное издание: Вероятность и математическая статистика, М.: Большая российская энциклопедия, 1999. В ряде случаев нам оказались полезными справочники: Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. Справочник по прикладной статистике под редакцией Э. Ллойда и У. Ледерма- на, т. 1,2. М.: Финансы и статистика, 1989. На этом позвольте закончить наш, возможно, слишком продолжительный экскурс в анализ данных и перейти к систематическому изложению материала.
1 Краткая экскурсия по системе STATISTICA Вступление STATISTICA — это интегрированная система анализа и управления данными. STATISTICA — это инструмент разработки пользовательских приложений в бизнесе, экономике, финансах, промышленности, медицине, страховании и других областях. STATISTICA легка в освоении и использовании. Все аналитические инструменты, имеющиеся в системе, доступны пользователю и могут быть выбраны с помощью альтернативного пользовательского интерфейса. Пользователь может всесторонне автоматизировать свою работу, начиная с применения простых макросов для автоматизации рутинных действий вплоть до углубленных проектов, включающих, в том числе, интеграцию системы с другими приложениями или Интернетом. Технология автоматизации позволяет даже неопытному пользователю настроить систему на свой проект. Процедуры системы STATISTICA имеют высокую скорость и точность вычислений. Гибкая и мощная технология доступа к данным позволяет эффективно работать как с таблицами данных на локальном диске, так и с удаленными хранилищами данных. Система обладает следующими общепризнанными достоинствами: О содержит полный набор классических методов анализа данных: от основных методов статистики до продвинутых методов, что позволяет гибко организовать анализ; О является средством построения приложений в конкретных областях; О в комплект поставки входят специально подобранные примеры, позволяющие систематически осваивать методы анализа; О отвечает всем стандартам Windows, что позволяет сделать анализ высокоинтерактивным; О система может быть интегрирована в Интернет; О поддерживает web-форматы: HTML, JPEG, PNG; О легка в освоении, и как показывает опыт, пользователи из всех областей применения быстро осваивают систему; О данные системы STATISTICA легко конвертировать в различные базы данных и электронные таблицы; О поддерживает высококачественную графику, позволяющую эффектно визуализировать данные и проводить графический анализ;
Вступление 45 О является открытой системой: содержит языки программирования, которые позволяют расширять систему, запускать ее из других Windows-приложений, например, из Excel. STATISTICA состоит из набора модулей, в каждом из которых собраны тематически связные группы процедур. При переключении модулей можно либо оставлять открытым только одно окно приложения STATISTICA, либо все вызванные ранее модули, поскольку каждый из них может выполняться в отдельном окне (как самостоятельное приложение Windows). При исполнении модулей STATISTICA как самостоятельных приложений в любой момент времени в любом модуле имеется прямой доступ к «общим» ресурсам (таблицам данных, языкам BASIChSCL, графическим процедурам). ш % ш © ш Алели» Н«чр*м*гри*скм/ Wnptt/WHMt Ф«*тор»»* К/чстч»»* МШИМвМОСТМ Р*СЛр*0*Л*НИЙ ДЫМНЫМИ «И«ЛИЭ «И4/МЭ При инсталляции системы программа установки (Setup) создает на рабочем столе группу приложений под названием STATISTICA и помещает туда значки окна Переключатель модулей (пиктограмма STATISTICA — первая в группе, см. рис.), модуля Основные статистики и таблицы и некоторых других программ (Help, Setup). Пользователю может показаться более удобным запускать модули, щелкая по их значкам на рабочем столе (вместо того чтобы пользоваться окном Переключатель модулей); поэтому он, вероятно, захочет создать дополнительные пиктограммы для модулей помимо тех, которые будут автоматически созданы программой установки (Setup). Для того чтобы создать еще один значок в данной группе, следуйте стандартной процедуре Windows (выберите пункт Новый в меню Файл в окне Диспетчер программ (Program Manager) и создайте новый программный элемент). Настройка системы STATISTICA. В системе предусмотрена возможность настройки множества характеристик и интерфейса программы в соответствии с пред-
46 Глава 1. Краткая экскурсия по системе STATISTICA почтениями пользователя. Можно изменить, например, процесс запуска, а именно — отменить установленный по умолчанию полноэкранный режим, изменить вид стартовой панели, панели инструментов, таблиц с данными и другие параметры. Настройка общих параметров системы. Настройку общих параметров системы можно изменить в любой момент работы с программой. Эти параметры определяют: О общие аспекты поведения программы (максимизация окна STATISTICA при запуске, Рабочие книги, инструмент Перетащить и отпустить — Drag-and- Drop, автоматические связи между графиками и данными, многозадачный режим и т. д.); О режим вывода (например, автоматическая распечатка таблиц или графиков, форматы отчетов, буферизация и т. д.); О общий вид окна приложения (значки, панели инструментов и т. д.); О вид окон документов (цвета, шрифты). Каждый из этих параметров можно настроить в соответствующем окне, доступ к которому осуществляется через меню Сервис. На следующих рисунках показаны два примера таких окон. ШгЩ 3 jTafeP***^!5 'Сядем доимы* пмймяиь (мм Ог«г. гр9тшМ:\Авгго : Поль* грщ*тшг.\Аягго Щ Л Гр»»н*мШЦАато ш$г$ '!ШМшШШ^ \ V Отмечяг» Рцйшри щтг%. "**ШМ \ Г" Соцттгь нашили* ^льпуооь^Щ. Помцить сойм* яау 8 | -•?'f*;"""' :,-А • -• - (^Л «ТЯГ « . ^*Ж* Йс]Эмпмр. ФР со срсмимм "- ,-,frfift>t Г,-,л,„-„ Vftrt^.i, И
Вступление 47 Все общие параметры могут быть настроены независимо от типа окна документа (например, таблица или график), которое активно в данный момент. Настройка пользовательского интерфейса. При работе с системой STATISTICA имеется возможность настройки пользовательского интерфейса программы таким образом, чтобы он стал более «продуманным» с точки зрения потребностей конкретного пользователя. В зависимости от требований задачи и личных предпочтений (а также эстетических соображений) можно использовать разнообразные «режимы» и условия работы программы.
48 Глава 1. Краткая экскурсия по системе STATISTICA Поддержка нескольких различных конфигураций системы STATISTICA. До внесения специальных изменений STATISTICA будет хранить все текущие настройки и параметры по умолчанию. То обстоятельство, что сведения о конфигурации системы хранятся в той же папке, из которой вызывается программа STATISTICA, позволяет иметь в своем распоряжении различные варианты конфигурации программы для разных проектов или видов работ. Например, можно вызывать программу из разных папок на диске, каждая из которых содержит определенный связный набор документов, и для каждой из этих папок система может быть сконфигурирована со своими настройками вывода, параметрами графиков по умолчанию и т. д. Можно создать несколько значков STATISTICA в разных группах приложений на рабочем столе Windows (каждая из которых соответствует определенному проекту или виду работ) и задать для них различные значения в поле Рабочая директория {Working Directory) (с помощью диалогового окна системы Windows Свойства программного элемента {Program Item Properties)). Многозадачность. STATISTICA поддерживает режим многозадачности (между своими модулями или другими приложениями). При обработке очень больших объемов информации или выполнении сложных процедур анализа можно переключиться в другой модуль STATISTICA (или другое приложение Windows), используя возможность вести процесс обработки данных в фоновом режиме. Работа в одном окне приложения STATISTICA (вместо многооконного режима). Один из вариантов глобальной системной настройки пакета STATISTICA позволяет пользователю задать режим, в котором по умолчанию будет работать про-
Вступление 49 грамма — в одном окне приложения или же как набор приложений (каждое в своем окне). Одним из непосредственных следствий этого выбора будет то, в каком режиме будет работать окно Переключатель модулей: при двойном щелчке на имени модуля в этом окне выбранный модуль будет открываться либо вместо уже открытого, либо для него будет открываться новое окно приложения, причем предыдущее окно останется открытым. Выбор того или другого режима работы производится в поле Переключение модулей: режим одного приложения в диалоговом окне Параметры по умолчанию: общие настройки (вызывается из меню Сервис). Если это поле отмечено, STATISTICA будет работать в режиме одного приложения. Режим одного приложения. При выбранном режиме одного окна приложения переключение с одного модуля на другой будет происходить без открытия новых окон. Новый модуль всякий раз будет открываться в том же самом окне, заменяя предыдущий. Некоторые пользователи предпочтут именно такой «простой* режим работы, поскольку весь анализ будет происходить в одном окне приложения, а количество активных программ на рабочем столе будет минимальным. Примерно такого же эффекта можно достичь, нажимая кнопку Закончить и переключиться в диалоговом окне Переключатель модулей; при этом окно приложения текущего модуля закроется, но не будет заменено новым окном; вместо этого система откроет «следующее* окно приложения. Режим нескольких приложений. Основное преимущество режима нескольких приложений — возможность параллельного выполнения различных процедур анализа (модули) в разных одновременно открытых окнах приложения. При этом мож-
50 Глава 1. Краткая экскурсия по системе STATISTICA но переключаться между модулями, не закрывая предыдущие, и использовать все преимущества работы с независимыми очередями таблиц результатов и графиков для окон приложений разных модулей. Этот режим имеет очевидные преимущества для большинства задач анализа данных и дает возможность использовать различные методы анализа (и сравнивать полученные результаты). Интерактивный анализ данных в STATISTICA. Система не требует, чтобы пользователь еще до проведения анализа указал всю информацию, которую следует вывести на экран. Ведь анализ даже простого плана может породить большое число таблиц результатов и просто необозримое количество графиков, поэтому при проведении реального анализа, до изучения основных результатов, трудно представить, какие графики или таблицы следует анализировать в первую очередь. Именно поэтому STATISTICA предоставляет пользователю возможность выбрать определенные типы вывода и интерактивно провести последовательные сравнения и моделирующий анализ уже после того, как данные обработаны и получены основные результаты. Количество выводимых окон также может быть настроено, чтобы не перегружать экран компьютера. Гибкие вычислительные процедуры STATISTICA и широкий выбор методов графического представления данных любого типа открывают перед пользователем безграничные возможности проведения разведочного анализа и проверки статистических гипотез. Какие возможности предоставляют рабочие книги. Рабочие книги помогают организовывать наборы файлов (например, таблиц результатов, графиков, тек-
Вступление 51 стовых/графических отчетов, пользовательских программ и т. д.), которые были созданы или использовались (например, просматривались) во время анализа набора данных. Рабочие книги хранят список всех файлов, использовавшихся с текущим набором данных. Ш'ШИ МЕШ Строка А dvetlising Effectiveness Study. днформевлд о фвтидв ы примечания; ■. мыт ленные данные. полученные при изучении I рек ламы. Респонденты мужского и женского пола отвечали на 23 вопроса, оценивая эффективность Iрекламы по десятибалльной @-9) шкале. Данные были собраны в мае и июне 1993 г. на территории университета. АвТО <•.••"•"• ■ ••■• ••• •-'"-. J- Д Щ Файлы т*кут«* Рабочей книги: Цчереаь. |8 h В Ы! Нашм*гвО|М;г<* угобы начать. е>. новой сгрокн Нажмите СьИаЬ, чтобы вставить ID 0 D D 0 D 0 C:\stat5\data\fiist100. sel □ C:\stat5\data42d_gjaph.stg □ C:\stat5\data\poly5.txt C:\stat5\data\distibs.Mf я □ C:\stat5\data\blank.stg □ C:\stat5\eica«ples4hippo1.stg □ C:\stat5\eigenval. stb табуляции. & Охкрмть Кнопки 'Добавить*' иУдв/мп»' иамвнжтт список Файлов Раб книги Обновленный список этих файлов автоматически сохраняется с файлом данных. Если поставить пометку в поле Авто Щ около имени файла, то он будет автоматически открываться с текущим набором данных. Ц«й* Омы» 8м Йсцлм .fmmn* &m*m.tp*m*■■&*»■.&** №■' ■ ■|Д|»1 ОСНОВНЫЕ СТ4ТИСТ .wfflSr т&шл .^«НЯвкС \ 'ЯмПМг' ■>iauamii 1 00 - 17 - 19 - 04 - 08 02 26 05 •- 77 - 04 - 15 04 '№&*Г№*т<\ jbaww) щ
52 Глава 1. Краткая экскурсия по системе STATISTICA Справочная система и интерактивное (электронное) руководство. Чтобы получить дополнительную информацию о некоторых функциях системы, нажмите клавишу справки (F1), когда выделена соответствующая команда или пункт меню. STATISTICA содержит Электронное руководство — справочную информацию по всем процедурам и функциям программы, доступную в контекстно-зависимом режиме при нажатии клавиши F1 или кнопки справки |Щ в строке заголовка всех диалоговых окон (справочник содержит свыше 10 мегабайт документации в сжатом виде). Благодаря динамической организации Электронного руководства с помощью гиперссылок (и различным возможностям его настройки), как правило, быстрее использовать эту справочную систему, чем искать нужную информацию в напечатанном виде. Справку также можно вызвать двойным щелчком на поле сообщений строки состояния в нижней части окна приложения STATISTICA (в поле сообщений тоже отображаются краткие комментарии о функциях выпадающих меню или кнопках панели инструментов соответственно при выделений пункта меню или нажатии кнопки). Статистический советник. Статистический советник представляет собой интерактивную справочную систему. После выбора пункта Советник из выпадающего меню (Справка) программа задаст вам несложные вопросы о характере решаемой проблемы и типе исходных данных, а затем предложит список наиболее подходящих процедур (и объяснит, где их найти в системе STATISTICA). ; В эееисимости от ваших ответов на вопросы j сущности вашего исследования j Ст*тисггшчфский сотпти* предложит им подходящи! статистически! методы и их месгонехождение е системе STATISTICA Отвечайте не каждый ! вопрос, щелкая не соответствующем ответе. Если вы не уверены, кекой ответ 1 выбрать, щелкните не строке Допоптмш>ьн»я информации j Вы котите О) ОпииУь.щипачуiihflmn;> Дяпп-wi B) Пвмци'ь mnamn imwywhri тктлъп мишл. C) М1ЙТИ М<Г^йЫ,Ш^т^*Г<,й*MAi.ltUV. или D) Вырулит» сшч1бгигл1 ж пвсмушлщнагаманшалп кати»? -mi Дополнительная информации Если денные только что собрены, то сначала следует посмотреть соответствующие итоговые статистики для каждой переменной Непримвр. нужно посчитать респрвдаления частот, чтобы определить иийрссм. Обычно денные собиреются, чтобы проварить определенные гипотезы или модели, саманные с несколькими переменными Непримвр, можно выяснить, чаще ли мужчины соглешвются с каким-либо вопросом енкеты. чем женщины Более сложные гипотезы могут касаться зависимости параманных. например, линейная она или нет Если конкретных гипотез нет, в изучение проводится с исследовательскими целями, то можно использовать некоторые приемы, которые помогут "прояснить' денные, то есть нейти кластеры, шеблоны. и т д Четвертая опция (контроль качества) показывает различные приемы, использувмыа в промышленном контроле качестве, зксперимвнтах и енвлиза надежности С помощью гиперссылок можно непосредственно перейти из раздела Статистический советник к подробному описанию соответствующих статистических методов и процедур в разделе Вводный обзор. Мультимедийный учебник. CD-версия STATISTICA включает ряд анимационных примеров, иллюстрирующих некоторые из наиболее часто используемых возможностей STATISTICA. Эти примеры шаг за шагом показывают, как провести типичный статистический анализ и построить графики. Полный список имеющихся
Вступление 53 в данной версии системы мультимедийных обзоров находится в подменю Мультимедийный учебник выпадающего меню {Справка). :. ±*я Qpwm fim А"»*> Ср»им £«жс-: fl*xo *■ ' Они» мхом tt*t**# t**t*tmo* й Г0»»иц4 Отофдаим» и tmmmm тёкшими «wxowft м t*etm Неюл Пкжыат* и оглуетмгь и А*г«э#«»чю« Иопо% whmhm fr+Дочий ммги Г***** пофммгмдем*. егагяегмчкям*. вмомы» Н«стро*«ими*»«и»гр*Фи«)» s Р«амещ«ии> wwmh» rp—i»o» Кмпш aero**** Ял« 3UT»TJCA«A$iC Я»* Sa (К» »фшЛ lOMt STATIST КЛ| быстры» «мам*» етлчстиш. Ucmsmi выбор* иаблам»* 6«жооь« ст«тмс*икм и грмики : Зя^мгдодмервмиияиаиьм*» Прмамвск. митр** мрр*и«мй fatftttf Прммкг Дисперсно*»* »«ми»ДООД) Пр»«р- iWptMh»i«eHrpa»HUN»c»»» При *р: йлшю npcmoeo» ГцИ#4(^ ПрОММИМ94МГЛ1ММфСФФМ1 )КСтрммВМГ09 * ЧКТЬ I П<»»^»Пра>1»м1Д>««пл»1»о»»|1>»кеп1»1ла»к»«ч»ст>г Отметим, что для запуска этих мультимедийных иллюстраций необходима звуковая карта. Если ваша версия STATISTICA не содержит мультимедийный учебник (или содержит лишь часть примеров), вы можете загрузить соответствующие файлы из Интернета (http://www.statsoft.com) или заказать их в компании StatSoft. Приложения. Все рассмотренные возможности (доступные в любой момент работы с системой) могут служить весомой альтернативой или дополнением к обычному интерактивному пользовательскому интерфейсу, поскольку они позволяют автоматизировать рутинный процесс многократного выполнения одних и тех же, в том числе весьма сложных, задач. Например, макрокоманда (вызываемая щелчком мыши по кнопке на панели инструментов Кнопки автозадач или одним нажатием клавиши) может содержать длинный список переменных, часто используемый график, операцию внедрения и т. п. Автоматические отчеты и автоматическая распечатка таблиц результатов. Независимо от того, происходит ли обработка в пакетном режиме или интерактивно запрашивается пользователем, может быть выбран режим вывода Автоотчет. Этот режим позволяет автоматически, без каких-либо действий со стороны пользователя распечатывать (или направлять в окно отчета или в файл) содержание всех окон вывода, которые получаются в процессе анализа. Режим автоматического вывода каждой строящейся на экране таблицы результатов и/или графика может оказаться полезным не только для создания полного
54 Глава 1. Краткая экскурсия по системе STATISTICA отчета о результатах анализа, но и при разведочном анализе данных, когда возникает необходимость вернуться к предыдущему шагу и просмотреть результаты, полученные на ранних этапах обработки данных. Для этого всю выходную информацию (таблицы результатов и графики) можно направить во временное Окно текста/вывода с прокруткой и уже затем в случае необходимости сохранить ее, распечатать или скопировать в файл текстового редактора. Автоматическая печать графиков. Режим автоматической печати всех возникающих на экране графиков особенно полезен как средство пакетной графической печати. It i) \мл1*лн1 гимн hi» ИРчЕЗ ь(ЖАШ&№,)&;.Ш8а*ЯЬ& Описательные статистики (adstudy.sta) Дммы* AO8TU0Y STA 2вп ' 90м AdvartMng Ef f «divan*** 9u**y fen** AOSTUOY 8TA 26n ' 60h Adwrtemg ЕМвоНмпм* Study |Переменная N иабл. Среднее Нинимум Накскнум Стд.откл. HEA3UR1 HEA5UR2 HEA5UR3 HEASUP4 HEASUR5 50 50 50 50 50 5.900000 4.540000 4.140000 5.520000 Э.960000 0.00 0.00 0.00 0.00 0.00 9.000000 9.000000 9.000000 9.000000 9.000000 2.366863 2.887058 2.725615 2.659139 2.633846 * ^06 т uoy б та га^зд у • в 232-2 0ЭВ*х*О в22'**20 1 Уж^ЭЮ 001 **»О.0О1 'х*в**р« Как правило, печать графиков занимает довольно много времени. Поэтому имеет смысл воспользоваться этим режимом для распечатки последовательности («каскада») графиков, получающихся при применении определенных методов анализа (например, для зрительного представления конфигураций средних при исследовании связей высших порядков в дисперсионном анализе необходим^ длинная последовательность графиков, а для многомерных таблиц — каскад трехмерных гистограмм для двух переменных). Однако гораздо эффективнее направить создаваемую последовательность графиков в Окно текста/вывода. В STATISTICA предусмотрена возможность пакетной печати всех ранее сохраненных графиков и таблиц результатов; для этого нужно выбрать пункт Печать файлов в выпадающем меню Файл. Буфер обмена. Наиболее быстрый и во многих случаях наиболее простой способ получения данных из других приложений Windows (например, электронных таблиц) — это использование буфера обмена, который в STATISTICA поддерживает специальные форматы данных, создаваемые такими приложениями, как MS Excel или Lotus для Windows. Например, STATISTICA правильно интерпретирует форматированные (например, 1 000 000 или $10) и текстовые значения. Буфер обмена и преобразование файлов данных можно также использовать для экспорта данных из системы STATISTICA в другие форматы. При импорте и экспорте данных STATISTICA использует один и тот же набор форматов и типов данных.
Вступление 55 Функции импорта файлов. Файлы данных из приложений Windows и других операционных систем также можно переводить в формат системы STATISTICA с помощью функций импорта файлов, которые включают доступ ко всем базам данных (через поддержку метода ODBC), а также возможности импорта форматированных текстовых файлов и текстовых файлов свободного формата (ASCII). Импорт файлов без использования буфера обмена имеет свои преимущества: О он позволяет пользователю точно указать, как должен проводиться импорт (например, выбирать из файлов диапазоны значений, импортировать или не импортировать имена переменных, текстовые значения и имена наблюдений и указывать способ их интерпретации); О он предоставляет пользователю доступ к типам данных, которые недоступны (или труднодоступны) при операциях с буфером обмена (например, длинные метки значений или специальные коды пропущенных данных). Связи DDE. STATISTICA поддерживает соглашения динамического обмена данными (DDE), что позволяет динамически связывать диапазон данных в таблице исходных данных с набором данных других приложений (Windows). Эта процедура на самом деле гораздо проще, чем она может показаться, и ее легко освоить, не имея технических знаний о механизме DDE, особенно при использовании команды Установишь связь (вместо ввода описания связи). Связи DDE (динамического обмена данными) можно установить между файлом-источником (сервером), например электронной таблицей MS Excel, и файлом данных системы STATISTICA (файлом-клиентом), так что при внесении изменений в файл-источник данные в соответствующей части таблицы исходных данных STATISTICA (файле-клиенте) будут автоматически обновляться.
56 Глава 1. Краткая экскурсия по системе STATISTICA Обычно два файла динамически связываются в промышленных установках, когда к последовательному порту компьютера, на котором находится файл данных системы STATISTICA, подключено измерительное устройство (например, для ежечасного автоматического обновления определенных измерений). Связи DDE можно установить с помощью команды Установить связь выпадающего меню Правка таблицы исходных данных или введя определение связи в поле Длинное имя (метка, формула, связь): диалогового окна спецификаций переменной. ГГГх! g^|JMEASUR1 ^ 1>4рмн* ero*6.;J4 Щ 'Две. !,\ ^.Л*.J\.v,.w.. v?T \/ ...<-^ Отмена Дата Время Денежный Проценты Представление: il'iliBUiliTT 1 000; -1 000 1000; A000) 1 000; A 000) 3h»l/cttwct^ ШО £р*Фики| Данное имя {мипгк*. мм» или Формул* с Фшжцнямм}): eExcel|c.\adiesultxls!r10c10:г40с15 ЕЗ Id Лря wptr Мет** Валовой «анод ь 199V Формулы *vt + v2: С*»* фе>ссе|с:т*Ыг2<£:*«с4 = * Jvl>0ГА6С ♦ v3 Если связь установлена, то можно управлять ею в диалоговом окне Диспетчер связей (вызывается с помощью команды Связи... выпадающего меню Правка). 111Щ'1ДН;1 шщ Доносить сейчас! Отменит* Обновление» Лв1 pnbi ичоскоо Нэменнт* сеяэ* 1 Форматы Дата и Время. В файлах данных системы (которые организованы как базы данных) формат отображения значений применяется ко всей переменной, а не к отдельным ячейкам (как в Excel). Поэтому значения, которые в Excel были отформатированы как даты, в файле системы STATISTICA будут отображаться как юлианские (целые) значения (например, 34092 вместо May 3, 1993), если для соответствующих переменных не установлен формат Дата или Время. Поддерживает ли STATISTICA интерфейс ODBC? Да, для того чтобы реализовать эту возможность, существует список команд Импорт данных, который вызывается из выпадающего меню Файл любого модуля. Интерфейс ODBC STATISTICA включает возможности для объединения полей из нескольких таблиц и предоставляет доступ к множеству файлов баз данных, включая форматы больших и персональных компьютеров (например, dBASE для Windows, Paradox, Sybase, Oracle, SAS и т. д.).
Вступление 57 IIWW'iPHIfflll ЧМ -ii-i ВС В С«м(« Dl В Didw DeUfa D Ordeti нпшнп DSbpp«i Ds D С«1«домт Ceiegotj ID CeiegniM Омафйоп Cwto—ti.Curt—t ID Oid*t D*(«k.Pioduct ID Oidw 0«шЬ Urn» Price Oidw D*4«U QiunMy $* e»JMU«*C*Mb* t«ll* ■-^^^^ leSSJtf Щ^Ц/ Импорт через ODBC можно автоматизировать с помощью функции ODBC/Шаблоны или программ на языке SCL. Типы объектов. Если задан режим Новый объект, то тип создаваемого объекта может быть выбран из списка приложений Windows, которые поддерживают средства OLE. После выбора типа и нажатия кнопки ОК будет открыто окно соответствующего приложения для создания нового объекта. Если задан режим Объект из файла, то тип объекта для вставки также выбирается из списка приложений Windows, поддерживающих средства OLE; после выбора типа будут показаны все предварительно сохраненные файлы этого приложения. В режиме Картинка из файла можно вставить объект, несовместимый с методом OLE, но записанный в одном из графических форматов Windows: в формате метафайла (файл с расширением *.wmf) или растрового изображения (файл с расширением *.Ьтр). ■ .IDJXlj ПРОИЗВОДСТВО ВЕРТОЛЕТОВ Связывание и внедрение. STATISTICA поддерживает средства OLE (связывания и внедрения объектов) как в режиме клиента, так и в режиме сервера. Таким образом, возможна не только динамическая настройка графиков STATISTICA в других приложениях (режим сервера), но также внедрение и последующее преобразование 01£-совместимых объектов других приложений (например, графиков или таблиц) или собственных объектов в графики STATISTICA. Другими словами, помимо присоединения внешних элементов к графикам STATISTICA с помощью вставки можно обращаться непосредственно к объектам, содержащимся в файле на диске (например, перетащить их непосредственно из окна Диспетчер файлов или Проводник (Windows Explorer) и поместить на график STATISTICA).
58 Глава 1. Краткая экскурсия по системе STATISTICA STATISTICA поддерживает как связанные (то есть динамически присоединенные), так и внедренные (то есть статически «встроенные») объекты. При этом они могут быть расположены в любом файле, созданном приложениями Windows, включая файлы в собственном графическом формате STATISTICA (с расширением *.stg). Более того, STATISTICA одновременно может являться как клиентом, так и сервером в методе OLE, поддерживая при этом уникальную возможность создания вложенных составных документов (до четвертого порядка включительно), то есть документ STATISTICA с внедренным документом может быть, в свою очередь, внедрен в другой документ этой системы. Заметим, что каждый из этих двух способов присоединения {связывание и внедрение) имеет свои преимущества и недостатки. Связанные объекты. Графики со связанными объектами медленнее перерисовываются, поскольку при этом могут быть задействованы связи с внешними файлами. В то же время, эти графики обновляются автоматически (статус связей может быть установлен в диалоговом окне Связи данных и графика, которое вызывается из графического меню Правка), а это позволяет легко создавать составные документы, которые включают именно «текущее» содержимое других файлов. шшшшшшшшшшшшшшшшшшшшшщ гтшштшхЕтхтшшшшшшшшш j fllc » ' [Авто Гра*м*1: Диаграмма размана Л •'• | I I Ойщтть с*Лчшс \ I Щматсг» стлль [. I Орвраат» отяа» [ Г ГршФт ■:■*'■■*■■"• ,.™^._.—...«* ** . .. \ fp»«*«2:XYZграфик v ..../..' . '] Обиоымлг»: <? Датом4ГУ1Н»ае«И1 '•••."-С Дру»цщ Г uawwpw»ar% ttpwiamio) j; : Г Ив абив*«ять гра+иш. «ивдреимм» * тасаки* гра+и*
Вступление 59 Внедренные объекты. Графики с внедренными объектами перерисовываются быстрее, чем со связанными объектами, поскольку здесь отсутствуют связи с обновляемыми внешними файлами. Если дважды щелкнуть на внедренном объекте, то будет вызвано приложение-сервер (то есть источник), в котором можно изменить данный объект. При этом обновить внедренный объект можно двумя способами: отредактировать его или заменить вручную. В меню Правка можно настроить все параметры внешних объектов {связанных или внедренных), а также их связи с другими компонентами графика. Кроме того, щелкнув на объекте правой кнопкой мыши, можно выбрать нужные команды настройки из контекстного меню. Единственным исключением является способ присоединения объекта {связывание или внедрение), который определяется в момент подключения файла (после этого только связанный объект можно преобразовать во внедренный, но не наоборот (см. команду Преобразовать во внедренный из выпадающего меню Правка)), Настройка связанных или внедренных объектов OLE. Объекты OLE-графиков STATISTICA могут быть отредактированы после двойного щелчка мышью на объекте; при этом приложение-источник будет открыто в режиме сервера OLE с готовым к редактированию объектом. Если этот объект является графиком STATISTICA, то в текущем модуле откроется новое графическое окно, что позволит системе одновременно выступать как в роли клиента, так и сервера. Жт*> .+< ^ \ - -ЛАЛ , Г_ / '_">_ ;. -, Л : ■ pUH^rtPJ^jtEt^ ,^Ы<Ьрр;СМ^; Когда редактирование завершено, можно применить любое из стандартных соглашений OLE для выхода из режима сервера и обновления графика в системе STATISTICA (используя команды Обновить, Обновить и вернуться к... и т. д.
60 Глава 1. Краткая экскурсия по системе STATISTICA в выпадающем меню приложения Файл; эти команды доступны только в случае, если приложение запущено в режиме сервера). Графические форматы Метафайл и Растровое изображение. Для вставки графического файла в приложения, не поддерживающие методы OLE, используются команды Сохранить метафайл или Сохранить растровое изображение (из выпадающего графического меню Файл). График в формате метафайла Windows будет записан в файл с расширением *.wmf, а в формате растрового изображения — с расширением *.Ьтр. Эти форматы, описанные в двух следующих параграфах, не позволяют полностью реализовать все возможности настройки графиков STATISTICA, но в то же время совместимы со всеми приложениями, поддерживающими графические форматы Windows. Что такое метафайл Windows? Графический формат Метафайл — это один из стандартов для записи графических файлов (с расширением *.wmf) и их представления в буфере обмена Windows. Он содержит картинку в виде описаний и определений всех компонент графика и его атрибутов (например, элементов линий, их цветов и шаблонов, шаблонов заполнения, описания текста и его параметров). По сравнению со стандартом растрового изображения (см. ниже) формат метафайла дает возможности более гибкой настройки 01£-несовместимых объектов в приложениях Windows. Цапример, при открытии метафайла в программе Microsoft Draw можно «разложить» изображение графика, выделить и изменить отдельные линии, шаблоны заполнения или цвета, а также отредактировать текст и изменить его атрибуты. Однако не все приложения Windows полностью поддерживают все возможности формата метафайла, доступные в системе STATISTICA. Некоторые параметры графиков, записанных системой STATISTICA в этом формате, могут измениться при их воспроизведении в других приложениях. Например, может исчезнуть поворот некоторых шрифтов. Поэтому по возможности используйте графический формат STATISTICA и методы OLE для работы с графиками в других приложениях, чтобы иметь доступ ко всем возможностям настройки самой STATISTICA.
Вступление 61 Ограничения стандартного формата Метафайл Windows. Сложные графические изображения, создаваемые системой STATISTICA, могут оказаться слишком большими (по числу представленных точек данных) для записи в формате метафайла, который по умолчанию используется системой Windows для большинства операций по связыванию и внедрению графических объектов. В таких случаях нужно использовать растровое изображение. За дополнительной информацией обратитесь к Электронному руководству из диалогового окна. Дополнительные параметры, которое вызывается из вкладки Графика диалогового окна Параметры страницы/вывода. Что такое формат растрового изображения? Формат Растровое изображение — это второй стандартный графический формат системы Windows, который используется для представления графических файлов (с расширением *.Ьтр) и передачи изображения через буфер обмена (как и формат Метафайл). В этом формате не сохраняются никакие дополнительные данные или параметры, кроме изображения самой картинки. В отличие от метафайла растровое изображение представляет собой «пассивное» поточечное отображение графического окна. Возможности настройки такого графика в других приложениях Windows очень ограничены. Обычно они включают только операции растяжения, сжатия, вырезания, вставки и рисования поверх графика. Как уже отмечалось выше, для работы с графиками в других приложениях удобнее использовать запись в графическом формате STATISTICA и методы OLE, чтобы иметь доступ ко всем возможностям настройки самой системы STATISTICA. Что такое собственный графический формат STATISTICA? Графические файлы системы STATISTICA имеют расширение *.stg. Их основное отличие от метафайлов и растровых изображений состоит в том, что они содержат не только картинку, но и всю информацию, необходимую для настройки графика и анализа данных. Здесь записаны все представленные на графике данные, их связи, уравнения подгонки, параметры внедренных объектов, связи графиков и рисунков и т. п. Записанные в таком формате графики можно впоследствии открыть в любом из модулей системы STATISTICA для продолжения настройки и анализа данных. Кроме того, их можно распечатать в пакетном режиме с помощью команды Печать файлов из выпадающего меню Файл. Графические файлы в собственном формате системы STATISTICA можно динамически связать с документами приложений Windows с помощью методов OLE. Экспорт через буфер обмена (вставка или специальная вставка методами OLE). Использование буфера обмена — это самый быстрый способ экспорта графика в другое приложение. При копировании в буфер обмена создается три графических представления объекта: в собственном формате STATISTICA, в формате метафайла Windows и в формате растрового изображения. Каждое из них может быть использовано в других приложениях. Графики системы STATISTICA могут присутствовать в других приложениях (редакторах или электронных таблицах) как в качестве связанных, так и внедренных объектов. При использовании методов OLE они сохраняют свою связь с системой STATISTICA и, следовательно, могут интерактивно редактироваться в рамках других приложений.
62 Глава 1. Краткая экскурсия по системе STATISTICA Доступ ко всем данным графика. Данные, представленные на графиках системы, можно непосредственно просматривать и изменять независимо от их типа во встроенном Редакторе данных графика. Это могут быть исходные данные, части таблицы результатов или ряд рассчитанных значений (например, вероятностный график). Для каждого графика создается связанное с ним «дочернее» окно Редактора, которое закрывается вместе со своим графическим окном. Редактор организован в виде групп столбцов, представляющих отдельные зависимости данного графика (см. следующий параграф). швш t«tt::fl»*» JN:fr—4* £«»» -1 1.1дЫ шштошш^ Ш-ШЩ Данные любого графика всегда доступны через Редактор данных графика [(одним щелчком), даже если это уже преооразованные значения (например, для графика|квантиль-квантиль[). JUttbiT **»м*хяЬ*Ш\ РУплЭТЧ Audi ,?<«*'■'•,,:. Corvette Ctafe Oodq»';'- • -.£«*.. fed Hond» JftOu Mtofc '"' *«o«fet Mfeub |i) |pi|fll,l,|l|!|J.'»Plf!iffWf^i Линейный гр«фмк (CARS STA 5л'22н) ||m,'',Y ' ~7щ ^n« WkV,'T'':":Y,: i m 1 looo ■ЕНИИНв^И^^р 'Ежи пишиw Грин* i ,'>,%;; 12 00 Иде«У1<»»,гврт>чм<Г';' У; 13 X •:: •;::' • • •;':;;:.: #'^l- ¥#::::;.- :.^45^?r 8w**iH^*W■ :'':':K3:;? .9ммчмг^ naeotemy влом'''." Огн»чг» выиьтш* бя»л H1 K2 I9 )93 L9 L3 L8 120 )99 H1 H6 I3 )^2 )ое ИИИ^ИИЕОГ*' нАЖ>ине X 1.00 200 ЗХ 400 5Х 6 00 7Х 8 00 9Х 1000 11Х 1200 13Х 14Х Y 038 •0 09 •0 09 •0 21 0 97 •0 21 015 0 21 015 0 03 •4 23 050 •0 09 038 * ) ^; п выбранные д«*«>« (все) ►
Вступление 63 Категоризованные графики. Для создания категоризованных графиков данные разбиваются на подгруппы. На одном изображении будет одновременно представлено несколько графиков, по одному для каждой из заданных подгрупп. Например, можно построить графики отдельно для субъектов мужского и женского пола, разделить пациентов на группы женщин с высоким давлением, женщин с низким давлением, мужчин с высоким давлением, разделить товары по качеству, странам-производителям и т. п. Разбиение данных на однородные группы и исследование связей между этими группами — чрезвычайно важный прием анализа данных. шидиигдиг ** ^^^ ■ JffM Категоризованные графики широко применяются в системе STATISTICA: О Они доступны в большинстве диалоговых окон с результатами анализа (эти графики автоматически создаются в тех процедурах, где анализируются группы или подгруппы данных, например при классификации, проверки ^-критериев, в дисперсионном, дискриминантном и непараметрическом анализе). О Эти типы графиков присутствуют в списке Быстрые статистические графики в контекстных меню всех таблиц исходных данных и таблиц результатов. О Их можно вызвать из списка Статистические графики (в выпадающем меню Графика), при построении которых предлагается большой выбор различных методов категоризации данных. Методы категоризации, предлагаемые в системе STATISTICA, описаны в следующем пункте.
64 Глава 1. Краткая экскурсия по системе STATISTICA Каким образом задаются «категории» для категоризованных графиков? Итак, вначале нужно разбить данные на группы. При построении категоризованных графиков из диалоговых окон с результатами анализа подгруппы данных определяются автоматически (поскольку такое разделение является частью исследования данных). При построении статистических графиков предлагаются различные способы задания подгрупп по одной или двум группирующим переменным. Кроме того, разбиение на подгруппы может организовать сам пользователь, используя любые комбинации переменных из текущего набора данных. Существует несколько методов выделения категорий: О по целым значениям группирующих переменных (Целые числа); О разделением группирующих переменных на заданное число интервалов (Категории)? О разделением группирующих переменных на интервалы с заданными граничными значениями (Границы); О с помощью задания конкретных значений (кодов) группирующих переменных (Коды); О путем формирования сложных подгрупп (Сложные подгруппы); для этого пользователь может ввести условия выбора наблюдений практически неограниченной сложности и использовать значения любой переменной текущего файла данных, как показано ниже. На следующем рисунке показан достаточно сложный график, категоризован- ный по двум признакам. При этом использован смешанный метод выделения подгрупп. Категоризация по двум признакам означает, что элементы графика располагаются как элементы двухвходовой таблицы, полученной после использования двух различных методов категоризации. ШВВШй наша ИВЕ ,1 140 120 100 § оо 140 . <*• | 100 00 00 Диаграмма рассеяния (FACTOR.STA ИЬПООс) f ; ......... •у* Ф&: •V* Щ ...; ; \...Л i .-Ж ..£**!* \ 50 70 00 110 130 160 60 70 00 110 130 160 60 70 00 110 130 160 ГРУППА: ГРУППА: ГРУППА: «0<33 «nd НОМЕ_7<200 v0>32 and «0<87 v0>*6 «nd HOME_7<200«nd WORK 1
Вступление 65 Г|Графмк2 Диаграмма рас се Диаграмма рассеяния (FACTOR.STA 10v00c) 121 ОС о «,3 ■SI I"" •*/ #~ ♦_* Ш • f^ >^ Ш M 70 10 110 130 1S0 SO 70 M 110 130 1S0 SO 70 00 110 130 1S0 SUBSET: SUBSET: SUBSET: vt<33 «nd HOME_7<2M vt>32 and «0<S7 «0>00 end HOME_7<200*nd WORK 1 Две строки на приведенном выше графике представляют разделение на подгруппы по значениям переменной Ноте_2 (на наблюдения, для которых значение этой переменной меньше либо равно 104,624, и наблюдения, для которых оно больше 104,624). Три столбца графика представляют подгруппы, заданные специальным образом по номерам наблюдений (нулевая переменная) и значениям переменной Ноте_7. Ниже показано диалоговое окно, где задавались параметры этого графика. 2М категормэованмые д MJ.4'l.'lll.MJJJiPI.I £р Дереиетеце: } ; ЯЯ <• Отдельно . **-? ВГ"**9 IUr.Y:H0ME_2 Перем,* WQRKJ Лерем-Y: WORI^2 : Категории пе& Переменная: С*, полгрэолм \ С Целые числе : Г Категории: [То | \ С С Код** <? Задать подгруппы нет С Сложные naArpywM КООРДИНАТЫ л :| СИ! OIL м I Па^метры... Категории по £ ~ Переменная: HOHtJZ С Целые числе <?- Категории: [5 С Границы: нет СКадмс * ПОДОЖКА Нет \/ Линейная \Г~ Логарме»мм««бская \_J Экспоненциальная \j/ Сплайны О т. |'У Намм. квадраты 1*4. Отр зксп -взвеш. \Ш Другая Функция [Друелф На каждом маленьком графике представлена зависимость между переменными Work_1 и Work_2 (в качестве Хи Усоответственно). Первая категоризация (Категории поХ— «столбцы» графиков) проводится методом Сложные подгруппы в диалоговом окне, вызываемом кнопкой Задать подгруппы:
66 Глава 1. Краткая экскурсия по системе STATISTICA ЕЕИШЗЕ Потрут 1 ""•••" •- * -" : '-. [Вкяюч . осям ^JiOTmMrfrWcoip^wwbl [v0< 33 and Нотв^7< 200 П<мгрута2 Вкяюч . ее ям : •=•- : »8 ]ChnpfciTb/ctn>piiim| |vO>32 and v0<67 Подгрута J (Включ., ее ям. "~~ — — Н|Отк|мьт»/сояранмп^ |v0>66 and Hon»el7<20b : Вкяюч., ее ям ^||Открыгь/со«р<нмт»| тЩтт Отмой* ВТ ! & Oiiq*tt»pc« £оХр*«4Т* ОС« 1-е Печать Каждая fttft/рдов 6»*миг COOnMffut^OWffV ОДНОЙ ' категории {уровню) на |сатагориэоввннон трафика. jJ Второй класс {Категории по У или «строки» графиков) определяется группирующей переменной Ноте_2. Диапазон этой переменной разделен на два равных интервала. Для этого в диалоговом окне задания параметров графика в поле Категории введено значение 2 (при этом распределение переменной Ноте_2 разделено на две группы: наблюдения, для которых значения меньше либо равны 104,62, и наблюдения со значениями данной переменной, большими этого числа). Тернарные графики поверхности и карты линий уровня. При выводе результатов анализа по составлению смесей в модуле Планирование эксперимента можно построить тернарные графики в виде трехмерных поверхностей или карт линий уровня. ВШ! I' HL'l.f,',' II,'! 1ШШШШШШШШШШСШ\ Д*миы« mbdutt «U 25» * SOOc Тр«яомло»юитмм ciMtb ф1.82 и ВД и результат (n«p vi€LD) ■10 010 М 0 980 в 1970 ЕЭ 2 981 CZ3 3 951 □ 4 941 В 5 931 ■1 8 921 ■Л 7 911 ■1 в 902 ЦИННИИ зва ЕЕЯЭ1 Катргоригоаммый т»ри»рмыА гррфт (МК2 STA5V42c) Тр*»омпом«мтм«й сьись 0<1. К2 и КЗ). AM провы 5 fJBJ 144$ 1521 1596 ЕЭ 1672 CD С=) ffJBJ pjaj fjpj ■■ 1747 1823 1898 1974 2 049 2125
Вступление 67 Тернарные графики можно построить из подменю Статистические XYZ-графики, Статистические категоризованные графики и Пользовательские графики выпадающего меню Графика. Графики в полярных координатах. Некоторые типы графиков можно построить в полярных координатах. К ним относятся графики рассеяния, линейные графики и последовательные вложенные графики из подменю Статистические 2М графики (оно вызывается из выпадающего меню Графика). Угол излучения Ш!ШШВ2ШШШШШШШШШШШШШШШШШШШЩ Линейный график (EXP.STA 8v*48c) TIME: BEFORE TIME AFTERJ TIME AFTER_2 В полярных координатах можно построить и категоризованные графики. Многие графики, построенные в обычной прямоугольной системе координат, можно представить в полярных координатах. Для этого нужно установить соответствующий переключатель в диалоговом окне Общая разметка в положение Полярные.
68 Глава 1. Краткая экскурсия по системе STATISTICA Ш1Ю1Ш.Ш1М1Г.:11И Линейный график (EXP.STA 8v'48c) ;\Y левая fi^ltr^m *ш ]ЛинеАная 3 ■' " '«Ц JY правая V . •' " \. . «* j! Внмтрвг • • 1 ■*»»' [0 g •• •• Щ Па|>ам>П1>«осй j ц =>| .Верхняя Как поместить на график системы STATISTICA графический объект из другого приложения? Для вставки любых графических объектов, совместимых с системой Windows, можно использовать все описанные выше операции вставки посредством буфера обмена (включая связывание и внедрение методами OLE). Эти операции можно совершать над растровыми объектами, метафайлами Windows, графиками в формате STATISTICA, а также любыми OLE-совместимыми объектами. Как поместить текст на график STATISTICA (отчеты, таблицы и т. п.)? С помощью описанных выше операций с буфером обмена на графики STATISTICA можно поместить очень большой текстовый объект (например, отчет длиной несколько страниц). Этот текст редактируется и изменяется в окне Редактор текста графика системы STATISTICA или в соответствующем приложении, которое является сервером в методе OLE. Все описанные в предыдущем разделе операции вставки и использования буфера обмена применимы к любым совместимым с Windows графическим объектам, а операции связывания и внедрения выполняются для всех объектов, поддерживающих методы OLE. Галерея графиков STATISTICA. С помощью этой кнопки открывается диалоговое окно Галерея графиков STATISTICA. Эта кнопка присутствует в диалоговом окне каждого типа графиков. шшшвт ¥*Щ раза [$ГСтат. Ьст«. ЙСтат &*Стат. ЩСтет ЗМ последовательные графики XYZ графики матричные графики пиктог рафики кетегориэоваииые графики vtfS Размещение нескольких графиков О П»ст не графические окна Q Пользовательские графики 2? Блоковые статистические графики £9 Стат. графики пользователя ? Обаор 1 ? График | Гистограммы J 1 •"[ Диаграммы рассеяния Ов Диагр. рассеяния с гистограмме»»* I л1И1ил1Ш!Й11ли1илп»м |К; | Нормальные вероятностные графики Г Графики квантиль квантиль | | Графики вероятность вероятность [ii'i] Диаграммы диапазонов Диаграммы размаха Столбчатые диаграммы [^л] Линейные графики (для переменных) („У-1 Линейные графики (профили иаблюд ] Последовательные/налож. графики Ф£ Круговые диаграммы Г', ) Диагр пропущ. знач. и интервалов < I <* i Отмена ] Составные графики: диаграммы рассеян**] XV с диаграммами размаха для X и У, подгонхаи сглаживание функции на пи XV, параметров средним, медиан, проиентилвй. выбросов, крайним точек, диапазонов бе»
Вступление 69 Отсюда быстро и легко вызываются все статистические и пользовательские графики, пустые графические окна и статистические графики пользователя. Для этого нужно выделить название нужного типа графика и дважды щелкнуть на нем (или нажать кнопку ОК). Пользовательские и статистические графики. Помимо специализированных графиков, которые вызываются непосредственно из итогового диалогового окна любой программы статистической обработки, существуют еще два основных типа графиков, доступных из меню или панели инструментов любой таблицы: пользовательские графики и статистические (и быстрые статистические) графики. Главное различие между двумя основными типами графиков заключается в источнике данных для отображения. Более подробно эти различия описаны в следующих разделах. Ш Ш (Ш Э1Ш Пользовательские графики. Пользовательский график дает возможность отобразить любую заданную пользователем комбинацию значений из таблиц исходных данных или таблиц результатов (а также из любой комбинации их строк и/или столбцов). В меню предлагается пять типов таких графиков: 2Мпользовательские графики, ЗМпользовательские последовательные графики, ЗМ пользовательские диаграммы рассеяния и поверхности, пользовательские матричные графики и пользовательские пиктографики. При выборе одного из них открывается соответствующее диалоговое окно, где для отображения на графике можно задать диапазон данных текущей таблицы. Содержание этого диалогового окна зависит от выбранного типа пользовательского графика. Начальный выбор данных для построения графика, предлагаемый в этом диалоговом окне, определяется положением курсора в текущей таблице. В каждом диалоговом окне пользовательского графика при задании параметров предусмотрена возможность выбора определенного вида графика (в рамках основного типа). Вид графика также можно подобрать и после построения (с помощью диалоговых окон Общая разметка или Размещение графика, которые открываются при двойном щелчке мышью на области фона графического окна или при выборе соответствующей строки выпадающего меню Разметки). S818? Ш? И§ £% Ё!Ш Статистические графики. В отличие от пользовательских графиков, которые представляют собой средство наглядного отображения числовых данных любых таблиц (исходных данных или результатов, см. выше), статистические графики предлагают сотни заранее определенных типов графических представлений, включающих аналитическое обобщение статистических данных. Они вызываются из диалогового окна Галерея графиков, которое открывается с помощью одноименной кнопки панели инструментов @ или из выпадающего меню Графика.
70 Глава 1. Краткая экскурсия по системе STATISTICA При построении таких графиков используются значения непосредственно из файла данных, которые не зависят от содержания текущей таблицы, выделения блоков и положения курсора. При этом предлагаются либо стандартные методы графического анализа исходных данных (различные графики разброса значений, гистограммы, графики средних значений, например медиан), либо стандартные аналитические методы исследований (графики нормальной плотности распределения, вероятностные графики с исключенным трендом или графики доверительных интервалов линий регрессии). При построении статистических графиков программа учитывает условия выбора и веса наблюдений. Шл Быстрые статистические графики. Наиболее широко используемые типы статистических графиков (вызываемых из меню Графика, см. предыдущий параграф) представлены в меню Быстрые статистические графики. Эти списки графиков не предоставляют такой широкий спектр возможностей, как меню Статистические графики, но в отличие от последних упрощают и ускоряют процедуру построения графика. Быстрые статистические графики: О вызываются из контекстных меню или с панели инструментов любой таблицы (обычно они не требуют обращения к выпадающим меню или диалоговым окнам), О не требуют от пользователя выбора переменных (этот выбор определяется текущим положением курсора в таблице) и промежуточной настройки пара- * метров (формат соответствующих графиков определяется по умолчанию). При выборе пункта Быстрые статистические графики (с помощью кнопки на панели инструментов |^ из контекстного меню или из выпадающего меню Графика) появляется меню выбора статистического графика для текущей переменной таблицы, то есть той, на которую в настоящий момент указывает курсор. ешшшптгжшшяп^
Вступление 71 Если курсор не указывает ни на одну из переменных, то перед построением любого графика из меню Быстрые статистические графики будет предложено выбрать переменную из списка. При создании таких графиков система STATISTICA учитывает текущие условия выбора и веса наблюдений. Блоковые статистические графики. Эти типы (пользовательских) графиков вызываются из пунктов контекстных меню Статистики блока по столбцам и Статистики блока по строкам или из диалогового окна Галерея графиков. Любой из этих вариантов дает возможность построить итоговый статистический график для выделенного блока, чтобы сравнить значения в строках (Статистики блока по строкам) или в столбцах таблицы (Статистики блока по столбцам). Данный тип графиков похож на те пользовательские графики, на которых отображаются данные текущего блока таблицы. Другие специализированные графики. Помимо стандартного набора быстрых статистических графиков некоторые таблицы позволяют строить и более специализированные статистические графики (например, временные последовательности в модуле Временные ряды, пиктографики регрессионных остатков, а также контурные графики в модуле Кластерный анализ). Как уже упоминалось ранее, специализированные графики, которые связаны не с конкретной таблицей результатов, а с определенным методом анализа данных (например, графики аппроксимирующих функций в модуле Нелинейное оценивание или средних в модуле Дисперсионный анализ), вызываются непосредственно из диалогового окна с результатами анализа (то есть из окна, содержащего выходные параметры используемого метода обработки данных). Настройка графика до и после его построения. Любые изменения параметров графика в STATISTICA осуществляются из активного графического окна (после отображения графика на экране). Как правило, сначала имеет смысл построить график, приняв значения параметров по умолчанию, а затем уже вносить различные изменения. Однако в тех редких случаях, когда построение графика занимает слишком много времени (при создании сложных составных графических изображений или обработке больших наборов данных), можно вмешаться в этот процесс, чтобы
72 Глава 1. Краткая экскурсия по системе STATISTICA сделать необходимые настройки. Прервать рисование можно одним нажатием клавиши или щелчком мыши в любом месте экрана, а затем продолжить его после ввода необходимых изменений. Предусмотрено два основных метода настройки графика — добавление и редактирование пользовательских графических объектов, изменение структурных элементов графика. Применяются ли к различным типам графиков различные методы настройки? Нет. Независимо от способа создания графика для его настройки и изменения можно использовать любые возможности, предусмотренные в системе STATISTICA. К любому графику можно добавить новый график, объединить его с другим графиком, поместить в него связанный или внедренный объект. Кроме того, график можно любым образом изменять, рисовать на нем и использовать различные методы подгонки функций. Эти же методы настройки доступны при работе с графиками, которые были предварительно сохранены и вызваны из дискового файла. Настройка статистического графика до и после его построения. В разделе Как настроить график STATISTICA показано, что большинство возможностей настройки (сотни различных вариантов графического представления) доступны непосредственно после построения графика. Для этого достаточно щелкнуть на конкретном элементе графика или выбрать соответствующий пункт в диалоговых окнах Общая разметка или Размещение графика, которые вызываются из выпадающего меню Разметки. В то же время, отдельные параметры, которые определяют источник данных, нужно задать до построения графика, например переменные, метод категоризации, значения меток, имена наблюдений, метки осей. В данном примере перед построением графика нужно выбрать переменные и метод категоризации, а также при необходимости задать значения некоторых параметров с помощью кнопки Параметры (которая здесь не использована). Теперь вернемся к нашему примеру. После построения графика при щелчке на любом месте фона графического окна появится диалоговое окно Общая разметка, в котором регулируются параметры общего расположения графика. В этом окне можно изменить тип графика и задать построение карты линий уровня (используйте для этого поле Тип графика). Кроме того, можно изменить пара-
Вступление 73 метр Число сечений с установленного по умолчанию со значением 15 х 15 на 25 х 25 (этот параметр определяет точность построения карты линий уровня): После внесения изменений нажмите ОК, и вы увидите новый график: ЫШНМШД ЗМ мт«яц»оо1 ••**> ч*Ф* (cardtocl sui3v*30c) £ Tfl 00 108 1» <ЗВ Т8 00 10В «О 1ЭВ л' •UMtT.0fNDi№'MALr«ni}A*(<41 «UM(T «CMOf M-MAlf-Ml ЛО<>40 Тв 00 ЮЯ 1» 1ЭВ 187 773 - 306 4» 37363* - ?«1 01в Снова вернемся к диалоговому окну Общая разметка и выберем для типа контурной линии значение Зона. Кроме того, в первые три строки заголовка графика
74 Глава 1. Краткая экскурсия по системе STATISTICA поместим управляющие символы @F[1,1], @F[1,2] и @F[1,3], чтобы записать там уравнения аппроксимирующей квадратичной функции для первой зависимости (цифра 1 на месте первого параметра в квадратных скобках) для каждого из трех отдельных графиков (цифры У, 2 и 3 в качестве вторых параметров): 3«гоямок1 ЭМя«т« . 3«гоаомж 2 Подгрупп*: v1>0 3«гоаомж Э шжв Ниш ьХ1 MEASUR1 kYI MIASUR2 OcfcZI MCASUR3 Ь**««Мг}А«то 3 *рн {юяпщкл tmmmmcm * шит*) i»tut I О» 4 «»f|1 3K>-4*123«33 2i 1 Ma 1 30 C««*onra4 Б(«йГ liH.2 *f|1.1| t<W3 #fM,?l Trite 5 BoMmXI BL000_P1 11««VI BIOOO.P? L*IIY2 21 CHOLCST J Г********* Для быстрейшего отображения и всестороннего форматирования уравнений функций лучше использовать диалоговое окно Параметры, которое вызывается из диалогового окна Статистические графики. Нажмите ОК, и вы увидите измененный график: SubM oe<«MMALrtndAoe«4i z>74eesi*4«iyx-3«7«rvoxMi*xax-oiei*x a*wr of»c»H**LF «4 доемо г«вэ вгг-4в авгх*т$ totvo гэв*х*».о о &<mt OCfCCK-TCMALF РМв 12>»ЗЭ 48Гх-$Э S71VO 0t74*ii.01 36*tVO На^удЕ* ID 114 MS £23 mw C=) 15090» CDieeon ■Ив77ТЭ ■120S43& IB 223 836 ■■ 241 616 IUMIT •INMM-'rCUALr
Вступление 75 Теперь можно продолжить знакомство с различными способами настройки графика. Самый простой (и самый быстрый) способ изменения параметров какого- либо элемента — это двойной щелчок на нем кнопкой мыши. Кроме того, с помощью одного щелчка правой кнопкой мыши на данном объекте можно вызвать соответствующее ему контекстное меню. Например, при щелчке правой кнопкой мыши на одной из осей графика появится показанное ниже контекстное меню, в котором предлагается выбор вариантов настройки для данной оси: ifiiHiKifjuiiiiim на ЭМ кяткщтао*—** (рафик (cardart .*• i3v*20e) Panel А0€«41 х-748Л51*4.вЗЭ»х.2в7»7»у*ОД«1*х*х-0161,х SU*«t OeceWHALP «nd AOC*0 2-63.627.48J96*x*7S 707VO 23fx*x*0 О SubML OWCeR-TOOLe 2-4612903 4вГх.53 «71VO W7Vx-0.136»xVO Щит *штФ и»цс*с:: 00 106 120 SUtSIT «ENOfn-TtMALT ■■78182 ■■96 364 ■1114.S4S ЕЭ 132 727 CD 150 909 tZD 189.091 ■■167 273 ■■205 455 ■■223:636 ■■241818 ■■ »ыае по- На показанном ниже графике с помощью кнопки панели инструментов \ добраны другие пропорции графического окна, кроме того, изменен статус условных обозначений с фиксированного на перемещаемый, а их текст отредактирован, упорядочен и перемещен на другое место. Iillf ,'И 1Г1ЫЗЗ ЭМ K«Ten>|M»ta>**u графис (carded А* 1 ЭУ20с) SubMt OeCW-HAAUTandAOe-41 2-748Л51*4ВЗЗ,х.28 797»у*004ГхЧ.01в1*х Subaet OCICeR-'MALr and A06»40z-63 627-48 998*х-»75 707*у«0 23844*0 О $Cto«t C©C«-T»MLP 2-48129*33 488*x-53 87^4) 097»x'x-0.138»x*y0 SUMf T OENOfiR-TEMALF ■1 78 182 ■1 96 364 ГЯ 114545 Ш 132 727 ■1 223 636 CZ3 150 909 CD 169 091 ШШ 187 273 ШШ 205 455 ШШ 241 818 ЩШ выше Могут ли графики автоматически обновляться при изменении файла данных? Да, могут. Все графики сохраняют связи с таблицей исходных данных, по которым они построены. При этом, если обновление не происходит вручную и связи не отменены, график автоматически обновляется при изменении исходных данных. Для управления связями имеется специальное диалоговое окно Связи данных и графика. Оно вызывается из выпадающего меню Графика.
76 Глава 1. Краткая экскурсия по системе STATISTICA ВШВВШШМвааааааааааааааааШЕШ ! ?««"" &*** у-.. .•■:. . •.■•• •■:.:•. ...•■ |—;— :=.^.|%1 IApto График 16: Диаграмма размаха 'и .-тТ^-i * ; llbllLH!lllJ/PJ.J»llLHil'M/ll'l'>.l',P.lJJJ-l!ll|-lHH^IH | -у :; ЛГлокир. Графмк12: ЗМ карта лммия уровня l,,,,,,.,,,,,,,^?****. I--.-- 1 ]Авто График 11: Матричная диаграмма : > J 06&мтъ сейчас ) I I И»»****"» сая»ь | I . 1 Орераатъсааэ» 1 Графш^15: Диаграмме рассеяния : I : j Cb*aWei&$J^ •• . Обновжт^ Г A^OH«rir»eciu< (g ^fggt^ С ^юкщ>ошлть{шршьлтшю) \ • ; Г Аатообиоалеим* иамршшвго грабим б*У предварительного запроса Г Не обиоаапп» rpa+шм. анадрсш»* а текущий график Здесь можно установить автоматический режим связи, когда график автоматически обновляется при изменении данных, по которым он построен. Можно также задать режим Вручную или временно заблокировать связь. Кроме того, можно установить режим Связь с текущим файлом данных и построить такой же график или серию графиков для других файлов данных. Способ связи можно глобально изменить с помощью команды выпадающего меню Сервис. STATISTICA поддерживает и «вложенные» связи с другими приложениями. Например, можно установить связь графика с данными электронной таблицы Excel 5 путем динамического обмена данными (DDE). При нажатии клавиши F9 для пересчета таблицы Excel произойдет автоматическое обновление как данных этой таблицы, так и соответствующего им графика в системе STATISTICA. См. также два следующих пункта. Графический формат STATISTICA. Графики и рисунки могут быть сохранены в графическом формате STATISTICA в файле с расширением *.stg. Для этого используются команды Сохранить и Сохранить как... из выпадающего меню Файл. Именно этот формат рекомендуется для записи графического файла, если предполагается в дальнейшем снова открывать его в системе STATISTICA или присоединять к другим приложениям методами OLE. В отличие от других графических форматов формат STATISTICA хранит не только саму картинку, но и Редактор данных графика со всеми представленными на графике данными, все аналитические параметры (уравнения подгонки, эллипсы и пр.), а также другие параметры, позволяющие впоследствии продолжить анализ графических данных. Этот формат наиболее удобен при связывании или внедрении графика в другой график STATISTICA. Сохраненные в данном графическом формате файлы можно распечатать в пакетном режиме с помощью команды Печать файлов из выпадающего меню Файл. Командный язык STATISTICA (SCL) STATISTICA содержит два встроенных языка программирования: STATISTICA BASIC и SCL (командный язык). Оба языка предназначены для работы в среде
Командный язык STATISTICA (SCL) 11 STATISTICA и содержат встроенные операции для обращения к таблицам исходных данных, таблицам результатов и графическим функциям. Язык STATISTICA BASIC представляет собой простой и одновременно достаточно мощный язык программирования. С его помощью можно создать широкий спектр приложений, начиная от простых программ преобразования данных и кончая сложными пользовательскими процедурами комплексного анализа и вывода информации. Этот язык программирования пригоден для решения больших вычислительных задач, поскольку обрабатываемые массивы данных могут иметь до 8 измерений и нет ограничений на размеры массивов. Таким образом, пользователь может использовать всю доступную память и создавать процедуры, включающие операции с большими многомерными матрицами. Встроенный язык STATISTICA BASIC доступен в любой момент анализа вместе с интегрированной средой, которая позволяет писать, редактировать, проверять, отлаживать (предварительно прогонять) и выполнять программы. Язык STATISTICA BASIC как обычный язык программирования поддерживает циклические операции и условные переходы, функции и подпрограммы, а также работу с динамическими библиотеками (DLL). В то же время, он «понимает» структуру файлов данных системы STATISTICA и позволяет организовать интерактивную обработку данных в среде самой системы с помощью пользовательских диалоговых окон. С помощью этого языка пользователь может создавать свои собственные сложные программы анализа данных, одновременно используя готовые алгоритмы расчетов и построения графиков, предусмотренные в системе STATISTICA. Командный язык SCL (STATISTICA Command Language) предназначен для организации пакетной обработки данных и создания собственных приложений на основе процедур, содержащихся в системе STATISTICA. Для того чтобы пользователь мог при этом реализовать собственные алгоритмы расчетов, предусмотрена возможность интеграции языков STATISTICA BASIC и SCL. Программы, написанные на встроенных языках системы STATISTICA, доступны в любом модуле системы и на любом этапе анализа данных, при этом их можно вызывать и выполнять как с помощью кнопок автозадач, так и непосредственно из окна редактирования. Пользователь также имеет возможность создавать собственные библиотеки функций и подпрограмм и таким образом значительно расширять предлагаемый набор процедур обработки данных и представления результатов. Ввод и исполнение 5СХ-программ. STATISTICA может работать в «истинном» пакетном режиме как система, управляемая командами, с помощью встроенного языка управления приложениями SCL (STATISTICA Command Language), доступного в любом модуле системы из выпадающего меню Анализ. Можно ввести последовательность команд для выполнения определенных действий, а затем сколько угодно раз исполнять ее в пакетном режиме. Возможен и другой способ действий — использование диалогового окна Мастер команд для быстрого выбора и ввода требуемого списка команд.
78 Глава 1. Краткая экскурсия по системе STATISTICA Для написания и отладки «пакетов» команд используется интегрированная среда языка SCL. Она включает текстовый редактор, совмещенный с окном Мастер команд (см. иллюстрацию выше — кнопка Мастер команд на панели инструментов Командный язык), систему помощи по синтаксису языка с примерами и интегрированные средства проверки правильности программ (доступны из выпадающего меню Сервис). Пользовательские расширения языка SCL. Программы на языке SCL могут включать не только предопределенные параметры и команды для выполнения действий по статистической обработке, управлению и графическому выводу данных (см. кнопки Справка: примеры и Справка: синтаксис на панели инструментов), но и пользовательские «команды», определенные с помощью инструмента Назначить клавиши {SendKeys) (в соответствии с правилами, принятыми в MS Visual BASIC). Написанные таким образом программы могут выполнять, например, операции с буфером обмена (Копировать, Вставить), менять параметры вывода, принятые по умолчанию в различных процедурах, и выполнять другие функции. SCL-программы могут также включать в себя программы и процедуры, написанные на языке STATISTICA BASIC (языке STATISTICA, предназначенном для преобразования данных и графиков и управления ими, который доступен из любого модуля пакета). Например, определенные пользователем графические или вычислительные процедуры на языке STATISTICA BASIC могут выполняться как часть пакета команд SCL. Пользовательский интерактивный интерфейс для SCL-программ. Несмотря на то что в командном языке SCL не заложен в непосредственном виде специальный пользовательский интерактивный интерфейс, тем не менее для этих целей можно использовать программы на языке STATISTICA BASIC, вызываемые из SCL-про-
Командный язык STATISTICA (SCL) 79 грамм, например для создания диалоговых окон, позволяющих выбирать переменные, файлы данных и т. п. в ходе выполнения программы (см. примеры в Электронном руководстве). Исполняемый модуль STATISTICA. Командный язык содержит специальный Исполняемый модуль, позволяющий разрабатывать приложения «под ключ», которые вызываются двойным щелчком на значке соответствующего «пользовательского приложения» на рабочем столе Windows. Эта возможность позволяет экономить время пользователя, когда многократно повторяется одна и та же процедура или последовательность процедур анализа, а также дает возможность использовать SCI-программы пользователями, которые не знакомы с соглашениями системы STATISTICA. riflliHWIPillHilHilin' ЛГИ' ДГ \\Ш2ШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШШЖЗ Чтобы создать такое приложение «под ключ», сначала нужно написать саму SCL- программу и сохранить ее обычным образом (например, в файле ProgramLscl). Затем в окне Диспетчер программ системы Windows нужно создать пиктограмму для исполняемого модуля с именем Sta_run.exe (оно находится в папке STATISTICA на диске). Модуль запуска
80 Глава 1. Краткая экскурсия по системе STATISTICA В поле команд нужно задать имя SCL-программы, подлежащей исполнению (например, d:\data\program1.scl). Теперь при щелчке мышью на этом значке будет начинаться выполнение программы (в данном случае ProgramLscl). Описанным способом можно создать любое количество пользовательских приложений, а с помощью окна Диспетчер программ дать им содержательные имена, соответствующие тем задачам анализа данных, которые эти приложения выполняют. Проверка Ежедн. и очистка итог данных Критерии оптимизации Кнопки автозадач Кнопки автозадач — это всплывающая настраиваемая панель инструментов (включить или выключить ее можно клавишами CTRL+M). ИНИИНИТ £*» Qpm* gw ftp*** fernm 4N4*J>»*** &£*8">*Л£ , ' -,-.'v • „ -л КНОПКИ АВТОЗАДАЧ идеально подходят для автоматизации работы. Им можно присваивать: Макрокоманды: созданные в Редакторе макрокоманд Макрокоманды: движения мыши и нажатия клавиш Программы из команд STATISTICA (язык SCL) Программы пользователей на STATISTICA BASIC Файлы STATISTICA (данные, графики, отчеты...) 1 ,л А •7 / / || W^: J^iew»»» ^J] f«W>lwr^J| № Orm 'J] fe Гра+мш14 J Нц'наё^ It 1 ^::-: • »ii»w.«»|^S • it IPP $и*»г»»инг£р Ц&МШ *W**n |"""". Кнопки на этой панели инструментов можно назначить/переопределить с помощью кнопки Настройка... (или нажатия на соответствующую кнопку при удерживаемой клавише CTRL). В диалоговом окне, которое при этом открывается, можно присвоить имена уже имеющимся и новым кнопкам.
Кнопки автозадач 81 Перейдем к более систематическому изложению. Часто при выполнении сложной задачи возникает необходимость выполнять одну и ту же последовательность действий, например открывать ранее сохраненные графики, данные или листинги программ. Постоянная потребность выполнять мало относящиеся к основной работе операции может отнимать время или даже раздражать. В системе STATISTICA предусмотрены возможности, которые избавляют пользователя от однообразных операций и способствует созданию комфортных условий работы. Кнопки автозадач — это настраиваемая панель, которую в случае необходимости вы легко можете убрать с экрана или снова восстановить (восстановить или скрыть эту панель можно с помощью комбинации кнопок CTRL+M). На панели «Кнопки автозадач» нажмите кнопку Настройка... Откроется окно настройки кнопок автозадач. В центральной части окна расположен столбец кнопок, позволяющий: О Изменить или задать кнопку. Нажав на эту кнопку, вы можете задать последовательность нажатий кнопок клавиатуры. Для организации такой последовательности достаточно нажать кнопку Запись в правой части диалогового окна. С этого момента система автоматически начнет запоминать и переводить на язык команд ваши действия. Нажав, например, на клавиатуре кнопку Alt, вы попадете в главное меню, по которому сможете передвигаться с помощью стрелок и клавиши Enter. Свободно перемещаться внутри диалоговых окон вам поможет клавиша Tab и т. д. Для окончания записи нажмите CTRL+F3. В нижней части окна Настройка кнопок авто- задач будут описаны кнопки перемещений по окнам и соответствующий им синтаксис. О Удалить кнопку. В любой момент вы можете удалить ставшую ненужной кнопку. О Задать последовательность функций или операций на Командном языке STATISTICA (SCL). О Использовать написанные на языке STATISTICA BASIC процедуры вычислительного характера, преобразования данных, операции по управлению данными, графические процедуры, а также процедуры, написанные на любом другом языке программирования, вызываемые из STATISTICA BASIC. О Открывать файлы данных и любые вспомогательные файлы системы STATISTICA. О Создавать и редактировать макрокоманды (последовательности нажатий клавиш), соответствующие часто выполняемым процедурам, заданиям или настройкам. Такие редактируемые команды можно вводить в текстовом виде или, например, как последовательности движений мышью. В каждом из описанных выше окон предусмотрена возможность создания сочетаний «горячих клавиш». Вы можете назначить сочетание клавиши CTRL и любой буквы от А до Z или цифры от 0 до 9. После сохранения этой установки вам будет достаточно нажать определенную комбинацию клавиш, что будет равносильно нажатию на кнопку автозадачи.
82 Глава 1. Краткая экскурсия по системе STATISTICA Панель инструментов может быть глобальной или локальной и содержать большие библиотеки пользовательских заданий и процедур. Локальная панель инструментов связана с конкретным модулем или проектом. Имя открытой в данный момент панели высвечивается в строке заголовка диалогового окна. Настроенную панель инструментов Кнопки автозадач можно затем сохранить, используя команды диалогового окна Настройка.... Панель инструментов Кнопки автозадач можно использовать как удобный интерфейс для пользовательских расширений стандартных процедур.
Кнопки автозадач 31 1 Ее можно легко настроить так, чтобы она занимала очень мало места на экране. Размеры панелей инструментов можно менять с помощью мыши: ■ни ihiiiiiiihmhiiihh ■шшшииииДшАяншм Панель можно зафиксировать, переместив ее к границе окна приложения системы STATISTICA, как показано на следующем рисунке. тшшшжшвшт шящ
84 Глава 1. Краткая экскурсия по системе STATISTICA Как уже было отмечено, кнопки панели инструментов Кнопки автозадач можно настроить или переназначить в диалоговом окне Настройка кнопок автозадач (которое открывается с помощью кнопки Настройка... на панели инструментов). Кроме того, отдельные кнопки можно отредактировать и/или переназначить непосредственно в соответствующем окне настройки; для этого нужно щелкнуть мышью по этой кнопке при нажатой клавише CTRL. 11 *%; *-Л ty00*1.V; 11 При этом откроется окно настройки данной конкретной кнопки. Выбирая последний пункт контекстного меню, которое появляется по щелчку правой кнопкой мыши где-либо на панели инструментов, можно быстро переключаться между различными предварительно сохраненными панелями инструментов Кнопки автозадач. Взгляд в будущее STATISTICA постоянно развивается, открывая новые возможности для пользователей. Если говорить кратко, то развитие системы происходит в духе развития современных Windows-технологий. Гибкая настраиваемость для задач конкретного проекта, широкий набор статистических опций, доступных пользователю из других приложений, глобальная интеграция с другими приложениями, например, с помощью VB, C++, Java, оптимизация для Web и мультимедийных приложений — ближайшие перспективы STATISTICA.
Первые шаги в системе STATISTICA 85 ;j£fe £<* %tm Qebug fiui $tf»fc* frapht look Window #ф ;JQ Й* В j £*' Г& | Л Ча & ;^ : *> Я* M $4 AddtoWoikbook* AddtaR«poa* j «$ Ц?! «lolxi Hiyffil^ff^r^ ^gjxj • ffifqlxn OrderlO j CustomerlD 103X LILAS 10331IBONAP 10332 MEREP 10333 WARTH 10334 VICTE 10335 HUNGO •'_j Workbook 1 •-: <j| 2D Box Plots A0 by И Box Plot A0 by В 'iJ Basic Statistics/Tat !:■; ;,'^J Descrptive slat ПУагЗПОЬу. nvaf4A0by П Vai5A0by Vaf6A0by J :'lh{:»>4f В таблицы с данными (мультимедийные электронные таблицы) можно будет встраивать различные объекты: звук, фото и т. д. Первые шаги в системе STATISTICA Наше знакомство с системой STATISTICA, конечно, следует начать с ввода данных. Вы увидите, как легко вводятся в STATISTICA самые разнообразные данные. Предполагается, что система STATISTICA установлена на вашем компьютере и вы последовательно повторяете описываемые действия. В качестве конкретной области выберем медицинский пример. Как вы уже знаете, исходные данные в системе STATISTICA организованы в виде таблиц. Если у вас имеется опыт работы с электронными таблицами (типа MS Excel), то вы быстро привыкнете к таблицам STATISTICA. Заметим, что табличная структура данных STATISTICA позволяет естественно отобразить большинство реальных данных. Электронная таблица состоит из строк и столбцов. Столбцы таблицы STATISTICA называются Variables — Переменные, а строки Cases — Наблюдения. Например, в медицине наблюдения — это пациенты, переменные — пол, возраст, дата поступления в больницу, дата диагноза, дата операции, перевода в другую больницу, выписки и т. д. Вы можете представить такую таблицу как страницу записной книжки врача, где строки — это, например, имена пациентов, столбцы — характеристики (переменные, описывающие течение болезни).
86 Глава 1. Краткая экскурсия по системе STATISTICA Для того чтобы создать таблицу с данными, проделайте следующее: 1. Запустите программу STATISTICA. 2. Откроется меню Статистических модулей (STATISTICA Module Switcher). 3. Выберите из меню модуль Основные статистики и таблицы и щелкните по нему мышью. 4. Теперь вы находитесь в модуле Основные статистики и таблицы, в котором можете выбрать любую статистическую процедуру, входящую в этот модуль. Но поскольку у вас другая цель, просто щелкните мышью по кнопке Выход (Cancel). Итак, вы находитесь в рабочем окне модуля Основные статистики и таблицы системы STATISTICA. В основном рабочем окне системы подведите курсор мыши к строке меню Файл и щелкните левой кнопкой. В выпадающем меню выберите команду Создать данные. На экране компьютера сразу же появляется окно Создание данных (см. рисунок ниже). В этом окне можно ввести имя файла, например medicine1.sta (файл может быть назван и по-русски, однако по ряду причин целесообразнее использовать английские имена). Теперь поместите курсор мыши в поле File name — Имя файла и наберите с клавиатуры нужное имя. Создание данных имя Файла S«v*jr< ,ij Examples ~зшшшш LjSepath Lj Sibasic CJIOitems £13x3 CQ Accident B] Adapters «I,,,,,,,-,;,,,,] • £]Adstudy C] Aggr essn £jAlerfly £)Ваюгю2 •CjBarotrop £|Beverag2 С J Beverage £] B»d_ptep £] Bleach £J Boston2 rj Bulbs £]Cars £] Center £1 Center2 £] Circuits rj Comfort £J Compos* £j Constrr 21 ffbhrnx U :.Imedone1 staj §*v* '•• Savearjtpp* .{Файлыданных (" sta) Рабоч книг* 1 ;  Cancel После нажатия клавиши Enter на клавиатуре или кнопки Save программа создаст пустую таблицу, содержащую 10 строк и 10 столбцов. NIHJUIIII 1. ш Ш ошэ г VAR2 10 УАШ8 >d
Первые шаги в системе STATISTICA 87 Вы легко можете увеличить или уменьшить как количество строк, так и количество столбцов этой таблицы. Создайте в таблице столько строк и столбцов, сколько нужно. Для этого используйте кнопки Щ^Н^^ЩИИ^^^Й на панели инструментов. Нажмите, например, кнопку Наблюдения. После нажатия кнопки на экране возникнет меню, предлагающее следующий выбор для наблюдений таблицы: Добавить, Переместить, Копировать, Удалить, Ввести имена наблюдений. Выберите, например, пункт Добавить, дважды щелкнув левой кнопкой мыши. Откроется окно, в котором можно задать число наблюдений, добавляемых в таблицу: вшев Ъегттъ Р-1 \ О* I 1 Опшм|1 Нажмите ОК, и количество строк (наблюдений) в таблице увеличится на 2, то есть станет равным 12. Аналогичным образом измените число переменных в таблице. В данном случае понадобятся 11 переменных. Нажмите кнопку Переменные на панели инструментов. С помощью курсора мыши в выпадающем меню выберите пункт Добавить. На экране появится окно, где выполните установки, как показано ниже. Ърг—тьтст; JvARI О Ямядышмкниг* Hi mm лкимаииоА. чтобы Нажмите еще раз кнопку Наблюдения и выберите пункт меню Имена. На экране появится диалоговое окно, в котором можно определить, сколько символов в таблице будет зарезервировано для имен наблюдений. Раздвинуть поле для имен наблюдений можно также с помощью мыши. Сммгъ? . югн ЕЛ ЕШЗ 1 ** 1 Итак, вы сделали первый шаг к достижению цели — создали электронную таблицу, которая имеет 11 столбцов и 12 строк, а также место для ввода имен наблюдений (см. рисунок). ИХ 1 г р-*э 1 4 I * I * Г *■] - * J * П to VAEV IVAR2 I У»ЙЗ ] У>А4 I УЛЮ 1 VW I УЛЙ? \ W9 \ УАЯ8 1 VAfflg Теперь необходимо ввести название таблицы (ее заголовок) и имена переменных. Вы работаете, используя мышь и клавиатуру. Запомните основной принцип: дважды
88 Глава 1. Краткая экскурсия по системе STATISTICA щелкая мышью по полям заголовков, вы открываете диалоговые окна, позволяющие вводить заголовки, описывать переменные и т. д. Введите заголовок таблицы. Для этого дважды щелкните мышью на верхней строке таблицы, пустой строке, которая находится над переменными. В появившемся окне введите заголовок таблицы. информация о ♦•Лив и |ФаАл создай Эрнстом Статистиком 15-го января 2000 года дня статьи "Учимся применять (статистические методы** ... Ца*миг*СМ*Сг4« чтобы начать*? новой строки НаммятоСШТяЬ. чтобы вставить позицию L*U табуляции. £ B£ «>аАйы текущей РебочеА шлшпс, &ч*рея>; |32 | £$ Оцрмть \ | Добаешь } 1 ШтвИ 1 Кнопки 'йобтигь' и "Удалить* Файлов Раб *н>сн Наберите с клавиатуры заголовок, нажмите ОК. Введенный текст отобразится в заголовке таблицы. В поле Информация о файле и примечания можно записать дополнительную информацию, которая будет полезна при работе с файлом. Аналогично редактируются имена переменных и наблюдений. Например, чтобы ввести имена, необходимо дважды щелкнуть мышью в поле Имя наблюдения и в появившемся окне ввести имена пациентов: IIIIIJ.!J1IIJJI1HJ!I!U.1 .l|J!H 1; Рм 2. ^Г ■6 [^ж; 1\п*~~т*А Для того чтобы описать переменную, необходимо дважды щелкнуть мышью по ее имени — например, после щелчка по заголовку переменноШ (VAR1) откроется окно, в котором можно задать ее имя (или переименовать ее), формат переменной, метку, связь и т. д. гта! Имя: ЩВГ БодПД; |9999 й* 3 Тит ll.l.l.l.l.i.HH.l.U.ffil Првдстлщденме: i » j Щст парам, | | Хв*СТ, 9Н6Ч. J | Знач./стат ист. { [38 £р*+шм | 1.000 000. 1.000 000 000 000 A000 0001 .000 000.A.000 000) Двинкое» я (метке.« *!%*"»' Ы Примеры Weir** 6алоеоАлокоав1991 Формулы: »vtVv2. Сея*»; <^Kce*r\!te*»i2c2.»4c4 - (vi >0ГАьГ »v3
Первые шаги в системе STATISTICA 89 Теперь заполните созданную таблицу данными. Данные вводятся непосредственно с клавиатуры. Возможности экспорта, например в MS Word, мы обсудим позднее. Если нужно ввести числовые данные, используйте клавиатуру и стрелки перемещения курсора. Поставьте курсор на нужную ячейку таблицы и введите числовые данные. Текстовые значения вводятся иначе. Подведите курсор к ячейке переменной с текстовыми значениями и дважды щелкните мышью. В ячейке появится код 9999 — это код пропущенных значений. Сотрите код, используя кнопку DEL на клавиатуре. Затем введите нужное текстовое значение. В итоге можно получить следующую таблицу: ТЕКСТОВЫЕ Абремо»АИ. Баранове 8 В Горим АН Гордом Д8. Гущин AJ4 ЩкаЛИ-И £мр«фо»ДЛ Жукя»ЛР Эаа*«яо*ЛГ, 3*порймф9*ИА Иммо»А,& ltf*L. „ .. тшшшшшшшшшшшш Поступление и выписка пациентов MECRLV январь май август август сентябрь октябрь октябрь ноябрь ноябрь февраль февраль март £ень J 6 2 31 22 9 5 26 22 20 15 8 29 ГОД.1 68 68 68 68 68 68 68 68 68 69 69 69 МЕСЯЦЕВ январь май май| октябрь январь декабрь июль август декабрь февраль ноябрь май Яд 21 25 7 14 8 7 29 13 25 29 7 ГОД.* 68 68 70 68 69 68 72 69 68 69 71 69 ПОЛ: муж жен муж муж жен муж муж муж муж жен муж ВОЗРАСТ 54 40 51 42 48 54 54 49 56 55 43 42 • .9, : ГОРОД Иваново Иваново Иваново Калуга Калуга Калуга Смоленск Смоленск Иваново Иваново Смоленск Иваново ■ -1Р1 10 I 11 ANmjMfSMA 0 0 0 0 0 0 0 0 0 1 0 0 111 3 -i 166 1 32 61 36 1 89 87 112 2 05 2 76 1 13 • 138*j ♦ Таким образом, вы научились создавать таблицы и вводить в них данные. Повторив несколько раз описанные действия с другими данными, вы прочно закрепите полученные навыки. Поскольку система STATISTICA является обычным Windows-приложением, можно легко и быстро импортировать данные, полученные в системе STATISTICA, в другое Windows-приложение, например в MS Word. Лучше всего проделать это следующим образом: нажмите одновременно кнопки ALT и F3. На экране вместо курсора мыши появится значок «прицел». Используя мышь, поместите прицел в верхний левый угол таблицы. Затем нажмите левую кнопку мыши, зафиксируйте прицел и, удерживая кнопку мыши, переместите прицел в новое место таблицы. Выделенная часть таблицы будет отмечена прямоугольной рамкой. После того как вы отпустите кнопку мыши, отмеченная часть таблицы будет помещена в буфер обмена. Если теперь открыть нужный документ Word и набрать на клавиатуре комбинацию кнопок CTRL и V, то выбранный сегмент таблицы будет скопирован в документ. Замечания. Вы работали в модуле Основные статистики и таблицы, подобным же способом можно ввести данные в любом модуле системы STATISTICA. С точки зрения общих возможностей по управлению данными, модули системы одинаковы. В системе STATISTICA имеется специальный модуль Управление данными (Data management), который содержит расширенные возможности, позволяющие быстро создать электронную таблицу, объединить две таблицы, вырезать часть таблицы, отсортировать наблюдения по какому-либо признаку: например, расположить имена пациентов в алфавитном порядке или упорядочить их по возрасту и т. д. (см. рисунок ниже). Упражнение. Проведите сортировку данных файла medicine 1.sta по возрасту пациентов и по городам. Используйте модуль Управление данными и опцию Сортировка наблюдений.
90 Глава 1. Краткая экскурсия по системе STATISTICA В*В Объединение дача •ейлов денных РЗ Создание подмножестве из Файле даиньп ••••» Сортировке небе—опий М Иэмонвнмв небвлдеюв! м? Проверке имен и Форматов перемешали ■■т Проверке значений данных W Стаидартиэадия перемешали iMbti Зенена ПД средними & йш Г> ММ: создание нового файла & ММ: открытие файле до |ВРДАеТ%»<т1фЫ*Ъ» STATISTICA Еще один пример Из переключателя модулей системы STATISTICA запустите модуль Основные статистики и таблицы. Для этого выберите в меню модуль Основные статистики и таблицы и щелкните по нему мышью. Модуль будет выбран из списка модулей. Затем подведите курсор мыши к кнопке Переключиться в и нажмите ее. Произойдет запуск системы STATISTICA, и на экране появится рабочее окно модуля Основные статистики и таблицы. Именно в этом модуле мы будем работать. еавжава Н опер вметрическея статистике Дисперсионный анализ (AN OVA/MAN OVA) Множественная регрессия Вр Кластерный анализ Управление данным» Факторный анализ Многомерное вжелировеиив Деревья классификации Анализ соответствий ИечфШжчкяцмА набор олмсаге/*»** автмогих.:'•' многообраэмвтаблиц..;...-■ мнргомерны* otttiMtMk;. t awrop ejpi ме дихотомии. '• ptlKOCTcipCi«ifi COpBlIC - табукюеаню данных просмотр таблщ по слоям, корреляции, t •критерии дм I жмборок, проверка различий корреляциям процентам. многие другие возможности. Вое быстры» статистики доступы из помелей йерекяажитьса i Ж уЦвмените к | J^»tw» »> w toKW*mwi **i:» ft JI Отмена 'трасс женщин ^ЗзЯжШ1жв1 П_семья| Н семья Н семья Н семья П семья П_семья П_семья Н_семья П_семья Н_семья ТРЕВОГА Высокая Низкая Высокая Низкая Высокая Низкая Низкая Высокая Низкая Высокая
Первые шаги в системе STATISTICA . 91^ В модуле Основные статистики и таблицы создайте файл данных, как показано на рисунке. В файле содержатся результаты опроса 10 женщин (данные являются модельными) относительно их семейного положения и состояния уровня тревожности. Первая переменная СЕМ_ПОЛ описывает семейное положение женщин. Эта переменная принимает два значения: П_семья — полная семья, Н__семья — неполная семья. Вторая переменная, ТРЕВОГА, описывает самооценку личностной тревожности женщины. Она принимает два значения: низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью воспринимать жизненную ситуацию как угрожающую (содержащую в себе тайную угрозу). Вы видите, что первая опрошенная женщина — наблюдение номер 1 (первая строка в таблице) — имеет полную семью и характеризует свое душевное состояние как тревожное. Вторая опрошенная женщина — наблюдение номер 2 (вторая строка таблицы) — имеет неполную семью и оценивает уровень своей тревожности как низкий и т. д. Назовите этот файл womenLsta. Заметьте, переменные в этом файле принимают текстовые значения, что типично для социологических опросов. Примите совет, позволяющий эффективнее организовать ввод текстовых данных. Переменные принимают текстовые значения, и если каждый раз вводить текст в таблицу, то это займет слишком много времени. Для удобства лучше использовать численные значения, а затем перейти в текстовый режим, нажав кнопку на панели инструментов. Удобно закодировать значения переменных. Покажем, как это делается. Начнем с переменной СЕМ_ПОЛ. Дважды щелкните по ее заголовку левой кнопкой мыши, и на экране отобразится окно Диспетчер текстовых значений - СЕМ_ПОЛ. В этом окне в колонке Текст наберите в первой строке П_семья, а в колонке Число наберите 1. Это приведет к тому, что текстовому значению П_семья будет присвоен код 1. Во второй строке Диспетчера текстовых значений наберите Н_семья, а в колонке Число наберите 2 — текстовому значению Н_семья будет присвоен код 2. Далее нажмите кнопку ОК.
92 Глава 1. Краткая экскурсия по системе STATISTICA Теперь введите значения 1 в те ячейки переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение П_семья. Введите значения 2 в те ячейки переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение Н семья. ^|Стр#сс ж#нщин 2 3 4 б в 9 10 1| 2 2 2 1 1 1 2 1 2 I Теперь достаточно нажать кнопку ||| на панели инструментов STATISTICA, чтобы получить нужные текстовые значения. Точно таким же образом введите текстовые значения в ячейку переменной ТРЕВОГА. Итак, вы создали файл womenLsta. Теперь построим, исходя из этого файла исходных данных, таблицу сопряженности. Это очень легко сделать в STATISTICA. Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. В появившемся меню сделайте выбор: Стартовая панель. Вы увидите различные виды анализа, которые доступны в модуле. Выберите анализ: Таблицы и заголовки и нажмите кнопку ОК. I М1-1!1 ЫЛГ111 JA Описательные статистики Корреляционные матрицы ft%B t-критерий для независимых выборок fl£2l t-критерия для зависимым выборок j£S Группировка и одио+акториая AN OVA Таблицы частот В а* Отмена Ijk ВероятностиыА калькулятор Юн Другие критерии значимости На экране появится окно Задайте таблицы. Шаг 2. Сначала в строке Анализ выберите Таблицы сопряженности (возможен вариант Таблицы флагов и заголовков). ITTxl Таблицы сопряженности Миогомоашмм таблицы Э) таблицы Фдагши заголовка» выверит* й— cm**. ..
Первые шаги в системе STATISTICA 93 Шаг 3. Далее нажмите кнопку Задать таблицы. В появившемся окне выберите переменные, которые будут табулированы в таблице. Эти переменные задают разбиение исходных данных на группы, поэтому часто их называют также группирующими переменными. В данном случае нужно табулировать значения переменных СЕМ_ПОЛ и ТРЕВОГА. Поэтому выберите их, как это показано на рисунке ниже. шшшшшш ми itTxii щопшм '2-ТРЕВОГА 3-VAR3 4-VAR4 5-VAR5 6-VAR6 7-VAR7 8-VAR8 9-VAR9 10-VAR10 1 СЕМПОЛ 3-VAR3 4-VAR4 5-VAR5 6-VAR6 7VAR7 8-VAR8 9-VAR9 10-VAR10 1 СЕМ ПОЛ 2-ТРЕВОГА 3-VAR3 4-VAR4 5-VAR5 6-VAR6 7VAR7 8-VAR8 9VAR9 10VAR10 1 СЕМ ПОЛ 2-ТРЕВОГА 3VAR3 4VAR4 5VAR5 6-VAR6 7VAR7 8VAR8 9VAR9 10-VAR10 1-СЕМ ПОЛ 2-ТРЕВОГА 3-VAR3 4-VAR4 5-VAR5 B-VAR6 7-VAR7 8-VAR8 9VAR9 10-VAR10 1-СЕМ ПОЛ 2 ТРЕВОГА 3-VAR3 4VAR4 5VAR5 6-VAR6 7VAR7 8-VAR8 9VAR9 10VAR10 ГшП Отмена! |Пщ|и*|И»««4по«фо&|И»^^ Слисая1: СлисшиЬ СлиеокЗ: Слиеок4: Слисокб: СлисокБ: F Г Заметьте, что вообще можно выбрать до 6 списков группирующих переменных, что позволяет построить чрезвычайно сложные таблицы, содержащие гораздо большее число переменных, чем в описываемом примере. Именно такие таблицы часто возникают при массовых обследованиях, и их нужно уметь строить. После выбора переменных нажмите кнопку ОК. Вы вновь вернетесь в диалоговое окно, показанное на рисунке. Обратите внимание, что окно немного изменилось: около надписи Число таблиц появилась цифра 1, потому что вы выбрали переменные и попросили систему построить одну таблицу. Шаг 4. Нажмите Enter на клавиатуре или кнопку ОК в верхнем правом углу диалогового окна. Система произведет вычисления и предложит посмотреть результат в окне Результаты кросстабуляции. швшшшшшшшшшшшшшшшш ЩШ БшЗ |Проа^ретъ итоговые те^лииы! Тъбтць .jEAaro» t* *»>*•« йршок | ■ ] Тебян** -■-.■ ;;;;;-.' Р? £ыле*ить частоты к jlO Г* Ojpemi шт чмпготы Г Оетатрчцце частоты Г* Проценты or общего числе Г Проценты по строке V Дронеиты по етолбаф з! Ш лк Отмена , Катеторцаочмепые гистограммы Грденкиешеииодейстеийчестот | I Р? Ото^ражвт* д< Г Включить прооумеццыв авишие j-Статистшш для деелиоае!^.?**!*^^"-—~? -\, ;^j^" ] Г Пирсоне и М«П м-каадрет ' /1 \. —•—« 1 Г То<1ииЛ<1>и1еер»<йвтое<Мекиеыар*B»2| ' ^; Г »иЦ>2те6лты1иГ4>емер1УиС . J 3«^ЧА^Е^Т»5«*ы«^цгш*«»гояо«сое j Г Тад-ЬитагдКеилелл* » ярстучы если г»><Ч*умл*е сгео*»дереыви«»к | Г" &oppoemut* Вшрмаш Г" Иоа+ещненты неопределенности 3J4 гистограммы •ннргими еиавемч, иеполудо» модель ЛогяииейныАг»1дла, Шаг 5. В окне Результаты кросстабуляции нажмите кнопку Просмотреть итоговые таблицы. На экране появится следующая таблица сопряженности:
94 Глава 1. Краткая экскурсия по системе STATISTICA Пшм&* {Частоты выделенных ячеек> 10 '::....■ ^ /{(Итоговые маргинальные не отмечены) j Шкй I'llllMI " i и ii | ii и и | СЕМ_ПОЛ ИИДВШИИ Высоко* j постр. I ЩЩДИ^ ^ ^ ^ ; Н-св*ья I 2 з 5 \ '/Всего „ mi J 5 5 10 ! Вы видите, что в этой таблице табулированы переменные СЕМ_ПОЛ и ТРЕВОГА. На пересечении строк и столбцов стоят абсолютные значения, вычисленные из исходного файла данных womenLsta. Мы табулировали совместно значения двух переменных, СЕМ_ПОЛ и ТРЕВОГА, и такое действие часто называется кросстабуляцией (от английского cross — пересекать). Из построенной таблицы, называемой на сленге таблицей сопряженности, видно, что три женщины имеют полную семью и низкий уровень тревоги, две женщины имеют неполную семью и низкий уровень тревоги и т. д. Если вас интересует раздельная табуляция каждой переменной, посмотрите на крайний правый столбец и нижнюю строку таблицы. Вы увидите, что всего среди опрошенных женщин пять имели полную семью и пять — неполную семью; пять женщин имели высокий уровень тревожности (см. крайний правый столбец), пять — низкий уровень тревожности (см. нижнюю строку). Часто возникает необходимость вместе с абсолютными значениями привести в таблице проценты. Система STATISTICA позволяет выбрать те проценты, которые требуются: например, только проценты по строке, или проценты по столбцу, или проценты от общего количества, или же и те и другие. Проценты по столбцу — это проценты, вычисленные относительно суммарного значения частот по столбцу. Проценты по строке — это проценты, вычисленные относительно суммарного значения частот по строке. Проценты от общего числа вычисляются относительно суммы частот в таблице. Рассмотрим, как это делается. Шаг 6. Нажмите кнопку Далее в верхнем левом углу таблицы (см. рисунок). Вы вновь вернетесь в окно Результаты кросстабуляции. Шаг 7. В окне Результаты кросстабуляции обратите внимание на опции в правой части, объединенные в группу Таблицы. Выберите, например, опцию Проценты от общего числа. Подведите курсор мыши к соответствующему квадрату и щелкните мышью. В окне Результаты кросстабуляции нажмите кнопку Просмотреть итоговые таблицы. На экране появится следующая таблица: Здесь рядом с абсолютными значениями появились относительные величины — проценты, вычисленные от общего числа женщин, то есть от 10.
Первые шаги в системе STATISTICA 95 Итак, из таблицы видно (пожалуйста, проверьте!), что: О 30% женщин имеют полную семью и низкий уровень тревоги (первая клетка таблицы), О 20% женщин имеют полную семью и высокий уровень тревоги (вторая клетка таблицы), О 20% женщин имеют неполную семью и низкий уровень тревоги, О 30% женщин имеют неполную семью и высокий уровень тревоги. Построенную таблицу можно отредактировать, изменить ее вид, надписи и т. д. Шаг 8. Редактирование таблицы. Дважды щелкните, например, по полю Всего % в построенной таблице. В появившемся окне Имя строки таблицы результатов вместо Всего % введите %. '■•i'i-iii.!.4'i*'.i. .'шав JUL Diwmi | Вы получите таблицу вида: Итого Итого* 20 00% | 5 50 00°/. 5 50 00V. Шаг 9. Построение отдельных таблиц с процентами. Вернитесь вновь в окно Результаты кросстабуляции и обратите внимание на опцию Отображать выбранные % в отдельных таблицах. Сделайте следующие установки: выберите опцию Проценты от общего числа и опцию Отображать выбранные % в отдельных таблицах. Затем нажмите кнопку Просмотреть итоговые таблицы. \ттж\\л\ж ЁЗ Просмотреть итоговые твбймщУ | .. ..'■'..■ W..J.!. ■■■■■■'I ■■ ■> ' ■■■■■ .'ДЧ1.1 'Ц .J. ■ Ь'.'. ..■.■■■■'.■■iL.'.'U1.'. U1. .'А Л^-. \ Щ Подробные деавдодоеые таблицы | . J Р? Отображать амины* метки анпаннЛ ; Г" Вшшиить tyowyoifiMe itatMMiHi > Статистики ляп двойное оным табли»-"•••"•■••: 1 Г" Пирсоне и М41 амлщмжрет -.■ \ Г Точный Фишере. Цетса. М ми юмора B Г Фи B*2 таблицы) и Крамера V и С Г" Т**Ь и тае-е Кенкаяле:":' • i Г" Еамме 1 Г*:^оорвляцие Сяиривна '*•'• Г" Соммере 4 ) Г 1Соа.ФФи*м#нгы неопределенности Р? Дыделить чистоты >: (То ' Г~ Одедаемые частоты 1 Г" Остаточные частоты 1рТ Проценты от общего числа Р Проценты по строке ] Г" Проценты по столодэ ш шс 1 Отмена j ,i Категориэоелииые гистограммы {*Щ Граочаш еаоимодействия частот ЗМ гистограммы ЗАМЕЧАНИЕ. Те5лишф*аго»*эаголоеко» доступны, если выбраны два списка переменным. Чтобы вычислить микеаврет максимального пражоослобия и проанализировать таблицы со многими еисвамм, иопояьэу&ге модуль Лог линейный анализ.
96 Глава 1. Краткая экскурсия по системе STATISTICA Вы увидите две таблицы, одна из которых будет содержать только абсолютные значения, а другая — проценты, вычисленные от общего количества опрошенных. ЕШШШЯШШШЯШШШШШПШШЕШШШ пшятл [частоты выдепемчых ячеек> Ю Г-..:..:...:.:■ "••:: ^(Маргинальные суммы не отмечены) СЕМ.ПОП ЧЧРЧРЧР тревогА Нмэка* 30 00 "с^""] 20 00 '..'Итого " ' 1 50 00 Ш ТРЕВОГА Щ Высокая Щ 20 00 L 30 00 50 00 ■Щ9Н 5000 1 50 00 100 00 Шаг 10. Создание автоотчета. г* »*»»<» -слфюя t чтткъ\тшз¥?1щжшън*&(ж\нштг rp—.-^-»-'-i-J-'^-^-J^-i-j СТАТ. Итоговая таблица частот (womenl.sta) ОСНОВНЫЕ Частоты выделенных ячеек> 10 Всего по стр. СТАТИСТ. СЕМ_ПОЛ П семыа Всего * Нсеныш Всего * Всего Всего * жи ТРЕВОГА Ннэкая Э 30 00* 2 20.00* 5 50 004 ТРЕВОГА Высокая 2 20.00* Э 30.00* 5 50.00* НЛ'ГММ HWII,' ШИ {Частоты выделенных ячеек> 10 СЕМ_ПОЛ 5000* Греемы 50.00* —' [(Маргинальные суммы не отмечены) ТРЕВОГА ТРЕВОГА Высокая 0 Всу? 1 з 30 00% 2 20 00% 5 50 00% 2 20 00% 3 30 00% 5 50 00% iC _ _. >d В системе STATISTICA имеется полезное средство подготовки отчета, которое позволяет представить все полученные результаты в формате RTF; далее отчет можно вывести на принтер, отредактировать и красиво распечатать. Проделайте следующее: войдите в меню Вид и выберите опцию Окно текста/ вывода. Из построенных таблиц (они находятся в рабочем окне системы) выберите ту, которую нужно сохранить для отчета. Щелкните по ней мышью. Вновь войдите в меню Файл и выберите опцию Печать. Отмеченная таблица результатов будет распечатана. В этом окне можно, например, отредактировать таблицу и подготовить ее в том формате, какой требуется для исследовательского отчета или статьи. тггнуу СТАТ. Итоговая таблица частот (women 1 л\ь\ ТРЕВОГА ТРЕВОГА ИТОГО СЕМ ПОЛ Низкая Высокая Абс.зи * Абс.зи * Абс.зи * П_сеиыш 3 30.00* 2 20.00* 5 50.00* Н_сеиья 2 20.00* 10 100.00* 51 J
Графический анализ таблиц сопряженности 97 Обратите внимание, что в процессе работы ни разу не использовался какой-либо язык программирования, все действия носят интерактивный характер, и это большое достоинство системы STATISTICA. Работать в ней так же просто, как, например, в текстовом редакторе MS Word. В заключение вам предлагается упражнение, которое закрепит полученные навыки. Пример. Создайте в STATISTICA файл women2.sta. Для градации значений пе- Шкала семейного положения Шкала тревожности женщи- Графический анализ таблиц сопряженности Таблицы сопряженности позволяют компактно описывать данные. Они удобны и требуют минимум комментариев, поэтому популярны среди врачей, социологов, маркетологов. В системе STATISTICA очень легко строятся даже самые сложные таблицы сопряженности. Здесь мы рассмотрим, как визуализировать построенные таблицы, то есть познакомимся со средствами STATISTICA, позволяющими графически проанализировать таблицы. Визуально гораздо проще увидеть закономерности, содержащиеся в таблицах. В примерах используются данные небольшого объема, чтобы можно было отчетливо представить основные приемы работы. Представьте, в каком сложном положении вы оказались, если бы имели дело с громадными таблицами, а именно такие таблицы возникают на практике. «Делайте вслед за нами!» — по-прежнему остается нашим главным девизом. Итак, система STATISTICA запущена на компьютере, вы работаете в модуле Основные статистики и таблицы (в английской версии STATISTICA модуль Основные статистики и таблицы называется Basic Statistics and Tables). Пример (продолжение) Файл данных womenLsta, с которым вы работаете, открыт в рабочем окне. Напомним, что в этом файле приведены результаты опроса 10 женщин (данные являются модельными) относительно их семейного положения и уровня тревожности. ременных используются более реалистичные шкалы, женщины: одинокая, неполная семья, полная семья, ны: низкая, умеренная, высокая. 1Ч TtKC энйч 1 к* • Е 10 иг шшшшшшввяшшшш Crptcc жфнщин П_с#мья Н„с#мья Одиноки Н_с#мья П_с#мья Одинокая П_с#мья Н_с#мья П.сфмья Н сфмья 2 ТРЕВОГА it! Низкая Высокая Ум#р#н Низкая Высокая Низкая Высокая
98 Глава 1. Краткая экскурсия по системе STATISTICA атель модулей смет НЛЩ11111!1!иЛ1]11И11111|1И1И l£V IteJ Непараметрическая статистика Дисперсионный анализ (AN OVA/MAN OVA) Множественная регрессия Временные ряды и прогнозирование Кластерный анализ Управление данными Факторный анализ л ДМОММЧОСКММ АМвИМЭ Многомерное шкалирование Деревья классификации Анализ соответствий •^v.^A.-jj.^v. v•:&s.•лV•:':^•1,:": Дерек яючнться ш Ж Исчврпмвдящнй набор . ■■.■ описательных статистик, ; мисгоо6рдэи»тв$ли»;. • li сопряжен юсти, таблицы Флагов м заголовков, многомерен отклики и многомврныедикотоь*«. :•. разносторонний сервис табелирований данных, • просмотр таблиц по слоям. корр«лйцйяй(ритариид1м : зависимых и независимы»*... /,. выборок, проверка различий I между дисперсиями, корреляциями, процентами, 1*рс*гнс>стный калькулятор и многие другие возможности Все быстрые статистики доступны из панелей инструментов, . Изменитьсписок.. J Злкрьтеь « н'^^'лпЫт^ы;» # Ж Отмена Первая переменная СЕМ_ПОЛ — семейное положение женщин. Эта переменная принимает два значения: П_семья — полная семья, Н_семья — неполная семья. Вторая переменная ТРЕВОГА — самооценка личностной тревожности женщины. Она принимает два значения: низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью личности воспринимать жизненную ситуацию как угрожающую. В данном упрощенном примере мы использовали две степени тревожности: низкая и высокая. Вы видите, что первая опрошенная женщина — наблюдение номер 1 (первая строка в таблице) — имеет полную семью и характеризует свое состояние как тревожное. Вторая опрошенная женщина — наблюдение номер 2 (вторая строка таблицы) — имеет неполную семью и оценивает уровень тревожности как низкий и т. д. щ h 2 3 4 б 6 7 е 9 10 ■I ■ I IIIIII III в— Стресс женщин 1 СЕМ^ПОЛ П_семья| Н семья Н семья Н семья П семья П семья П семья Н семья П семья Н_семья ТРЕВОГА Высокая Низкая Высокая Низкая Высокая Низкая Низкая Высокая Низкая Высокая Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. В появившемся меню сделайте выбор: Стартовая панель. Выберите анализ: Таблицы и заголовки и нажмите кнопку ОК. С помощью опций окна задания таблицы произведите табулировку переменных СЕМ ПОЛ и ТРЕВОГА.
Графический анализ таблиц сопряженности 99 17ПП ~ш ••ST.?';'*, &ft*iett»;J Таблицы сопряженности В^'ЖТ Океана;;J1 У< ОрЩ*Ют;ит тЬм^уЫжш1ЩНщю - :1"° Г Вз«;ейеи«м< **&М&р1Ы • ,A..L> , • VL..:JK:^k:^ •' Шаг 2. После того как система построит таблицу, посмотрите внимательно на окно Результаты кросстабуляции. Обратите внимание на кнопки в правом нижнем углу диалогового окна Результаты кросстабуляции. в finnriiiiivnacg Щ Р? OreftjMmerw Г BlUMMMTI» njMMJMJHlffejH) Ц Сттмспш» дд< дцррпцрпи т шб^щ г;;-/:;;: ул./ ;■;; ' Г" Теним* ^швр^Я^с*, Мемммео* B*2) Г" Ух fifr2теб*т*| и fomeca V и С | Г" Т«д-Ьит»гсKwMjiMi •;.. Г £*мме . t.- ^ ... 1Г* Го1 ■■«■ it •;*■«. ><ь • итм неопределенное £ы*еЛМТЬ «АбТеТЫ >! J10 Г~ Ржрлшшш частотм Г Остетечные честагм Р. Проценты оу ебжеге числе, I Лрофеиты не строке > Г Оротемтм по стелбед •■: * I Отмене '•» ••£W ^М гметегреммы ' ЗАМЕЧАНИЕ. ГеглдоФявггеиэеголоем» доступ м, о&ы аыбреиы дм $ямсЛ переменны* Чтобы еычмеемгь мншеарет маяеймалного лревдопдобия и проак**»<ч>е^ т*ол«*»со мелки ■исв»11испоя>»»*гс иоду» ЛоцмлейшеИ ноли». . Шаг 3. В диалоговом окне Результаты кросстабуляции нажмите кнопку Кате- горизованные гистограммы: ITl График. 4 Kaief ориз гистограмма СЕМ ПОЛ х ТРЕВОГА К«1егори$дис¥осремме: СЕМ.ПОЛ х ТРЕВОГА Ни«кая Высокая СЕМ_ПОЛ: П_« Низкая Высокая СЕМ_ПОЛ: Н_саиья
100 Глава 1. Краткая экскурсия по системе STATISTICA Смысл этих гистограмм следующий: опрошенные женщины разбиты на две группы (категории): женщины из полной семьи и женщины из неполной семьи. Обычная гистограмма для этих переменных выглядит следующим образом: Гисгограмма (women 1.S ТА 1№*10с) ] j в г : 5 f j ! 4 к ||, ! ^ 1 Низкая Высокая ТРЕВОГА Здесь ясно видно, в чем состоит отличие категоризованных гистограмм от обычных. На обычной гистограмме количество женщин с высокой и низкой тревожностью одинаково. На категоризованной гистограмме количество женщин с высоким уровнем тревожности в неполных семьях выше, чем в полных. Уровень тревожности женщин в полных семьях ниже, чем уровень тревожности в неполных семьях. Продолжение примера Рассмотрим файл данных women2.sta. Для градации значений переменных мы использовали более реалистичные шкалы: одинокая женщина, неполная семья, полная семья. Шкала тревожности женщины: низкая, умеренная, высокая. Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. В появившемся меню сделайте выбор: Стартовая панель. Выберите Таблицы и заголовки и нажмите кнопку ОК. Шаг 2. В строке Анализ выберите Таблицы сопряженности (возможен вариант Таблицы флагов и заголовков).
Графический анализ таблиц сопряженности 101 Далее нажмите кнопку Задать таблицы. В появившемся окне выберите переменные, которые будут табулированы в таблице (подробности см. выше). В данном случае необходимо табулировать значения переменных СЕМ__ПОЛ и ТРЕВОГА. Нажмите кнопку Коды и выберите коды (значения) табулируемых качественных признаков. В этом примере количество значений переменных увеличилось, так как используется более точная шкала измерения. Если вы хотите, чтобы табулировались все значения переменных, нажмите кнопку Выбрать все в правом нижнем углу. с£м_по л РИННШ 1Р£В0ГА:|'*Ниэ*«Г - "Высокая" "Умерен" Тй»11.ммй;ч- сие \Ъ*6рть wf\ Заметьте, что вообще можно выбрать любой набор кодов. Коды переменных можно просмотреть, нажав кнопку Инф. Например, переменная СЕМ_ПОЛ принимает следующие значения: ' (н*т длинного им*ин| : ;0лмс«нмым |.| N- % 10 ••>•< t •:. Г Й : Ст откл •0,78881063774682 щ Шаг 3. Нажмите Enter на клавиатуре или кнопку ОК в верхнем правом углу диалогового окна. STATISTICA произведет вычисления, табулирует данные и предложит результат в окне Результаты кросстабуляцш (см. рисунок).
102 Глава 1. Краткая экскурсия по системе STATISTICA онвивлз швш -*<& ftTxl 81 г!<<Щш'|Гд11^<1 fc^l'jg^J^? *«-'*VLj<^^*%"^ F;jai^iwmii>CTd<>6t|^t:v, fpj»^iiiNiiti^gacyiii» Wygr J Г x 34 fMCVQf fMMMM '' Шаг 4. В окне Результаты кросстабуляции нажмите кнопку Просмотреть итоговые таблицы. На экране появится таблица: Шаг 5. Нажмите кнопку Далее в верхнем углу таблицы, и вы вернетесь в окно результатов. В диалоговом окне Результаты кросстабуляции нажмите кнопку Ка- тегоризованные гистограммы. |Г|ГраФикЗ: Категориз гистограмма С1МП0Л к ТРЕВОГА BIRD Кат«х>ри).тстофа«им: СЕМ_П0Л х ТРЕВОГА IWOOtOH Г сем_пол сипов» Смысл гистограмм заключается в следующем: женщины разбиты на 3 группы или категории: женщины из полной семьи, женщины из неполной семьи, одинокие женщины (ср. с предыдущим примером). Для каждой группы построена отдель-
Графический анализ таблиц сопряженности 103 пая гистограмма, и все эти гистограммы собраны вместе на одном графике, что позволяет визуально сравнить группы. Шаг 6. В диалоговом окне Результаты кросстабуляции нажмите кнопку ЗМ гистограммы. На экране появится трехмерная гистограмма. Смысл этой гистограммы следующий: составляются всевозможные комбинации значений двух переменных: семейное положение и уровень тревожности, и под- считывается, сколько раз встречалась каждая комбинация. Трехмерная гистограмма очень наглядно воспроизводит таблицу кросстабуляции. Вы положили таблицу на плоскость и в каждую клетку поставили по столбцу, высота которого равна количеству наблюдений в клетке таблицы. Если вас не устраивает ракурс построенной трехмерной гистограммы, можно его изменить, воспользовавшись средствами системы. STATISTICA предлагает удивительный инструмент работы с графиками. Например, их можно повернуть. Нажмите кнопку Вращение, расположенную на панели инструментов. На экране появится окно, в котором можно провести вращение и подобрать нужную перспективу. Для вращения графика используйте линейку прокрутки. Немного поэкспериментируйте с ней. Сначала, например, с помощью мыши сдвиньте курсор прокрутки в крайне левое положение. Вы увидите следующую картинку:
104 Глава 1. Краткая экскурсия по системе SWISTICA 11ЧЭ5Э1 ок .гош—гЪД J E±Jtf Сдвиньте теперь курсор прокрутки правее: ерслектинл и праще Каждый раз, когда сдвигается курсор, происходит поворот графика. Выберите тот вариант, который вас устраивает. Нажмите кнопку ОК. Нужный график появится на экране. Шаг 7. Построение графиков взаимодействий частот. В окне Результаты кросс- табуляции нажмите кнопку Графики взаимодействий частот. На экране появится график взаимодействий: П f p,i<* 35 30 2.5 2.0 ! м 05 00 -0 5 мкЬ 1 р.хрия нз<«имод (Л M III Графм маимод.: СЕМ_П0Л х °> о. / у^<^_ Нинам BwcctM ТРЕВОГА )Л х I PL ВША ТРЕВОГА Ь VWptH СВ*_П0Л П.стя сви.пол Н_С«МкЯ сви.поп Одиноия Смысл этого графика простой: он показывает, как взаимодействуют или как связаны между собой частоты наблюдений из разных групп. Все построенные графики показывают, что женщины из разных семей различаются по уровню тревожности. Является ли это различие значимым, показывают статистические тесты.
2 Элементарные понятия анализа данных В этой главе предлагается краткое обсуждение элементарных статистических понятий, лежащих в основе процедур в любой области статистического анализа данных. Выбранные нами темы иллюстрируют основные допущения, принимаемые в большинстве статистических методов для описания «численной природы» действительности, а изложение ведется на языке, доступном для широкого круга читателей. Мы начнем с самых простых, интуитивно ясных понятий и рассмотрим связи между ними, фактически представим описание языка, на котором говорят при проведении анализа данных. Что такое переменная? Переменная (английский термин variable) — это то, что можно измерять, контролировать или чем можно манипулировать в исследованиях. Иными словами, переменная — это то, что варьируется, изменяется, а не является постоянным (от английского корня var). Например, измеряя давление или содержание лейкоцитов в крови, вы получаете различные значения у разных пациентов или значения для одного и того же пациента в разное время суток. Измеряя уровень осадков, получаете различные значения в разные дни недели, а также различные значения в одни и те же дни в разных точках географической карты. Другие примеры переменных из разных областей: анкетные данные, систолическое давление пациентов, количество лейкоцитов в крови, цена акций, товаров, услуг, потребление, инвестиции, доход, государственные закупки товаров и услуг, инструмент государственного регулирования (в экономике); рейтинг программ, доля зрителей, количество посещений сайта (в рекламе); скорость, температура, объем, масса в (физике) и т. д. Очевидно, что это очень разные по своим свойствам переменные, и поэтому можно сказать, что переменные отличаются характеристиками, в частности, той ролью, которую они играют в исследованиях, типом измерений и т. д. Простейшие описательные статистики Так как значения переменных не постоянны, нужно научиться описывать их изменчивость.
106 Глава 2. Элементарные понятия анализа данных Для этого придуманы описательные или дескриптивные статистики: минимум, максимум, среднее, дисперсия, стандартное отклонение, медиана, квартили, мода и т. д. Идея этих статистик очень проста: вместо того чтобы рассматривать все значения переменной, а их может быть очень много (тысячи и миллионы), вначале стоит просмотреть описательные статистики. Они дают общее представление о значениях, которые принимает переменная. Минимум и максимум — это минимальное и максимальное значения переменной. Среднее — сумма значений переменной, деленная на п (число значений переменной). Дисперсия (от английского variance) и стандартное отклонение (от английского standard deviation) — наиболее часто используемые меры изменчивости переменной. Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны. Стандартное отклонение вычисляется как корень квадратный из дисперсии. Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего. Часто стандартное отклонение — более удобная характеристика, так как измерена в тех же единицах, что исходная величина. Медиана разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина — выше. Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр. В некоторых случаях, например при описании доходов населения, медиана более удобна, чем среднее. Квартили представляют собой значения, которые делят две половины выборки (разбитые медианой) еще раз пополам. Таким образом, медиана и квартили делят диапазон значений переменной на четыре равные части. Различают верхнюю квартиль, которая больше медианы и делит пополам верхнюю часть выборки (значения переменной больше медианы), и нижнюю квартиль, которая меньше медианы и делит пополам нижнюю часть выборки. Нижнюю квартиль часто обозначают символом 25%, это означает, что 25% значений переменной меньше нижней квартили. Верхнюю квартиль часто обозначают символом 75%, это означает, что 75% значений переменной меньше верхней квартили. Мода представляет собой максимально часто встречающееся значение переменной (иными словами, наиболее «модное» значение переменной), например популярная передача на телевидении, модный цвет платья или марка автомобиля и т. д. С описательными статистиками связаны статистические графики, например приведенный ниже график наглядно показывает, как распределены значения переменной (подробнее см. главу Визуальный анализ данных): Взгляните на график. На графике приведены описательные статистики для переменной Уровень осад- ков. Хорошо видно, как распределены значения переменной: от минимального уровня A6 дюймов) до максимального уровня C9 дюймов). Половина значений переменной лежит ниже 27,5 дюйма, то есть в половине всех наблюдаемых месяцев уровень осадков был меньше 27,5 дюйма. Половина
Свойства описательных статистик 107 значений осадков лежит выше 27,5 дюйма, соответствуя тому, что в половине наблюдаемых месяцев уровень осадков был выше 27,5 дюйма. Осадки (■ дюймах \ ВВННННОШШ: А4? 40 38 36 34 32 30 28 26 24 22 20 18 16 14 о _1_ Макс. «39 Мин. «16 ПЗ 76% «33.6 26%-21.5 ° Медиана «27.5 j Свойства описательных статистик Введем формально определения простейших описательных статистик. Среднее. Пусть имеется переменная X, тогда оценка среднего, или выборочное среднее, вычисляется как среднее арифметическое наблюдаемых значений. Выборочное среднее обычно обозначается X и читается «X с чертой». Формально имеем: — 1 п х = -£х,. Выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0. Формально это записывается следующим образом: Е(х-х,.) = о Упражнение: используя определение среднего, убедитесь, что данное свойство действительно имеет место, то есть сумма отклонений наблюдаемых значений от среднего арифметического действительно равна 0. Выборочное среднее — единственная точка, которая обладает данным свойством, и это выделяет ее среди всех других. Кроме того, выборочное среднее обладает еще одним замечательным свойством: сумма квадратов расстояний между наблюдаемыми значениями и их средним арифметическим является минимальным. Если вместо среднего арифметического взять любую другую величину, то сумма квадратов расстояний между наблюдаемыми значениями и этой величиной будет только больше, но никак не меньше. Дисперсия. Выборочная дисперсия переменной X (термин впервые введен Фишером, в 1918 г.) вычисляется по формуле
108 Глава 2. Элементарные понятия анализа данных n-lfif Обратите внимание на коэффициент в данной формуле, он равен п - 1, такая оценка дисперсии является несмещенной (математическое ожидание несмещенной оценки равно в точности значению оцениваемого параметра). Стандартное отклонение равно корню квадратному из выборочной дисперсии. Формально имеем: Медиана выборки (термин был впервые введен Гальтоном, в 1882 г.) — значение, которое разбивает выборку на две равные части. Половина наблюдений лежит ниже медианы, и половина наблюдений лежит выше медианы. Наблюдения упорядочивается по возрастанию: Х0)< ХB)< ... < X(w). Полученная последовательность Х0) называется вариационным рядом, а ее элементы — порядковыми статистиками. Если число наблюдений нечетно п = 2т + 1, то медиана оценивается как X(m): med = Х(т). Если число наблюдений четно п = 2т, то в качестве оценки медианы берется величина (X(m) + X(m+1))/2. Медиана обладает следующим замечательным свойством: сумма абсолютных расстояний между точками выборки и медианой минимальна. С вариационным рядом связано много важных статистик, например, спейсинги, представляющие собой расстояния между соседними порядковыми статистиками. Квантиль (термин был впервые использован Кендаллом в 1940 г.) выборки представляет собой число хру ниже которого находится р-я часть (доли) выборки. Например, квантиль 0,25 для некоторой переменной — это такое значение (хр), ниже которого находится 25% значений переменной. Аналогично квантиль 0,75 — это такое значение, ниже которого попадают 75% значений выборки. Формально р-квантиль непрерывного распределения F определяется как корень уравнения F(x) =p, 0<р< 1. Квартили. Нижняя и верхняя квартили, от слова кварта — четверть (термин впервые использовал Гальтон в 1882 г.), равны соответственно 25-й и 75-й процен- тилям распределения. 25-я процентиль переменной — это значение, ниже которого располагаются 25% значений переменной. Аналогично, 75-я процентиль равна значению, ниже которого расположено 75% значений переменной. Итак, 3 точки — нижняя квартиль, медиана и верхняя квартиль — делят выборку на 4 равные части. У4 наблюдений лежит между минимальным значением и нижней квартилью, У4 — между нижней квартилью и медианой, У4 — между медианой и верхней квартилью, у4 — между верхней квартилью и максимальным значением выборки. Квартальный размах. Квартальный размах переменных (термин был впервые использован Галтоном в 1882 г.) равен разности значений 75-й процентили
Свойства описательных статистик 109 и 25-й процентили. Таким образом, это интервал, содержащий медиану, в который попадает 50% наблюдений. Мода. Мода (термин был впервые введен Пирсоном в 1894 г.) — это наиболее часто встречающееся (наиболее модное) значение переменной. Мода хорошо описывает, например, типичную реакцию водителей на сигнал светофора о прекращении движения. Классический пример использования моды — выбор размера выпускаемой партии обуви или цвета обоев. Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»). Мультимодальность распределения дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-то, то мультимодальность может означать, что существуют несколько определенно различных мнений. Мультимодальность также служит индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более «наложенными» распределениями. Асимметрия. Асимметрия, или коэффициент асимметрии (термин введен Пирсоном в 1895 г.), является мерой несимметричности распределения. Если этот коэффициент значительно отличается от 0, распределение является асимметричным (несимметричным). Формально имеем: -±(ХГХK g - п% 51 - 3 Г \ jl Пг \-l(xrxf\ |_"м J Эксцесс. Эксцесс, или коэффициент эксцесса (термин впервые введен Пирсоном в 1905 г.) измеряет остроту пика распределения. Оценка эксцесса, или выборочный эксцесс, вычисляется по формуле: -S(x.-xL b2=YILjl1 7, |-£(Х,.-ХJ| гдеХ = 1у X,.. Асимметрия и эксцесс полезны для проверки нормальности данных. Нормальное распределение симметрично, следовательно, коэффициент асимметрии равен 0. Эксцесс нормального распределения также равен 0, поэтому по отклонениям выборочного эксцесса и асимметрии от 0 можно судить о близости распределения наблюдаемой переменной к нормальному. Известно, что распределение с более острой вершиной, чем нормальное, в типичных случаях имеет положительный эксцесс, а с более закругленной - отрицательный.
110 Глава 2. Элементарные понятия анализа данных Шкалы измерений Переменные различаются тем, «насколько хорошо» они могут быть измерены, или, другими словами, как много измеряемой информации обеспечивает шкала их измерений, поскольку в каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации», которую можно получить в данном измерении. Другим фактором, определяющим количество информации, содержащейся в переменной, конечно, является тип шкалы, в которой проведено измерение. Вы можете считать, что шкала — это просто линейка: очень грубая, менее грубая, точная. Обычно используют следующие типы шкал измерений: (а) номинальная, (Ь) порядковая (ординальная)', (с) интервальная, (d) относительная {шкала отношения). Соответственно имеются четыре типа переменных: (а) номинальная, (Ь) порядковая (ординальная), (с) интервальная и (d) относительная. (a) Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым существенно различным классам, при этом вы не сможете определить количество или упорядочить эти классы. Типичными примерами номинальных переменных являются фирма-произ- • водитель, тип товара, признак (болен — здоров) и т. д. Часто номинальные переменные называются категориальными. Близкими к ним являются кате- горизованные переменные, то есть переменные, искусственно превращенные в категориальные (см. ниже). (b) Порядковые переменные позволяют ранжировать (упорядочить) объекты, если указано, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют определить «на сколько больше» или «на сколько меньше» данного качества содержится в переменной. Порядковые переменные иногда также называют ординальными. Типичный пример — социоэкрномический статус семьи. Мы понимаем, что верхний средний уровень выше среднего уровня, однако сказать, что разница между ними равна, допустим, 18%, мы не можем. Само расположение шкал в порядке возрастания их информативности — номинальная, порядковая, интервальная — является хорошим примером порядковой переменной. Например, можно сказать, что измерения в номинальной шкале предоставляют меньше информации, чем в порядковой шкале, а в порядковой — меньше, чем в интервальной. Однако невозможно придать термину «меньше» точный количественный смысл или сравнить между собой эти различия. Другой пример порядковой переменной — это интенсивность использования определенного цвета в картине художника. Категориальные и порядковые переменные особенно часто возникают при анкетировании, так как естественно отражают характер мышления человека. Например, измерение интенсивности посещения ресторанов можно проводить в следующей шкале: не посещаю, посещаю редко, посещаю, посещаю часто. Как легко понять, категориальные и порядковые шкалы часто используются для описания качественных признаков. (c) Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выражать и сравнивать различия между ними.
Какие статистики выбирать? 111 Такого рода переменные часто возникают в естественных науках, при снятии показателей с физических приборов, в медицине и т. д. Например, температура, измеренная в градусах по Фаренгейту или Цельсию, образует интервальную шкалу. Вы можете не только сказать, что температура 40 градусов выше, чем температура 30 градусов, но и то, что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов, (d) Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля, таким образом, для этих переменных являются обоснованными утверждения типа: х в два раза больше, чем у. Например, температура по Кельвину образует шкалу отношения, и вы можете не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и то, что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Однако в большинстве статистических процедур не делается тонкого различия между свойствами интервальных шкал и шкал отношения. Заметим, что всегда можно перейти от более богатой шкалы к менее богатой. Так, непрерывные переменные можно искусственно превратить в категориальные, то есть категоризовать. Например, непрерывная переменная «рост человека в сантиметрах» может быть превращена в порядковую переменную с градациями: низкий, средний, высокий или очень низкий; низкий, средний, высокий, высокий*; или очень низкий, средне-низкий, низкий, средний, высокий, очень высокий; для размера одежды используют следующую порядковую шкалу: S, M, L, XL, XXL, XXXL, XXXXL и т. д. Категоризованные данные часто представляют в виде частот наблюдений, попавших в определенные категории или классы. Для описания категориальных переменных полезной оказывается мода. В реальной жизни, например при проведении массовых опросов, мы имеем все типы переменных, представленных в одном исследовании. Какие статистики выбирать? Среднее и медиана оценивают положение центра выборки, вокруг которого группируются значения переменной. Среднее обладает рядом замечательных свойств. Однако эта оценка чувствительна к выбросам, которые вносят в нее сдвиг. Чтобы избежать сдвига, иногда используют взвешенное среднее (каждому значению переменной приписывают определенный вес в соответствии с его важностью, а затем для взвешенных наблюдений вычисляется обычное среднее). Медиана является средней точкой вариационного ряда, поэтому она не так чувствительна к выбросам. В официальной статистике США именно медиана используется в качестве оценки центральной точки доходов населения. Если распределение несимметрично (сдвинуто влево или вправо), то медиана и межквартильный размах могут дать больше информации о том, в какой области концентрируются наблюдения.
112 Глава 2. Элементарные понятия анализа данных Если медиана меньше среднего, то распределение сдвинуто вправо. Если медиана больше среднего, то распределение сдвинуто влево. Обычно имеется следующая схема выбора (при условии, что распределение имеет одну моду). Если данные категоризованы, то используйте моду. Если не все имеющиеся значения переменной представляют интерес, распределение несимметрично и имеются выбросы, используйте медиану. В противном случае работайте со средним. Распределение переменной Самый простой вопрос, который естественно задать, анализируя значения переменной, — какова вероятность того, что переменная примет данное значение или значение из данного интервала. Иными словами, мы интересуемся тем, как распределены значения переменной. Например, оценивается вероятность того, что брошенная монета выпадет гербом, вероятность того, что пациент проживет дольше определенного времени, или вероятность того, что доля дефектных изделий в партии меньше 95%. Описательные статистики дают общую информацию о распределении переменной. Например, медиана отражает то, что с вероятностью 0,5 значение переменной будет больше данного значения или, наоборот, меньше этого значения. Полный ответ дает функция распределения. Пусть X — некоторая переменная, принимающая значения на прямой. Тогда функция распределения этой переменной, обозначаемая F(x), есть вероятность того, что Х<х. Для описания реальных явлений статистиками используются различные распределения: нормальное, Стьюдента, хи-квадрат, Коши, биномиальное, отрицательное биномиальное и др. Распределения вероятностей, возникающие на практике, подробно описываются в отдельной главе. Зависимости между переменными Независимо от типа две или более переменных связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Другими словами, мы говорим, что переменные зависимы, если их значения каким-то образом согласованы друг с другом в имеющихся наблюдениях. Заметьте, мы не определяем, как именно происходит это согласование, возможно, его вовсе нельзя записать в явном виде. Например, переменные Пол и WCC (число лейкоцитов) могли бы рассматриваться как зависимые, если бы большинство мужчин имело высокий уровень WCC, а большинство женщин — низкий WCC, или наоборот. Итак, если бы у мужчин число лейкоцитов в крови было бы больше, чем у женщин, то можно сделать вывод: категориальная переменная Пол связана с переменной Число лейкоцитов. Если вы измеряете температуру человека сверхточными датчиками, то регистрируемые значения зависят от точки, в которой проводится измерение. Рост человека очевидно связан с Весом, потому что обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с Количеством ошибок в тесте, так как люди с высоким значением IQ, как правило, делают меньше ошибок, и т. д.
Исследование связей между наблюдаемыми переменными 113 Другими типичными примерами связей являются: зависимость между объемом винчестера и его ценой. Если вы рассмотрите предложения в Интернете, то увидите, что логарифмическая зависимость хорошо описывает связь цена — объем для винчестеров, зависимость между длиной диагонали монитора и ценой монитора, зависимость между зерном и длиной диагонали экрана. В том же ряду находятся: зависимость между количеством транспортных средств и количеством аварий в городе, зависимость между эластичностью спроса и доходов, числом преступлений против собственности и душевым доходом, зависимость между количеством рассылок по почте и посещений сайта и т. д. Более экзотическим примером является зависимость рождаемости от дня недели. Исследования зависимости между парой переменных, естественно, распространяется на исследование зависимостей между переменной и списком переменных, между двумя или несколькими множествами переменных и т. д. (цена монитора зависит от фирмы-производителя, от диагонали, зерна, развертки, разрешения и других параметров). Исследование связей между наблюдаемыми переменными в сравнении с экспериментальными исследованиями Большинство эмпирических исследований данных можно отнести к одному из двух типов: либо это сбор данных и оценка связей между ними, либо прямой эксперимент, в котором фиксируются некоторые воздействия на объект исследования и регистрируется отклик. В первом случае вы не влияете (или, по крайней мере, пытаетесь не влиять) на какие-либо переменные, а только собираете их значения и хотите найти зависимости (корреляции) между некоторыми измеренными переменными, например между кровяным давлением и уровнем холестерина. Типичный пример здесь — космическая съемка больших участков Земли и попытка оценить или спрогнозировать урожайность (см., например, сайт американского госдепартамента с данными о сельхозпродукции http://www.nass.usda.gov/census/). В экспериментальных исследованиях вы непосредственно и целенаправленно варьируете некоторые переменные и измеряете воздействия этих изменений на объект. Например, можете искусственно увеличить кровяное давление, а затем измерить уровень холестерина и проделать это несколько раз на ряде объектов. В исследованиях зависимости спроса на товар от рекламы вы можете активно менять свою рекламную политику, но такая возможность отсутствует при исследовании большинства экономических данных в маркетинговых исследованиях, где вы просто собираете данные, а затем находите связи между ними (типичный пример — оценка доходов телевизионных компаний). Анализ данных в экспериментальном исследовании также приходит к вычислению «корреляций» между переменными, а именно между переменными, на которые воздействуют, и теми переменными, на которые влияет воздействие. Тем не менее экспериментальные данные потенциально снабжают исследователей более качественной информацией.
114 Глава 2. Элементарные понятия анализа данных Корреляции Ключевым понятием, описывающим связи между переменными, является корреляция (от английского correlation — согласование, связь, взаимосвязь, соотношение, взаимозависимость); термин впервые введен Гальтоном (Galton) в 1888 г. Корреляция между парой переменных (парная корреляция). Если имеется пара переменных, тогда корреляция между ними — это мера связи (зависимости) именно между этими переменными. Например, известно, что ежегодные расходы на рекламу в США очень тесно коррелируют с валовым внутренним продуктом, коэффициент корреляции между этими величинами (с 1956 по 1977 г.) равен 0,9699. Число посещений сайта торговой компании тесно связано с объемами продаж и т. д. Также тесно коррелировано число хостов и число хитов на сайте (см. графики ниже). Тесно связаны между собой такие, например, переменные, как температура воздуха и объем продажи пива, среднемесячная температура в данном месте текущего и предыдущего года, расходы на рекламу за предыдущий месяц и объем торговли в текущем месяце и т. д. еннмх (рядов) щвшашяшшшаж График выбранных переменных (рядов) i500 J3U 300 250 200 £ 150 х 100 50 0 50 hi**»— ±№t ■ 1 ■ Lj яжШ№ _, . , ._ Libl!1 ' ЧЩк: . 400 300 200 £ 100 о 50 100 150 200 250 300 350 Номера наблюдений HOST (Л) - - - HITS (П) ■100 Itll'N-HIUlllW" Диет рамма рассеяния (S1TE.STA fcV4Mc) y--1.72*0.001 *x*ep* 350 300 250 200 * 150 [ О X 100 50 0 -50 I Корреляция между хостами и хит «ми - 0.97 150 250 HITS
Корреляции 115 Корреляция между парой переменных называется парной корреляцией. Статистики предпочитают говорить о коэффициенте парной корреляции, который изменяется в пределах от -1 до +1. В зависимости от типа шкалы, в которой измерены переменные, используют различные виды коэффициентов корреляции. Если исследуется зависимость между двумя переменными, измеренными в интервальной шкале, наиболее подходящим коэффициентом будет коэффициент корреляции Пирсона г (Pearson, 1896), называемый также линейной корреляцией, так как он отражает степень линейных связей между переменными. Эта корреляция наиболее популярна, поэтому часто, когда говорят о корреляции, имеют в виду именно корреляцию Пирсона. Итак, коэффициент парной корреляции изменяется в пределах от -1 до +1. Крайние значения имеют особенный смысл. Значение -1 означает полную отрицательную зависимость, значение +1 означает полную положительную зависимость, иными словами, между наблюдаемыми переменными имеется точная линейная зависимость с отрицательным или положительным коэффициентом. Значение 0,00 интерпретируется как отсутствие корреляции. Корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу. Это можно проследить, анализируя графики (см. ниже). На графике в левом верхнем углу значения парного коэффициента корреляции равны 0,0, на графике в правом верхнем углу коэффициент корреляции постепенно увеличивается и становится равным 0,3. На нижних графиках коэффициент корреляции увеличивается и становится равным 0,6 и 0,9. Обратите внимание на то, как меняется наклон прямой линии и как группируются точки вокруг этой прямой. ншшешипязшш MEASURE3vt. MEASURE4 103 i . г . ! 102 101 100 MEASURE3 Заметьте, что чем ближе коэффициент корреляции к крайнему значению 1, тем теснее группируются данные вокруг прямой. Та же картина наблюдалась бы и при
116 Глава 2. Элементарные понятия анализа данных отрицательных значениях корреляции, только наклон прямой, вокруг которой группируются значения переменных, был бы отрицательным. При значении коэффициента корреляции, равном ±1, точки точно легли бы на прямую линию, а это означает, что между данными имеется точная линейная зависимость. Внимательно посмотрите на эти графики. Корреляция — важное понятие, постарайтесь привыкнуть к нему и научиться визуально определять по расположению данных, насколько тесно они коррелированы. Говорят, что две переменные положительно коррелированы, если при увеличении значений одной переменной увеличиваются значения другой переменной. Две переменные отрицательно коррелированны, если при увеличении одной переменной другая переменная уменьшается (см. рисунки выше). Говорят, что корреляция высокая, если на графике зависимость между переменными можно с большой точностью представить прямой линией (с положительным или отрицательным наклоном). Если коэффициент корреляции равен 0, то отсутствует отчетливая тенденция в совместном поведении двух переменных, точки располагаются хаотически вокруг прямой линии (см. график в левом верхнем углу). Важно, что коэффициент корреляции — безразмерная величина и не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же независимо от того, проводились ли измерения в дюймах и футах или в сантиметрах и килограммах. Проведенная прямая (см. графики), вокруг которой группируются значения переменных, называется прямой регрессии, или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленная по оси Y) от наблюдаемых точек до прямой действительно является минимальной из всех возможных. Формально коэффициент корреляции г12 Пирсона между переменными Yp Y2 вычисляется следующим образом: ra =r(Y„Y2) = -Hp = — JJCYu-Y^xCYa-Y,)'' V Ып где Yt — среднее переменной Yt, Y2 — среднее переменной Y2. Если переменные измерены в интервальной шкале, то используются ранговые корреляции, которые будут рассмотрены ниже. Для анализа зависимостей категориальных переменных обычно используют таблицы сопряженности и соответствующие статистики, например хи-квадрат, V-квадрату точный критерий Фишера, статистика фи-квадрат (альтернатива корреляции) и др. Если требуется измерить связи между списками переменных, используются следующие типы корреляции: О множественная корреляции: измерение зависимости между одной переменной и несколькими переменными;
Корреляции 117 О каноническая корреляция: измерение зависимостей между двумя множества - ми переменных; О частные корреляции. Если вычисляется корреляция между значениями одной переменной, сдвинутыми на некоторый лаг, то говорят об автокорреляции. Ранговые корреляции. Ранговые корреляции основаны на рангах, которые соответствуют номеру наблюдения в вариационном ряде. Если ваши данные ранжированы, то вы можете воспользоваться ранговыми корреляциями. Формально ранговый коэффициент корреляции Спирмена между переменными Yp Y2 вычисляется следующим образом: £(R,-R)(S,-S) ТУ _ \=П R|2" ~П Z Г" • X(R,-RJE(S,-SJ V i=n где R, — ранг наблюдения Ylb S, — ранг наблюдения Y2j. Сравнив эту формулу с формулой корреляции Пирсона, приведенной выше, вы быстро поймете, что корреляция Спирмена является прямым аналогом корреляции Пирсона. Заменив в формуле Пирсона наблюдения рангами, вы получите корреляцию Спирмена. Большие значения рангового коэффициента корреляции свидетельствуют против гипотезы о независимости переменных Yh Y2. Частные корреляции. При исследовании «взаимозависимостей» переменных часто возникают следующие трудности: если одна величина коррелирована с другой, то это может быть всего лишь отражением того факта, что обе эти величины коррелированы с некоторой третьей величиной или с совокупностью величин, которые, грубо говоря, остаются за кадром и не введены в исследование. Указанная ситуация приводит к рассмотрению условных корреляций между двумя величинами при фиксированныхзначениях остальных величин. Это так называемые частные корреляции. Если корреляция между двумя величинами уменьшается, когда мы фиксируем некоторую третью случайную величину, то это означает, что взаимозависимость исходных величин возникает частично под воздействием этой величины; если же частная корреляция равна нулю или очень мала, то мы делаем вывод, что их взаимозависимость целиком обусловлена собственным воздействием и никак не связана с новой величиной. Наоборот, если частная корреляция больше первоначальной корреляции между двумя величинами, то мы заключаем, что третья величина ослабила исходную связь. Еще одна тонкость состоит в том, что следует помнить — корреляция не есть причинность. Иными словами, установив корреляцию двух величин, мы не имеем права безапелляционно говорить о наличии причинной связи между ними: некоторая совершенно отличная от рассматриваемых в анализе величина может быть источником этой корреляции. Как при обычной корреляции, так и при частных
118 Глава 2. Элементарные понятия анализа данных корреляциях предположение о причинности должно всегда иметь также собственные основания, иными словами, соответствовать природе вещей. Эти интуитивно ясные представления полезно иметь в виду при интерпретации частных корреляций. Рассмотрим вначале тройку переменных Yb Y2, Y3. Формально коэффициент частной корреляции г12.3 между переменными Yb Y2 в предположении, что переменная Y3 фиксирована, имеет вид: г _ Г12 ~ Г13Г23 V * ~ Г13 V* ~ Г23 аналогично коэффициент частной корреляции г13.2 между переменными Yp Y3 в предположении, что переменная Y2 фиксирована, имеет вид: г _ Г13 ~ Г12Г23 VI ~ Г12 V1 ~ Г23 и коэффициент частной корреляции г231 между переменными Y2, Y3 в предположении, что переменная Yt фиксирована, имеет вид: г _ Г23 ~ Г12Г13 23,1" ТГ^ТГ7^ Заметьте, эти формулы вполне симметричные, точкой отделяются переменные, значения которых фиксированы. Множественная корреляция. Лучше всего понять множественную корреляцию, а также частные корреляции, с точки зрения регрессии, где они возникают естественно из самого существа задачи и обобщаются на любое число переменных. Рассмотрим вначале три переменные: переменную Y и переменные Хь Х2. Переменную Y будем называть зависимой, переменные Xt, X2 независимыми. Предположим, что между Y и Xt, X2 имеется линейная зависимость вида: У: =P0+P1X1|. + P2X2j+eJ., г = 1,...,я(*), где е, — независимые случайные ошибки с нулевым средним, РРР2,Р3 —неизвестные параметры. Хорошо известно, что в широких предположениях оптимальными оценками неизвестных параметров в уравнении (*) являются оценки метода наименьших квадратов (мнк-оценки). Обозначим мнк-оценки через Р0, рр Р2. Эти оценки замечательны тем, что сумма квадратов расстояний между наблюдениями Yj и плоскостью (*) минимальна. Формально подставив мнк-оценки в (*) получаем значения Yn г = 1,...,п . Теперь коэффициент множественной корреляции между Y и Xt, X2 можно определить как обычный коэффициент корреляции Пирсона между Y и Y . Заметим, что квадрат коэффициента множественной корреляции называется коэффициентом множественной детерминации и показывает, какая доля вариации (изменчивости, вариабельности) переменной Y объясняется с помощью линейной зависимости Y и Xt, X2. Формально для коэффициента детерминации имеем:
Корреляции 119 г2 _ /=1 rYY i=i Это определение легко обобщается на любое число переменных. Частные корреляции с точки зрения линейной регрессии. Продолжим наши рассуждения и покажем, как вычислить частные корреляции исходя из уравнения регрессии. Пусть нужно, например, вычислить частную корреляцию между Y и Xi. Идея проста — очевидно, на эту связь влияет переменная Х2. Следовательно, это влияние нужно устранить, для этого вначале находим линейную регрессию Y на Х2, затем находим регрессию Xt на Х2. Формально имеем: i^.=p01+p02x2l., i = i я XU =PlO + Pl2*2i» « = 1,---,Я Теперь рассмотрим остатки {Yi -У{)у(Хи - Хи), г = 1,...,я. В соответствии с общей идеей частная корреляция между Y и Xi есть обычная парная корреляция Пирсона между переменными (У - Y),(Xt - Х{). Эти рассуждения легко распространяются на любое число переменных. Нелинейные зависимости между переменными. Корреляция Пирсона г хорошо подходит для описания линейной зависимости. Отклонения от линейности увеличивают общую сумму квадратов расстояний от регрессионной прямой, даже если она представляет «истинные» и очень тесные зависимости между переменными. Поэтому хорошим тоном после вычисления корреляций является построение диаграмм рассеяния, которые позволяют понять, действительно ли между двумя исследуемыми переменными имеется связь. Например, показанная ниже высокая корреляция плохо описывается линейной функцией. ниша иш MEASURE1 v* MEASURE2 (Построч уд*л»«« ПД) MEASURE2 - 37 474 . J23S4 • MEASURE1 Копил*** г "-3194
120 Глава 2. Элементарные понятия анализа данных Однако, как видно на графике ниже, полином пятого порядка достаточно хорошо описывает зависимость. шшшштвшшшшшшшшшшшшшшшшшзшщ Диаграмма рассей» (RAMMX STA 7п«478м) у-10 0150 111 *х»0 299*х*2-0 049*x»3»0 0О2*х«4.2 284e-5,x«6*eps j 46 40 34 22 10 • 5 0 5 Ю 15 ГО 2$ 30 36 40 MIASURC1 Ложные корреляции. Нужно иметь в виду, что на свете существуют ложные корреляции, и это нарушает идиллическую картину корреляционного анализа. Другими словами, если вы нашли переменные с высокими значениями коэффициентов корреляции, то отсюда еще не следует, что между ними действительно существует причинная связь; нужна уверенность, что на исследуемые переменные не влияют другие переменные. Лучше всего понять ложные корреляции на следующем шутливом примере. Известно, что существует корреляция между ущербом, причиненным пожаром, и числом пожарных, тушивших его. Однако эта корреляция ничего не говорит о том, насколько уменьшатся потери, если будет вызвано меньшее число пожарных. Задумавшись над полученным результатом, вы будете искать и найдете причину высокой корреляции: причина состоит в том, что имеется третья переменная (величина пожара), которая влияет как на причиненный ущерб, так и на число вызванных пожарных. Если вы будете «контролировать» эту переменную (например, рассматривать только пожары определенной величины), то исходная корреляция (между ущербом и числом пожарных) либо исчезнет, либо, возможно, даже изменит свой знак. В реальной жизни проводить такие рассуждения и находить «причинные» переменные, конечно, гораздо сложнее. Основная проблема ложной корреляции состоит в том, что вы не знаете, чем она вызвана или, фигурально выражаясь, кто является ее агентом. Тем не менее, если вы знаете, где искать, то можно воспользоваться частными корреляциями, чтобы контролировать (частично исключенное) влияние определенных переменных. Почему зависимости между переменными являются важными Вообще говоря, цель всякого исследования или научного анализа состоит в нахождении связей (зависимостей) между измеряемыми переменными. Далее почти не проводится различия между терминами «связь» и «зависимость», и во многих
Зависимые и независимые переменные 121 ситуациях они рассматриваются как синонимы, хотя поклонники строгих определений, возможно, усмотрят в этом вольность. Заметим, что не существует иного способа представления знания, кроме как в терминах зависимостей между количествами или качествами. Таким образом, развитие знаний всегда заключается в нахождении новых зависимостей между переменными. Исследование корреляций по существу состоит в измерении таких зависимостей непосредственным образом. Тем не менее экспериментальное исследование не является в этом смысле чем-то отличным. Например, отмеченное экспериментальное сравнение WCC у мужчин и женщин может быть описано как поиск связи между двумя переменными: Пол и WCC. Назначение статистики состоит в том, чтобы помочь оценить зависимости между переменными. Действительно, множество статистических процедур может быть рассмотрено в терминах оценки различных типов взаимосвязей между переменными. Итак, специалиста по статистике прежде всего интересует оценка связи между измеренными переменными. Зависимые и независимые переменные В повседневной жизни мы хорошо понимаем, что одни величины зависят от других, например потребление, конечно, зависит от дохода, цена квартиры — от площади, число посетителей магазина зависит от количества рекламных объявлений, предпочтение в выборе платья связано с содержимым кошелька, число посетителей ресторана зависит от времени суток и т. д. Проведем более строго различие между независимыми и зависимыми переменными. Независимыми переменными называются переменные, которые варьируются исследователем, тогда как зависимые переменные — это переменные, которые измеряются или регистрируются. Очевидно, варьируя интенсивность рекламной рассылки, вы можете наблюдать изменение спроса и потока посетителей в магазин; в этом примере интенсивность рекламы — независимая переменная, поток посетителей — зависимая. Изменяя рекламную кампанию, вы можете заставить покупателя перейти из пассивного состояния (спячки) в активное и т. д. В электронной торговле очень важна оценка момента перехода покупателя из категорий пассивный, активный, суперактивный, чтобы иметь возможность влиять на этот процесс. На первый взгляд может показаться, что проведение .этого различия создает путаницу в терминологии, поскольку, как иногда говорят в шутку студенты, «все переменные зависят от чего-нибудь». Тем не менее, однажды отчетливо проведя это различие, вы поймете его необходимость. Термины зависимая и независимая переменная применяются в экспериментальном исследовании, где экспериментатор манипулирует некоторыми переменными, и в этом смысле они «независимы» от реакций, свойств, намерений и т. д., присущих объектам исследования. Некоторые другие переменные, как предполагается, должны «зависеть» от действий экспериментатора или от экспериментальных условий. Иными словами, зависимость проявляется в ответной реакции исследуемого объекта, ее можно назвать откликом объекта на воздействие, поэтому термин отклик (response) также иногда используется как синоним зависимой переменной.
122 Глава 2. Элементарные понятия анализа данных Отчасти в противоречии с данным разграничением понятий находится использование их в исследованиях, где вы не варьируете независимые переменные, а только приписываете объекты к «экспериментальным группам», основываясь на некоторых их априорных свойствах. Например, если в эксперименте мужчины сравниваются с женщинами относительно числа лейкоцитов (WCC), то Пол можно назвать независимой переменной, a WCC — зависимой переменной; вложения в рекламу является независимой (варьируемой) переменной, а число клиентов — зависимой и т. д. Как измерить величину зависимости между переменными Статистиками разработано много различных мер, позволяющих оценить или измерить степень зависимости между наблюдаемыми переменными. Выбор определенной меры в конкретном исследовании зависит от числа включенных в анализ переменных, используемых шкал измерения, природы зависимостей и т. д. Большинство этих мер, тем не менее, подчиняется одному общему принципу: они являются попыткой оценить наблюдаемую зависимость, сравнивая ее с «максимально возможной зависимостью» между рассматриваемыми переменными. Обычный способ выполнить такие оценки заключается в том, чтобы посмотреть, как варьируются значения переменных, и затем подсчитать, какая часть всей имеющейся вариации может быть объяснена наличием «общей» («совместной») вариации двух (или более) переменных. Проще говоря, сравнивается то, «что есть общего в этих переменных», с тем, «что потенциально было бы у них общего, если бы переменные были абсолютно зависимы». Рассмотрим простой пример. Пусть в вашей выборке средний показатель (число лейкоцитов) WCC равен 100 для мужчин и 102 для женщин. Следовательно, вы могли бы сказать, что отклонение каждого индивидуального значения от общего среднего A01) содержит компоненту, связанную с полом субъекта, и средняя величина ее равна 1. Это значение, таким образом, представляет некоторую меру зависимости между переменными Пол и WCC. Конечно, это очень бедная мера, так как она не дает никакой информации о том, насколько велика эта компонента, скажем, относительно общего изменения значений WCC. Рассмотрим две крайние возможности: (а) Если все значения WCCy мужчин были бы точно равны 100, а у женщин 102, то все отклонения значений от общего среднего в выборке всецело объяснялись бы полом. Поэтому вы могли бы сказать, что пол абсолютно коррелирует с WCC, иными словами, 100% наблюдаемых различий между субъектами в значениях WCC объясняются полом субъектов. (б) Если же значения WCC лежат в пределах 0-1000, то та же самая разность B) между средними значениями WCC у мужчин и женщин, обнаруженная в эксперименте, составляла бы столь малую долю общей вариации, что полученное различие считалось бы пренебрежимо малым. Например, введение в рассмотрение еще одного субъекта могло бы изменить разность или даже изменить ее знак. Поэтому хорошая мера зависимости должна принимать во внимание полную изменчивость индивидуальных значений в выборке и оценивать зависимость по тому, насколько эта изменчивость объясняется изучаемой зависимостью.
Что такое статистическая значимость (р-уровень)? 123 Две черты зависимости между переменными Можно отметить два самых простых свойства зависимости между переменными: (а) величину зависимости и (Ь) надежность зависимости. (а) Величина. Величину зависимости легче понять и измерить, чем надежность. Например, если любой мужчина в вашей выборке имел значение WCC выше, чем любая женщина, то вы можете сказать, что величина зависимости между двумя переменными (Пол и WCC) очень высокая. Другими словами, вы могли бы предсказать значения одной переменной по значениям другой. (б) Надежность («истинность»). Надежность взаимозависимости — менее наглядное понятие, чем величина зависимости, однако чрезвычайно важное. Оно непосредственно связано с репрезентативностью той определенной выборки, на основе которой строятся выводы. Другими словами, надежность говорит, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена (подтвердится) на данных другой выборки, извлеченной из той же самой популяции. Следует помнить, что конечной целью почти никогда не является изучение данной конкретной выборки; выборка представляет интерес лишь постольку, поскольку она дает информацию обо всей популяции. Если ваше исследование удовлетворяет некоторым специальным критериям (об этом будет сказано позже), то надежность найденных зависимостей между переменными выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой р-уров- нем, или статистическим уровнем значимости, см. следующий раздел). Что такое статистическая значимость (р-уровень)? Статистическая значимость результата представляет собой оцененную меру уверенности в его правильности. Говоря проще, не на статистическом жаргоне, уровень значимости показывает, насколько значим для вас полученный результат. Предположим, вы врач, исследующий пациента. Проводя всесторонние исследования (измеряя давление, беря анализы крови и т. д.), вы приходите к выводу, что пациент с большой вероятностью болен, следовательно, полученные результаты значимы. Выражаясь формально, уровень значимости, или, как еще говорят,р-уровень, — это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий р-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно р-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, р-уровень = 0,05 (то есть 1/20) показывает, что имеется 5%-я вероятность того, что найденная в выборке зависимость между переменными является лишь случайной особенностью данной выборки. Иначе говоря, если данная зависимость в популяции отсутствует, а вы многократно проводите подобные эксперименты, то примерно в одном из двадцати повторений
124 Глава 2. Элементарные понятия анализа данных эксперимента можно ожидать такой же или более сильной зависимости между изучаемыми переменными. Во многих исследованиях р-уровенъ, равный 0,05, рассматривается как «приемлемая граница» уровня ошибки. На уровень значимости можно посмотреть с другой стороны. Предположим, что вы врач и выдвигаете гипотезу: пациент болен. Тогда, если вы назначили уровень 0,05, то в среднем в 5 случаях из 100 будете совершать ошибку (то есть принимать неправильную гипотезу — признавать человека больным, когда на самом деле он здоров). Как определить, является ли результат действительно значимым Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Однако... Однако статистическую значимость можно перевести в потери (например, финансовые), используя подходящую функцию потерь. Представьте, что вы многократно принимаете решение, то есть проверяете гипотезу о направлении изменения курса акций, выбрав некоторый уровень значимости, тогда уменьшение денег в вашем кошельке покажет ошибочность вашего выбора. Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (то есть до проведения опыта) или обнаружен апостериорно, в результате многих анализов и сравнений, выполненных с множеством данных, а также по традиции, имеющейся в данной области исследований. Обычно, что во многих областях результату = 0,05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки E%). Результаты, значимые на уровне р = 0,01, обычно рассматриваются как статистически значимые, а результаты с уровнем р = 0,005 илир = 0,001 как высокозначимые. Но следует понимать, что в данной классификации уровней значимости имеется произвол и это является всего лишь неформальным соглашением, принятым на основе практического опыта. Статистическая значимость и количество выполненных анализов Понятно, что чем большее число анализов вы провели над некоторыми группами данных, тем большее число результатов среди них имеют шанс удовлетворить выбранному уровню значимости. Например, если вычисляются корреляции между 10 переменными (то есть имеется 45 различных коэффициентов корреляции), можно ожидать, что примерно 2 коэффициента корреляции A на каждые 20) случайно окажутся значимыми на уровне р = 0,05, даже если переменные совершенно случайны и некоррелированы в популяции. Иными словами, имея серию экспериментов, вы всегда можете подтасовать результаты, выбирая только те опыты, результаты которых подтверждают вашу гипотезу.
Почему объем выборки влияет на значимость зависимости 125 Некоторые статистические методы, включающие множественные, то есть многократные, сравнения и, следовательно, имеющие хороший шанс повторить такого рода ошибки, используют специальную корректировку, или поправку, на общее число сравнений. Тем не менее многие статистические методы (особенно простые методы разведочного анализа данных) не предлагают какого-либо способа решения этой проблемы. Поэтому исследователь должен с осторожностью оценивать надежность неожиданных находок. Многие примеры, обсуждаемые в данном руководстве, предлагают специальные советы по поводу того, как это сделать. Величина зависимости между переменными в сравнении с надежностью зависимости Величина и надежность представляют собой две различные характеристики зависимостей между переменными. Тем не менее нельзя сказать, что они совершенно независимы. В общем, можно утверждать, что чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем она надежней. Почему более сильные зависимости между переменными являются более значимыми Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то с наибольшей вероятностью следует ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена. Как можно заметить, величина зависимости и значимости тесно связаны между собой, и можно попытаться вывести значимость из величины зависимости и наоборот. Однако указанная связь между зависимостью и значимостью имеет место только при фиксированном объеме выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высокозначимой, так и не значимой вовсе (см. следующий раздел). Почему объем выборки влияет на значимость зависимости Общая идея статистических методов состоит в том, чтобы по некоторой части популяции вынести суждения о свойствах популяции в целом. Именно такого рода результаты и представляют основной интерес, так как являются объективными. Если количество наблюдений невелико, то есть выборка из популяции мала, то соответственно имеет место малое количество возможных комбинаций значений этих переменных и, таким образом, вероятность случайно обнаружить комбинацию значений, показывающую сильную зависимость, относительно высока. Рассмотрим следующий пример. Если вы исследуете зависимость двух переменных {Пол: муж-
126 Глава 2. Элементарные понятия анализа данных чина/женщина и WCC: высокий/низкий) и имеете только 4 субъекта в выборке B мужчины и 2 женщины), то вероятность того, что чисто случайно вы найдете 100%-ю зависимость между двумя переменными, равна 1/8. А именно вероятность того, что оба мужчины имеют высокий WCC, а обе женщины — низкий WCC, или наоборот, равна 1/8. Теперь рассмотрим вероятность подобного совпадения для 100 субъектов; легко видеть, что эта вероятность равна практически нулю. Рассмотрим более общий пример. Представим популяцию, в которой среднее значение WCC для мужчин и женщин одно и то же. Если теперь вы начнете повторять эксперимент, состоящий в извлечении пары случайных выборок (одна — мужчины, другая — женщины) и вычислении разности выборочных средних WCC для каждой пары, то в большинстве экспериментов результат будет близок к 0. Однако время от времени будут встречаться пары выборок, в которых различие между мужчинами и женщинами будет существенно отличаться от 0. Как часто будет это происходить? Чем меньше объем выборки в каждом эксперименте, тем более вероятно появление таких ложных результатов, которые показывают существование зависимости между полом и WCC в данных, полученных из популяции, где такая зависимость на самом деле отсутствует. Почему слабые зависимости могут быть значимо доказаны только на больших выборках Предыдущий пример показывает, что если зависимость между переменными «объективно» (другими словами, в популяции) мала, не существует иного способа проверить такую зависимость, кроме как исследовать выборку достаточно большого объема. Даже если ваша выборка совершенно репрезентативна, эффект не будет статистически значимым, если выборка мала. Аналогично, если зависимость «объективно» (в популяции) очень сильная, то она может быть обнаружена с высокой значимостью даже на очень маленькой выборке. Рассмотрим следующий иллюстративный пример. Если монета слегка несимметрична и при подбрасывании орел выпадает чаще решки (например, 60% против 40%), то 10 подбрасываний монеты было бы недостаточно, чтобы убедить кого бы то ни было, что монета асимметрична, даже если был бы получен совершенно репрезентативный результат, 6 орлов и 4 решки. Не следует ли отсюда, что 10 подбрасываний вообще не могут доказать что- либо? Нет, не следует, потому что если эффект в принципе очень сильный, 10 подбрасываний может быть вполне достаточно. Представьте, что монета настолько несимметрична, что всякий раз, когда вы ее бросаете, выпадает орел. Если вы бросаете такую монету 10 раз и всякий раз выпадает орел, большинство людей сочтут это убедительным доказательством того, что с монетой что-то не то. Другими словами, это послужило бы убедительным доказательством того, что в популяции, состоящей из бесконечного числа подбрасываний этой монеты, орел будет встречаться чаще, чем решка. Таким образом, если зависимость сильная, она может быть обнаружена с высоким уровнем значимости даже на малой выборке.
Как вычисляется статистическая значимость 127 Можно ли рассматривать отсутствие связей как значимый результат? Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить. Например, представьте, как много бросков монеты необходимо сделать, чтобы доказать, что отклонение от равных вероятностей составляет только 0,000001%! Таким образом, необходимый минимальный размер выборки возрастает, когда степень эффекта, который нужно доказать, убывает. Когда эффект близок к 0, необходимый объем выборки для его отчетливого доказательства приближается к бесконечности. Другими словами, если зависимость между переменными почти отсутствует, объем выборки, необходимый для ее значимого обнаружения, почти равен объему всей популяции, который предполагается бесконечным. Статистическая значимость представляет вероятность того, что подобный результат был бы получен при проверке всей популяции в целом. Таким образом, все, что получено после тестирования всей популяции, было бы по определению значимым на наивысшем возможном уровне, и это относится ко всем результатам типа «нет связи». Общая конструкция статистических тестов Так как конечная цель большинства статистических тестов состоит в оценке зависимости между переменными, большинство статистических тестов следует некоторому общему принципу. Говоря техническим языком, эти тесты представляют собой отношение групповой изменчивости к полной изменчивости. Например, такой тест может представлять собой отношение той части изменчивости WCC, которая определяется полом, к полной изменчивости WCC (вычисленной для объединенной выборки мужчин и женщин). Это отношение обычно называется отношением объясненной вариации к полной вариации. В статистике термин объясненная вариация не обязательно означает, что вы даете ей «теоретическое объяснение». Он используется только для обозначения общи вариации рассматриваемых переменных, то есть для указания на то, что часть вариации одной переменной «объясняется» определенными значениями другой переменной, и наоборот. Как вычисляется статистическая значимость Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: насколько значима эта зависимость? Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ будет таким: в зависимости от обстоятельств. Именно значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными
128 Глава 2. Элементарные понятия анализа данных (значимыми). Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно, насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет. Другими словами, эта функция давала бы вам уровень значимости (р-уровень) и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейна и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда одна и та же. Тем не менее в большинстве случаев ее форма известна, и это можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом, называемым нормальным. Значимость коэффициента корреляции Допустим, вы оценили коэффициент корреляции между двумя переменными. Очевидно, чем больше по абсолютной величине значение коэффициента, тем больше вероятность, что между переменными имеется связь, то есть с тем меньшей вероятностью ошибки можно отвергнуть гипотезу об отсутствии связи между переменными. Иными словами, чем больше абсолютное значение коэффициента корреляции, тем более обоснованно опровергается гипотеза, что между переменными нет связи. Спрашивается: какие именно значения значимы? Ответ зависит как от величины коэффициента корреляции, так и от объема выборки, по которой он вычислен. Например, анализируя данные о годовых урожаях в Восточной Англии за 20 лет, Фишер вычислил коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей. Этот коэффициент, как и ожидалось, оказался отрицательным (чем выше уровень осенних осадков, тем меньше урожай, то есть переменные отрицательно коррелированны) и равным... 0,629, что значимо на уровне 0,01. Если бы выборочный коэффициент корреляции оказался равен 0,45, то результат был бы значим на уровне 0,1, но незначим на уровне 0,01, и т. д. Как определить, являются ли два коэффициента корреляции значимо различными Имеется критерий, позволяющий оценить значимость различия между двумя коэффициентами корреляции. Результат применения критерия зависит не только от величины разности этих коэффициентов, но и от объема выборок и величины
Почему важно нормальное распределение 129 самих этих коэффициентов. Вообще говоря, в соответствии с общим принципом надежность коэффициента корреляции увеличивается с увеличением его абсолютного значения; относительно малые различия между большими коэффициентами могут быть значимыми. Например, разница 0,10 между двумя корреляциями может не быть значимой, если коэффициенты равны 0,15 и 0,25, хотя для той же выборки разность 0,10 может оказаться значимой для коэффициентов 0,80 и 0,90. В системе STATISTICA имеется специальное средство — статистический калькулятор — в диалоговом окне Другие критерии значимости, доступном из стартовой панели модуля Основные статистики и таблицы. Калькулятор позволяет быстро сравнить коэффициенты корреляции, вычисленные по разным выборкам. Бк Основные статистики и таблицы ^fl Описательные статистики ЩЦ Корреляционные матрицы Iftfj (критерий для независимых выборок [>2j I критерий для зависимых выборок jff[ Группировка и однофакторная AN0VA Щ} Таблицы частот ${\\ Таблицы и заголовки IjJn Вероятностный калькулятор ИЯ Другие критерии значимости В ак Отмена Ё? Данные & Л Другие критерии значимости Г~ Печатать результаты после каждого вычисления Различие между двумя коэффициентами корреляции т 1: f80 g Nl.flOO j| ~ I Отмене .0100 I 'Вычислить, f£ рШ Щ N2: (ТОО Различие между двумя средними (нормальное распределение) Г Односторонний I ,уп7ГДГтшп1 <• Двусторонний Ст.откл. Щ р: 1.0000 | Вычислить |j С Односторонний (• Двусторонний С Ь (о" Щ Ст.откл. [Г Г" Среднее выборки 1 в сравнении со средним популяции 2 Различие между двумя пропорциями -—-.......> ....:^;^.: р: i.oooo r 0*hoct°pohh>* L.SgyiSP!!?,-! (* Двусторонний Пр.1;[ 50 a M1:[Y5 щ Rp.^fbo Э N2:fT5 Э Почему важно нормальное распределение Нормальное распределение (термин был впервые введен Гальюном в 1889 г.), иногда называемое гауссовским, важно по многим причинам. Распределение большого числа статистик является нормальным или может быть получено из нормального с помощью некоторых преобразований.
130 Глава 2. Элементарные понятия анализа данных Стандартная нормальная кривая ♦ Ст опт содержит G8X всем иаблюаеиий ♦ 2 Ст 0ТК.Л содержит 95* все» наблюдении Области, содержащие S8X и 96% маблюаемий. отмечены на графике 0 329 0219 0110 0000 ^/ / б8% \ 95% \ Рассуждая философски, можно сказать, что нормальное распределение представляет собой одну из эмпирически проверенных истин относительно общей природы действительности и его положение может рассматриваться как один из фундаментальных законов природы. Точная форма нормального распределения (характерная «колоколообразная кривая») определяется только двумя параметрами: средним и стандартным отклонением. Характерное свойство нормального распределения состоит в том, что 68% из всех его наблюдений лежат в диапазоне 1 (стандартное отклонение от среднего), а диапазон 2 стандартных отклонений включает 95% значений. Другими словами, при нормальном распределении стандартизованные наблюдения, меньшие -2 или большие +2, имеют относительную частоту менее 5% (стандартизованное наблюдение означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение). Это и есть знаменитое правило 2 сигма или 2-стан- дартных отклонения, вместе с правилом 3-ситаа чрезвычайно популярное на практике. Плотность нормального распределения имеет вид: f(x\ \i, a) = 1 aV27i ' 2о2 Множество величин на практике имеют нормальное распределение, например распределение приращений индексов развитых стран, курсы акций и т. д. Двумерное нормальное распределение. Переменная X - (Хь Х2) имеет двумерное нормальное распределение, если любая линейная комбинация Z - Я/Х, + а-^Х2 имеет либо нормальное, либо вырожденное распределение (которое также можно считать нормальным со2в 0). Двумерное нормальное распределение имеет плотность вида: f(xl,x2,\il,\i2,G2,o22,p) = 1 21юха2^\-рЛ • х ехр < 1 2A-Р2) (х, - щJ 2р(*, - ^)(х, - ц2) (х2 - \i2J ст,а9 x = (xv х2)Т, p = cov(Xp Х2)/(а,а2). ар а2>0, |р|<1
Как проверить нормальность наблюдаемых величин 131 где р — корреляция переменных Хь Х2, щ, <*i — среднее и стандартное отклонения переменной Хь \i2, c2 — среднее и стандартное отклонения переменной Х2. Заметим, что двумерное нормальное распределение легко обобщить на многомерное нормальное распределение. График двумерного распределения показан ниже: Иллюстрация того, как нормальное распределение используется в статистических рассуждениях Напомним пример, обсуждавшийся ранее, когда пары выборок мужчин и женщин выбирались из совокупности, в которой среднее значение WCC для мужчин и женщин было в точности одно и то же. Хотя наиболее вероятный результат таких экспериментов (одна пара выборок на эксперимент) состоит в том, что разность между средними WCCдля мужчин и женщин для каждой пары близка к 0, время от времени появляются пары выборок, в которых эта разность существенно отличается от 0. Как часто это происходит? Если объем выборок достаточно большой, то разности «нормально распределены» и, зная форму нормальной кривой, вы можете точно рассчитать вероятность случайного получения результатов, представляющих различные уровни отклонения среднего от 0, — значения гипотетического для всей популяции. Если вычисленная вероятность настолько мала, что удовлетворяет принятому заранее уровню статистической значимости, то можно сделать лишь один вывод: ваш результат лучше описывает свойства популяции, чем «нулевая гипотеза». Следует помнить, что нулевая гипотеза рассматривается только по техническим соображениям как начальная точка, с которой сопоставляются эмпирические результаты. Как проверить нормальность наблюдаемых величин При проверке нормальности выборки часто руководствуются следующим принципом Фишера: «Отклонения от нормального вида, если только они не слишком заметны, можно обнаружить лишь для больших выборок, однако сами по себе эти отклонения вносят малое отличие в статистические критерии и другие вопросы», (см. например, Справочник по прикладной статистике под редакцией Э. Ллойда и У. Линдермана, М: Финансы и статистика, 1989, с. 270).
132 Глава 2. Элементарные понятия анализа данных На практике для проверки нормальности обычно применяют визуальные методы, например гистограммы, нормальные вероятностные графики или численные методы с помощью оценки коэффициентов асимметрии и эксцесса; используется также критерий хи-квадрат. Пример (проверка нормальности с помощью оценок коэффициентов асимметрии и эксцесса). Рассмотрим классические данные Р. Фишера о количестве осадков в одном из районов Англии (см. Fisher R. А. A970). Statistical methods for research workers, 15-th edition, Macmillan): 2 J 4 Б e 7 8 В 10 t! \2 !3 14 15 1$ f? 18 19 20 2Л гг 23 24 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 12 33 34 35 36 37 38 39 0 0 3 3 3 3 2 К A 7 4 8 3 6 7 4 4 4 3 3 0 1 m...i Далее приводится последовательность действий, которую лучше всего повторить, используя систему STATISTICA. Шаг 1. Создайте файл STATISTICA и введите в него данные, представленные в таблице. В первом столбце приведено количество осадков в дюймах. Во втором столбце записана частота, с которой данное значение встречалось в измерениях. Например, уровень 16 дюймов наблюдался 1 раз, уровень 17 дюймов — 0 раз, уровень 18 дюймов — 0 раз и т. д. Шаг 2. Запустите модуль Основные статистики и таблицы. Шаг 3. В стартовой панели модуля выберите Основные статистики и нажмите ОК. Корреляционные матрицы (-критерия для независимых выборок U2J I-критерия для зависимых выборок jfX Группировка и одно+акторная AN OVA 9Ш Таблицы частот ЩЦ Таблицы и заголовки %Л Вероятностный калькулятор №д Другие критерии значимости &' ц[ &> а
Как проверить нормальность наблюдаемых величин 133 Шаг 4. В появившемся окне Описательные статистики нажмите кнопку Переменные и выберите переменную УРОВЕНЬ. LE HiiTlHiuir Iflliilli |дЗ Переменные. I УРОВЕНЬ |дк;1 Подробные описательные статистики Отмена Опции Г~ Построчное мдалвиме ПД Г~ Отображать длинные имена переменных Г~ Вычислении с повышенной точностью Статистики Г Медиана м доартидм Г Доверит, границы средни* I . и» jj\ g> fl,j * Интервал: J95. VI Друнв статистики |х В зе. моменты Or свободы <* 8-1 Г - N-1 Распределение - ЙВ Т аблм&ы частот Гистограммы Г г Г i Офтмровка ; <• Число интервалов: [75 Э С Целые интервалы (категории) smi а □ г> < и - tr:- - ■••■■уюм1*<* 1*ъ:***4\-> <>.■ >MsV**&0*'Ht*# »*>>оч'(! '■ , ■Г№Ор*У.Ш>Г>Ы>- ?•-•;>:• >.< >>;*>«*>«•> ©е}>{/.¥< *»*•■:« >♦»• • >•••.;♦***♦«« jl >\ ;•■№»> *«****«« |(ТГ^ .„■;,»>;.••< : •.-:. >*~Kt>-v •' ,,<:>^5<, :,>,,, ^1® *■-,• 71^:V,-. - 1 ВВ ' - 1 сто < - 1 88 — .|Ю'-< - - |88>>» ••••.,,. | ig? *>>}>ЧИ ^< W ( Л{-*^ "{»>« '>*v ^*>*х<- 4 ><<*П >'<*<****>• i-Л i*An>Hf> | , «>? »»'<fW , ^Лф*» >•* 5« >»*<{>< J <>«v *)««•(•»****'! < и'*?<Г',< Xrw?* j >ft^**Mi-}r' W(«i<,»»»tf <-f>>4*»^*b« j * v</ <<JJv- ДО »« {><>»>« <M «. >ч' , < <>¥<(<*! '%* rm-({!ip**i*.iM j Шаг 5. Далее в правом верхнем углу окна нажмите кнопку В. В появившемся окне Задание веса выберите вес из переменной ЧАСТОТА. Нажмите ОК. Дмчды щелкните м* (• Bjyi rww еесса. чтобы выбрать переменную из Г ВЫ*Л стек* Шаг 6. Нажмите кнопку Другие статистики и дайте указание системе, что вам нужно вычислить асимметрию и эксцесс, а также их стандартные ошибки (см. рисунок). Gьдм..».«шо1 ftce Чи< ло илЛоод^кй N Г Среднее f~ £ч»*ь»« Г MftUHitlU Г" ClfiMA«»t"»*>0 1 г л---■■.-.• и« Г" Oj...;.,! ■•• «' i Т> - » ' • .■ • ! " Мимь.у- • .« Г HMktiMft и оно Г" Ре змея Г* Кдв41ТИ<|«>»1Ьи4 fx Асимм«хрмя fx Дигаясг fx (.т«»ш<ч""->и . [х Стандартное < |»лин«* U*0> , (..„..-И., •.HH4N If **• * ж. . нме «нлртидм рлзыл* шил*,, цк ] (О |»:Л..С1Л г?Г|>ММ .имела лисцесс*
134 Глава 2. Элементарные понятия анализа данных Шаг 7. Нажмите ОК в окне Статистики и далее нажмите ОК в появившемся окне Описательные статистики. Следующая таблица с результатами появится на экране: Из этой таблицы видно, что по абсолютной величине оценки асимметрии и эксцесса имеют тот же порядок, что их ошибки. Следовательно, ни одна из полученных величин не значима. Поэтому можно сказать, что данные согласованы с гипотезой нормальности. Продолжение примера (использование критерия хи-квадрат для проверки нормальности). Мы работаем с теми же данными по осадкам, что и в предыдущем примере. Шаг 1. Запустите модуль Непараметрические статистики. В стартовой панели модуля выберите опцию Подгонка распределения. Так как нужно проверить согласие данных с нормальным распределением, в списке Непрерывные распределения выберите Нормальное. Далее нажмите кнопку ОК. шшт вша ЕЩ ;Г Н|Д|ч1Цгц||Щр1и £;V-'-'^>%i **•''> v •,*•<. ' * ' x ... Д» ftl Шаг 2. В появившемся диалоговом окне Подгонка непрерывных распределений нажмите кнопку Переменные и выберите переменную УРОВЕНЬ. Нажмите ОК. шшшштшшшшш J2 ЧАСТОТА (ЗЛ/АЯЭ 44-VAR4 J5VAR5 tt-VAR6 J7VAR7 I8-VAR8 ! J9-VAR9 llO-VARIO ГуП 1522Е2^^2Я 4-*—* * W Шаг 3. Далее в правом верхнем углу окна нажмите кнопку В. Выберите веса из переменной ЧАСТОТА.
Как проверить нормальность наблюдаемых величин 135 Шаг 4. В диалоговом окне Подгонка непрерывных распределений нажмите кнопку ОК. На экране появится следующая электронная таблица с результатами: LIIIJ.IMLIUII.II.imUl.lJ.U.IJMiJllll.l |статистика Копм-См d -0399655. р ■ ги-кввдрвт 5 093237. ее ■ 6. р ■ 5319227 (ст ев скор • процент маблюд. частота 0 1 1 6 9 14 30 41 58 71 79 86 89 90 90 0 00000 1 11111 0 00000 5 55556 3 33333 5 55556 17 77778 12 22222 18 88889 14 44444 8 88889 7 77778 3 33333 1 11111 0 00000 0 0000 11111 11111 6 6667 10 0000 15 5556 33 3333 45 5556 64 4444 78 8889 87 7778 95 5556 98 8889 100 0000 100 0000 10964 29009 84542 2 07955 4 31762 7 56682 11 19396 13 97860 14 73523 1311186 9 84881 6 24468 3 34222 1 50990 82558 * Во второй строке заголовка таблицы показано значение статистики хи-квадрат и уровень значимости/? = 0,532. Снова мы можем сказать, что данные согласованы с гипотезой нормальности. Результат согласуется с тем, который был получен в первой части примера, когда в качестве критерия нормальности использовались коэффициенты асимметрии и эксцесса. ЗАМЕЧАНИЕ В первой строке заголовка таблицы указаны значения статистики Колмогорова—Смирнова. Этот критерий также можно использовать для проверки нормальности. Результат также незначим.
136 Глава 2. Элементарные понятия анализа данных Посмотрим на результаты в графическом виде. Шаг 5. В диалоговом окне Подгонка непрерывных распределений нажмите кнопку График. На экране появится гистограмма значений переменной Осадки. Из графика также видно хорошее согласие данных с нормальным распределением. УРОВЕНЬ . распределение Нормальное УРОВЕНЬ статистика Колм-См. d «.0399656. р ■ на. х и-квадрат: 5.093237, ее ■ 6, р ■ .5319227 (ее. скор.) 20, ■ ■ ■ ■—■ ■ ■ ■ Ш ML ill11 l£±_J 1214161820 2224 2628 3032 3436 3840 42 Группа (■•рх. границы) Ожидаемы* Этот классический пример иллюстрирует схему действий в системе STATIS- TICA при проверке нормальности данных. Все ли статистики критериев нормально распределены? Не все, но большинство из них либо имеют нормальное распределение (особенно при большом числе наблюдений), либо имеют распределение, связанное с нормальным и вычисляемое на основе нормального, такое как t, Fили хи-квадрат. Обычно эти статистики требуют, чтобы анализируемые переменные сами были нормально распределены в совокупности, то есть удовлетворяли бы «предположению». Многие наблюдаемые переменные действительно нормально распределены, что является еще одним аргументом в пользу того, что нормальное распределение представляет «фундаментальный закон». Проблема может возникнуть при попытке применить тесты, основанные на предположении нормальности, к данным, не являющимся нормальными. В подобных случаях вы можете выбрать одно из двух. Во-первых, вы можете использовать альтернативные «непараметрические» тесты (или так называемые «свободно распределенные тесты»), особенно полезные, если число наблюдений мало. Как альтернативу во многих случаях вы можете все же использовать тесты, основанные на предположении нормальности, если уверены, что объем выборки достаточно велик. Последняя возможность основана на чрезвычайно важном принципе, позволяющем понять популярность тестов, основанных на нормальности: при возрастании объема выборки форма распределения статистики критерия приближается к нормальной, даже если распределение исследуемых переменных не является нормальным. Этот принцип называется центральной предельной теоремой.
Оценка объема выборки 137 Как узнать последствия нарушений предположений нормальности? Хотя многие утверждения предыдущих параграфов можно доказать математически, некоторые из них не имеют теоретического обоснования и могут быть продемонстрированы только эмпирически, с помощью так называемых экспериментов Монте-Карло. В этих экспериментах большое число выборок генерируется на компьютере, а результаты, полученные из этих выборок, анализируются с помощью различных тестов. Этим способом можно эмпирически оценить тип и величину ошибок или смещений, которые вы получаете, когда нарушаются определенные теоретические предположения используемых тестов, например, вы можете искусственно изменить распределение выборки, сделать его отличным от нормального и проверить результат. Монте-Карловские исследования интенсивно использовались для того, чтобы оценить, насколько тесты, основанные на предположении нормальности, чувствительны к различным нарушениям предположений нормальности. Общий вывод этих исследований состоит в том, что последствия нарушения предположения нормальности менее фатальны, чем первоначально предполагалось. Хотя эти выводы не означают, что предположения нормальности можно игнорировать, они увеличили общую популярность тестов, основанных на нормальном распределении. Оценка объема выборки В большинстве ситуаций на практике у нас нет доступа ко всей популяции (генеральной совокупности) в целом (например, популяция слишком большая, процесс измерения слишком дорог и т. д.). Таким образом, мы имеем дело с ограниченным объемом данных — выборкой, и поставлены перед необходимость принимать решение относительно всей популяции на основе лишь выборочных данных. Для того чтобы оценить некоторую характеристику популяции, которую назовем параметром, мы строим выборку и вычисляем на ее основе некоторую статистику, которую рассматриваем как оценку искомого параметра. Представьте, вы врач и вас интересует доля людей с данным заболеванием или вы политик и вас интересует доля людей, поддерживающих вашу позицию. Пусть ваш избирательный округ — большой город, в котором проживают около 1 500 000 человек, имеющих право голоса. В данном случае интересующий параметр я, доля всех людей, поддерживающих вас. Как понять, насколько велика эта доля? Вы можете поступить следующим образом: выбрать наудачу группу людей и выяснить их мнение. Назовем выбранную группу выборкой, а количество элементов в ней (в данном случае людей) объемом выборки. Число людей (N) в выборке будет относительно небольшим в сравнении со всей популяцией. Опросив людей в выборке, вы получите не точное значение интересующего вас параметра я, а оценку — обозначим ее через р.
138 Глава 2. Элементарные понятия анализа данных Формально р вычисляется так: p=N1/N, где N1 — число людей, поддерживающих вашу кандидатуру, N — объем выборки. Эквивалентная формула имеет вид: p = p(N) = ^/N (*) £, = 1, если 2-й респондент поддерживает вас, ^ = 0 в противном случае. Возникает вопрос: какова точность этой оценки? В зависимости от ответа на данный вопрос вы предпримете то или иное действие. Очевидно, что параметр я не будет равен в точности оценки р. Величина отклонения р от я называется ошибкой. Таким образом, в любой построенной по выборке оценке содержится ошибка, точная величина которой неизвестна, в противном случае вы могли бы точно вычислить значение параметра, что в принципе невозможно сделать, имея дело с частью популяции, то есть с выборкой. В общем, можно сказать, чем больше объем выборки N, тем меньше ошибка оценки. Если вам нужно точное решение относительно параметра р, вам необходимо взять N достаточно большим, чтобы ошибка была «разумно малой», например, опросить всех жителей города. Если N слишком мало, то мало шансов получить хорошую оценку. С другой стороны, если взять объем выборки N слишком большим, улучшение точности оценки окажется незначительным. Итак, если N «достаточно большое», чтобы обеспечить приемлемый уровень точности, то дальнейшее увеличение объема данных не приводит к неоправданной трате времени и средств. Таким образом, ключевым вопросом является: какой уровень точности будет иметь оценка для данного объема выборки?, а также связанный с ним: какой размер выборки нужно иметь, чтобы достичь приемлемого уровня точности? Выборочное распределение представляет собой распределение статистики критерия в повторных выборках. Рассмотрим выборочную оценку р, построенную по выборке объема N в предположении, что значение я в точности равно .50. Статистическая теория утверждает, что р имеет биномиальное распределение (как сумма независимых случайных величин, принимающих два значения: 1 или 0). Это распределение при достаточно больших N в силу теоремы Муавра—Лапласа, являющейся частным случаем центральной предельной теоремы, приближается к нормальному распределению со средним я и стандартным отклонением, вычисляемым по формуле: o = yJn(l-n)/N . Заметим, что часто полезной оказывается оценка: а < 1 / 2^1 / N. Предположим, что объем выборки N равен 100. Тогда распределение/? имеет следующий вид (напомним, мы считаем, что я = .5):
Оценка объема выборки 139 Distribution of th« Sjmpl* Proportion N- 100. Pi- .50 0 0 1 Sjmpl* Proportion (p) Из рисунка видно, что значения статистики сосредоточены вокруг точки .5, но небольшой процент значений больше .6 или меньше .4. Этот разброс значений оценок отражает тот факт, что опрос общественного мнения проводился среди 100 человек и поэтому не является абсолютно точным значением вероятности успеха я. Если бы р была «совершенной» оценкой я, разброса значений не было бы, и стандартная ошибка равнялась бы 0. Тогда выборочное распределение имело бы выброс в точке 0.5. Выброс выборочного распределения говорит о том, насколько много «шум» смешивается с «сигналом» от параметра. Заметим, что стандартная ошибка/? стремится к 0 при увеличении объема выборки N (N стоит в знаменателе). Если N становится достаточно большим, то оценка р будет все более точной (см. формулу для вычисления ошибки). Предположим, вы используете критерий, описанный ранее. Допустим, вы решили, что, если р больше .58, то нулевая гипотеза: «я меньше или равно .50» неверна. Критическая область этого критерия показана ниже. ИЩЬрс 1 ° 1 ° 1 <в 2 о 1 о 1 £ 0 1 ° vbh.SIfj Distribution of tb« Sjmpl* Proportion N ■ 100. Pi ■ .50 Л *. • v • * * tow»>«wwun4v4auM»«<<4&*v ы с y VK 0 0 0 11 Sjmplt Proportion (p) R@E3 1 Проведя несложные подсчеты (например, используя формулу биномиального распределения), легко определить, что вероятность отвергнуть нулевую гипотезу
140 Глава 2. Элементарные понятия анализа данных при п = .50 равна .044. Следовательно, для выбранного решающего правила ошибка I рода а находится на уровне не ниже .044. Теперь важно понять, какова мощность этого критерия. Предположим, что 55% избирателей поддерживают политика, то есть я = .55 и нулевая гипотеза не верна. В этом случае правильное решение состоит в том, чтобы отвергнуть нулевую гипотезу в пользу альтернативы. На рисунке ниже показано выборочное распределениер при условии, что п = .55. Ясно, что политики принимают верные решения, поддерживаемые большинством, только в очень малом проценте случаев. Вероятность того, что р больше .58, равна только .241. Нечего и говорить, что нет смысла проводить эксперимент, в котором ваша точка зрения верна только в 24.1% опытов! В таком случае говорят, что критерий значимости имеет «недостаточную мощность, чтобы обнаружить 5%-ное отклонение от нулевой гипотезы». Суть проблемы лежит в ширине этих двух распределений (при различных гипотезах). Если объем выборки становится большим, то стандартная ошибка доли уменьшается и область перекрытия двух распределений соответственно уменьшается. Таким образом, при достаточно большой выборке можно найти критерий с высокой мощностью и данным уровнем значимости а. Следующие рассуждения вообще типичны при проверке гипотез. Назовем исходную гипотезу «нулевая гипотеза» — Н0. Например, доля поддерживающих политика выше 0.5 или прививка от гриппа привела к снижению заболеваемости. Для проверки гипотезы мы организуем сбор данных, извлекаем выборку. Используя статистическую теорию, видим, что гипотеза Н0, вероятно, неверна и должна быть отвергнута. Отвергая Н0, мы обосновываем то, во что верим. Эта ситуация, типичная во многих областях приложения, отвергая нулевую гипотезу, вы подтверждаете теорию. Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:
Визуальный подход к анализу мощности 141 Решение Но н, Верная гипотеза Но Правильное принятие Ошибка 1рода а н, Ошибка II рода Р Правильное отвержение Как вы видите, применение статистического критерия приводит к ошибкам двух видов. Конечно, идеальным вариантом было бы уменьшение обеих ошибок (первого и второго рода), однако реальное положение вещей такое, что при фиксированном объеме выборки этого достичь нельзя. Поэтому мы фиксируем уровень а и стараемся сделать ошибку второго рода C как можно меньше. Обычно считается, что ошибка первого рода а должна принимать значение .05 или ниже, тогда как ошибка второго рода C должна быть столь малой, насколько это возможно при фиксированном уровне ошибки первого рода. «Статистическая мощность», которая по определению равна 1 - C (единица минус ошибка второго рода), соответственно, должна быть максимально высокой. Идеальный вариант, когда мощность равна, по крайней мере, .80, чтобы обнаружить разумные отклонения от нулевой гипотезы. Поставим вопрос: какой объем выборки N необходим, чтобы достичь разумно высокой мощности в ситуации, когда а фиксировано на разумно низком уровне. Конечно, можно опытным путем установить нужный объем выборки, например, используя метод Монте-Карло. Однако программное обеспечение позволяет это сделать автоматически с помощью нескольких движений мыши. Модуль STATISTICA Анализ мощности предлагает различные аналитические и графические процедуры, позволяющие представить зависимость между мощностью и размером выборки. При работе с модулем Анализ мощности предполагается, что вы будете применять хорошо известный лги-квадрат-критерий чаще, чем точный биномиальный критерий. Например, предположим, что в обсуждаемом нами примере политик хочет достичь мощности .80 при я равном .55. Используя выборку объема 607, он получит на выходе мощность, равную .8009. (Реальный уровень Альфа этого критерия равен .0522.) Визуальный подход к анализу мощности Основные этапы проведения анализа мощности и вычисления объема выборки состоят в следующем: определяется нулевая гипотеза и альтернативы, выбирается критерий и исследуется мощность и требуемый объем выборки для обнаружения данным критерием эффекта на разумном уровне.
142 Глава 2. Элементарные понятия анализа данных В разбираемом примере, мы получили, что необходимая мощность @.8) достигается при выборке объема 607 (р=.80). На практике, конечно, было бы неразумно проводить только одно вычисление, основываясь на одном гипотетическом значении. Более естественно рассмотреть, как зависит мощность от различных р} иными словами, построить функцию зависимости мощности от р. В обсуждаемом примере мы хотим понять с низкой вероятностью ошибиться, будут или нет нашу точку зрения поддерживать более половины избирателей. Графический анализ чрезвычайно полезен для понимания возможности данного статистического критерия обеспечить нужную мощность. Например, можно построить график зависимости мощности от объема выборки в предположении, что истинная доля поддерживающих равна .55 (т.е. вас поддерживают более 55% жителей). На следующем графике показана мощность как функция объема выборки в диапазоне от 20 до 2000 наблюдений (используется «нормальная аппроксимация» биномиального распределения). One Proportion: Sample Size Calculation Test on One Proportion (HO: Pi <= PIO) N vs. Power (Pi = 0.55. PiO = 0.5. Alpha = 0.05) 1.00 0.95 0.90 g | 0.85 о 2 0.80 0.75 0.70 500 600 700 800 900 1000 1100 1200 Объем выборки N Из графика видно, что мощность достигает приемлемого уровня (часто этот уровень фиксируют между .80 и .90) на выборке, состоящей примерно из 600 наблюдений. Следует помнить, что вычисления сделаны в предположении, что истинное значение доли р равно.55. Возможно, что форма кривой (а значит, и наши оценки!) очень чувствительна к величине р. Логично поставить вопрос: как чувствителен наклон графика к изменению величины р? Имеется несколько подходов к решению данного вопроса. Один состоит в том, чтобы построить графики зависимости мощности от размера выборки для разных значений р. Ниже показан график зависимости мощности от размера выборки при р- .6. Можно заметить, что увеличение мощности при возрастании N происходит гораздо быстрее при р = .6 чем при р = .55. Это различие становится более заметно, если построить два графика одновременно.
Визуальный подход к анализу мощности 143 Tlhpovbbd.STG Ttst on Ont Proportion ( HO: Pi <- PC ) Power v» N (Pi - О 0. PiO - О 5. Alphj - О Об) 500 1000 1500 Sjmplt Sizt(N) iHlhpovbbb.STG Ttft on Ont Proportion ( MO: Pi <■ PiO ) Power ws N (PiO - 0 6. Alphj - 0 05) 500 1000 1500 Sjmplt Sizt (N) Для данного уровня мощности график зависимости объема выборки отр показывает чувствительность объема выборки к величине р. На следующем графике показана зависимость объема выборки N, позволяющей достичь мощности .90 для различных значений р, когда при нулевой гипотезе р = .50. lHbpovbt(.SICj Ttst on Ont Proportion (HO: Pi ■ PiO) N v» Pi (Alphj • 0 05. PrO • 0 5. Power «0 0) r S. 800 i eoo i 8 400 Population Proportion (Pi)
144 Глава 2. Элементарные понятия анализа данных Из графика видно, как быстро уменьшается N дляр изменяющихся от .55 до .60. Таким образом, чтобы надежно обнаружить различие .05 (от значения при нулевой гипотезе .50), требуется взять объем выборки N больше 800, но, чтобы надежно обнаружить различие .10 требуется всего лишь 200 (см. значение ЛГпри р = 0.6). Очевидно, гораздо лучше быть осведомленным заранее о точности критерия, чем оказаться поставленным перед фактом некорректности исследования и ошибки при принятии решения. В заключении сделаем замечание общего характера. Результат применения критерия значимости заключается в утверждении — принять или отвергнуть нулевую гипотезу. Такой подход часто не устраивает тех исследователей, кто рассматривает нулевую гипотезу не как утверждение об отсутствии эффекта или нулевого эффекта, а интересуется тем, насколько велик эффект, чем в точности он равен нулю или нет. Таким образом, приходится ставить одну, две или три звездочки после результатов в таблице, или приводить соответствующие р-уровни. Вероятностные уровни иногда могут ввести в заблуждение относительно «силы» результата, особенно когда они представлены без дополнительной информации. Например, если в таблице дисперсионного анализа один эффект имел р-уровень .019, а другой р уровень .048, то утверждение, что первый эффект сильнее второго, возможно, будет ошибочным. Для правильной интерпретации полученного результата необходима дополнительная информация. Чтобы понять это, предположим, что некто установил р уровень .001. Это могло быть результатом слабого эффекта и чрезмерно большого объема выборки, либо сильного эффекта в популяции и умеренного объема выборки, либо очень сильного эффекта и малого объема выборки. Аналогично,/? уровень .075 можно интерпретировать как комбинацию очень сильного и малой выборки, либо незначительного эффекта и гигантской выборки. Отсюда ясно, что следует внимательно сравнивать р-уровни и принимать во внимание объем выборки и точность эксперимента. Понижение размерности данных Исследователи из различных областей часто сталкиваются с данными большой размерности, иными словами, с таблицами данных, в которых много переменных (столбцов). Естественное желание исследователя разумно сократить число переменных, вводя новые переменные и объединяя некоторые переменные в одну. Конечно, хотелось, чтобы эти новые переменные имели определенный смысл и допускали разумную интерпретацию, а не вводились чисто формально. Если вы хотите понизить размерность непрерывных данных, то можете воспользоваться методами факторного анализа. Аналогом факторного анализа для категориальных переменных является анализ соответствий, в котором роль компонент дисперсии играют компоненты статистики хи-квадрат. В анализе главных компонент определяются попарно ортогональные направления максимальной вариации исходных данных, после чего данные проектируются на подпространство меньшей размерности, порожденное найденными компонентами. Далее эти компоненты могут рассматриваться как новые переменные,
Визуальный подход к анализу мощности 145 к которым применяются обычные методы многомерного анализа, например, регрессионный анализ. Для того чтобы понять основную идею, рассмотрим две зависимые непрерывные переменные. Зависимость между двумя переменными можно обнаружить с помощью двумерной диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих коррелированных переменных. Итак, фактически, вы сократили число переменных и заменили две зависимые переменные одной переменной. Если вы имеете три зависимые переменные, то аналогичным образом можете построить трехмерную диаграмму рассеяния и вновь провести линию регрессии, вдоль которой разброс данных максимальный. После того, как вы нашли линию регрессии, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных, поэтому процедуру естественно повторить. В анализе главных компонент именно так и поступают: после выделения первого фактора определяется следующий фактор, максимизирующий остаточную вариацию и т. д. Таким образом, последовательно выделяются главные компоненты, которые по самому способу построения оказываются некоррелированными или ортогональными. Эта идея естественно распространяется на любое число переменных.
«~ Вероятностные ^у распределения и их свойства Случай является одним из наиболее загадочных явлений на свете, он внезапно возникает и так же внезапно исчезает, — столь внезапно, что не позволяет нам проникнуть в свою сущность. Только в XX веке математики научились оперировать с вероятностью, хотя отдельные задачи о подсчете шансов в азартных играх рассматривались еще в XV-XVI веках. Древние греки, приучившие нас к количественному взгляду на мир, пришли бы в ужас, если бы узнали, что мы научились с помощью теории вероятностей вычислять шансы и оценивать, какие события более вероятны, а какие менее вероятны, например в актуарных расчетах или азартных играх. Знаменитые итальянские математики Кардано, Пачоли и Тарталья, а вслед за ними Паскаль, Ферма, Гюйгенс в XVII веке разрабатывали все более и более изощренные способы подсчета вероятностей в разнообразных игровых задачах и в популярных лотереях. Их изобретательность была поистине удивительной! Используя ограниченный и, на наш взгляд, примитивный язык, они смогли объяснить глубокие явления. Существенное движение вперед произошло в тот момент, когда прозорливые умы вдруг осознали, что очень схожие вероятностные законы возникают в разных, на первый взгляд, задачах. В чем состоит идея вероятностных рассуждений? Первый, самый естественный шаг вероятностных рассуждений заключается в следующем: если вы имеете некоторую переменную, принимающую значения случайным образом, то вам хотелось бы знать, с какими вероятностями эта переменная принимает определенные значения. Совокупность этих вероятностей как раз и задает распределение вероятностей. Например, имея игральную кость, можно a priori считать, что с равными вероятностями 1/6 она упадет на любую грань. И это происходит при условии, что кость симметричная. Если кость несимметричная, то можно определить большие вероятности для тех граней, которые выпадают чаще, а меньшие вероятности — для тех граней, которые выпадают реже, исходя из опытных данных. Если какая-то грань вообще не выпадает, то ей можно присвоить ве-
Нормальное распределение 147 роятность 0. Это и есть простейший вероятностный закон, с помощью которого можно описать результаты бросания кости. Конечно, это чрезвычайно простой пример, но аналогичные задачи возникают, например, при актуарных расчетах, когда на основе реальных данных рассчитывается реальный риск при выдаче страхового полиса. В этой главе мы рассмотрим вероятностные законы, наиболее часто возникающие на практике. Графики этих распределений можно легко построить в STATISTICA. Нормальное распределение Нормальное распределение вероятностей особенно часто используется в статистике. Нормальное распределение дает хорошую модель для реальных явлений, в которых: 1) имеется сильная тенденция данных группироваться вокруг центра; 2) положительные и отрицательные отклонения от центра равновероятны; 3) частота отклонений быстро падает, когда отклонения от центра становятся большими. Механизм, лежащий в основе нормального распределения, объясняемый с помощью так называемой центральной предельной теоремы, можно образно описать следующим образом. Представьте, что у вас имеются частицы цветочной пыльцы, которые вы случайным образом бросили в стакан воды. Рассматривая отдельную частицу под микроскопом, вы увидите удивительное явление — частица движется. Конечно, это происходит, потому что перемещаются молекулы воды и передают свое движение частицам взвешенной пыльцы. Но как именно происходит движение? Вот более интересный вопрос. А это движение очень причудливо! Имеется бесконечное число независимых воздействий на отдельную частицу пыльцы в виде ударов молекул воды, которые заставляют частицу двигаться по весьма странной траектории. Под микроскопом это движение напоминает многократно и хаотично изломанную линию. Эти изломы невозможно предсказать, в них нет никакой закономерности, что как раз и соответствует хаотическим ударам молекул о частицу. Взвешенная частица, испытав удар молекулы воды в случайный момент времени, меняет направление своего движения, далее некоторое время движется по инерции, затем вновь попадает под удар следующей молекулы и т. д. Возникает удивительный бильярд в стакане воды! Поскольку движение молекул имеет случайное направление и скорость, то величина и направление изломов траектории также совершенно случайны и непредсказуемы. Это удивительное явление, называемое броуновским движением, открытое в XIX веке, заставляет нас задуматься о многом. Если ввести подходящую систему и отмечать координаты частицы через некоторые моменты времени, то как раз и получим нормальный закон. Более точно, смещения частицы пыльцы, возникающие из-за ударов молекул, будут подчиняться нормальному закону.
148 Глава 3. Вероятностные распределения и их свойства Впервые закон движения такой частицы, называемого броуновским, на физическом уровне строгости описал А. Эйнштейн. Затем более простой и интуитивно ясный подход развил Ленжеван. Математики в XX веке посвятили этой теории лучшие страницы, а первый шаг был сделан 300 лет назад, когда был открыт простейший вариант центральной предельной теоремы. В теории вероятности центральная предельная теорема, первоначально известная в формулировке Муавра и Лапласа еще в XVII веке как развитие знаменитого закона больших чисел Я. Бернулли A654-1705) (см. Я. Бернулли A713), Ars Conjectandi), в настоящее время чрезвычайно развилась и достигла своих высот в современном принципе инвариантности, в создании которого существенную роль сыграла русская математическая школа. Именно в этом принципе находит свое строгое математическое объяснение движение броуновской частицы. Идея состоит в том, что при суммировании большого числа независимых величин (ударов молекул о частицы пыльцы) в определенных разумных условиях получаются именно нормально распределенные величины. И это происходит независимо, то есть инвариантно, от распределения исходных величин. Иными словами, если на некоторую переменную воздействует множество факторов, эти воздействия независимы, относительно малы и слагаются друг с другом, то получаемая в итоге величина имеет нормальное распределение. Например, практически бесконечное количество факторов определяет вес человека (тысячи генов, предрасположенность, болезни и т. д.). Таким образом, можно ожидать нормальное распределение веса в популяции всех людей. Если вы финансист и занимаетесь игрой на бирже, то, конечно, вам известны случаи, когда курсы акций ведут себя подобно броуновским частицам, испытывая хаотические удары многих факторов. (Н| График! 2 Линейный график ННИ Броуновское движение X
Нормальное распределение 149 Г$ ГрафмкБ Линейный график Броуиовско# движ#ни# Формально плотность нормального распределения записывается так: ф(х;я,а2) = л/2я~-а (х-аГ ' 2а2 г2_1 где а и о * — параметры закона, интерпретируемые соответственно как среднее значение и дисперсия данной случайной величины (ввиду особой роли нормального распределения мы будем использовать специальную символику для обозначения его функции плотности и функции распределения). Визуально график нормальной плотности — это знаменитая колоколообразная кривая. Соответствующая функция распределения нормальной случайной величины £(<я,сг2) обозначается Ф(х; <я,сг2) и задается соотношением: ФО; д,а ) =РЩа^)< jc}= -\/2я -а X (*-fl) 2а2 dt. Нормальный закон с параметрами а = О и с2 = 1 называется стандартным. Обратная функция стандартного нормального распределения, примененная к величине 2, 0<z<1, называется пробит-преобразованием z, или просто пробитом z. Воспользуйтесь вероятностным калькулятором STATISTICA, чтобы по х вычислить 2 и наоборот. Основные характеристики нормального закона: среднее, мода, медиана: Е% = xmod = xmed = a\ дисперсия: D% = а2; асимметрия: р{ = 0; эксцесс: J32 = 0;
150 Глава 3. Вероятностные распределения и их свойства Центральные моменты порядка k > s: О при к = 2/и-1, 1-3-... •Bт-\)а2т при к = 2т, т =3, 4,. Из формул видно, что нормальное распределение описывается двумя параметрами: а — mean — среднее; а — stantard deviation — стандартное отклонение, читается: «сигма». Иногда стандартное отклонение называют среднеквадратическим отклонением, но это уже устаревшая терминология. Приведем некоторые полезные факты относительно нормального распределения. Среднее значение определяет меру расположения плотности. Плотность нормального распределения симметрична относительно среднего. Среднее нормального распределения совпадает с медианой и модой (см. графики). «. ллг» 0 110 /" / / / 1.D "\ \ \ ч •10 1 t • Плотность нормального распределения с дисперсией 1 и средним 1 а—ним •Ю1 им 1007 0000 / / / / ,* / ► •» "X : \ J \ | N X ■^ Плотность нормального распределения со средним 0 и дисперсией 0,01 ВПйШШШЗШ Плотность нормального распределения со средним 0 и дисперсией 4
Равномерное распределение 151 При увеличении дисперсии плотность нормального распределения расплывается или растекается вдоль оси ОХ, при уменьшении дисперсии она, наоборот, сжимается, концентрируясь вокруг одной точки — точки максимального значения, совпадающей со средним значением. В предельном случае нулевой дисперсии случайная величина вырождается и принимает единственное значение, равное среднему. Полезно знать правила 2- и 3-сигма, или 2- и 3-стандартных отклонений, которые связаны с нормальным распределением и используются в разнообразных приложениях. Смысл этих правил очень простой. Если от точки среднего или, что то же самое, от точки максимума плотности нормального распределения отложить вправо и влево соответственно два и три стандартных отклонения B- и 3-сигма), то площадь под графиком нормальной плотности, подсчитанная по этому промежутку, будет соответственно равна 95,45% и 99,73% всей площади под графиком (проверьте на вероятностном калькуляторе STATISTICA!). Другими словами, это можно выразить следующим образом: 95,45% и 99,73% всех независимых наблюдений из нормальной совокупности, например размеров детали или цены акций, лежит в зоне 2- и 3-стандартных отклонений от среднего значения. Равномерное распределение Равномерное распределение полезно при описании переменных, у которых каждое значение равновероятно, иными словами, значения переменной равномерно распределены в некоторой области. Ниже приведены формулы плотности и функции распределения равномерной случайной величины, принимающей значения на отрезке [а, Ь]. /<(*) = FJx) = при а<х<Ь; Ъ-а [О при х<аи х>Ь. О при х<а; х-а Ь-а 1 при х>Ь. при а<х<Ь\ Из этих формул легко понять, что вероятность того, что равномерная случайная величина примет значения из множества [с, d\ с [а, Ь], равна (d — с)/(Ь — а). Положим а - О, Ъ - 1. Ниже показан график равномерной плотности вероятности, сосредоточенной на отрезке [0,1].
152 Глава 3. Вероятностные распределения и их свойства 02 Ojl 1 1 1 2 1 0 1 ? Числовые характеристики равномерного закона: г.* а + Ь среднее, медиана: Eg = xmed = ; дисперсия: D% = —; асимметрия: Д = 0; эксцесс: р2 =-1,2. Экспоненциальное распределение Имеют место события, которые на обыденном языке можно назвать редкими. Если Т— время между наступлениями редких событий, происходящих в среднем с интенсивностью X, то величина Г имеет экспоненциальное распределение с параметром X (лямбда). Экспоненциальное распределение часто используется для описания интервалов между последовательными случайными событиями, например интервалов между заходами на непопулярный сайт, так как эти посещения являются редкими событиями. Это распределение обладает очень интересным свойством отсутствия последействия, или, как еще говорят, марковским свойством, в честь знаменитого русского математика Маркова А. А., которое можно объяснить следующим образом. Если распределение между моментами наступления некоторых событий является показательным, то распределение, отсчитанное от любого момента t до следующего события, также имеет показательное распределение (с тем же самым параметром). Иными словами, для потока редких событий время ожидания следующего посетителя всегда распределено показательно независимо от того, сколько времени вы его уже ждали. Показательное распределение связано с пуассоновским распределением: в единичном интервале времени количество событий, интервалы между которыми независимы и показательно распределены, имеет распределение Пуассона. Если интервалы между посещениями сайта имеют экспоненциальное распределение, то количество посещений, например в течение часа, распределено по закону Пуассона.
Распределение Эрланга 153 Показательное распределение представляет собой частный случай распределения Вейбулла. Если время не непрерывно, а дискретно, то аналогом показательного распределения является геометрическое распределение. Плотность экспоненциального распределения описывается формулой: Это распределение имеет только один параметр, который и определяет его характеристики. График плотности показательного распределения имеет вид: f*| Г рафик в График5 ?М график Экспоненциальны плотность с параметром 1 уекрогЦМ) Основные числовые характеристики экспоненциального распределения: среднее: Ед = —; M^a:^mod=°; медиана: xmed = — In 2; дисперсия: £>£ = — ; Я1 асимметрия: Д = 2; эксцесс: f} = 6. Распределение Эрланга Это непрерывное распределение сосредоточено на @, 1) и имеет плотность: (лц)" „ч _n]ix Р(Х)=Г(П)Х 6 ' где /г, п — параметры, \х > 0, п — целое.
154 Глава 3. Вероятностные распределения и их свойства Математическое ожидание и дисперсия равны соответственно — и —г-. ju nju Распределение Эрланга названо в честь А. Эрланга (A. Erlang), впервые применившего его в задачах теории массового обслуживания и телефонии. Распределение Эрланга с параметрами \i и п является распределением суммы п независимых, одинаково распределенных случайных величин, каждая из которых имеет показательное распределение с параметром п/л. При п - 1 распределение Эрланга совпадает с показательным или экспоненциальным распределением. Распределение Эрланга с разными параметрами и-1 —п-1 п-2 - - • п-3 • 2 4 I S 1t 12 14 11 1t 2t 22 24 2С 2t М 32 34 М М 4t 42 44 4* 4t SI Распределение Лапласа Функция плотности распределения Лапласа, или, как его еще называют, двойного экспоненциального, используется, например, для описания распределения ошибок в моделях регрессии. Взглянув на график этого распределения, вы увидите, что оно состоит из двух экспоненциальных распределений, симметричных относительно оси OY. Если параметр положения равен 0, то функция плотности распределения Лапласа имеет вид: f(x) = h-e-MA (-<»<JC<°°). Основные числовые характеристики этого закона распределения в предположении, что параметр положения нулевой, выглядят следующим образом: среднее: Е% = 0; м°Да: *mod=°; медиана: xmed=0;
Гамма-распределение 155 дисперсия: Dg = —; Я асимметрия: fi{ = 0; эксцесс: J32=3. UIIHU>IUUUIIWJ ЩЦ-ПИ Функция плотности уН*р!»оЦж,0,1) 0960 0413 0 276 0 138 0000 - У ^,^' 1 1 / / \ \ \ \ S \ Xv "~^—- В общем случае плотность распределения Лапласа имеет вид: /М = — -е е -оо<Д:<оо, 2о где а — среднее распределение; Ь — параметр масштаба; е — число Эйлера B,71...). -10 9 8 7 •€ б 4 3 2 1 О 1 2 3 4 5 6 7 8 9 10 Гамма-распределение Плотность экспоненциального распределения имеет моду в точке 0, и это иногда неудобно для практических применений. Во многих примерах заранее известно, что мода рассматриваемой случайной переменной не равна 0, например, интерва-
156 Глава 3. Вероятностные распределения и их свойства лы между приходами покупателей в магазин электронной торговли или заходами на сайт имеют ярко выраженную моду. Для моделирования таких событий используется гамма-распределение. Плотность гамма-распределения имеет вид: JA(a,b)\X) ~ -хаЧе-Ьх Па) О при х<0 при О < х < °°; где Г — Г-функция Эйлера, а > О — параметр «формы» и b > О — параметр масштаба. В частном случае имеем распределение Эрланга и экспоненциальное распределение. Основные х