Текст
                    СЕДЬМОЕ ИЗДАНИЕ
ЛЬ ЛЬ ЛЬ ЛЬ ЛЬ ЛЬ ЛЬ ЛЬ ль ль ль ль ль ль ль ль ль
мгл MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ W W Vtr/ W MF/ MF/ MF/ MF/
БИЗНЕС-
ПРОГНОЗИРОВАНИЕ

SEVENTH EDITION ZA\ ZAY ZAY ZAY ZAY ZAY ZAY ZAY ZAY ZAY ZAY ZAY w w w w w/ w/ w w w w w w/ BUSINESS FORECASTING John E. Hanke Arthur G. Reitsch, Eastern Washington University, Emeritus Dean W. Wichern, Texas A&M University Prentice Hall Prentice Hall, Upper Saddle River, New Jersey 07458
СЕДЬМОЕ ИЗДАНИЕ /А\ ЛЛ Лк\ ЛЛ /Л\ /А\ /А\ /А\ /А\ ЛЛ W MF7 W W W/ W W W W W W W W W W W MF/ БИЗНЕС- ПРОГНОЗИРОВАНИЕ Джон Э. Ханк Артур Дж. Райте, Восточный Вашингтонский университет, Эмеритус Дин У. Уичерн, Техасский университет администрирования и менеджмента Издательский дом “Вильямс” Москва • Санкт-Петербург • Киев 2003
ББК 32.973.26-018.2.75 Х19 УДК 681.3.07 Издательский дом “Вильямс” Перевод с английского В.В. Марченко, В.Н. Радченко, А.В. Слепцова, канд.физ.-мат.наук О.М. Ядренко Под редакцией А. В. Слепцова По общим вопросам обращайтесь в Издательский дом “Вильямс” по адресу: info@williamspublishing.com, http://www.williamspublishing.com Ханк Д.Э., Уичерн Д.У., Райте А.Дж. Х19 Бизнес-прогнозирование, 7-е издание. : Пер. с англ. — М.: Издательский дом “Вильямс”, 2003. — 656 с.: ил. — Парал. тит. англ. ISBN 5-8459-0436-6 (рус.) Назначение этой книги состоит в том, чтобы предоставить читателю основной стати- стический аппарат, который он сможет использовать для подготовки индивидуальных деловых прогнозов и далеко идущих планов. Книга написана в простом доступном стиле. В ней широко используются практические деловые примеры, позволяющие увидеть связь между теоретическими концепциями и их практическим применением. Основной акцент делается на применении менеджером изучаемого математического аппарата для принятия деловых решений. Предполагается, что читатель знаком с вводным курсом ма- тематической статистики и владеет компьютером в такой степени, чтобы уметь эффек- тивно работать с пакетами прикладного программного обеспечения, — например, с тек- стовыми процессорами и процессорами электронных таблиц. ББК 32.973.26-018.2.75 Все названия программных продуктов являются зарегистрированными торговыми марками соответ- ствующих фирм. Никакая часть настоящего издания ни в каких целях не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, будь то электронные или механические, включая фо- токопирование и запись на магнитный носитель, если на это нет письменного разрешения издательства Prentice Hall, Inc. Authorized translation from the English language edition published by Prentice Hall, Inc., Copyright © 2001 All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from the Publisher. Russian language edition published by Williams Publishing House according to the Agreement with R&I Enterprises International, Copyright © 2003 ISBN 5-8459-0436-6 (pyc.) ISBN 0-1308-7810-3 (англ.) © Издательский дом “Вильямс”, 2003 © Prentice Hall, Inc., 2001
Оглавление Введение 13 Глава 1. Введение в теорию прогнозирования 17 Глава 2. Обзор основных статистических понятий 33 Глава 3. Исследование наборов данных и выбор метода прогнозирования 83 Глава 4. Методы сглаживания и скользящие средние 133 Глава 5. Временные ряды и их компоненты 191 Глава 6. Простая линейная регрессия 257 Глава 7. Многомерный регрессионный анализ 317 Глава 8. Регрессионный анализ временных рядов 387 Глава 9. Метод Бокса-Дженкинса (ARIMA) 453 Глава 10. Элементы субъективной оценки в прогнозировании 545 Глава 11. Управление процессом прогнозирования 567 Приложение А. Вывод формул 591 Приложение Б. Исходные данные для задания 7.1 593 Приложение В. Таблицы 597 Приложение Г. Наборы и базы данных 611 Предметный указатель 645
Содержание Введение 13 Глава 1. Введение в теорию прогнозирования 17 История прогнозирования 17 Необходимость в прогнозировании 18 Типы прогнозов 20 Макроэкономическое прогнозирование 21 Выбор метода прогнозирования 21 Этапы прогнозирования 22 Управление процессом прогнозирования 23 Компьютерные пакеты для решения задач прогнозирования 24 Пример прогнозирования 25 Резюме 27 Задание 1.1. “Mr. Tux” 28 Задание 1.2. Корпорация Consumer Credit Counseling 29 Применение Minitab 30 Применение Excel 30 Рекомендуемая литература 31 Глава 2. Обзор основных статистических понятий 33 Описание данных с помощью численного суммирования 33 Графическое представление числовой информации 37 Вероятностные распределения 41 Выборочные распределения 46 Выводы, которые можно сделать на основании изучения выборок 48 Оценка 48 Проверка гипотез 49 Корреляционный анализ 52 Диаграммы рассеяния 53 Коэффициент корреляции 56 Аппроксимация данных прямой линией 59 Оценка, имеют ли данные нормальное распределение 63 Применение в менеджменте 65 Глоссарий 66
Содержание 7 Основные формулы 67 Упражнения 68 Задание 2.1. Компания Alcam Electronics 74 Задание 2.2. “Mr. Tux” 75 Задание 2.3. Компания Alomega Food Stores 77 Применение Minitab 79 Применение Excel 81 Рекомендуемая литература 82 Глава 3. Исследование наборов данных и выбор метода прогнозирования 83 Изучение наборов данных, являющихся временными рядами 85 Исследование данных с помощью автокорреляционного анализа 87 Являются ли данные случайными 92 Имеют ли данные тренд 96 Являются ли данные сезонными 101 Выбор соответствующего метода прогнозирования 103 Аппарат прогнозирования для стационарных данных 104 Аппарат прогнозирования для данных, имеющих тренд 105 Аппарат прогнозирования для данных с сезонной компонентой 105 Аппарат прогнозирования для циклических рядов 106 Другие факторы, которые нужно учитывать при выборе метода прогнозирования 106 Эмпирическая оценка методов прогнозирования 108 Измерение ошибки прогноза 109 Оценка адекватности выбранного метода прогнозирования 112 Применение в менеджменте 115 Глоссарий 115 Основные формулы 116 Упражнения 117 Задание 3.1. Сеть мебельных магазинов Murphy Brothers 122 Задание 3.2. “Mr. Tux” 125 Задание 3.3. Корпорация Consumer Credit Counseling 126 Задание 3.4. Компания Alomega Food Stores 127 Применение Minitab 128 Применение Excel 130 Рекомендуемая литература 132 Глава 4. Методы сглаживания и скользящие средние 133 Наивные модели 134 Методы прогнозирования, основанные на усреднении 137 Простые средние 138
8 Содержание Скользящие средние 140 Двойн ые скользящие средние 144 Методы экспоненциального сглаживания 148 Экспоненциальное сглаживание с учетом тренда: метод Хольта 156 Экспоненциальное сглаживание с учетом тренда и сезонных вариаций: метод Винтерса 161 Применение в менеджменте 166 Глоссарий 167 Основные формулы 167 Упражнения 168 Задание 4.1. Компания Solar Alternative 175 Задание 4.2. “Mr. Tux” 176 Задание 4.3. Корпорация Consumer Credit Counseling 178 Задание 4.4. Пятилетний план доходов клиники Downtown Radiology 179 Применение Minitab 187 Применение Excel 189 Рекомендуемая литература 190 Глава 5. Временные ряды и их компоненты 191 Декомпозиция 193 Тренд 195 Некоторые типы трендовых кривых 199 Прогноз тренда 202 Сезонность 203 Данные с устраненными сезонными колебаниями 209 Циклические и нерегулярные изменения 210 Прогноз сезонного временного ряда 217 Метод декомпозиции Census II 219 Применение в менеджменте 222 Приложение: индекс цен 223 Глоссарий 225 Основные формулы 225 Упражнения 226 Задание 5.1. Фирма Small Engine Doctor 235 Задание 5.2. “Mr. Tux” 237 Задание 5.3 Корпорация Consumer Credit Counseling 243 Задание 5.4. Клуб AAA Washington 244 Задание 5.5. Компания Alomega Food Stores 247 Применение Minitab 249 Применение Excel 252 Рекомендуемая литература 255
Содержание 9 Глава 6. Простая линейная регрессия 257 Прямая регрессии 259 Стандартная ошибка оценки 263 Прогнозирование величины У 264 Разложение дисперсии 267 Коэффициент детерминации 272 Проверка гипотез 274 Анализ остатков 277 Результаты компьютерных расчетов 280 Преобразования переменных 282 Применение в менеджменте 288 Глоссарий 289 Основные формулы 289 Упражнения 291 Задание 6.1. Компания Tiger Transport 303 Задание 6.2. Компания Butcher Products, Inc. 306 Задание 6.3. Компания Асе Manufacturing 308 Задание 6.4. “Mr. Tux” 309 Задание 6.5. Корпорация Consumer Credit Counseling 310 Применение Minitab 312 Применение Excel 315 Рекомендуемая литература 316 Глава 7. Многомерный регрессионный анализ 317 Несколько независимых переменных 317 Корреляционная матрица 318 Многомерная регрессионная модель 319 Статистическая модель многомерной регрессии 320 Интерпретация коэффициентов регрессии 322 Статистический анализ модели многомерной регрессии 323 Стандартная ошибка оценки 324 Значимость регрессии 325 Отдельные независимые переменные 328 Прогнозирование будущих значений зависимой переменной 328 Результаты компьютерных расчетов 329 Фиктивные переменные 331 Мультиколлинеарность 335 Выбор “наилучшего” уравнения регрессии 339 Анализ всех возможных регрессий 342
10 Содержание Пошаговая регрессия 344 Заключительные замечания относительно метода пошаговой регрессии 347 Регрессионная диагностика и анализ остатков 348 Предостережения при прогнозировании 351 Прогнозирование вне допустимого множества 351 Полезные регрессии, большие значения F 351 Применение в менеджменте 352 Глоссарий 354 Основные формулы 354 Упражнения 356 Задание 7.1. Рынок облигаций 366 Задание 7.2. Прогнозы в бейсболе (А) 369 Задание 7.3. Прогнозы в бейсболе (Б) 378 Применение Minitab 384 Применение Excel 385 Рекомендуемая литература 386 Глава 8. Регрессионный анализ временных рядов 387 Данные временных рядов и проблема автокорреляции 387 Тест Дарбина-Уотсона для серийной корреляции 392 Решение проблемы автокорреляции 396 Ошибка в спецификации модели (пропуск переменной) 397 Регрессия с разностями 399 Обобщенные разности и итерационный подход 404 Модели авторегрессии 408 Данные временных рядов и проблема гетероскедастичности 409 Использование регрессии для прогноза сезонных данных 412 Эконометрическое прогнозирование 416 Применение в менеджменте 417 Глоссарий 417 Основные формулы 418 Упражнения 419 Задание 8.1. Компания на ваш выбор 429 Задание 8.2. Индекс деловой активности для округа Спокан 430 Задание 8.3. Выручка ресторана 436 Задание 8.4. “Мг. Тих” 439 Задание 8.5. Корпорация Consumer Credit Counseling 441 Задание 8.6. Клуб AAA Washington 443 Задание 8.7. Компания Alomega Food Stores 447 Применение Minitab 449
Содержание 11 Применение Excel 450 Рекомендуемая литература 451 Глава 9. Метод Бокса-Дженкинса (ARIMA) 453 Метод Бокса-Дженкинса 454 Авторегрессионные модели 458 Модели со скользящим средним 459 Модели с авторегрессией и скользящим средним 461 Резюме 462 Реализация стратегии разработки модели 462 Этап 1. Определение модели 462 Этап 2. Оценка модели 464 Этап 3. Проверка модели 465 Этап 4. Прогнозирование на основе выбранной модели 466 Заключение 489 Критерии выбора модели 490 Модели для сезонных данных 491 Простое экспоненциальное сглаживание и модель ARIMA 505 Преимущества и недостатки моделей ARIMA 506 Применение в менеджменте 506 Глоссарий 508 Основные формулы 508 Упражнения 509 Задание 9.1. Выручка ресторана 523 Задание 9.2. “Mr. Tux” 525 Задание 9.3. Корпорация Consumer Credit Counseling 527 Задание 9.4. Компания Lydia Е. Pinkham Medicine 528 Определение модели 530 Оценка модели и проверка ее адекватности 530 Прогноз на основе выбранной модели 531 Итоги и заключения 531 Задание 9.5. Радиостанция студенческого городка 532 Задание 9.6. Отделение Air Finance компании UPS 536 Применение Minitab 539 Применение Excel 542 Рекомендуемая литература 543 Глава 10. Элементы субъективной оценки в прогнозировании 545 Кривые роста 547 Метод Дельфи 549 Метод написания сценария 550
12 Содержание Комбинирование прогнозов 552 Прогнозирование и нейронные сети 553 Заключительные замечания о субъективной оценке в прогнозировании 555 Другие методики, полезные в прогнозировании 557 Основные формулы 561 Задание 10.1. Ресторан Golden Gardens 562 Задание 10.2. Повторный взгляд на компанию Lydia Е. Pinkham Medicine 563 Рекомендуемая литература 566 Глава И. Управление процессом прогнозирования 567 Процесс прогнозирования 567 Контроль за процессом прогнозирования 571 Еще раз об этапах прогнозирования 575 Служба прогнозирования 576 Затраты на прогнозирование 577 Прогнозирование и АСУ 577 Высшее руководство и прогнозирование 578 Будущее прогнозирования 579 Задание 11.1. Компания Boundary Electronics 580 Задание 11.2. Компания Busby Associates 581 Задание 11.3. Корпорация Consumer Credit Counseling 587 Задание 11.4. “Mr. Tux” 588 Задание 11.5. Компания Alomega Food Stores 590 Рекомендуемая литература 590 Приложение А. Вывод формул 591 Корреляционные соотношения 591 Метод наименьших квадратов 591 Частные производные 592 Приложение Б. Исходные данные для задания 7.1 593 Приложение В. Таблицы 597 Приложение Г. Наборы и базы данных 611 Отдельные наборы данных 611 Комплексные наборы данных 626 Предметный указатель 645
/А\ /Ж /Ж /Ж /Ж /Ж /Ж /Ж /Ж /Ж VW VW VW VW VW VW VW VW VW VW VW VW VW Введение Назначение седьмого издания книги Бизнес-прогнозирование, как и всех предыдущих из- даний, — представить читателю основной статистический аппарат, который можно будет использовать для подготовки индивидуальных деловых прогнозов и далеко идущих пла- нов. Книга написана в доступном стиле. В ней широко используются практические дело- вые примеры. В частности, в конце глав приведены сорок шесть заданий, которые долж- ны помочь студентам увидеть связь между теоретическими концепциями и их практиче- ским применением. Основной акцент сделан на применении менеджером изучаемого ма- тематического аппарата для принятия деловых решений. Предполагается, что студенты знакомы с вводным курсом математической статистики и владеют компьютером в такой степени, чтобы уметь эффективно работать с пакетами прикладного программного обес- печения, например текстовыми процессорами и процессорами электронных таблиц. Структура книги Все главы данного издания были переработаны с тем, чтобы повысить ясность изложе- ния и усилить его педагогическую и познавательную эффективность. В главах 1 и 2 содержится подготовительный материал. Здесь освещается природа прогнозирования и дается беглый обзор основных статистических понятий с целью соз- дать основу, необходимую для ясного понимания математического аппарата, излагаемого в последующих главах книги. В главе 3 внимание акцентируется на исследовании набора исходных данных и выборе аппарата прогнозирования. В главах 4 и 5 рассматриваются методы усреднения и сглажива- ния, а также предлагается введение в разложение временных рядов в терминах основных компонентов. В главах 6 и 7 описываются методы причинного прогнозирования, в частно- сти корреляционного, регрессионного и множественного регрессионного анализа. В главах 8 и 9 обсуждается техника прогнозирования временных рядов данных. За- вершающие книгу главы 10 и 11 содержат обсуждение технологической и оценочной тех- ники прогнозирования, а также вопросов управления процессом прогнозирования и контроля над ним. Изменения в седьмом издании Седьмое издание было полностью пересмотрено. Большая часть материала прежних из- даний была сохранена, однако в данном издании сделан акцент на результатах наиболее поздних теоретических исследований и некоторых эмпирических изысканий. Устарев- ший материал был удален, а книга полностью переработана и дополнена новыми задача- ми, примерами, наборами данных и учебными заданиями.
14 Введение Данное издание имеет следующие характерные особенности. • Добавлено девять новых учебных заданий. • В конце глав приведены примеры использования приложения Minitab (версия 13). • В конце глав приведены примеры применения к решению задач прогнозирования приложения Excel 2000. • Наборы данных, используемые в примерах для Minitab, Excel или других программ, могут быть получены через Internet. Важность использования компьютера при чтении книги В первых шести изданиях компьютер рассматривался как мощный инструмент прогно- зирования. Сейчас роль компьютера еще больше возросла, — мы достигли реальной про- стоты доступа к данным в компьютерных сетях и получили широкие возможности вы- полнения самого сложного прогнозирования. Авторы провели несколько бессонных ночей, анализируя, какое следует принять ре- шение в отношении компьютеров. Национальная исследовательская программа всех ор- ганизаций-членов AACSB, руководимая авторами, имела целью определить методы ис- пользования компьютеров при обучении прогнозированию в различных учебных заведе- ниях. Эта программа показала, что в большей части учебных заведений (94,2%) обучение технике прогнозирования заключается в выработке практических навыков непосредст- венного использования компьютера. Кроме того, в итоговом обзоре было отмечено не- сколько статистических и специализированных пакетов по прогнозированию, разрабо- танных для персональных компьютеров. Наиболее часто упоминаемыми пакетами оказа- лись Minitab, SAS, Eviews и процессоры обработки электронных таблиц. В результате для оказания помощи обучающему персоналу и студентам в использова- нии компьютеров для целей прогнозирования авторы выбрали несколько различных подходов. 1. В конце глав приведены инструкции по использованию приложения Minitab и процессора электронных таблиц MS Excel 2000. 2. В Internet доступны три набора данных (для Minitab, Excel и других программ), используемые в примерах и задачах этой книги. Каждый набор содержит также несколько новых рядов данных. Указанные наборы данных можно найти на Web- странице издательства Prentice Hall по адресу: www.prenhall. com/Hanke. 3. По всему тексту книги широко представлены примеры различных компьютерных распечаток. Благодарности Авторы благодарны многим читателям во всем мире, которые дали бесценные предложе- ния по улучшению книги. Отдельные благодарности авторы выражают профессору Фрэнку Форесту (Frank Forest) из университета Маркетта; профессору Вильяму Дарроу (William Darrow) из Государственного университета Таунсенда; Сьюзен Винтерс (Susan
Введение 15 Winters) из Северо-западного государственного университета; профессору Шик Чан Янг (Shik Chun Young) из университета Вашингтона; Марку Крейзу (Mark Craze); Джуди Джонсон (Judy Johnson); Стиву Брендону (Steve Brandon) и Дороти Мерсер (Dorothy Mercer) за предоставление учебных заданий; а также Дженнифер Дол (Jennifer Dahl) за оформление этого издания. Некоторые фрагменты текста, в частности наборы данных, позаимствованы из второго издания книги Understanding Business Statistics Ханка (Hanke) и Райтса (Reitsch), выпушенной издательством Richard D. Irwin, Inc. Выражаем им благодарность за эту возможность. Мы также хотели бы выразить признательность рецензенту Джону Лишти (John Liechty) из университета штата Мичиган; Джону Тэймура (John Tamura) из университета Вашингтона; Тэду Таукахара (Ted Taukahara) из Университета Святой Марии и Дину Уи- черну (Dean Wichem) из Техасского университета за их очень конструктивные коммента- рии, сделанные при просмотре книги. Если бы мы были достаточно талантливы, чтобы реализовать все предложения наших рецензентов, книга улучшилась бы на все 100 про- центов. В действительности, все, что мы оказались способны сделать — это приобщить Дина Уичерна к выпуску нового издания книги. И наконец, мы благодарны нашим компьютерам, и удивительно, как мы раньше пи- сали книги без них. Только мы, но не компьютеры, ответственны за имеющиеся в этой книге ошибки.

rrJL к\/А\ГА\/А\ W/WAVAI ГЛТА F/W4F/W Введение в теорию прогнозирования В этой книге рассматриваются методы, используемые для прогнозирования неопреде- ленного будущего с целью помочь менеджерам в принятии наилучшего решения. Эти ме- тоды состоят в изучении и анализе накопленных данных с целью нахождения моделей, которые могут быть эффективно продолжены в будущее. В этой книге читателю регулярно будут напоминать о том, что для создания хорошего прогноза, наряду с численными результатами, непременно должна быть использована личная оценка. Задания в конце глав подтверждают эту точку зрения. Обсуждение дан- ного вопроса содержится в этой и заключительной главах книги. Кроме того, такую точку зрения подтверждает и пример в этой главе. История прогнозирования Большая часть рассматриваемого в этой книге аппарата прогнозирования, используемого сегодня, была разработана в девятнадцатом столетии. Примером могут служить процеду- ры регрессионного анализа. Однако некоторые из тем, излагаемых в этой книге, при- влекли внимание исследователей и получили свое развитие только в последнее время. В частности, к этой категории относятся процедуры Бокса-Дженкинса (Box-Jenkins) и ней- ронные сети, используемые для целей прогнозирования. С развитием и ростом сложности аппарата прогнозирования, а также с появлением компьютеров — в особенности с широким распространением сетей из небольших персо- нальных компьютеров, оснащенных соответствующим программным обеспечением — прогнозированию уделяется все больше и больше внимания. Сейчас каждый менеджер имеет реальную возможность использовать в целях прогнозирования очень сложный ма- тематический аппарат анализа данных, и знание этого аппарата является для него весьма существенным. По этой же причине люди, непосредственно использующие прогнозы в своей деятельности (менеджеры), должны понимать опасность выбора неадекватных ме- тодов прогнозирования, так как некорректные прогнозы могут привести к принятию не- верных решений. Техника прогнозирования продолжает развиваться, и разрабатываются все новые и новые методы, так как менеджмент сталкивается с растущей потребностью в прогнози-
18 ГЛАВА 1 ровании процессов. Особое внимание при этом сосредоточивается на ошибках, которые являются неотъемлемой частью любой процедуры прогнозирования. Предсказания бу- дущих исходов редко оказываются точными (с точностью до знака), поэтому человек, за- нимающийся прогнозированием, может лишь пытаться, насколько это возможно, смяг- чить последствия от неизбежных ошибок. Необходимость в прогнозировании Почему же прогнозирование необходимо в свете общей недетерминированности естест- венных процессов? Ответ состоит в том, что все организации функционируют в условиях неопределенности, но, вопреки этому, их менеджеры должны принимать решения, ока- зывающие влияние на будущее организации. Обоснованные предположения о будущем более ценны для менеджеров, чем необоснованные. В этой книге обсуждаются пути соз- дания прогнозов, которые основываются на логических методах использования данных, порожденных естественными процессами. Сказанное вовсе не означает, что интуитивный прогноз безусловно плох. Наоборот, “внутреннее” чутье руководителя предприятия часто обеспечивает единственно прием- лемый прогноз. Эта книга обсуждает аппарат прогнозирования, который может исполь- зоваться для того, чтобы помочь обосновать интуитивные решения тем, кто их принима- ет. Элементы оценки в процессе прогнозирования мы будем обсуждать в главе 10. Мы полагаем, что тот, кто принимает решение, опираясь на понимание количественного и качественного аппаратов прогнозирования и разумное их использование, несомненно, имеет преимущество по сравнению с тем, кто пытается планировать будущее без учета какой-либо дополнительной информации. Значение оценочного прогнозирования в последние годы заметно изменилось. До по- явления современного математического аппарата прогнозирования и достаточно мощ- ных компьютеров, оценка менеджера была единственным инструментом в практическом прогнозировании. Благодаря работам Макридакиса (Makridakis, 1986) стало очевидным, что прогнозы, использующие только оценку, не являются такими точными, как те, кото- рые основываются на применении количественных методов оценки. Человек обладает уникальным знанием и внутренней информацией, недоступной количественным методам. Удивительно, однако, что эмпирические исследования и лабораторные эксперименты показали, что построенные на их основе прогнозы не являются такими точными, как те, которые получены посредством численных мето- дов. Человек старается быть оптимистом и недооценивает степень неопределенности будущего. К тому же стоимость прогнозирования, выполняемого оценочными мето- дами, часто оказывается значительно выше, чем при использовании количественных методов.1 Мы верим в то, что человек, искушенный в области прогнозирования, способен эф- фективно свести воедино результаты количественной техники прогнозирования и хоро- шей оценки, избежав крайностей каждого из этих подходов. На одном полюсе мы видим исполнителя, который, игнорируя количественную технику прогнозирования и компью- теры, полностью полагается на собственную интуицию. На другом полюсе находится 1 Макридакис, 1986, с. 17.
Введение в теорию прогнозирования 19 специалист по прогнозам, искушенный в области манипулирования данными и их ана- лиза, совершенно не способный или не желающий соотносить прогнозируемый процесс с нуждами предприятия и его руководителей. Мы рассматриваем количественный аппа- рат прогнозирования, изложению которого посвящена большая часть этой книги, как единственно верную отправную точку в эффективном прогнозировании событий, важ- ных для предприятия. Анализ, оценка, понятие здравого смысла и бизнес-эксперимент должны быть доведены до сведения менеджеров в той мере, в которой этот важный аппа- рат должен влиять на результаты их деятельности. Поскольку мир, в котором функционируют организации, всегда был изменчив, необ- ходимость в прогнозах существовала всегда. Но только в последние годы возросло дове- рие к методам, включающим сложную технику обработки данных. В результате стреми- тельного развития все новых технологий и научных направлений интенсифицируется правительственная активность на всех уровнях, а конкуренция во многих областях дея- тельности становится все более острой. Уровень международной торговли постоянно возрастает практически во всех областях промышленности. Были созданы и начали бур- но развиваться институты социальной помощи и различные сервисные агентства. Все- мирная сеть Internet превратилась в важный источник фактических данных и другой ин- формации для принятия решений. Все это беспрецедентно усложнило “климат” на всех предприятиях, что вынудило их очень быстро реагировать на происходящие изменения и поддерживать более высокий уровень конкурентоспособности, чем когда-либо прежде. Те из них, которые не смогли своевременно отреагировать на изменение условий и пред- видеть будущее с необходимой степенью точности, оказались обречены и прекратили свое существование. Компьютеры, в совокупности с количественными методами расчетов, которые благо- даря им стали общедоступными, для современных организаций являются уже не просто удобным инструментом, а фактически их неотъемлемой частью. Упомянутые выше труд- ности современной жизни породили огромное количество данных, что вызвало острую необходимость научиться извлекать из них различную полезную информацию. Сущест- вующие инструменты прогнозирования, в сочетании с возможностями компьютеров, стали жизненно необходимыми средствами для любых организаций, функционирующих в современном мире. Кому необходимы прогнозы? Практически каждое предприятие, большое или ма- ленькое, частное или государственное, явно или неявно пользуется прогнозами, потому что каждое предприятие должно планировать будущее, о котором оно пока ничего не знает. К тому же необходимость в прогнозах пронизывает все функциональные линии так же, как и все типы организаций. Прогнозы необходимы в финансировании, марке- тинге, подборе кадров и различных производственных областях, в правительственных и коммерческих организациях, в маленьких социальных клубах и национальных политиче- ских партиях. Вот несколько примеров вопросов, для получения ответов на которые не- обходимы те или иные процедуры прогнозирования. • Как повлияет на объемы продаж увеличение финансирования рекламы на 10%? • Какой годовой доход может ожидать государство по истечении следующего двух- летнего периода? • Сколько единиц продукции необходимо продать, чтобы возвратить планируемые капиталовложения в производственное оборудование?
20 ГЛАВА 1 • Как определить факторы, которые помогут объяснить изменчивость в ежемесяч- ных объемах продажи продукции? • Каков ежегодный прогноз на последующие 10 лет в отношении сводного баланса займов нашего банка? • Будет ли экономический спад? Если да, то когда он начнется, насколько сильным он будет и когда он окончится? Типы прогнозов Какие существуют типы прогнозов для менеджера, столкнувшегося с необходимостью принятия решения в условиях неопределенности? Прогнозы могут классифицироваться как долгосрочные и краткосрочные. Долгосрочные прогнозы необходимы для того, что- бы наметить основной курс предприятия на длительный период, поэтому именно на них акцентируется основное внимание менеджеров высшего звена. Краткосрочные прогнозы используются для разработки безотлагательных стратегий. Они чаще всего применяются менеджерами среднего и низшего звена для удовлетворения потребностей ближайшего будущего. Прогнозы также могут классифицироваться относительно их позиции в микро- макроконтинууме, т.е. по отношению к тому, рассматривают ли они отдельные состав- ляющие или же обобщенные показатели. Например, руководитель предприятия может интересоваться прогнозом числа рабочих, которые потребуются в ближайшие несколько месяцев (микропрогноз), в то время как федеральное правительство интересует прогноз числа людей, занятых в производственной сфере в масштабах всей страны (макропрогноз). Кроме того, руководители разных уровней на одном и том же предпри- ятии будут концентрировать свое внимание на разных уровнях микро-макроконтинуума. Например, менеджеров высшего звена будет интересовать прогноз объемов продаж всей компании, в то время как отдельные служащие будут значительно больше заинтересова- ны в прогнозе объема продаж, осуществляемых лично ими. Процедуры прогнозирования могут также классифицироваться как количественные и качественные. На одном полюсе здесь находится чисто качественный аппарат, не тре- бующий явного математического оперирования данными. Используется только “оценка”, предоставляемая составителем прогноза. Конечно, даже в этом случае “оценка” составителя прогноза в действительности является результатом мысленного анализа данных. На другом полюсе находится чисто количественный аппарат, не тре- бующий никакой дополнительной оценки. Это чисто механические процедуры, которые на выходе дают количественные результаты. Конечно, некоторые количественные про- цедуры требуют значительно более изощренной техники оперирования данными, чем другие. Основное внимание в этой книге сосредоточено на аппарате количественного прогнозирования, так как широкое понимание этих очень полезных процедур совершен- но необходимо для эффективного руководства современным предприятием или органи- зацией. Однако, и мы подчеркиваем это еще раз, наряду с механическими процедурами оперирования данными непременно должны применяться оценка и здравый смысл. Только таким способом может быть получен разумный прогноз.
Введение в теорию прогнозирования 21 Макроэкономическое прогнозирование Как правило, под прогнозированием понимается процедура предсказания важных пока- зателей для отдельных компаний или даже одного из подразделений компании. Приме- рами могут служить месячный объем продаж компании, объем продаж отдельных видов продукции для одного из магазинов компании или же количество пропущенных рабочих часов, которое приходится на одного работника фабрики. В противоположность этому, наблюдается растущий интерес к прогнозированию важных параметров экономики всей страны. Была проделана большая работа по оценке методов по- лучения сводных экономических прогнозов подобного типа, называемых макроэкономиче- скими. Например, федеральное правительство США интересует прогноз уровня безработицы, роста национального продукта и значения основной учетной ставки. В частности, вся эконо- мическая политика строится на планировании основных экономических показателей. Поэто- му существует большой интерес к усовершенствованию методов прогнозирования, приме- няемых к общим показателям функционирования экономики всей страны. Одной из основных сложностей в получении точных прогнозов общих показателей экономической деятельности являются неожиданные и важные сдвиги в ключевых эко- номических факторах. Среди таких факторов — серьезные изменения в ценах на нефть, волны инфляции и основные политические изменения в правительстве страны, оказы- вающие глобальное влияние на ее экономику. Возможность таких важных изменений в области экономики поднимает ключевые вопросы макроэкономического прогнозирования в целом. Должен ли прогноз, порож- денный соответствующей моделью, подвергаться модификации на основе оценки чело- века, создающего его? Текущая работа по созданию методологии прогнозирования часто включает в себя этот вопрос. Много работы — как теоретической, так и практической — ведется по проблемам макроэкономического прогнозирования. Этим вопросам посвящен отдельный выпуск журнала International Journal of Forecasting (vol.6, n.3, October, 1990). В будущем можно ожидать повышение роли точного экономического прогнозирования в отношении фор- мирования экономической политики в США и других странах и в связи с этим увеличе- ние внимания к данному типу прогнозирования. Выбор метода прогнозирования В предшествующем обсуждении речь шла о нескольких факторах, которые следует учиты- вать при выборе метода прогнозирования. Следует определить уровень детализации. Нужен ли прогноз определенных деталей (микро-прогноз)? Или же требуется прогноз будущего состояния некоторых всеобъемлющих или обобщенных факторов (макропрогноз)? Необ- ходим ли прогноз некоторой величины в ближайшем будущем (краткосрочный прогноз) или в отдаленном будущем (долгосрочный прогноз)? И в какой степени являются прием- лемыми качественные (оценочные) и количественные (оперирующие данными) методы прогнозирования? Тщательный и всесторонний анализ при выборе метода прогнозирования должен обеспечить упрощение процедуры принятия решения менеджерами организации. Ос- новное требование, следовательно, не в том, чтобы метод прогноза включал в себя слож-
22 ГЛАВА 1 ный математический процесс или представлял собой новейший усложненный метод. Скорее всего, выбранный метод должен давать точный, своевременный и понятный ме- неджменту прогноз, который помог бы в выборе наилучшего решения. Кроме того, ре- зультаты процедуры прогнозирования должны приносить прибыль, которая покрывала бы издержки на ее выполнение. Этапы прогнозирования Все формальные процедуры прогнозирования предусматривают перенос прошлого опыта в неопределенное будущее. Таким образом, все они построены на предполо- жении, что условия, породившие полученные ранее данные, неотличимы от условий будущего. Исключение составляют только те переменные, которые точно распозна- ны моделью прогнозирования. Например, если кто-то строит прогноз показателей производительности служащих, исходя только из множества оценок, выставленных им при испытаниях в процессе приема на работу, то он, очевидно, предполагает, что показатель производительности каждого работника зависит только от них. В дейст- вительности же подобное предположение о неразличимости прошлого и будущего не выполняется в полной мере. Поэтому полученный прогноз будет неточен, если толь- ко он не будет модифицирован на основании оценки, выполненной составителем прогноза. Осмысление того, что аппарат прогнозирования оперирует данными, порожденными естественными событиями, приводит к определению следующих пяти этапов в процессе прогнозирования. 1. Сбор данных 2. Редукция или уплотнение данных 3. Построение модели и ее оценка 4. Экстраполяция выбранной модели (фактический прогноз) 5. Оценка полученного прогноза Этап 1, сбор данных, предполагает получение корректных данных и обязательную проверку того, что они верны. Этот этап часто является наиболее сомнительной ча- стью всего процесса прогнозирования и в то же время наиболее сложен для проверки, поскольку последующие этапы с одинаковым успехом могут производиться с исполь- зованием данных, как соответствующих изучаемой проблеме, так и не соответствую- щих ей. Всякий раз, когда возникает необходимость получить в организации опреде- ленные данные, их сбор и проверка обязательно сопровождаются множеством различ- ных проблем. Этап 2, редукция или уплотнение данных, часто оказывается необходимым, так как для выполнения прогнозирования может быть собрано как слишком много ис- ходных данных, так и слишком мало. Некоторые данные могут не иметь прямого от- ношения к рассматриваемой задаче, а будут лишь снижать точность прогнозирова- ния. Другие данные могут соответствовать проблеме, но только в контексте некото- рого конкретного исторического периода. Например, при прогнозировании продаж
Введение в теорию прогнозирования 23 малолитражных автомобилей целесообразно будет использовать данные о продажах автомобилей только с момента введения эмбарго на нефть в 1970-х годах, а не дан- ные за последние 50 лет. Этап 3, построение модели и ее оценка, состоит в подборе модели прогноза, наибо- лее соответствующей особенностям собранных данных в смысле минимизации ошиб- ки прогноза. Чем проще модель, тем лучше она будет воспринята менеджерами фир- мы, ответственными за принятие решения, и тем выше будет их доверие к полученно- му прогнозу. Часто следует отдавать предпочтение не более сложному подходу к про- гнозированию, предлагающему немного больше точности, а более простому, понят- ному руководителям компании. Когда выбранный метод получает поддержку у менед- жеров, то и результаты прогнозирования активно ими используются. Из сказанного очевидно, что оценка непременно должна применяться в процессе выбора. Поскольку в этой книге обсуждается значительное число различных моделей прогноза наряду с областью их применимости, мы надеемся, что после изучения предложенного мате- риала возможности читателей в отношении подбора моделей прогнозирования и пра- вильной их оценки, несомненно, возрастут. Этап 4, экстраполяция выбранной модели, предусматривает фактическое получе- ние требуемого прогноза, поскольку необходимые данные уже собраны и, возможно, редуцированы, а соответствующая модель прогноза определена. Часто для проверки точности получаемых результатов применяется прогнозирование на недавно прошед- шие периоды, для которых исследуемые величины уже известны. Наблюдаемые ошиб- ки затем определенным образом анализируются. Эта процедура обсуждается ниже, при описании этапа 5. Этап 5, оценка полученного прогноза, состоит в сравнении вычисленных величин с действительно наблюдаемыми значениями. Для этой цели часть наиболее свежей фак- тической информации обычно исключается из множества анализируемых данных. По- сле того как модель прогноза будет подобрана, выполняется прогноз на эти периоды и полученные результаты сравниваются с известными наблюдаемыми значениями. Не- которые процедуры прогнозирования предусматривают суммирование абсолютных значений ошибок и представляют либо эту сумму, либо частное от деления ее на число прогнозируемых значений, представляющее собой значение средней ошибки прогно- за. Другие процедуры используют сумму квадратов ошибок, которая затем сравнивает- ся с аналогичными числами, полученными для альтернативных методов прогнозиро- вания. Некоторые процедуры отслеживают и отмечают величину пределов ошибки за период прогнозирования. Специальные методы измерения ошибок прогноза обсужда- ются в конце главы 3. Управление процессом прогнозирования В этой главе многокра тно подчеркивается, что в процесс прогнозирования непременно должны быть вовлечены способности и здравый смысл руководящего персонала. Спе- циалист, занимающийся прогнозированием, должен рассматриваться как советник ме- неджера, а не как оператор некоего устройства, автоматически принимающего решения. К сожалению, именно эта ситуация чаще всего встречается на практике, особенно в свя- зи с появлением компьютеров. Повторим, что количественный аппарат в процессе про-
24 ГЛАВА 1 гнозирования должен восприниматься как инструмент (чем он в действительности и яв- ляется), используемый менеджером для принятия наилучшего решения. Еще раз проци- тируем Макридакиса (1986). Эффективность и уровень использования прогнозирования могут быть повышены, если менеджмент примет по отношению к нему более реалистичное отношение. Прогнозирование следует рассматривать не как некое пророчество, а скорее, как лучший способ выявления и экстраполяции существующих схем или взаимоотно- шений с целью прогнозирования. Если такое отношение будет воспринято, то ошибки прогноза будут рассматриваться как неизбежные, а обстоятельства, их по- рождающие, непременно подлежащими исследованию? Следовательно, для того чтобы соответствующим образом руководить процессом прогнозирования, следует найти ответы на несколько ключевых вопросов. • Почему необходим прогноз? • Кто будет использовать прогноз, и в чем состоят его основные требования? • Какой уровень — отдельные составляющие или обобщенные показатели — требу- ется и каковы соответствующие временные рамки? • Какие имеются данные и будет ли их достаточно для того, чтобы получить необхо- димый прогноз? • Во что обойдется выполнение прогноза? • Какова ожидаемая точность прогноза? • Будет ли прогноз сделан вовремя, чтобы помочь процессу принятия решения? • Ясно ли понимает создающий прогноз специалист то, как он будет использован на предприятии? • Существует ли обратный процесс, позволяющий оценить прогноз после того, как он был сделан, и внести соответствующие уточнения в процесс прогнозирования? Компьютерные пакеты для решения задач прогнозирования Разработка компьютерных пакетов программного обеспечения, специально предна- значенных для применения различных методов прогнозирования, оказала огромное влияние на развитие прогнозирования в последние несколько лет. Для специалиста, занимающегося прогнозированием, представляют интерес два типа компьютерных па- кетов. Во-первых, это статистические пакеты, позволяющие проводить регрессионный анализ, анализ временных рядов и другие виды математического анализа, часто при- меняемые статистиками. Во-вторых, это пакеты для прогнозирования, специально созданные для подобных целей. Там же, с. 33.
Введение в теорию прогнозирования 25 Для универсальных ЭВМ (мэйнфреймов) и микрокомпьютеров (или персональ- ных компьютеров, часто называемых ПК) были разработаны сотни статистических пакетов и пакетов для решения задач прогнозирования. Менеджеры, знающие аппа- рат прогнозирования и имеющие ПК на своем рабочем столе, уже не зависят от прогнозов своих штатных сотрудников. Современный руководитель активно исполь- зует самые совершенные методы прогнозирования, предоставляемые ему персо- нальными компьютерами. В силу постоянного обновления доступного программного обеспечения, в данной книге не имеет смысла обсуждать в подробностях те пакеты программного обеспечения для целей прогнозирования, которые были выпущены к моменту ее написания. Разра- ботчики программного обеспечения постоянно стремятся усовершенствовать математи- ческий аппарат, используемый в их продуктах, а также максимально упростить их ис- пользование и интерпретацию полученных результатов. Хотя специалисты по прогнози- рованию непременно должны интересоваться новыми разработками в программном обеспечении, им не следует постоянно “перепрыгивать” от одного пакета к другому, они должны понимать, что непрерывные улучшения в программном обеспечении просто не- избежны. Специалисты по прогнозированию должны уметь эффективно использовать все преимущества подобных улучшений. Несмотря на прозвучавшие выше предостережения, использование пакетов программ- ного обеспечения для прогнозирования является актуальным в силу того, что данная про- цедура неизбежно связана с большими вычислениями. По этой причине для иллюстрации значительной части математического аппарата, обсуждаемого в книге, мы выбрали две ти- пичные компьютерные программы: Minitab 13 и Microsoft Excel 2000. Читатель найдет ри- сунки с экранами этих программ практически во всех главах книги. Следует подчеркнуть, что любые пакеты программ, которые вы, возможно, будете использовать, будут выполнять одни и те же основные вычисления, так или иначе запрограммированные в них, даже если входные и выходные экраны этих приложений будут отличаться. Перечень пакетов для решения задач прогнозирования опубликован в The Forum, the Joint Newsletter of the International Association of Business Forecasting and the International Institute of Forecasters,vol.9, n.3, Fall 1996. Пример прогнозирования Материал, изложенный в этой главе, свидетельствует о том, что, наряду с математи- ческой обработкой имеющихся данных, прогнозирование в значительной мере тре- бует и выполнения оценки. Рассуждения, часто предшествующие процессу прогно- зирования в реальной фирме, хорошо иллюстрируют приведенный ниже пример. Отметим, что те значения данных, которые позволяют получить полезные прогнозы (если таковые данные вообще существуют), вовсе не обязательно будут вполне оче- видными в начале процесса прогнозирования; скорее всего, на этот момент они бу- дут еще не определены. Другими словами, первоначальные попытки прогнозирова- ния могут оказаться для менеджмента бесполезными. Результаты процедур прогно- зирования, выполняемых на компьютерах с использованием указанных переменных, не показаны здесь, так как они приводятся при обсуждении отдельных тем по всему тексту книги. Собственно процесс выбора математического аппарата, который еле-
26 ГЛАВА 1 дует применить к этим данным, описан в последних главах. Окончательное решение для примера 11.1 будет приведено в главе 11. На данный момент мы просто надеем- ся, что приведенный ниже пример позволит явно обозначить весь диапазон тех уси- лий, которые менеджер должен предпринять при выполнении прогнозирования в реальных условиях. Пример 1.1 Компания Alomega Food Stores имеет 27 продовольственных магазинов, осуществляющих розничную торговлю продуктами питания в штатах среднего запада. В своей деятельности компания использует различные виды рекламы, но до недавнего времени никогда не изучала реальный эффект от сумм, вложенных в рекламу, и влияние рекламы на рост объема продаж, хотя некоторые данные все же были собраны за последние три года. Руководители компании Alomega приняли решение отслеживать затраты на рекламу на- ряду с фактическими объемами продаж за каждый месяц. Они надеялись, что эти данные, со- бранные за несколько месяцев, после соответствующего изучения позволят выявить некото- рые зависимости, которые позднее можно будет эффективно использовать для планирования дальнейших рекламных расходов. Бухгалтерия компании стала дополнительно регистрировать объем продаж за каждый ме- сяц наряду с расходами на газетную рекламу и на рекламные ролики на телевидении. Кроме того, эти два показателя фиксировались с отставанием в один и два месяца. Это делалось по- тому, что некоторые люди в руководстве считали, что рост объема продаж в ответ на рекламу будет скорее отставать от месяца проведения рекламной кампании, а не следовать за ней точ- но месяц в месяц. Руководство также считало, что объем продаж носит сезонный характер. Поэтому для со- ответствующей характеристики каждого месяца дополнительно использовались специальные переменные его категории. Менеджеры также интересовались наличием какой-либо устой- чивой тенденции в изменении объемов продаж. И наконец, предполагалось, что деньги, вложенные фирмой Alomega в рекламу своих ма- газинов, могут оказать влияние на рекламные затраты их основных конкурентов на следую- щий месяц. Соответственно, рекламная кампания конкурентов в каждом последующем ме- сяце может оцениваться как слабая (I), средняя (2) или обширная (3). После нескольких месяцев сбора данных и анализа накопленной ранее информации бухгалте- рия сформировала набор данных за 48 месяцев, содержащий значения следующих переменных. • Объем продаж. • Суммы, вложенные в газетную рекламу. • Суммы, вложенные в рекламу на телевидении. • Код месяца (январь = 1, февраль = 2,..., декабрь=12). • Группа из 11 переменных для обозначения категории месяца. • Суммы, вложенные в газетную рекламу, с отставанием в один месяц. • Суммы, вложенные в газетную рекламу, с отставанием в два месяца. • Суммы, вложенные в рекламу на телевидении, с отставанием в один месяц. • Суммы, вложенные в рекламу на телевидении, с отставанием в два месяца. • Последовательный номер месяца в наборе данных, от 1 до 48. • Код 1, 2 или 3, оценивающий уровень рекламной кампании конкурентов в следующем месяце.
Введение в теорию прогнозирования ТЛ Руководство компании Alomega, — в частности Джулия Рас (Julie Ruth), президент компа- нии, — желает извлечь из накопленных данных все, что только возможно. Помимо того, как реклама влияет на объемы продаж компании и рекламу конкурентов, Джулия интересуется любыми устойчивыми тенденциями и сезонными изменениями в зафиксированных объемах продаж. Однако исполнительный директор компании, Джексон Тилсон (Jackson Tilson), не разделяет ее энтузиазм. В конце совещания, посвященного планированию процедуры про- гнозирования, он высказал следующее: “Во время совещания я старался молчать, но это уже переходит всякие границы. Я полагаю, что с этим сбором данных и глупостями вокруг ком- пьютера мы теряем слишком много времени сотрудников. Для понимания того, что происхо- дит, все, что вы должны сделать — это поговорить с нашими продавцами и менеджерами ба- калейно-гастрономических отделов. Я уже изучал, что там происходит, а вы опять продол- жаете свои разговоры. Некоторые из вас должны всего лишь оторваться от компьютеров, выйти из ваших любимых офисов и просто поговорить со своими подчиненными”. Резюме Целью создания прогноза является уменьшение того уровня неопределенности, в преде- лах которого менеджер должен принимать решения. Эта цель диктует два основных пра- вила, которым должен следовать процесс прогнозирования. 1. Прогнозирование должно быть технически корректным и должно порождать прогнозы, достаточно точные для того, чтобы отвечать нуждам фирмы. 2. Процедура прогнозирования и ее результаты должны быть достаточно эффектив- но представлены менеджменту, что обеспечит использование прогнозов в процес- се принятия решения во благо фирмы. Результаты прогнозирования также долж- ны быть сбалансированы в отношении затрат/прибыли. Последнее часто понимается неверно, что может мешать работе профессиональных специалистов по прогнозированию. Все же, если прогнозы должны использоваться на благо фирмы, то те, кто ответственен за принятие решений, должны пользоваться ими. Это утверждение поднимает вопрос о том, что следует считать “нормой поведения” в прогнозировании. Существенные, а иногда и основные статьи расходов и распределение ресурсов в фирме чаще всего соответствуют представлению руководства о будущем раз- витии событий. Так как движение ресурсов и средств в организации часто строится на предполагаемом направлении развития будущего (прогнозе), неудивительно, что вокруг процесса прогнозирования обычно ведутся интриги. Это наблюдение подчеркивает зна- чение второго основного правила: “Прогнозы, созданные в пределах фирмы, должны быть поняты и оценены ее руководством в такой степени, которая позволит эффективно использовать эти прогнозы в управлении фирмой”. В этой книге рассматриваются различные модели и процедуры прогнозирования. Прежде всего, дан обзор основных статистических понятий, включая введение в корре- ляционный и регрессионный анализы. Следующая глава посвящена методам сбора дан- ных и исследованию совокупностей данных на наличие в них взаимосвязей. В после- дующих главах подробно обсуждается множество различных методов прогнозирования, а последние две главы книги посвящены процессу прогнозирования в том виде, в каком он должен быть представлен руководству фирмы.
28 ГЛАВА 1 /ж лв /ж /ж /ж /ж /ж /дч /ж /ж /л\ /а\ /ж w w/ w w w w/ w MF/ w w w w/ w Задание 1.1. “Mr. Tux” Джон Мосби (John Mosby) является владельцем нескольких пунктов проката смокингов, функционирующих под вывеской “Mr. Tux”, большинство из которых расположены в городах Спокан и Сиэтл, штат Вашингтон.3 Его пункт проката в Спокане имеет также пошивочный цех, выпускающий сорочки к смокингам, которые рассылаются по осталь- ным пунктам проката по всей стране. Поскольку активность пунктов проката, связанная с количеством проводимых приемов, вечеринок и других торжественных событий, изме- няется в зависимости от сезона, Джон знает, что его бизнес носит явно выраженный се- зонный характер. Он хотел бы оценить этот сезонный эффект, что способствовало бы как улучшению его руководства бизнесом, так и повышению эффективности проведения пе- реговоров о предоставлении ссуд с его банкиром. Еще больший интерес для Джона представляет нахождение способа прогнозирова- ния его месячного дохода. Бизнес Джона продолжает расширяться, что, в свою оче- редь, требует все больше капитальных и долгосрочных вложений. У него есть источни- ки для обоих типов необходимого финансирования, но инвесторы и банкиры интере- суются конкретными способами прогнозирования его будущих доходов. Хотя они до- веряют Джону, его заверения о том, что будущее его бизнеса “великолепно”, не рассеивает их сомнений. Первым шагом в создании требуемой модели прогноза было указание, данное Джо- ном одному из его служащих, Лэйну Мак-Кеннаху (Lane McKennah), в отношении сбора информации о месячных объемах дохода от проката за последние несколько лет. В последующих главах к собранным этим служащим данным применяются различные математические методы прогнозирования. В главе 11 подводится итог и описывается, как Джон Мосби предпринял попытку подобрать аппарат прогнозирования, более всего соответствующий его нуждам. 3 Авторы книги выражают благодарность Джону Мосби, владельцу пунктов проката "Mr. Тих", за по- мощь в подготовке этого задания.
Введение в теорию прогнозирования 29 Задание 1.2. Корпорация Consumer Credit Counseling Корпорация Consumer Credit Counseling, CCC (Совет по кредитованию потребителей) — это частная недоходная корпорация, которая была основана в 1982 году.4 Целью создания ССС было предоставление потребителям помощи в планировании и реализации их бюд- жетов, оказание им помощи в подписании соглашений с кредиторами о выплатах по не- оплаченным долговым обязательствам, а также оказание помощи в отношении обучения в области финансов. Частная финансовая консультация предоставлялась бесплатно тем семьям и отдельным лицам, которые испытывали финансовые трудности, или же тем, кто желал повысить свое умение обращаться с деньгами. Для школ, общественных групп и бизнесменов были разработаны образовательные программы в области финансов. Как альтернатива бан- кротству, была предложена программа работы с долгами. Согласно этой программе, кор- порация ССС вела переговоры с кредиторами в целях заключения специальных платеж- ных соглашений в пользу клиента. Клиент делал единовременный взнос на счет корпо- рации ССС, который затем распределялся между кредиторами. Корпорация ССС имеет штат оплачиваемых работников и некоторый контингент добровольцев. В действительности количество добровольцев в корпорации превосходит штатный персонал в отношении 3:1. Семь оплачиваемых работников осуществляют ру- ководство, выполняют необходимую канцелярскую работу и около половины всей рабо- ты с клиентами. Двадцать один доброволец выполняет оставшуюся часть работы по об- служиванию клиентов. В отношении финансовой поддержки выполняемых операций и предоставляемых ус- луг корпорация ССС зависит преимущественно от корпоративного финансирования. Специальная программа по участию в благотворительном финансировании позволяла кредиторам, получившим выплаты от клиентов по долговым программам ССС, пожерт- вовать корпорации часть денег, которые вернулись к ним благодаря этим программам. Большая часть корпоративной поддержки поступала от локальной деятельности и обеспечивала оплату труда наемных работников, а также эксплуатацию всех офисных помещений, используемых для проведения консультаций. Дополнительным источником финансирования являлись выплаты клиентов. Клиен- ты, участвующие в долговой программе, ежемесячно вносили взнос (15 долларов) на по- крытие административных издержек на эту программу. (Размер взноса периодически со- кращался для тех клиентов, которые оказывались не способны его вносить.) Эта вводная информация будет использоваться нами в последующих главах, где будут обсуждаться проблемы корпорации ССС, связанные с прогнозированием важных для нее переменных. 4 Авторы книги выражают благодарность Мэре Харнишфегер (Marv Hamishfeger), исполнительному директору ССС в Спокане, и Дороти Мерсер (Dorothy Mercer), президенту совета директоров этой компании, за их помощь в подготовке данных заданий. Дороти в прошлом наша студентка. Она постоянно держит нас в курсе дел в отноше- нии практического использования количественных методов прогнозирования в реальном мире бизнеса.
30 ГЛАВА 1 Применение Minitab Приложение Minitab — это сложная статистическая программа, которая совершенствует- ся с каждым выпуском новой ее версии. Здесь описывается работа с версией Minitab 13. На рис. 1.1 отмечены четыре важнейших элемента диалогового окна приложения Minitab. Панель меню — это та панель, на которой выбираются команды. Например, если выбрать меню Stat, то раскроется список, содержащий команды вызова всех поддержи- ваемых программой статистических методов. Панель инструментов содержит кнопки для наиболее часто используемых функций программы. Отметим, что набор этих кнопок из- меняется в зависимости от того, какое именно окно приложения Minitab открыто в дан- ный момент. Главное окно приложения Minitab разделено на две отдельные области — окно данных, в котором вводятся, редактируются и просматриваются столбцы данных для каждой рабочей таблицы, и окно сеанса, которое содержит сообщения и результаты, вы- даваемые программой, например таблицу статистик. Окно данных Рис. 1.1. Главное окно приложения Minitab В последующих главах будут даны конкретные инструкции, как вводить данные в ра- бочую таблицу Minitab и как выполнять процедуры прогнозирования с целью получения требуемых прогнозов. Применение Excel Приложение Microsoft Excel — весьма популярная программа обработки электронных таблиц, часто используемая для целей прогнозирования. На рис. 1.2 представлено откры- тое окно версии Excel 2000. В строки и столбцы таблицы (обратите внимание на то, что на рис. 1.2 ячейка на пересечении строки 1 и столбца А выделена) вводятся данные, а за- тем команды, выполняющие различные операции над введенными данными.
Введение в теорию прогнозирования 31 Рис. 1.2. Основное окно приложения Microsoft Excel 2000 Например, в столбец 1 могут быть введены данные о годовом доходе работников. За- тем Excel сможет вычислить среднее значение этих величин. В качестве другого примера можно предложить ввести в столбец 2 данные о возрасте работников, в результате чего можно будет исследовать взаимосвязь между возрастом и доходом. В последующих главах будет показано, как приложение Excel можно использовать для решения этих и других задач прогнозирования. В Excel реализовано множество статистических функций, которые изначально могут и не быть представлены в раскрывающихся меню приложения. Для активизации этих функций потребуется ввести команду Tools^Add-lns (Сервис=>Надстройки). На экране раскроется диалоговое окно Add-Ins (Надстройки). Выберите в списке значение Analysis ToolPak и щелкните на кнопке ОК. Реализованные в надстройке Analysis ToolPak функ- ции будут подробно описаны в последующих главах. Настоятельно рекомендуется использовать надстройки приложения Excel, что позво- лит справиться со статистическими вычислениями, необходимыми для того математиче- ского аппарата прогнозирования, который обсуждается в этой книге. Надстройка Excel KaddStat будет использоваться нами в главе 9. Рекомендуемая литература Adams F. G. The Business Forecasting Revolution. New York; Oxford University Press, 1986. Barron M., Targett D. The Manager’s Guide to Business Forecasting. New York: Basil Blackwell Inc., 1985. Beaumont C., Mahmoud E., McGee V. E. Microcomputer Forecasting Software: A Surway. Journal of Forecasting, 4 (1985): 305—311. Calbeig C. Use Excel’s Forecasting to Get Terrific Projections. Denver Business Journal 47 (18) (1996): 2B.
32 ГЛАВА 1 GeorgofTD. М., Mardick R. G. Manager’s Guide to Forecasting. Harvard Business Review 1 (1986): 110-120. Hogarth R. M., Makridakis S. Forecasting and Planning: An Avaluation. Management Science 27 (2) (1981): 115-138. Keating B., Wilson J. H. Forecasting — Practices and Teachings. The Journal of Business Forecasting (Winter 1987-88): 10-13. Keating K. Choosing and Using Business Forecasting Software. Creative Computing 11 (1) (1985): 119-135. Makridakis S. The Art and Science of Forecasting. International Journal ofForecasting 2 (1986): 15—39. Perry S. Applied Business Forecasting. (1994): Management Accounting 72 (3) 40. Reid R. A. The Forecasting Process: Guidelines for the MIS Manager. Journal of Systems Management (November 1986): 33—37. Wright G., Ayton P. Judgemental Forecasting. New York: John Wiley & Sons, 1987.
MF/ MF/ MF/ M ГЛАВА F/MF/MF/MF/ Обзор основных статистических понятий ^Большая часть аппарата прогнозирования построена на фундаментальных статистических понятиях, которые являются предметом рассмотрения различных вводных статистических курсов и книг по бизнес-статистике. Эта глава содержит обзор наиболее важных понятий, служащих основой для значительной части материала, рассматриваемого в этой книге. Подавляющее большинство статистических процедур предназначено для того, чтобы дать заключение об интересующих нас объектах, множество которых называется гене- ральной совокупностью. Выбирая из генеральной совокупности группу объектов, для ко- торых известна интересующая нас числовая характеристика, получим выборку, на осно- вании которой и делается заключение о генеральной совокупности в целом. В процедуре статистического вывода с приемлемо низкой степенью риска, важным является тщатель- ный отбор представителей выборки и получение достаточно большого ее объема. В прогнозировании обычно используются реальные данные. Его задача состоит в попытке предсказать или предвидеть неопределенное будущее. В настоящей главе основное внимание будет сосредоточено на изучении выборочных данных, манипулировании этими данными оп- ределенным образом и использовании полученных результатов для создания прогнозов. Описание данных с помощью численного суммирования Целью описательных статистических процедур является краткое описание большого на- бора измерений с помощью нескольких ключевых итоговых значений. Чаще всего такое итоговое значение получают посредством усреднения наблюдений. В статистике процесс усреднения обычно завершается вычислением среднего, которое представляет собой сум- му всех наблюдений, деленную на их количество. Выборочное среднее обозначается X (Xс чертой), оно вычисляется по формуле (2-1) п
34 ГЛАВА 2 где X — выборочное среднее; XX — сумма всех значений выборки; п — объем выборки. Для упрощения вида формул в этой книге используются некоторые краткие обозна- чения. В упрощенном варианте для операции суммирования всех значений A', XX, суммирование понимается в пределах от 1 до п. Более формальное обозначение для этой операции имеет следующий вид: где индекс i изменяется в пределах от своего начального значения 1 до п, увеличиваясь всякий раз на единицу. Поскольку практически во всех суммах суммирование произво- дится от 1 до п, начальный (/ = 1) и конечный (л) индексы будут в дальнейшем опускать- ся, т.е. будет использоваться более простое обозначение, за исключением тех случаев, когда для большей ясности потребуется использование сложных обозначений. Наряду с вычислением среднего, для выяснения тенденции данных к группировке во- круг среднего значения обычно представляет интерес и то, насколько наблюдения раз- бросаны относительно него. Среднеквадратическое отклонение можно рассматривать как меру отклонения наблюдений от среднего значения. Формула для вычисления средне- квадратического отклонения следующая. s-EEHS Хх2-~г- Н п-1 i и-1 Здесь под знаком суммы имеем сумму квадратов разностей между наблюдениями и их средним значением. Многие статистические процедуры используют выборочную дисперсию. Дисперсия по- следовательности измерений представляет собой квадрат среднеквадратического отклоне- ния. Таким образом, выборочная дисперсия (№) вычисляется по следующей формуле. St*-*)’ <* 23> п-1 п-1 Пример 2.1 Рассмотрим следующий набор возрастов людей. 23, 38, 42, 25, 60, 55, 50, 42, 32, 35 Для этой выборки п = 10 и 10 £х,. = X, + Х2 + Х} + Х4 + X, + х6 + х7 + xs + х9 + х)0 = 23 + 38 + 42 + 25 + 60 + 55 + 50 + 42 + 32 + 35 = 402
Обзор основных статистических понятий 35 п 10 л-1 10-1 S= ^/148,84=12,2 Вычисления показаны в табл. 2.1. Выборочное среднее составляет 40,2 года, выборочная дисперсия равна 148,84 и выборочное среднеквадратическое отклонение составляет 12,2 года. Таблица 2.1. Вычисление s (х = 40,2) b v ><* Л < Ъ М 1 X®. *- > -г Ф >- * Z Z Л ы / —\2 X X-X 23 -17,2 295,84 38 -2,2 4,84 42 1,8 3,24 25 -15,2 231,04 60 19,8 392,04 55 14,8 219,04 50 9,8 96,04 42 1,8 3,24 32 -8,2 67,24 35 -5,2 27,04 £(Х-Х)2 =1339,60 Для определения числа единиц данных, свободных друг от друга в том смысле, что они не могут быть получены одно из другого и, следовательно, являются носителями единиц информации, используется термин степень свободы. Предположим, что сформу- лированы следующие три утверждения. Я задумал число 5. Я задумал число 7. Сумма двух чисел, которые я задумал, равна 12. На первый взгляд может показаться, что здесь присутствуют три единицы информа- ции. Однако если любые два из этих утверждений известны, оставшееся может быть од- нозначно определено. Следовательно, можно сделать заключение, что в трех утвержде- ниях есть только две единицы информации, или, используя статистический термин, су- ществуют только две степени свободы, поскольку только два значения свободно изменя- ются, а третье — нет. В примере, представленном в табл. 2.1, возраст десяти людей представляет собой вы- борку с десятью степенями свободы. Возраст любого человека мог быть включен в выборку, и, следовательно, каждый из возрастов независим. Когда вычислялось среднее значение, все десять возрастов участвовали в получении общего среднего, равного 40,2 годам.
36 ГЛАВА 2 Процесс вычисления выборочного среднеквадратического отклонения является иным. Когда вычисляется выборочное среднеквадратическое отклонение, используется оценка среднего значения генеральной совокупности (выборочное среднее X). При ис- пользовании в вычислениях выборочного среднего в качестве оценки среднего значения генеральной совокупности, обычно получается среднеквадратическое отклонение, меньшее среднеквадратического отклонения для всей генеральной совокупности. Одна- ко эта проблема может быть откорректирована путем деления суммы - X )2 на соот- ветствующее количество степеней свободы. Поскольку при вычислении выборочного среднеквадратического отклонения выборочное среднее использовалось в качестве оценки среднего генеральной совокупности, только девять из возрастов при этом изме- нялись свободно. Если девять из возрастов известны, десятый может быть вычислен, по- тому что сумма JI(X -X)должна быть равна нулю. Для получения всей информации необходимо знать только девять возрастов. В общем случае можно утверждать, что если для оценки параметра генеральной совокупности в вычислениях используется выбороч- ная статистика, то одна степень свободы теряется. Степени свободы в наборе данных определяют число единиц данных, независимых друг от друга, которые могут нести единичные фрагменты информации. В табл. 2.2 пред- ставлены символы, используемые для обозначения параметров генеральных совокупно- стей и их выборочных статистик. Степени свободы в наборе данных определяют число единиц данных, независимых друг от друга, которые могут нести отдельные элементы информации. Таблица 2.2. Статистики генеральной совокупности и выборки Статистики Генеральная совокупность Выборка Среднее значение Н X Дисперсия о2 S2 Среднеквадратическое отклонение СТ S Среднее значение и среднеквадратическое отклонение являются наиболее важными характеристиками для описания наборов данных; они кратки и содержательны. Однако наряду с ними часто используются и другие описательные итоговые характеристики. Для определения центрального значения в наборе данных иногда применяется медиана. Ме- диана — это то значение, которое делит выборку так, что одна половина значений в вы- борке будет больше, а другая — меньше. В качестве грубой оценки дисперсии иногда используется размах. Размахом называет- ся разность между максимальным и минимальным значениями выборки. Например, размах возрастов в табл. 2.1 составляет 37 (т.е. 60 - 23). Квартили делят набор данных на четыре равные части после того, как численные зна- чения были упорядочены от наименьшего к наибольшему. Медиана делит выборку на две равные части и часто называется второй квартилью. Первая квартиль (g,) делит нижнюю половину на две равные части, а третья квартиль (£3) делит на две равные части верх-
Обзор основных статистических понятий 37 нюю половину. Для набора возрастов в табл. 2.1 первая квартиль равна 30,25, медиана (вторая квартиль) — 40, а третья квартиль — 51,25. Наконец, межквартилевый размах характеризует изменчивость множества данных. Это просто разность между третьей и первой квартилями, (g3 - £2i), или размах для сред- них 50% значений из набора данных. Для приведенного списка возрастов межквартиле- вый размах составляет 21 (т.е. 51,25 - 30,25). Для вычисления большинства приведенных описательных статистик можно исполь- зовать приложения Minitab и Excel. На рис. 2.1 представлено окно приложения Minitab, содержащее результаты расчета различных статистик для списка возрастов, приведен- ного в табл. 2.1. Инструкции по вычислению описательных статистик с использованием приложений Minitab и Excel приведены в разделах, посвященных применению Minitab и Excel, в конце глав. I MINITAB > Untitled. [Jt hr',» ja1 Qie^i в~а! g| • |вЧ iz:, iTJjliW I Ql? _________ _ __ "T Г7 3 Variable N Mean Median TrMean Stbev SE Mean Ages 10 40.20 40.00 39.88 12.20 3.86 Variable Hininua Maxi&un 01 Q3 Ages 23.00 60.00 30.25 51.25 J Puc. 2.1. Расчет описательных статистик в приложении Minitab Графическое представление числовой информации В прогнозировании мы имеем дело с двумя типами данных: кросс-секционными, когда все наблюдения проведены в одно и то же время, и временными рядами данных, состоящими из последовательности наблюдений, которые проводились с течением времени. В табл. 2.3 приведен пример кросс-секционных данных — чистый доход, выраженный как процент от стоимости акционерного капитала для 209 компаний, представляющих собой выборку из списка наиболее процветающих корпораций “Fortune-500”. Кроме того, примерами могут служить сведения о годовом доходе руководства корпорации или рыночной стоимости до- мов в некотором городе. В качестве примеров временных рядов данных можно привести количество посетителей торгового центра Coulee Dam Visitor Center за каждый месяц, еже- месячный объем продаж компании Sears Corporation, ежедневные данные о цене акций компании IBM, ежегодный объем производства пшеницы в США.
38 ГЛАВА 2 Таблица 2.3. Чистый доход как процент от стоимости акционерного капитала для 209 компаний из списка -Fortune-500" 17 23 22 18 8 7 12 2 49 14 14 36 16 7 3 8 10 И 20 17 15 25 18 12 20 7 5 11 0 22 14 10 14 19 8 12 13 21 3 22 11 18 2 18 14 11 36 16 7 14 12 14 10 8 20 13 8 23 6 21 9 23 7 14 25 12 12 8 И 5 18 13 14 9 16 2 19 21 18 9 14 2 20 17 И 16 13 12 22 16 7 6 14 10 1 21 35 20 18 28 17 15 9 12 5 10 14 1 17 14 14 14 6 22 16 13 14 8 12 6 15 10 22 19 16 4 20 18 2 3 20 7 15 39 4 3 10 7 15 16 12 13 12 И 18 10 13 7 13 12 14 8 11 17 11 22 16 И 12 11 9 11 13 0 12 3 9 9 13 27 1 16 18 12 11 0 10 9 12 22 18 44 4 3 17 12 8 16 7 16 27 И 19 12 22 3 14 14 7 8 И 1 3 17 8 7 5 19 22 Одним из наиболее важных моментов при предварительном исследовании анализи- руемой величины является визуализация данных с помощью графиков и диаграмм. Ос- новные характеристики данных, включая необычные наблюдения и уникальные схемы повторения, лучше всего видны при их графическом представлении. В некоторых случа- ях анализ графика может даже подсказать возможное объяснение тех или иных типов из- менчивости, присутствующих в данных. Точечная диаграмма — один из простейших способов графического изображения дан- ных. На рис. 2.2 на горизонтальной оси изображен размах значений чистого дохода как процента от стоимости акционерного капитала, представленных в табл. 2.3. Каждое на- блюдение изображено точкой над этой осью. Точечная диаграмма позволяет подробно изображать данные и сравнивать два или более множеств данных.
Обзор основных статистических понятий 39 Dot Plot for % of Equity “I-------------Г 40 50 % of Equity Puc. 2.2. Точечная диаграмма для чистого дохода как процента от стоимо- сти акционерного капитала (приложение Minitab) Диаграмма-ящик, называемая также “ящиком с усами”, полезна для отображения ха- рактеристик данных, связанных с их распределением. На рис. 2.3 представлена диаграм- ма-ящик для данных о чистом доходе как о проценте от стоимости акционерного капита- ла. Через “ящик” в точке, равной медиане, проведена прямая. Эта прямая делит данные на две равные части. Нижняя граница ящика — это первая квартиль (g,), а верхняя — третья квартиль (g3). Могут быть построены дополнительные ограничители, отмечающие межквартилевый размах (Q3 - Q(). Нижний предел расположен в точке Qx - l,5(g3 - Q(), а верхний — в точке Q3 + 1,5(g3 - Qt). Выбросами являются точки вне нижнего и верхнего пределов, они изображены звездочками. На рис. 2.3 первая квартиль равна 8, медиана — 13, третья квартиль — 17, а межквартилевый размах равен 9 (т.е. 17-8). Нижний предел равен -5,5 (т.е. 8 - 1,5 х 9), а верхний — 30,5 (т.е. 17 + 1,5 х 9). Отметим, что наименьшее значение, большее нижнего предела-5,5, равно 0, а наибольшее значение, меньшее верхней границы 30,5, — 28. Шесть значений (35, 36, 36, 39, 44 и 49) превышают верхнюю границу 30,5 и называются выбросами. Рис. 2.3. Диаграмма-ящик для значений чистого дохода как процен- та от стоимости акционерного капитала
40 ГЛАВА 2 Гистограмма позволяет сжимать данные, группируя близкие значения в классы. При построении гистограммы рассматриваемая величина откладывается на горизонтальной оси, а частота, относительная частота или процент частоты появления значения в данных — на вертикальной оси. Рассматривая гистограмму, подобную приведенной на рис. 2.4, можно оценить отношение площади прямоугольника над некоторым интерва- лом к общей площади гистограммы над горизонтальной осью. В частности, 61 компания из 209 (или 29,2%) имеет чистый доход, выраженный как процент от стоимости акцио- нерного капитала, в интервале от 7,5% до 12,5%. Таким образом, третий прямоугольник гистограммы на рис. 2.4 составляет 0,292 от общей площади гистограммы. Рис. 2.4. Гистограмма для значений чистого дохода как процента от стоимости акционерного капитала (приложение Minitab) Хотя гистограммы дают хорошее визуальное представление для набора данных в це- лом, в особенности для очень больших наборов данных, идентифицировать отдельные наблюдения они не позволяют. В противоположность этому, на точечной диаграмме просматривается каждое отдельное наблюдение. Диаграммы рассеяния используются для отображения взаимосвязи между двумя пере- менными. Они будут рассматриваться позднее в этой же главе, в разделе, посвященном корреляционному анализу. Для данных, изменяющихся во времени, чаще всего применяется графическая форма, называемая диаграммой временного ряда, на которой данные изображаются в зависимости от времени. На рис. 2.5 представлена диаграмма временного ряда для ежемесячных объемов продаж в продовольственных магазинах компании Alomega, которые обсуждались в приме- ре 1.1. Диаграмма временного ряда показывает изменчивость данных и фиксирует моменты времени, соответствующие пикам и впадинам. Эти диаграммы также демонстрируют отно- сительный размер пиков и впадин в сравнении с остальными значениями ряда.
Обзор основных статистических понятий 41 UJ tc w 750,000 650,000 550,000 450,000 350,000 250,000 150,000 Monthly Sales for Alomega Food Stores Illi 1996 1997 1998 1999 Year Puc. 2.5. Диаграмма ежемесячных объемов продаж в продовольственных магазинах компании Alomega (приложение Minitab — см. пример 2.5) Одним из важных этапов при выборе соответствующего аппарата прогнозирования яв- ляется подбор моделей данных, адекватно отражающих поведение временного ряда. Как только удастся выявить все присутствующие в данных взаимосвязи, можно будет выбрать такой метод прогнозирования, который наиболее подходит для данного случая. Существует четыре типа зависимостей данных во временных рядах: горизонтальные, тренд, цикличе- ские и сезонные. Каждый тип зависимости будет подробно рассмотрен в главе 3. Для выделения различных типов зависимостей, присутствующих во временных рядах данных, чаще всего используется метод построения коррелограммы или автокорреляци- онной функции. Это графический метод представления корреляции между значениями с различными запаздываниями во времени, присутствующими в исходном временном ря- ду. Коррелограммы также будут рассматриваться в главе 3. Вероятностные распределения Случайной величиной называется числовая величина, которая способна принимать в экс- перименте различные значения от испытания к испытанию. Исход отдельного испыта- ния называется случаем или случайным событием. Случайная величина называется дис- кретной, если для нее возможны только отдельные, точно установленные значения. Примерами дискретных величин могут служить количество комнат в доме, число покупа- телей, подходящих к расчетному окну в супермаркете за час, и число дефектных единиц в партии электронных приборов. Если возможно любое значение случайной величины в пределах некоторого интервала, она называется непрерывной. Примерами величин такого типа могут служить вес различных людей, длина произведенной ткани или время между прибытием машин к кассе оплаты дорожного сбора.
42 ГЛАВА 2 Дискретная случайная величина может принимать значения только из предопределен- ного множества. Часто возможные исходы численно обозначаются целыми числами. Непрерывная случайная величина может принимать любые значения в определенном интервале. Численно эти исходы представляются непрерывным интервалом значений. Вероятностное распределение дискретной случайной величины представляет собой список всех значений, которые она может принимать, с указанием вероятности появле- ния каждого из них. Математическим ожиданием случайной величины является то сред- нее значение, которое принимает случайная величина после многих испытаний. Матема- тическое ожидание дискретного вероятностного распределения может быть найдено пу- тем умножения каждого возможного значения X на его вероятность с последующим сум- мированием этих произведений. Формально требуемые вычисления представлены следующей формулой. Е(Х) = 'Е[Х'х. Р(Х)\ (2.4) Пример 2.2 Число дней продавца, когда у него не было продаж в течение месяца, описано вероятностным распределением, которое приведено в табл. 2.4. Эти значения, основанные на прошлом опы- те продавца, можно использовать для прогнозирования его будущей торговой активности. В столбце Xуказаны все возможные значения (дни без продаж), в то время как столбец Р(Х) со- держит соответствующие вероятности. Отметим, что, поскольку перечислены все возможные значениях, сумма вероятностей равна 1,00 или 100%. Это справедливо для всех вероятност- ных распределений, без учета ошибок округления. Таблица 2.4. Вероятностное распределение X Р(Х) 1 0,10 2 0,20 3 0,25 4 0,15 5 0,30 Для вероятностного распределения, представленного в табл. 2.4, математическое ожидание равно следующему. Е(Х) = 1(0,1) + 2(0,2) + 3(0,25) + 4(0,15) + 5(0,3) = 3,35 Таким образом, если этот продавец будет наблюдать и отмечать непродажные дни в тече- ние многих месяцев, среднее значение должно оказаться равным 3,35, при условии, что будущая активность корректно предвидится с помощью наблюдаемых ранее данных, на которых основано вероятностное распределение. Математическое ожидание случайной величины — это среднее значение величины, вычисленное для многих испытаний или наблюдений.
Обзор основных статистических понятий 43 Для непрерывного распределения вероятность получения отдельного конкретного значения приближается к нулю. Например, вероятность того, что кто-то весит 150 фун- тов, может считаться равной нулю, поскольку это будет обозначать, что этот вес равен точно 150,000 фунтов — независимо оттого, насколько точные весы используются. Не- прерывные распределения чаще всего связаны с отысканием вероятности того, что слу- чайно выбранное значение случайной величины попадает в некоторую область или ин- тервал. Например, может быть вычислена вероятность того, что вес человека будет нахо- диться в интервале от 145 до 155 фунтов. Некоторые теоретические распределения вновь и вновь встречаются в практических статистических приложениях, поэтому важно изучить их свойства и область применения. Одним из таких распределений является биномиальное распределение, часто используемое для представления дискретной случайной величины. Биномиальное распределение удов- летворяет следующим требованиям. 1. Выполняется п независимых испытаний, в каждом из которых возможны два ис- хода — “успех” и “неудача”. 2. Вероятность успеха в серии последовательных испытаний остается фиксированной. 3. Результаты отдельных испытаний являются независимыми. Интерес представляет отыскание вероятности получения X успешных результатов в п испытаниях, в каждом из которых получение успешного результата является одним из двух возможных исходов. Различные значения X и их вероятности обра- зуют биномиальное распределение. Эти вероятности могут быть найдены с ис- пользованием следующей биномиальной формулы: P(^) = Qpx(l-p)"'x дляХ=0, 1,2, ...,п, (2.5) где <л) — число сочетаний из п по А"; р — вероятность успеха в каждом испытании; X — соответствующее число интересующих успехов; п — число испытаний. Биномиальным распределением называется вероятностное распределение, описывающее вероятность появления Д'успехов в п испытаниях биномиального эксперимента. Более простой способ отыскания биномиальных вероятностей, в сравнении с использо- ванием уравнения 2.5, состоит в обращении к готовой таблице биномиального распреде- ления — такой, как табл. В.1 в приложении В. В этой таблице данные собраны в блоки, представляющие п групп значений вероятностей. Каждый блок включает столбец, оза- главленный р, и строку, определяемую значением X. Пример 2,3 Предположим, что на производственной линии случайным образом выбрано восемь единиц продукции. Кроме того, известно, что 5% произведенной на ней продукции оказываются де-
44 ГЛАВА 2 фектными. Какова вероятность обнаружить в выборке точно нуль дефектных единиц продук- ции? Ответ находим в таблице биномиального распределения в приложении В, она равна 0,6634 (здесь л = 8,р = 0,05, Х= 0). Особый интерес представляет важное непрерывное распределение, называемое нор- мальным, поскольку многие широко используемые величины могут быть им аппрокси- мированы. Для определения конкретного нормального распределения необходимо зна- ние среднего значения и среднеквадратического отклонения. Кривая нормального рас- пределения является симметричной и имеет форму колокола, как показано на рис. 2.6. Это распределение описывает много реально существующих величин, изменяющихся на непрерывной шкале. Рис. 2.6. График нормального распределения Вероятность попадания значения нормальной случайной величины в некоторый ин- тервал находится путем преобразования этого интервала в единицы среднеквадратиче- ского отклонения. Это преобразование называется /-стандартизацией.1 Z-стандарт лю- бого значения X— это число среднеквадратических отклонений от центрального значе- ния кривой (ц) до этого значения. Таким образом, имеем формулу Z = , (2.6) <7 где X — интересующее нас значение; ц. — среднее значение; <7 — среднеквадратическое отклонение. После того как будет выполнен процесс Z-стандартизации, таблица нормального рас- пределения может быть заполнена посредством вычисления площади под кривой между центром кривой (ц) и интересующим значением X. Нормальное распределение имеет вид колокола и определяется своим средним значени- ем и среднеквадратическим отклонением. ' Можно показать, что если случайная величина X имеет нормальное распределение, то случайная величина Z= (X— Ц)/<7 имеет нормальное распределение со средним значением 0 и среднеквадратическим отклонением 1.
Обзор основных статистических понятий 45 Пример 2.4 Генеральная совокупность веса деталей, выпускаемых на определенном станке, имеет нор- мальное распределение со средним значением 10 фунтов и среднеквадратическим отклоне- нием 2 фунта. Какова вероятность того, что случайно выбранная деталь будет имеет вес от 9 до 12 фунтов? Нормальная кривая с соответствующей заштрихованной областью изображена на рис. 2.7. ст = 2 Рис. 2.7. Область под нормальной кривой, рассматривае- мая в примере 2.4 Поскольку таблицы нормального распределения чаще всего содержат значения площади области под кривой от центра до некоторой точки, следует определить площади двух отдель- ных областей — с двух сторон от среднего значения, а затем сложить их. Результат этой про- цедуры дает вероятность попадания значения в заданный интервал. Для нашего примера два значения Z-стандарта равны следующему. Z|=X^ = 9llO = _o(5o ст 2 Z2=X^=12-10=1>00 ст 2 Следовательно, область между 9 и 12 под нормальной кривой, показанной на рис. 2.4, та- кая же, как и область под нормальной кривойZ (см. сноску 1) между значениями-0,5 и 1. Пользуясь таблицами нормального распределения, которые приведены в этой книге, отрица- тельным знаком перед первым Z-стандартом можно пренебречь, так как область под нор- мальной кривой для Z между -0,5 и 0 такая же, как и между 0 и 0,5. Оба требуемых значения Z-стандарта присутствуют в таблице нормального распределения, приведенной в приложе- нии В (табл. В.2). Они представляют площади двух интересующих нас областей и должны быть просуммированы. Zl=-0,500,50 -> 0,1915 Z2 = 1.00 -» 0.3413 0,5328 Таким образом, доля случаев, когда произвольно выбранная единица продукции будет иметь вес от 9 до 12 фунтов, составляет 53%.
46 ГЛАВА 2 Выборочные распределения В большинстве статистических приложений из рассматриваемой генеральной совокупно- сти формируется случайная выборка; по данным выборки вычисляется статистика, и на ос- новании этих выборочных данных делается заключение о всей генеральной совокупности. Выборочным распределением является распределение всех возможных значений выборочной статистики, которая может быть получена из генеральной совокупности для выборки дан- ного объема. Например, из генеральной совокупности всех людей может быть выбрана слу- чайная выборка из 100 человек, каждый из которых будет взвешен, а затем будет вычислен их средний вес. Это выборочное среднее (X ) может рассматриваться как полученное из ве- роятностного распределения для всех возможных выборочных средних для выборок разме- ром в 100 человек, которые можно получить из генеральной совокупности всех людей. Ана- логично любая выборочная статистика, которая может быть вычислена по выборочным данным, может рассматриваться как полученная из выборочного распределения. Выборочным распределением является массив всех возможных значений выборочной статистики, который может быть получен из генеральной совокупности для выборок данного объема. Центральная предельная теорема утверждает, что с увеличением объема выборки рас- пределение выборочного среднего стремится к нормальному распределению, среднее значение которого равно р, т.е. среднему значению генеральной совокупности, а средне- квадратическое отклонение равно o/Jn (это значение называют стандартной ошибкой выборочного среднего). Важно подчеркнуть, что распределение выборочного среднего стремится к нормальному распределению, независимо от типа распределения генераль- ной совокупности, из которой получена выборка. На рис. 2.8 показано, как может выгля- деть подобное выборочное распределение. Рис. 2.8. График выборочного распределения X Центральная предельная теорема представляет в статистике особый интерес, по- скольку она позволяет сводить вычисление вероятностей различных выборочных ситуа- ций к вычислению вероятностей этих ситуаций с помощью нормальной кривой.
Обзор основных статистических понятий 47 Пример 2.5 Какова вероятность того, что среднее значение случайной выборки из генеральной совокупно- сти, состоящей из 100 значений веса, будет меньше на два фунта, чем истинное среднее значе- ние генеральной совокупности, если среднеквадратическое отклонение для последней оценива- ется в 15 фунтов? График соответствующего выборочного распределения показан на рис. 2.9. Рис. 2.9. Область, ограниченная кривой выборочного рас- пределения, рассматриваемого в примере 2.5 Из того, что стандартная ошибка равна o/Jn = 15/V100 = 1,5 , следует, что Z-стандарт равен Z = (% - X)/(о/Jn'j = 2/1,5 = 1,33 . Тогда, обратившись к таблице, найдем, что соответ- ствующая площадь под нормальной кривой равна 0,4082. Для того чтобы получить площадь общей области с двух сторон от среднего значения, удвоим эту площадь и получим 0,8164. Это означает, что если из генеральной совокупности с оцененной дисперсией <7=15 сделать выборку в 100 элементов, то примерно в 82% случаев выборочное среднее будет на 2 фунта меньше истинного среднего. Ниже будет показано, что возможность вычислять вероятности с помощью выборочных исследований, позволяет статистику получать полезные выводы при оценке или про- верке своих предположений, а это непосредственно применимо к прогнозированию. Особый случай имеет место в статистике, когда объем выборки мал, но можно пред- положить, что генеральная совокупность имеет нормальное распределение с некоторым неизвестным среднеквадратическим отклонением. В этой ситуации среднеквадратиче- ское отклонение должно быть оценено по выборочному среднеквадратическому откло- нению. В приложении В, табл. В.З, приведены значения t-распределения. Отметим, что прежде, чем обращаться к таблицам, следует найти только одно значение — число степе- ней свободы (сокращенно, СС). Как только число степеней свободы станет известно, можно определить /-значения, которые исключают ожидаемое процентное содержание кривой. Например, если рассматриваемое /-распределение имеет 14 степеней свободы, то /-значение, равное 2,145, будет включать 95% площади под кривой с каждой стороны от ее центра и исключать 5% общей площади, т.е. по 2,5% для каждого “хвоста”. Пример 2.6 На производственной линии сделана случайная выборка, включающая взвешивание 12 мешков пшеницы. Средний вес мешка был определен как 102,4 фунта, а выборочное сред- неквадратическое отклонение составило 2,5 фунта. Из выполненных ранее исследований из-
48 ГЛАВА 2 вестно, что вес полных мешков на этой линии может быть достаточно точно аппроксимиро- ван нормальным распределением. Сформулируем следующий вопрос, каково то значение ве- са, которое будет меньше веса 95% полных мешков. Поскольку объем выборки мал (обычно ма- лой считается выборка, включающая менее 30 элементов), а генеральная совокупность имеет нормальное распределение, в качестве оценки неизвестного среднеквадратического отклоне- ния возьмем выборочное среднеквадратическое отклонение. Ответ на поставленный выше вопрос может быть найден с помощью /-распределения. Полагая t = (X-ц)/5 и используя зна- чения /-распределения, приведенные в табл. В.З, получим, что значение /-распределения, ис- ключающее 5% площади под кривой вне его, с количеством степеней свободы п - 1 = 11 рав- но 1,796. Поэтому вес, соответствующий среднему, уменьшенному на произведение коэффи- циента 1,796 на стандартную ошибку, будет оставлять 5% весов ниже себя и 95% выше. X = 102,4 - 1,796(2,5) = 97,9 фунтов. Основываясь на выборочных результатах, использующих малую выборку, можно заклю- чить, что вес большинства (95%) полных мешков на производственной линии составляет бо- лее чем 97,9 фунтов. Выводы, которые можно сделать на основании изучения выборок Оценка Существуют две основные цели изучения выборок в тех случаях, когда реально неосущест- вимо или даже невозможно охарактеризовать всю интересующую нас генеральную сово- купность. Первая из них, называемая оценкой, состоит в использовании выборочных дан- ных для оценки неизвестных характеристик генеральной совокупности. Несмотря на то что оценка является наиболее употребительным статистическим термином для названия этой задачи, она может также именоваться прогнозированием во многих ситуациях, связанных с бизнесом. В этих случаях данные состоят из собранных реальных наблюдений, а значения, для которых необходима оценка или прогноз, относятся к неизвестному будущему. Вторая основная цель изучения выборок будет обсуждаться в следующем разделе. Точечной оценкой параметра генеральной совокупности (прогнозом) называется от- дельное значение, которое оценивает неизвестное значение параметра генеральной сово- купности, вычисленное по выборочным данным. В табл. 2.2 содержатся три параметра генеральной совокупности и выборочные статистики, дающие их точечные оценки. Интервальной оценкой, или доверительным интервалом, называется интервал, в пределах которого, возможно, лежит интересующий нас параметр генеральной совокупности. Его находят, образуя интервал вокруг точечной оценки, и, как правило, вычисляют, используя нормальное или /-распределение. Точечные и интервальные оценки иногда используются в качестве оценок важных значений (см. задание 2.2 “Mr. Тих” в конце этой главы). Пример 2.7 Опрос случайным образом выбранных 500 покупателей торгового центра Northgate Shopping Center был проведен с целью получения выборки для определения среднего расстояния, ко- торое им приходится преодолевать до магазина. Анализ выборочных результатов показал, что X =23,5 мили, а5= 10,4 мили.
Обзор основных статистических понятий 49 Выборочное среднее, точечная оценка неизвестного среднего расстояния для генеральной со- вокупности всех покупателей, составляет 23,5 мили. Интервальная оценка ц, использующая уро- вень значимости в 95%, основана на уравнении 2.7 и может быть определена следующим образом. X±Z-^= (2.7) 23,5 ±1, 96-^lL л/500 23,5 ±1,96(0,465) 23,5 ±0,91 от 22,6 до 24,4 Можно утверждать с достоверностью в 95%, что среднее число миль, которое покупатель из этой генеральной совокупности преодолевает к магазину, расположено где-то между 22,6 и 24,4 милями. В действительности статистик сказал бы, что если получены 100 выборок объемом 500 значений, вычислены среднее и среднеквадратическое отклонение, построены интервальные оценки, то 95 из 100 интервалов будут содержать истинное среднее генеральной совокупности. Точечная оценка представляет собой отдельное значение, оценивающее параметр гене- ральной совокупности; интервальная оценка является численным интервалом, внутри которого, вероятно, расположен неизвестный параметр. Проверка гипотез Во многих статистических задачах, включающих и прогнозирование, интерес представ- ляет не оценка (или прогнозирование) одного из параметров генеральной совокупности, а проверка некоторого утверждения о ней. Эта процедура, представляющая собой вторую важную цель в изучении выборочных данных, называется проверкой гипотез. Проверка гипотез включает в себя следующие этапы. Этап 1. Формулируется проверяемая гипотеза. Назовем ее нулевой гипотезой и обо- значим символом Но. Формулируется альтернативная гипотеза, которая при- нимается, если отвергается гипотеза Но. Обозначим эту гипотезу Н{. Этап 2. Выполняется случайная выборка из генеральной совокупности. Для ее эле- ментов определяются соответствующие числовые характеристики и вычисля- ется требуемая выборочная статистика. Этап 3. Предполагается, что нулевая гипотеза верна; рассматривается распределение выборочной статистики при этом предположении. Этап 4. Вычисляется вероятность того, что подобная выборочная статистика может быть получена из этого выборочного распределения. Этап 5. Если вычисленная вероятность велика, мы не отвергаем нулевую гипотезу; ес- ли же эта вероятность мала, нулевая гипотеза может быть отвергнута с малой вероятностью ошибки. Если следовать указанным этапам, возможны два типа ошибок, представленные в табл. 2.5. Можно надеяться, что верное решение, касающееся нулевой гипотезы, может быть достигнуто после изучения выборочных данных. Однако всегда существует вероят- ность, что вы сможете отвергнуть верную гипотезу Яо и не сумеете отвергнуть ложную Но. Вероятности этих событий обозначаются как а и 0. Значение а иначе называют уровнем значимости критерия.
50 ГЛАВА 2 Таблица 2.5. Результаты проверки гипотез Действительное состояние Действие Не отвергается Не Отвергается Не Но справедлива Верное решение Ошибка типа I: вероятность а Но несправедлива Ошибка типа II: Верное решение вероятность р Пример 2.8 Необходимо проверить гипотезу, что средний вес деталей, изготовляемых на некотором станке, всегда равен 50 фунтам (таким был средний вес единицы продукции в течение прошлых лет). Была сделана случайная выборка, состоящая из 100 единиц продукции. Предположим, что среднеквадратическое отклонение веса деталей составляет 5 фунтов, независимо от среднего значения их веса, поскольку именно это значение среднеквадратического отклонения неизмен- но получалось во всех прошлых исследованиях веса деталей. Если предполагается, что верна ну- левая гипотеза (нулевая гипотеза утверждает, что среднее значение веса детали равно 50 фун- там), то соответствующее выборочное распределение в соответствии с центральной предельной теоремой является нормальным. Механизм действия критерия представлен на рис. 2.10. Гипотеза Но: ц = 50 фунтов (основная) Гипотеза Ц: ц * 50 фунтов (альтернативная) Г ипотеза Но Гипотезу Но Гипотеза Но отклоняется отклонить нельзя отклоняется ^ТЭ6 0 Г96 g-5-о с -/ТОО ’ а и/3: 50 ± 1,96(0,5) а = 0,05 (Выбранный уровень 49,02 и 50,98 значимости) Рис. 2.10. Проверка гипотезы, изложенной в примере 2.8
Обзор основных статистических понятий 51 Правило принятия решения для данного критерия при а = 0,05 состоит в следующем. Если X < 49,02 или X > 50,98, то нулевую гипотезу следует отвергнуть. При такой формулировке правила принятия решения вероятность отвергнуть нуле- вую гипотезу в случае, если она верна, т.е. совершить ошибку I типа, составляет 5% (а = 0,05). Это отражено на кривой, представленной на рис. 2.10, где показана область ве- роятности 0,025 на каждом хвосте выборочного распределения. В завершение примера 2.8 отметим, что если бы выборочное среднее оказалось рав- ным 50,4, то отвергать нулевую гипотезу не стоило бы. В этом случае можно было бы за- ключить, что генеральная совокупность все еще характеризуется средним весом в 50 фунтов. С другой стороны, если бы выборочное среднее было равно 48,1 фунта, можно было бы сделать вывод, что среднее значение веса для генеральной совокупности упало ниже 50 фунтов. Теперь предположим, что среднее значение оказывается равным 51,3 фунта. В соот- ветствии с правилом принятия решения нулевая гипотеза отвергается (поскольку 51,3 > 50,98). Итак, заключаем, что среднее значение веса для генеральной совокупности изменилось. Однако существует и более общий способ получить верный вывод — это вы- числить для критерия p-значение. Под p-значением в критерии проверки гипотезы пони- мается вероятность получить результат, не меньше значения выборочной статистики, вычисленного в предположении, что гипотеза Но справедлива. Следовательно, оно вы- числяется как процентное соотношение выборочного распределения, лежащее правее выборочной статистики. Таким образом, получение малого ^-значения означает сильное отторжение гипотезы Но. В примере 2.8^-значение вычисляется следующим образом. z = 5L3-50= 53 обдасти 0,5 (0,5000 - 0,4953) = ^-значение, составляющее 0,0047 Решение отвергнуть нулевую гипотезу в критерии проверки гипотезы основано на следующем. Вероятность получить выборочный результат 0,0047 (или меньше) очень ма- ла, если выполняется гипотеза Но, утверждающая, что ц =50. Следовательно, очень мала и вероятность того, что гипотеза Но верна. Поэтому она отвергается (нулевая гипотеза от- вергается для любого уровня значимости а, большего 0,0047, включая и а = 0,05)ч По- скольку пакеты прикладных статистических программ часто позволяют вычислять р- значения, их использование в последние годы значительно возросло. p-значение, или значимая вероятность, — это вероятность получить (в предположении справедливости гипотезы) значение, не меньшее значения выборочной статистики. Это эквивалентно следующему утверждению: ^-значение — это наименьшее значе- ние а, для которого наблюдаемая в критерии статистика ведет к отказу от гипотезы Но. Пример 2.9 Рассмотрим критерий проверки гипотезы, когда объем выборки мал и для него соответст- вующим выборочным распределением является /-распределение. Предположим, необходимо проверить гипотезу, что среднее суммы баллов, полученных студентами на государственном экзамене, составляет 500, при альтернативной гипотезе, что оно меньше 500. Проведена вы- борка из этой генеральной совокупности, состоящая из 15 студентов, для которой выбороч-
52 ГЛАВА 2 ное среднее оказалось равным 475. Среднеквадратическое отклонение генеральной совокуп- ности оцениваем выборочным среднеквадратическим отклонением и получаем значение S'=35. Предполагается, что генеральная совокупность экзаменационных оценок аппрокси- мируется нормальным распределением. ^-распределение — это соответствующее выборочное распределение расстояния X от р в единицах стандартной ошибки для малых п (приблизительно меньше 30), о неизвестно (и оценивается с помощью S), и можно предположить, что генеральная совокупность приблизи- тельно нормально распределена. Точное количество степеней свободы и - 1 = 14. Статистика критерия определяется следующим уравнением. = (2.8) о S/Jn Алгоритм тестирования, при предположении, что уровень значимости равен 0,05, приведен на рис. 2.11. Но:ц = 5ОО t-распределение Результаты выборки: п=15 ^<500 df = 14 х=475 s =35 а = 0,05 а = 0,05 Г=-1,761 (Выборочное распределение из (х - pJ/fs/V”з) при допущении, что гипотеза Но верна, и в предположении, что генеральная совокупность имеет нормальное распределение) Г ипотеза Но отклоняется t из t-таблицы с а = 0,05 и df = (п - 1) = 14 = 1,761 У- ц 475-500 sRn 35//fS -2,77 Рис. 2.11. Проверка гипотезы, сформулированной в примере 2.9 Правило принятия решения. Если t < -1,176, отвергаем Но. Вывод. Поскольку -2,77 < -1,176, отвергаем гипотезу Яо. Выборочные данные свидетельствуют, что гипотеза, состоящая в том, что среднее гене- ральной совокупности равно 500 (при 5% уровне значимости), должна быть отвергнута. Корреляционный анализ При построении статистических моделей для целей прогнозирования часто полезно изу- чать взаимосвязь, существующую между двумя анализируемыми величинами. В этом случае могут использоваться два вида математического аппарата— корреляционный
Обзор основных статистических понятий 53 и регрессионный анализы. Дополнительно к общей теории в последующих главах будут рассматриваться и специальные случаи корреляций и регрессий. Такое внимание к кор- реляции и регрессии оправдано тем, что эти методики широко используются во всех приложениях, предназначенных для решения задач прогнозирования. Диаграммы рассеяния Изучение взаимосвязи между величинами начинается с простейшего случая, а именно с взаимосвязей, существующих между двумя величинами. Предположим, что проведены два измерения над каждым из нескольких объектов. Требуется определить, увеличивает- ся или уменьшается одна из этих величин (У), когда изменяется другая величина, обозна- ченная (X). Предположим, определены возраст и доход ряда людей, как показано в табл. 2.6. Что можно сказать о взаимосвязи между величинами X и У? Таблица 2.6. Величина дохода и возраст людей из обследованной группы Лицо Y—доход (долл.) X—возраст 1 2 3 4 5 7 800 22 8 500 23 10 000 26 15 000 27 16 400 35 В результате изучения данных из табл. 2.6 выясняется, что значения величин У иХ определенным образом связаны. С увеличением значения величины X, значение величины У также имеет тенденцию к увеличению. При изучении данной выборки из пяти человек возникает искушение сделать заключение, что чем старше человек, тем больше денег он зарабатывает. Конечно, опасно делать выводы на основании вы- борки несоответствующего объема. Об этом речь пойдет позже. Все же на основании сделанных наблюдений (п = 5) обнаруживается определенная взаимосвязь между ве- личинами У и X. Указанные пять значений данных могут быть изображены на плоскости в виде точек, причем значение величины Xбудет отложено по горизонтальной оси, а значение величи- ны У — по вертикальной оси. Подобное графическое представление называется диаграм- мой рассеяния (рис. 2.12). Диаграмма рассеяния представляет значения величин X и У на плоскости. Диаграмма рассеяния позволяет визуально подчеркнуть то, что предполагается чис- то интуитивно, когда необработанные данные впервые анализируются. Например, эта взаимосвязь может быть представлена линейной зависимостью между величинами У иХ. Существующая зависимость называется положительной, если с увеличением X возрастает и У.
54 ГЛАВА 2 Y $20,000 - о $10,000 $0---------1--------L 20 30 io—x X, возраст Рис. 2.12. Диаграмма рассеяния для определения взаимосвязи между возрастом и доходом В других ситуациях при анализе взаимосвязи двух величин могут быть получены иные типы диаграмм рассеяния. Рассмотрим диаграммы, представленные на рис. 2.13. На диаграмме 2.13, а изображена так называемая совершенная положительная линейная зависимость. С возрастанием значения величины X увеличивается и значение величи- ны Y, причем совершенно предсказуемым способом. В этом случае точки (X, У) оказыва- ются лежащими на прямой. На диаграмме 2.13, б изображена совершенная отрицательная линейная зависимость. С возрастанием значений величины X значения величины Y убы- вают таким образом, что их можно точно предсказать. На рис. 2.13, в, г изображены несовершенная положительная и несовершенная отрица- тельная линейные зависимости. На этих диаграммах рассеяния, когда значения величины^ возрастают, значения величины У или возрастают (2.13, в), или убывают (2.13, г), однако не совершенно предсказуемым способом. Иными словами, значение ве- личины У может быть несколько больше или меньше “ожидаемого” значения. В этом случае точки (X, У) расположены не точно на одной прямой. Диаграммы рассеяния 2.13, а—г представляют линейные зависимости. В этом случае зависимость между значениями величин X и У, независимо от того, является она совер- шенной или нет, может быть изображена прямой линией. Для сравнения на ди- аграмме 2.13, д показан общий вид нелинейной зависимости. И наконец, на диаграмме 2.13, е представлен случай, когда между величинами^ и У вообще не существует какой-либо взаимосвязи. Когда значения величины X возрастают, значения величины У ни возрастают, ни убывают каким-либо регулярным образом. На основании выборочных данных, изображенных на диаграмме 2.13, е, можно заключить, что между реальными процессами, включающими все точки X и У, не существует взаимо- связи, линейной или какой-либо иной.
Обзор основных статистических понятий 55 Y Y о о о о о ----------------------X б) совершенная, отрицательная, линейная Y о о о о о ----------------------х а) совершенная, положительная, линейная Y X X в) несовершенная, положительная, линейная г) несовершенная, отрицательная, линейная Y Y X д)нелинейная о о о о о о о ООО -------------X е) зависимость отсутствует Рис. 2.13. Виды диаграмм рассеяния для наблюдаемых величин Хи Y Теперь давайте рассмотрим две диаграммы рассеяния, показанные на рис. 2.14. Обе диаграммы представляют несовершенную, положительную, линейную зависимость меж- ду величинами Y иХ. Отличие состоит в том, что на рис. 2.14, а эта зависимость является достаточно сильной, поскольку точки, изображающие данные, оказываются относитель- но близко к прямой, проходящей между ними. На рис. 2.14, б изображена более слабая зависимость. Изображающие данные точки располагаются дальше от прямой, проходя- щей между ними, что свидетельствует о более слабой линейной зависимости между ана- лизируемыми показателями. Далее в этой главе будет показано, как измерить величину взаимосвязи, существующей между двумя величинами. Часто хотелось бы обобщить взаимосвязь между двумя величинами, подобрав пря- мую, достаточно близко описывающую точки, изображающие данные, как показано на двух диаграммах рассеяния, изображенных на рис. 2.14. Как это делается, вы узнаете чуть позднее, а на данный момент достаточно будет сказать, что прямая должна быть прове- дена так, чтобы получить “хорошее” приближение для точек данных. Теперь же мы обсу- дим вопрос, насколько быстро эта прямая возрастает или убывает.
56 ГЛАВА 2 Рис. 2.14. Представление сильной (а) и слабой (б) зависимостей между величи- нами XuY Чтобы получить ответ на поставленный вопрос, необходимо определить наклон ли- нии. Наклон любой прямой определяется изменением значения переменной Y при уве- личении значения переменной X на единицу. Подводя итог, можно сказать, что при изучении взаимосвязи между двумя величинами сначала необходимо определить, является ли эта взаимосвязь линейной (прямая линия) или нелинейной. Если она линейна, необходимо установить, является ли она положитель- ной или отрицательной и насколько быстро аппроксимирующая данные прямая возрастает или убывает. Наконец, следует оценить силу взаимосвязи, т.е. насколько близки точки, изображающие данные, к прямой, аппроксимирующей их наилучшим образом. Коэффициент корреляции Для изучения линейной зависимости, существующей между двумя величинами, может быть выбрана некоторая мера силы этой зависимости. Используя правильную термино- логию, можно сказать, что сила зависимости, существующей между двумя величинами, измеряется корреляцией. Сила взаимосвязи оценивается с помощью коэффициента корре- ляции, определяемого следующим образом. Две величины с совершенной отрицательной зависимостью имеют коэффициент корреляции, равный-1 (см. рис. 2.13,6). На другом полюсе — две величины с совершенной положительной зависимостью, которые имеют коэффициент корреляции, равный+1 (рис. 2.13, а). Таким образом, коэффициент кор- реляции может изменяться в пределах от -1 до +1, включительно, и зависит от силы зави- симости, существующей между двумя наблюдаемыми величинами. Коэффициент корреляции измеряет силу линейной зависимости, существующей между двумя величинами. На рис. 2.13, а изображена диаграмма рассеяния, соответствующая ситуации, в кото- рой коэффициент корреляции равен +1. На рис. 2.13, б представлена диаграмма для слу- чая, когда коэффициент корреляции равен -1. На рис. 2.13, д, е изображены диаграммы
Обзор основных статистических понятий 57 для величин, не являющихся линейно зависимыми. Коэффициент корреляции в этом случае равен 0, т.е. никакой линейной зависимости не существует. При прогнозировании очень важно различать две группы точек, с которыми прихо- дится иметь дело. Генеральная совокупность, содержащая все представляющие интерес точки X,У, характеризуется коэффициентом корреляции, обозначаемым греческой бук- вой р (“ро” малое), тогда как коэффициент корреляции для некоторой выборки, состоя- щей из точек X, У, обозначается г. Часто бывает, что Хи У измерены в разных единицах, таких как килограммы и долла- ры, объем продаж в штуках и в долларах либо уровень безработицы и объем националь- ного валового продукта. Несмотря на различие единиц, используемых для измерения значения величин X и У, нам важно определить степень взаимосвязи между этими вели- чинами. Соответствующие оценки выполняются с помощью преобразования величин X и У в стандартизированные единицы, так называемые Z-стандарты. После того как значения величин X и У будут преобразованы в Z-стандарти- зированные показатели, найденные Z-стандарты для каждого измерения (X, У) умножа- ются, образуя перекрестные произведения для каждого элемента. Данные перекрестные произведения и представляют для нас интерес, поскольку среднее значение этих величин — это и есть коэффициент корреляции. Вычисление коэффициента корреляции как среднего значения перекрестных произведений Z-стандартизированных величин да- ет его точное значение, однако в большинстве случаев коэффициент корреляции вычис- ляется прямо с помощью значений X, У. Уравнение 2.9 показывает, как вычислить выбо- рочный коэффициент корреляции г с помощью Z-стандартизированных величин и исхо- дя из значений (X, У). Здесь предполагается, что Zx = (х - X )/sx и Zy = (У - У )/sr . t.^zxzr_ £(х-х)(у-у) _______________________________ (2-9) r’ 7”Xx"-(sx)‘a/»£>'2-(si')' Для вычисления г с использованием этого уравнения необходима таблица значений, подобная табл. 2.7. Пример 2.10 При изучении зависимости между возрастом и доходом может представлять интерес значение коэффициента корреляции г для этих данных. Требуемые вычисления приведены в табл. 2.7. При подстановке в уравнение 2.9 значений из табл. 2.7 получим следующее. п^хг-^х^у 5(1606 100)-(133)(57 700) ^5 (3 643) - (1ЗЗ)2 ^5 (727 050 000) - (57 700)2 8030500-7 674100 356400 л ооос —------—--------— =----------= 0,8885 или 0,89 (22,93)(17 491,71) 401084,91
58 ГЛАВА 2 Таблица 2.7. Вычисление коэффициента корреляции между возрастом и доходом N/N У X У2 X1 XY 1 7 800 22 60 840 000 484 171 600 2 8 500 23 72 250 000 529 195 500 3 10 000 26 100 000 000 676 260 000 4 15 000 27 225 000 000 729 405 000 5 16 400 35 268 960 000 1 225 574 000 Всего 57 700 133 727 050 000 3 643 1 606 1000 Можно сделать вывод, что выборочный коэффициент корреляции подтверждает зависи- мость, наблюдаемую на рис. 2.12. Значение г положительно, что предполагает положитель- ную линейную зависимость между возрастом и доходом. Кроме того, на интервале от 0 до 1 значение г весьма велико (0,89), что указывает на существование сильной линейной зависи- мости. Остается открытым лишь один вопрос, являются ли объем выборки и определенный для нее коэффициент корреляции в совокупности достаточно сильными аргументами, чтобы сделать значимые заключения о всей генеральной совокупности, из которой были получены выборочные данные. Следует отметить два важных момента при обсуждении корреляции. Во-первых, не- обходимо всегда помнить о том, что измеряется корреляция, а не причинность. Исходя из высокого значения коэффициента корреляции, совершенно правильно будет сказать, что две исследуемые величины имеют значительную корреляцию. Однако вовсе не всегда в подобном случае будет правильно сказать, что одна величина является причиной изме- нений, происходящих с другой величиной. Этот вопрос подлежит оценке аналитиком. Например, возможно, что объемы продаж в сельских магазинах, расположенных в мало- заселенных местах, сильно коррелируют со средними ценами на ассортимент товаров в продовольственных магазинах Нью-Йорка. Вывод о наличии высокой корреляции впол- не может быть сделан после изучения большой выборки значений этих двух величин. Однако утверждение, что одна из этих величин является причиной изменения другой, скорее всего, окажется неверным. В действительности, весьма вероятно, что изменения обеих этих величин вызваны иным фактором, — например, общим состоянием экономи- ки страны. Политики, маркетологи и другие специалисты часто совершают ошибку, предполагая наличие причинной связи на основе только лишь наличия корреляции. Во-вторых, коэффициент корреляции характеризует линейную зависимость между двумя величинами. В случае, когда коэффициент корреляции мал, можно заключить, что между двумя величинами не существует сильной линейной зависимости. Тем не менее может оказаться, что они сильно взаимосвязаны некоторым нелинейным образом. По- этому малое значение коэффициента корреляции вовсе не означает, что данные две ве- личины не взаимосвязаны. Это означает лишь то, что линейной или прямой взаимосвязи между ними нет.
Обзор основных статистических понятий 59 Аппроксимация данных прямой линией Как уже упоминалось ранее, зачастую нас интересует задача, состоящая в проведении между точками (X, Y), представляющими данные, такой прямой, которая дает некоторое “хорошее приближение”. В последующих главах будет показано, что такая прямая впол- не может использоваться для прогнозирования представляющих интерес неизвестных значений Y. Линия, которая дает достаточно хорошее приближение к существующей зависимости, может быть нарисована вручную с помощью хорошо заточенного карандаша. Положение проводимой линии должно выбираться так, чтобы она проходила между точками, кото- рые находятся на диаграмме рассеяния. После проведения линии можно определить две ее важнейшие характеристики: наклон и точку пересечения с вертикальной осью (осью Y). Последнее значение называется Y-пересечением. Однако расположение аппроксимирую- щей прямой, построенной подобным образом, является чисто субъективным и вовсе не обязательно будет одинаково для любых двух аналитиков. Существует хорошо разработанная математическая процедура, широко используемая на практике для вычисления как /-пересечения, так и наклона прямой, аппроксими- рующей данные наилучшим образом. Наиболее общим подходом к определению такой наилучшим образом приближающейся прямой является метод наименьших квадратов. Данная процедура состоит в отыскании такой линии, для которой будет минимальной сумма квадратов расстояний между точками, изображающими данные, и самой линией. При этом расстояния измеряются в вертикальном направлении, т.е. в направлении оси Y. В методе наименьших квадратов значения наклона и /-пересечения прямой выбира- ются, исходя из условия минимизации суммы квадратов ошибок (расстояний) — СК.О, между значениями величины У и аппроксимирующей линией (значение уравнения 2.10 минимизируется). ско = £(у-у)2=£(у-л-ьЛ)2 <2-10> Здесь Y = b0 + btX — оценивающее величину Y значение на аппроксимирующей прямой. Выполнив необходимые преобразования (см. приложение А), можно получить специ- альные алгебраические выражения для искомых величин в методе наименьших квадра- тов. В частности, Ц(Х-Х)(Г-/)_^Х/-^Х^У Х(Х-Х)2 ’ иХх2-(Хх)2 ’ п п (2.Н) (2.12) где Ь} — наклон линии; Ьо — /-пересечение. Метод наименьших квадратов используется для получения уравнения прямой линии, минимизирующей сумму квадратов расстояний (измеренных в вертикальном направ- лении по оси У) между точками (X, У), изображающими данные, и этой прямой.
60 ГЛАВА 2 Пример 2.11 В примере 2.10 предполагалось наличие сильной линейной зависимости (г = 0,89) между воз- растом и размером дохода. Подставляя суммы, приведенные в табл. 2.7, в уравнения (2.11) и (2.12), получим уравнение прямой, которая наилучшим образом аппроксимирует точки, представляющие исходные данные. Ъ _5(1606100)-(133)(57 700) ' ИЕХМЕХ)2 5(3645)-(133)2 8 050 500 -7 674100 =---------------= 677,567 526 ^^-^^.-^5..7<133) ° и и 5 5 Уравнение прямой, наилучшим образом аппроксимирующей данные, имеет вид Y=- 6 48Э + 678У. Вид этой прямой показан на рис. 2.15. Regression Plot Рис. 2.15. График уравнения регрессии для данных из примера 2.11 (приложение Minitab) Уравнение, полученное в примере 2.11, а также уравнения для определения других ве- личин, которые возможно вычислить на основе выборочных данных, могут выгодно ис- пользоваться менеджерами для прогнозирования будущих значений важных величин, а также для оценки точности такого прогноза будущего. В следующей главе будет показа- но, как извлечь из выборочных данных максимальное количество информации, а затем использовать ее для создания прогнозов с помощью регрессионного анализа.
Обзор основных статистических понятий 61 Коэффициент наклона, получаемый с помощью метода наименьших квадратов, оп- ределенным образом связан с выборочным коэффициентом корреляции. ь . (2.13) Таким образом, коэффициенты bt и г пропорциональны друг другу и имеют один и тот же знак. Пример 2.12 Используя результаты, полученные в примерах 2.10 и 2.11, выполним вычисления, свидетель- ствующие о том, что коэффициент наклона, полученный с помощью метода наименьших квадратов, и коэффициент корреляции пропорциональны между собой и имеют один и тот же знак. . _ Шу-7)2 Г _ >/61192 000 _ 7 822,5 , , _ и, — —г==^====| ' "" г •“-/ - -—и,ооо2)-(0,оооЭ) — 0/7,0 ^£(Х-Х)2 710V 10,257 Пример 2.13 Предположим, руководство большой конструкторской фирмы заподозрило, что выполнен- ные ранее оценки стоимости конструкторских проектов не соответствуют действительной стоимости их реализации. В табл. 2.8 приведены данные о реальной стоимости нескольких последних проектов. Эти данные предназначены для проведения анализа существующей взаимосвязи между действительной стоимостью проекта и ее предварительной оценкой. По- скольку в распоряжении аналитиков компании имеется приложение Minitab, данные будут анализироваться с помощью этой программы. Таблица 2.8. Оценочная и действительная стоимости реализованных проектов Номер проекта Действительнее стоимость Оценка 1 0,918 0,575 2 7,214 6,127 3 14,577 11,215 4 30,028 28,195 5 38,173 30,100 6 15,320 21,091 7 14,837 8,659 8 51,284 40,630 9 34,100 37,800 10 2,003 1,803 11 20,099 18,048
62 ГЛАВА 2 Окончание табл. 2.8 Номер проекта Действительная стоимость Оценка 12 4,324 8,102 13 10,523 10,730 14 13,371 8,947 15 1,553 3,157 16 4,069 3,540 17 27,973 37,400 18 7,642 7,650 19 3,692 13,700 20 29,522 29,003 21 15,317 14,639 22 5,292 5,292 23 0,707 0,960 24 1,246 1,240 25 1,143 1,419 26 21,571 38,936 В листинге 2.1 показано, что корреляция между оценками стоимости проекта и действи- тельными конструкторскими расходами, исходя из выборочных данных, действительно суще- ствует и выборочный коэффициент корреляции равен г = 0,912. Руководство компании было удивлено тем, что корреляция так высока. Листинг 2.1. Результаты вычислений приложения Minitab для уравнения регрессии, рассматриваемого в примере 2.13 Correlations: Actual, Estimate Pearson correlation of Actual and Estimate = 0.912 Regression Analysis: Actual versus Estimate The regression equation is Actual = 0.68 + 0.922 Estimate Predictor Coef SE Coef T P Constant 0.683 1.691 0.40 0.690 Estimate 0.92230 0.08487 10.87 0.000 S = 5.697 R-Sq = 83.1% R-Sq(adj) = 82.4% Analysis of Variance
Обзор основных статистических понятий 63 Source DE SS MS F P Regression 1 3833.4 3833.4 118.09 0.000 Residual Error 24 779.1 32.5 Total 25 4612.5 На рис. 2.16 эти же данные представлены в виде диаграммы рассеяния и проведена пря- мая, которая наилучшим образом их аппроксимирует: Y = 0,68 + 0,922%. Теперь руководство фирмы может прогнозировать реальные конструкторские расходы (У) после того, как будет готова предварительная оценка стоимости проекта (%). Другие возможности применения рег- рессионного анализа будут исследованы в последующих главах. Regression Plot Рис. 2.16. График уравнения регрессии для данных из примера 2.13 (приложение Minitab) Оценка, имеют ди данные нормальное распределение Преобладающее большинство статистических методов строится на предположении, что набор данных имеет нормальное распределение. Это же замечание касается и некоторых приложений в прогнозировании. По этой причине статистиками было разработано не- сколько способов проверки справедливости предположения о том, что выборочные дан- ные принадлежат генеральной совокупности, имеющей нормальное распределение. Рассмотрим сведения о ежемесячной норме прибыли по фондовой бирже из каталога “S&P 500”, приведенные в табл. 2.9. Справедливо ли предположение, что эти данные имеют нормальное распределение?
64 ГЛАВА 2 Таблица 2.9. Ежемесячная норма прибыли по каталогу “Standard & Poors 500*' Год 1 2 3 4 Январь * 6,87 -7,13 4,07 Февраль 4,10 -2,94 0,85 6,51 Март -3,39 2,06 2,40 2,20 Апрель 0,94 4,89 -2,73 0,03 Май 0,32 3,45 8,80 3,79 Июнь 4,23 -0,80 -0,89 -4,91 Июль -0,54 8,47 -0,52 4,39 Август -3,94 1,54 -9,91 1,95 Сентябрь 3,90 -0,66 -5,25 -1,93 Октябрь 2,56 -2,55 -0,67 1,18 Ноябрь -1,91 1,64 5,82 -4,49 Декабрь 1,46 2,12 2,45 10,58 Прямая линия, изображенная на рис. 2.17, показывает, как будут выглядеть точки со- вершенной нормальной кривой при отображении в данном специальном масштабе.2 Как следует из рисунка, точки, представляющие приведенные в табл. 2.9 данные, расположе- ны очень близко к этой прямой, что предполагает хорошее приближение между данными из каталога “S&P 500” и нормальным распределением. В приложении Minitab можно выполнить различные статистические тесты проверки того, что данные имеют нормальное распределение. По умолчанию выполняется тест Андерсона-Дарлинга (Anderson-Darling), результаты которого приведены на рис. 2.17 в нижнем правом углу. Детали выполнения этого теста нас сейчас не интересуют. Отметим только, что p-значение равно 0,927. Нулевая гипотеза состоит в том, что выборка данных из каталога “S&P 500” получена из генеральной совокупности, имеющей нормальное распределение. Тогда p-значение, равное 0,927, указывает, что если мы отвергнем эту ги- потезу, то практически наверняка совершим ошибку. Следовательно, делаем вывод, что нулевая гипотеза не должна быть отвергнута, и можно обоснованно предположить, что данные имеют нормальное распределение. 2 Существуют и другие нормальные вероятностные диаграммы. Часто используется одна из таких диаграмм, называемая диаграммой стандартного нормального распределения. На всех этих диаграммах нормальность распределения подтверждается в том случае, если представляющие данные точки распо- лагаются близко к прямой.
Обзор основных статистических понятий 65 Rates Average: 1.03 StDev: 4.16342 N: 47 Anderson-Darling Normality Test A-Squared: 0.171 P-Value: 0.927 Puc. 2.17. Нормальная вероятностная диаграмма для ежемесячной нормы прибыли (приложение Minitab) Применение в менеджменте Большую часть понятий, описанных в этой главе, можно рассматривать как подготови- тельный материал, необходимый для понимания более сложного аппарата прогнозиро- вания, обсуждаемого в этой книге. Однако изложенные в этой главе концепции имеют важное значение и во многих чисто статистических приложениях. Хотя некоторые из этих приложений логически трудно отнести к понятию “прогнозирование”, тем не ме- нее, они предполагают использование полученных данных для нахождения ответов на вопросы о неопределенности бизнес-операций; в частности, о неопределенности их ис- хода в будущем. Описательные статистические процедуры, упомянутые ранее в этой главе, широко используются в тех случаях, когда требуется охарактеризовать большие массивы данных с целью их включения в процесс принятия решений. Практически невозможно предста- вить себе ни одну область, использующую численные измерения, в которой данные не обобщались бы тем или иным образом с целью получения описательных статистик. К ним относится, в частности, вычисление среднего значения, обычно понимаемого как среднее арифметическое или, реже, как среднеквадратическое отклонение. Методы ус- реднения наборов данных, понятные каждому, использовались в течение многих лет для определения важнейших характеристик массивов данных. Показатели дисперсии дан- ных, такие как среднеквадратическое отклонение, также все шире используются на прак- тике — по мере того, как эти методы находят все более широкое понимание.
66 ГЛАВА 2 Хорошими примерами теоретических распределений, которые представляют собой адекватные модели многих жизненных ситуаций, являются биномиальное и нормальное распределения. Именно поэтому они широко применяются во многих приложениях, включая прогнозирование. Например, с помощью биномиального распределения может быть получен прогноз количества дефектных изделий в партии. Оценка и проверка гипотез — это два краеугольных камня основных статистических приложений. Прогнозирование и оценка интересующих характеристик некоторой гене- ральной совокупности с использованием численных характеристик случайной выборки широко применяются, когда существующие ограничения во времени и средствах требуют принятия решения на основе некоторой пробной выборки данных. Исследование выбо- рочных характеристик особенно широко применяется при проведении аудита бухгалтер- ского учета. Метод проверки гипотез часто используется для сравнения параметров гене- ральной совокупности за прошедший период с настоящими значениями, для сравнения параметров двух различных отраслей промышленности или двух разных регионов, а так- же для обнаружения изменений в ключевых параметрах производственных процессов. Последнее применение, известное как производственный контроль, во многих случаях является ключевым звеном мероприятий, проводимых фирмой с целью повышения ка- чества продукции. Для изучения взаимосвязей между парами численных величин широко применяется корреляция. Как будет показано в последующих главах, эти взаимосвязи представляют значительный интерес при прогнозировании, поскольку процесс прогнозирования часто включает попытки найти величины, так или иначе связанные с прогнозируемой. В част- ности, методы регрессионного анализа и множественного регрессионного анализа осно- ваны на вычислении корреляции в процессе прогнозирования. Глоссарий Биномиальное распределение. Это распределение дискретной случайной величины, значения которой равны Xуспехам в п испытаниях результата биномиального эксперимента. Выборочное распределение. Это ряд всех возможных значений выборочной статистики, который может быть получен из генеральной совокупности для выборки данного объема. Диаграмма рассеяния. Это изображение данных точками на плоскости X-Y. Дискретная случайная величина. Эта величина может принимать значения только из предопределенного множества. В этом случае возможные исходы часто обозначаются целыми числами. Интервальная оценка. Это числовой интервал, в котором, вероятно, находится некоторый параметр генеральной совокупности. Коэффициент корреляции. Характеризует степень линейной зависимости между двумя величинами. Математическое ожидание. Математическим ожиданием случайной величины называется среднее значение, полученное в результате многих опытов или наблюдений. Метод наименьших квадратов. Этот метод используется для получения уравнения прямой, минимизирующей сумму квадратов расстояний между точками (X, К) и этой прямой, измеренных в вертикальном направлении (по оси У). Непрерывная случайная величина. Данная величина может принимать любое значение в пределах определенного интервала. В этом случае исходы численно представляются некоторым интервалом значений.
Обзор основных статистических понятий 67 Нормальное распределение. Диаграмма нормального распределения имеет форму колокола и определяется математическим ожиданием и среднеквадратическим отклонением. Степени свободы. Степени свободы для набора данных определяют количество единиц данных, независимых друг от друга, т.е. таких, которые могут являться носителями отдельных единиц информации. Точечная оценка. Это единичная оценка параметра генеральной совокупности. ^-значение. Под p-значением (иначе, вероятность значимости) в критерии проверки гипотезы понимается вероятность получить результат, не меньше значения выборочной статистики, вычисленного в предположении, что гипотеза Но справедлива. Это эквивалентно тому, что p-значение может рассматриваться как наименьшее а, для которого наблюдаемая статистика критерия влечет отказ от гипотезы Но. Основные формулы Выборочное среднее п Выборочное среднеквадратическое отклонение и и-1 Выборочная дисперсия Г(х-х)1 и-1 и-1 Математическое ожидание Е(Х) = L[Zx Р(Л)] Биномиальные вероятности wl /(н) (2.1) (2.2) (2.3) (2.4) (2.5) Z-стандартизированная величина, соответствующая случайной величине X Z= (2.6) ст Интервальная оценка для среднего генеральной совокупности (для выборки большого объема) (2.7)
68 ГЛАВА 2 (2.8) (2.9) (2.Ю) (2.11) (2.12) (2.13) t-тестовая статистика _ X -д Коэффициент корреляции г,1Ху. £(х-х)(у-у) Метод наименьших квадратов минимизирует это выражение для Ьо и Ьх ско = £(у-у)2=£(у-й0-^х)2 Коэффициент наклона прямой, которая задана уравнением регрессии _£(x-x)(r-F) __и£ху-£х£у У-пересечение прямой, которая задана уравнением регрессии п п Другая форма определения наклона прямой, заданной уравнением регрессии h &(?-?)' h = * г Упражнения 1. Владелец магазина современного офисного оборудования Дик Гувер (Dick Hoover) бес- покоится о том, что высокая стоимость доставки и неизбежные канцелярские расходы приводят к убыткам в случае малых заказов. Для того чтобы уменьшить эти статьи расхо- дов, он решил ввести систему скидок, поощряющих заказы более $40, с надеждой на то, что это заставит клиентов объединять несколько малых заказов в один большой. Ниже приведены данные, демонстрирующие суммы сделок для выборки из 28 клиентов. 10, 15,20,25, 15, 17,41,50,5,9, 12, 14,35, 18, 19, 17, 28, 29, 11, И, 43,54, 7,8, 16, 13,37, 18 а) вычислите среднее значение общей суммы заказа б) вычислите среднеквадратическое отклонение для общей суммы заказа в) вычислите дисперсию г) будет ли среднее значение распределения уменьшаться, увеличиваться или ос- танется неизменным в случае, если избранная политика успешна?
Обзор основных статистических понятий 69 д) будет ли среднеквадратическое отклонение распределения увеличиваться, умень- шаться или останется неизменным в случае, если избранная политика успешна? е) сделайте прогноз стоимости следующей сделки 2. Сэнди Джеймс (Sandy James) полагает, что цены на дома в последние несколько месяцев стабилизировались. Для того чтобы продемонстрировать это своему боссу, она выяснила в рекламных агентствах цены 12 продаваемых домов и вычислила среднее значение и среднеквадратическое отклонение этих цен. Чему равны эти два итоговых значения? 125 900 253 000 207 500 146 950 121 450 135 450 175 000 200 000 210 950 166 700 185 000 191 950 3. Необходимо сделать прогноз, увеличится ли среднее число рабочих дней, пропу- щенных сотрудниками фирмы за год. В прошлом году этот показатель был ра- вен 12,1. Для выборки из 100 работников было получено среднее значение 13,5 со среднеквадратическим отклонением в 1,7 дня. Проверьте, используя уровень значи- мости 0,05, увеличилось ли среднее генеральной совокупности или же значение 13,5 представляет собой ошибку выборки. 4. Авиакомпания New Horizons Airlines хочет сделать прогноз среднего числа свобод- ных мест в каждом рейсе в Германию на будущий год. Для того чтобы разработать этот прогноз, из файлов, содержащих информацию за прошедший год, была сделана случайная выборка информации о 49 рейсах и записано число свободных мест в ка- ждом из них. Выборочное среднее и среднеквадратическое отклонение составили 8,1 и 5,7 мест. Постройте точечную и интервальную оценки с 95%-ным уровнем значи- мости среднего значения свободных мест в каждом рейсе за прошедший год. Сде- лайте прогноз среднего числа свободных мест в каждом рейсе в Германию на буду- щий год. Оцените точность этого прогноза. 5. Основываясь на прошлом опыте, компания California Power сделала прогноз, что среднее потребление электричества в январе будущего года составит 700 кВт/ч на одного домовладельца. Из данных за январь была сделана простая случайная выбор- ка, охватывающая 50 домовладельцев, и вычислено среднее значение и среднеквад- ратическое отклонение, составившие 715 и 50 кВт/ч. Проверьте, исходя из уровня значимости 0,05, является ли прогноз компании California Power обоснованным. 6. Эксперты, проводившие перепись населения, установили, что за последние не- сколько лет средний размер семьи уменьшился. Десять лет назад среднее количество членов семьи составляло 2,9. Рассмотрите генеральную совокупность, состоящую из данных о 200 семьях, представленную в табл. 2.10. Сделайте случайную выборку из 30 элементов и проверьте гипотезу о том, что среднее значение количества членов семьи за последние 10 лет не изменилось. Таблица 2.10. Сведения о составе 200 семей Л. ' А - . < (1) 3 (35) 1 (69) 2 (Ю2) 1 (135) 5 (168) 6 (2) 2 (36) 2 (70) 4 (ЮЗ) 2 (136) 2 (169) 3 (3) 7 (37) 4 (71) 3 (Ю4) 5 (137) 1 (170) 2 (4) 3 (38) 1 (72) 7 (Ю5) 3 (138) 4 (171) 3 (5) 4 (39) 4 (73) 2 (Ю6) 2 (139) 2 (172) 4
70 ГЛАВА 2 Окончание табл. 2.10 (6) 2 (40) 2 (74) 6 (107) 1 (140) 4 (173) 2 (7) 3 (41) 1 (75) 2 (108) 2 (141) 1 (174) 2 (8) 1 (42) 3 (76) 7 (109) 2 (142) 2 (175) 1 (9) 5 (43) 5 (77) 3 (ИО) 1 (143) 4 (176) 5 (Ю) 3 (44) 2 (78) 6 (111) 4 (144) 1 (177) 3 (И) 2 (45) 1 (79) 4 (И2) 1 (145) 2 (178) 2 (12) 3 (46) 4 (80) 2 (ИЗ) 1 (146) 2 (179) 4 (13) 4 (47) 3 (81) 3 (И4) 2 (147) 5 (180) 3 (14) 1 (48) 5 (82) 5 (И5) 2 (148) 3 (181) 5 (15) 2 (49) 2 (83) 2 (И6) 1 (149) 1 (182) 3 (16) 2 (50) 4 (84) 1 (И7) 4 (150) 2 (183) 1 (17) 4 (51) 1 (85) 3 (118) 2 (151) 6 (184) 2 (18) 4 (52) 6 (86) 3 (И9) 1 (152) 2 (185) 4 (19) 3 (53) 2 (87) 2 (120) 3 (153) 5 (186) 3 (20) 2 (54) 5 (88) 4 (121) 5 (154) 1 (187) 2 (21) 1 (55) 4 (89) 1 (122) 1 (155) 2 (188) 5 (22) 5 (56) 1 (90) 2 (123) 2 (156) 1 (189) 3 (23) 2 (57) 2 (91) 3 (124) 3 (157) 4 (190) 4 (24) 1 (58) 1 (92) 3 (125) 4 (158) 2 (191) 3 (25) 4 (59) 5 (93) 2 (126) 3 (159) 2 (192) 2 (26) 3 (60) 2 (94) 4 (127) 2 (160) 7 (193) 3 (27) 2 (61) 7 (95) 1 (128) 1 (161) 4 (194) 2 (28) 3 (62) 1 (96) 2 (129) 6 (162) 2 (195) 5 (29) 6 (63) 2 (97) 4 (130) 1 (163) 1 (196) 3 (30) 1 (64) 6 (98) 3 (131) 2 (164) 7 (197) 3 (31) 2 (65) 4 (99) 2 (132) 5 (165) 2 (198) 2 (32) 4 (66) 1 (100) 6 (133) 2 (166) 7 (199) 5 (33) 3 (67) 2 (101) 4 (134) 1 (167) 4 (200) 1 (34) 2 (68) 1 7. Управляющий службой ремонта в компании Atlanta Transit Authority Джеймс Доб- бинс (James Dobbins) хотел бы определить, существует ли положительная взаимо- связь между ежегодными расходами на техническое обслуживание автобуса и его “возрастом”. Если такая взаимосвязь существует, Джеймс полагает, что он сделает доброе дело, заранее оценив сумму годовых расходов на техническое обслуживание автобусов. Он собрал данные, приведенные в табл. 2.11.
Обзор основных статистических понятий 71 Таблица 2.11. Сведения о годовых расходах на техническое обслуживание Номер автобуса Расходы на содержание (долл.) Y Возраст (годы) X 1 859 8 2 682 5 3 471 3 4 708 9 5 1094 11 6 224 2 7 320 1 8 651 8 9 1049 12 а) нарисуйте диаграмму рассеяния для этих данных б) какой вид взаимосвязи существует между этими двумя величинами? в) вычислите коэффициент корреляции 8. Анна Шихен (Anna Sheehan) — менеджер сети супермаркетов компании Spandwise. Она хотела бы иметь возможность прогнозировать продажу книг (еженедельную), в за- висимости от объема занимаемого ими демонстрационного пространства (в футах). Анна собрала данные для выборки, составляющей 11 недель, которые приведены в табл. 2.12. Таблица 2.12. Сведения о продаже книг Объем демонстрационного пространства, X Неделя Количество проданных книг, Y 1 275 6,8 2 142 3,3 3 168 4,1 4 197 4,2 5 215 4,8 6 188 3,9 7 241 4,9 8 295 7,7 9 125 3,1 10 266 5,9 11 200 5,0 а) нарисуйте для этих данных диаграмму рассеяния б) каков тип взаимосвязи между этими двумя величинами?
72 ГЛАВА 2 в) вычислите коэффициент корреляции г) нарисуйте аппроксимирующую прямую, используя метод наименьших квадра- тов для вычисления ее наклона и точки У-пересечения. Используйте получен- ное уравнение для прогнозирования числа проданных книг, если демонстраци- онное пространство будет иметь площадь 5,2 фута (т.е. Х= 5,2) 9. Рассмотрите генеральную совокупность из 200 еженедельных наблюдений, пред- ставленных в табл. 2.13. Здесь независимая величинах— это средняя недельная температура (по шкале Фаренгейта) в городе Спокан, шт. Вашингтон. Зависимая ве- личина У — это число акций компании Sunshine Mining Stock, проданных на бирже города Спокан заданную неделю. Выберите случайным образом данные за 16 недель и вычислите для них коэффициент корреляции. (Совет: убедитесь, что выборка по- лучена из генеральной совокупности действительно случайным образом.) Затем с помощью метода наименьших квадратов найдите линию, наилучшим образом ап- проксимирующую данные, и дайте прогноз значения У для средней недельной тем- пературы, равной 63 градуса по Фаренгейту. Таблица 2.13. Данные о средней недельной температуре в г. Спокан (\) и числе проданных акций компании Sunshine Mining Stock (i) Неделя У X Неделя У X Неделя У X Неделя У X (1) 50 37 (51) 54 86 (Ю1) 22 43 (151) 79 85 (2) 90 77 (52) 76 48 (Ю2) 32 5 (152) 79 27 (3) 46 55 (53) 55 48 (ЮЗ) 24 13 (153) 48 61 (4) 47 27 (54) 12 15 (Ю4) 63 3 (154) 5 7 (5) 12 49 (55) 5 70 (Ю5) 16 58 (155) 24 79 (6) 23 23 (56) 2 9 (Ю6) 4 13 (156) 47 49 (7) 65 18 (57) 77 52 (Ю7) 79 18 (157) 65 71 (8) 37 1 (58) 6 71 (Ю8) 5 5 (158) 56 27 (9) 87 41 (59) 67 38 (Ю9) 59 26 (159) 52 15 (Ю) 83 73 (60) 30 69 (ИО) 99 9 (160) 17 88 (И) 87 61 (61) 3 13 (И1) 76 96 (161) 45 38 (12) 39 85 (62) 6 63 (И2) 15 94 (162) 45 31 (13) 28 16 (63) 70 65 (ИЗ) 10 30 (163) 90 35 (14) 97 46 (64) 33 87 (И4) 20 41 (164) 69 78 (15) 69 88 (65) 13 18 (И5) 37 1 (165) 62 93 (16) 87 87 (66) 10 4 (И6) 56 27 (166) 0 51 (17) 15 82 (67) 21 29 (И7) 6 73 (167) 8 68 (18) 52 56 (68) 56 21 (И8) 86 19 (168) 47 30 (19) 15 22 (69) 74 9 (И9) 27 94 (169) 7 81 (20) 85 49 (70) 47 8 (120) 67 5 (170) 48 30 (21) 41 44 (71) 34 18 (121) 22 31 (171) 59 46
Обзор основных статистических понятий 73 Окончание табл. 213 (22) 82 33 (72) 38 84 (122) 32 13 (172) 76 99 (23) 98 77 (73) 75 64 (123) 90 11 (173) 54 98 (24) 99 87 (74) 0 81 (124) 88 50 (174) 95 11 (25) 23 54 (75) 51 98 (125) 35 40 (175) 7 6 (26) 77 8 (76) 47 55 (126) 57 80 (176) 24 83 (27) 42 64 (77) 63 40 (127) 73 44 (177) 55 49 (28) 60 24 (78) 7 14 (128) 13 63 (178) 41 39 (29) 22 29 (79) 6 11 (129) 18 74 (179) 14 16 (30) 91 40 (80) 68 42 (130) 70 40 (180) 24 13 (31) 68 35 (81) 72 43 (131) 9 53 (181) 36 31 (32) 36 37 (82) 95 73 (132) 93 79 (182) 62 44 (33) 22 28 (83) 82 45 (133) 41 9 (183) 77 11 (34) 92 56 (84) 91 16 (134) 17 52 (184) 32 60 (35) 34 33 (85) 83 21 (135) 10 82 (185) 12 82 (36) 34 82 (86) 27 85 (136) 69 37 (186) 85 7 (37) 63 89 (87) 13 37 (137) 5 57 (187) 90 68 (38) 30 78 (88) 6 89 (138) 18 62 (188) 78 10 (39) 31 24 (89) 76 76 (139) 88 21 (189) 60 27 (40) 84 53 (90) 55 71 (140) 99 94 (190) 96 90 (41) 56 61 (91) 13 53 (141) 86 99 (191) 51 6 (42) 48 18 (92) 50 13 (142) 95 45 (192) 9 62 (43) 0 45 (93) 60 12 (143) 78 19 (193) 93 78 (44) 58 4 (94) 61 30 (144) 3 76 (194) 61 22 (45) 27 23 (95) 73 57 (145) 38 81 (195) 5 99 (46) 78 68 (96) 20 66 (146) 57 95 (196) 88 51 (47) 78 79 (97) 36 27 (147) 77 30 (197) 45 44 (48) 72 66 (98) 85 41 (148) 25 59 (198) 34 86 (49) 21 80 (99) 49 20 (149) 99 93 (199) 28 47 (50) 73 99 (ЮО) 83 66 (150) 9 28 (200) 44 49 10. Компании Abbot & Sons необходим прогноз среднего возраста ее работников с по- часовой оплатой труда. Случайная выборка данных из персональных файлов дала приведенные ниже результаты. Получите точечную оценку и доверительный интер- вал с 98%-ным уровнем значимости (интервальную оценку) для среднего возраста всех работников. Х=45,2 5=10,3 «=175
74 ГЛАВА 2 /АЧ /Ж /Ж /Ж /Ж /Ж /Ж /Ж /Ж W w w w w Mr/ w w vir/ MF/ w w w Задание 2.1. Компания Alcam Electronics Джеррик Тилби (Jarric Tilby) недавно получил степень бакалавра в области бизнес- администирирования в маленьком университете и приступил к работе в компании Alcam Electronics, производящей различные детали для электронной промышленности. После того как он проработал несколько недель, его пригласили к Лэбрем Мак-Кеннах (Labrum McKennah), владелице и менеджеру компании Alcam. Мак-Кеннах попросила Джеррика исследовать вопрос, касающийся транзисторов определенного вида, производимых фир- мой Alcam. Причиной послужило то, что большая телевизионная компания заинтересо- валась закупкой значительной партии транзисторов этого вида. Мак-Кеннах хотела получить прогноз среднего времени службы транзисторов, так как это очень интересовало телевизионную компанию. Транзисторы, имеющиеся на складе в настоящий момент, могли бы использоваться как представители той продукции, которая будет выпущена по контракту с телевизионной компанией. Джеррик решил сделать случайную выборку подлежащих изучению транзисторов и составил план выполнения данного задания. На складе он пронумеровал все упа- ковки, содержащие требуемые транзисторы, выбрал случайным образом несколько номеров, после чего транзисторы из отобранных упаковок были включены в состав выборки. Поскольку каждая упаковка содержала около 20 транзисторов и он слу- чайным образом выбрал 10 упаковок, это дало ему окончательный объем выборки в 205 транзисторов. Так как было выбрано 10 упаковок из 55, имевшихся на складе, Джеррик полагал, что им сделана достаточно представительная выборка, позволяю- щая сделать обоснованные выводы как обо всей генеральной совокупности транзи- сторов, уже имеющихся на складе, так и о тех транзисторах, которые будут выпуще- ны по той же технологии позднее. Затем Джеррик проанализировал вопрос о среднем времени жизни транзисторов. Так как время жизни транзистора может составлять несколько лет, он понял, что ни одна из единиц в выборке не может быть корректно протестирована в отношении вре- мени ее жизни. Поэтому он решил связаться с несколькими пользователями этих тран- зисторов и выяснить, имеются ли у них какие-либо сведения о времени их жизни. К счастью, он обнаружил три компании, которые уже использовали эти транзисторы ра- нее и имеют некоторые сведения о времени их жизни. В целом ему были предоставле- ны данные о времени выхода из строя 38 транзисторов. Поскольку процесс их произ- водства был таким же, как и в настоящее время, он заключил, что результаты обследо- вания этой выборки можно перенести на те изделия, которые хранятся на складе и бу- дут произведены впоследствии.
Обзор основных статистических понятий 75 Выполнив необходимые вычисления, Джеррик получил следующие результаты. w = 38 Среднее время жизни X = 4 805 часов Среднеквадратическое отклонение времени жизни S = 675 часов Обнаружив, что среднее время жизни изделия составляет только 4 805 часов, Джеррик был озадачен, так как знал, что другой поставщик электронных компонентов гарантиро- вал среднее время жизни подобных транзисторов 5 000 часов. Хотя его выборочное сред- нее было несколько ниже 5 000 часов, он понял, что объем выборки был слишком мал (равен 38 единицам), поэтому полученные результаты не могут служить доказательством того, что качество продукции компании Alcam ниже, чем у другого поставщика. Он ре- шил проверить гипотезу, что среднее время жизни всех транзисторов составляет 5 000 ча- сов, при альтернативной гипотезе, что оно оказывается меньше этого значения. Джеррик выполнил следующие вычисления, используя значения а = 0,01. Но: |Л = 5 000 Н : Ц < 5 000 Если S' = 675, тогда получим следующее. Критическая точка правила принятия решения. 5 000-2,33-^Д = 4744,9 V38 Правило принятия решения. Если X < 4 744,9 , то отвергаем Н(]. Поскольку выборочное среднее (4 805) не было ниже критической точки правила принятия решения для отказа от гипотезы Нй (4 744,9), Джеррик не отверг гипотезу, что среднее время жизни всех деталей равнялось 5 000 часов. Он знал, что это будет хорошей новостью для Лэбрем Мак-Кеннах, и включил краткое описание своих исследований в окончательный отчет. Несколько дней спустя он представил ей письменный и словесный отчеты. Мак-Кеннах пригласила его в свой кабинет, чтобы похвалить за хорошую работу и в то же время выразить недоумение по поводу его находок. Она сказала: “Я обеспокое- на очень низким уровнем значимости вашего критерия. Вы учитываете только 1% случа- ев отказа от нулевой гипотезы, если она верна. Это кажется мне слишком скромным. Я опасаюсь того, что мы заключим контракт, а затем обнаружим, что наш качественный уровень не соответствует требуемым 5 000 часам, как определено в контракте”. Вопрос Как вы отреагируете на комментарий, сделанный Лэбрем Мак-Кеннах? Задание 2.2. “Mr. Tux” Джон Мосби является владельцем нескольких пунктов проката, функционирующих под вывеской “Mr. Tux”. Он заинтересован в составлении прогноза объемов его ежемесячных доходов от проката (см. задание 1.1 в главе 1). На первом этапе Джон собрал данные о ежемесячных доходах от проката (1989-1996 гг.), которые приведены в табл. 2.14.
76 ГЛАВА 2 Таблица 2.14. Данные о ежемесячных доходах от проката компании “Mr. Tux” 1989 1990 1991 1992 1993 1994 1995 1996 Январь 6,028 16,850 15,395 27,'773 31,416 51,604 58,843 71,043 Февраль 5,927 12,753 30,826 36,653 48,341 80,366 82,386 152,930 Март 10,515 26,901 25,589 51,157 85,651 208,938 224,803 205,559 Апрель 32,276 61,494 103,184 217,509 242,673 263,830 354,301 409,567 Май 51,920 147,862 197,608 206,229 289,554 252,216 328,263 394,747 Июнь 31,294 57,990 68,600 110,081 164,373 219,556 313,647 272,874 Июль 23,573 51,318 39,909 102,893 160,608 149,082 214,561 230,303 Август 36,465 53,599 91,368 128,857 176,096 213,888 337,192 375,402 Сентябрь 18,959 23,038 58,781 104,776 142,363 178,947 183,482 195,409 Октябрь 13,918 41,396 59,679 111,036 114,907 133,650 144,618 173,518 Ноябрь 17,987 19,330 33,443 63,701 113,552 116,946 139,750 181,702 Декабрь 15,294 22,707 53,719 82,657 127,042 164,154 184,546 258,713 Затем Джон вычислил среднее значение ежемесячных доходов от проката для каждого года (т.е. он сложил 12 значений для 1989 года и разделил полученную сумму на 12). Джон также вычислил среднеквадратические отклонения для 12 ежемесячных значений по ка- ждому году. Все полученные им результаты приведены в табл. 2.15. Кроме того, он решил построить диаграмму временного ряда, которая приведена на рис. 2.18. Значения средних ежемесячных доходов откладывались по оси У, а время — по оси X. Таблица 2.15. Средний ежемесячный доход от проката в компании “Mr. Tux’' Год Среднее значение Среднеквадратическое отклонение 1989 22 013 13 165 1990 44 603 35 290 1991 64 841 47 217 1992 103 610 57 197 1993 141 381 70 625 1994 169 432 63 376 1995 213 866 96 387 1996 247 231 99 153
Обзор основных статистических понятий 11 $400,000 $350,000 $300,000 $250,000 $200,000 $150,000 $100,000 $50,000 _-х* „х' Xх X' 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2001 Рис. 2.18. Средний ежемесячный объем доходов компании “Mr. Тих” Вопросы 1. Какие идеи, касающиеся прогнозирования, приходят вам на ум при рассмотрении сведений об объемах средних ежемесячных доходов от проката? 2. Предположим, что Джон решил нарисовать от руки прямую на своей диаграмме рас- сеяния так, чтобы она давала “наилучшее приближение”, а затем продолжить эту пря- мую на будущее, используя ее точки как ежемесячные прогнозы. Как вы думаете, на- сколько точным будет его прогноз? При ответе на этот вопрос используйте значения среднеквадратических отклонений, вычисленные Джоном. Будете ли вы, основываясь на вашем анализе, советовать Джону продолжать поиски более точного метода прогно- зирования? У Джона на его компьютере есть последняя версия приложения Minitab. Думаете ли вы, что он должен использовать регрессионный анализ, реализованный в Minitab, для получения аппроксимирующей прямой по методу наименьших квадратов? Если да, то какой показатель следует использовать как переменную X для получения прогноза будущих ежемесячных продаж (К)? Задание 2.3. Компания Alomega Food Stores В примере 1.1 описано, что Джулия Рас, президент компании Alomega Food Stores, подго- товила данные об операциях своей компании. Были собраны данные о продажах за не- сколько месяцев, а также было определено несколько возможных независимых перемен- ных (вспомните описание данной ситуации в примере 1.1). Пока люди, анализирующие ситуацию, работали с данными с целью составления прогноза ежемесячных продаж, она с нетерпением ожидала окончательных результатов и сведений о том, какая из независи- мых переменных является наилучшей для целей прогнозирования.
78 ГЛАВА 2 Поскольку на ее настольном компьютере была установлена статистическая програм- ма, Джулия решила поработать с данными самостоятельно. Прежде всего, она определи- ла коэффициенты корреляции между объемом ежемесячных продаж и несколькими по- тенциально независимыми переменными. В особенности она интересовалась корреляци- ей между объемом продаж и ежемесячными расходами на рекламу в газетах, на рекламу на телевидении, на рекламу в газетах с запаздыванием в один и два месяца, на телевиде- нии с запаздыванием в один и два месяца, а также с затратами на рекламу у основных конкурентов. Расчетные коэффициенты корреляции г были следующими. Ежемесячные затраты на рекламу в газете 0,45 Ежемесячные затраты на рекламу на ТВ 0,60 Реклама в газете с запаздыванием в один месяц -0,32 Реклама в газете с запаздыванием в два месяца 0,21 Реклама на ТВ с запаздыванием в один месяц -0,06 Реклама на ТВ с запаздыванием в два месяца 0,03 Затраты на рекламу у конкурентов -0,18 Джулия не была удивлена тем, что самая высокая корреляция наблюдалась между ежемесячным объемом продаж и затратами на рекламу по телевидению (г = 0,60); она да- же надеялась на более сильную корреляцию. Она решила использовать регрессионную технику для получения выборочного уравнения регрессии, используя объем продаж как зависимую переменную, а ежемесячные расходы на рекламу по телевидению — как неза- висимую переменную. Результаты были следующими. Объем продаж = 341 663 + 0,336 (ежемесячные расходы на рекламу по телевидению) г-квадрат = 0,36 (36%) р-значение = 0,000 Джулия вынуждена была обратиться к своему учебнику по статистике, который она хранила со времен обучения в колледже, чтобы найти там определение величин “г- квадрат” и “р-значение”, приведенных в распечатке. Прочитав нужный раздел, она вспомнила, что показатель “r-квадрат” (который представляет собой квадрат коэффици- ента корреляции г) характеризует процент от общей изменчивости объема продаж, объ- ясняемый изменениями в ежемесячных затратах на телевизионную рекламу (это будет объяснено в главе 6). Кроме того, ^-значение свидетельствует, что коэффициент наклона весьма велик (0,336). В этом случае гипотеза о том, что он равен нулю для генеральной совокупности, из которой была сделана выборка, может быть отвергнута с практически отсутствующим риском сделать ошибку. В результате Джулия сделала вывод, что полученное ею уравнение регрессии является представительным и может быть использовано для прогнозирования ежемесячных объе- мов продаж при условии, что сумма выделенных на телевизионную рекламу средств из- вестна. Поскольку расходы на телевизионную рекламу находятся под контролем компа- нии, она пришла к заключению, что у нее есть хороший способ прогнозирования буду- щих объемов продаж. Она рассказала о полученных ею результатах Роджеру Джексону (Roger Jackson), руководителю отдела по обработке данных. Он ответил: “Да, мы тоже выявили эту зависимость. Однако дополнительно было установлено, что только около трети уровня изменчивости в объемах продаж объясняется рекламой на ТВ — точнее, 36%. Мы считаем, что этот процент недостаточно высок, и стараемся подобрать несколько переменных в различных сочетаниях для того, чтобы попытаться получить значение “/--квадрат” как можно выше. К тому же мы полагаем, что должны существовать и другие методы, которые будут работать лучше, чем регрессионный анализ.”
Обзор основных статистических понятий 19 Вопросы 1. Что вы думаете об анализе, выполненном Джулией Рас? 2. Определите остатки (ошибки), наблюдаемые между действительными объемами продаж и значениями, прогнозируемыми с помощью прямой линии. Как можно оп- ределить, является ли выбранное Джулией представление с помощью прямой линии адекватным? Применение Minitab Задание. В примере 2.1 набор возрастов анализировался с использованием описательных статистик. Решение в Minitab 1. Введите имя переменной Ages под заголовком С1. 2. Введите данные в столбец С1. 3. На панели меню выберите команду. Stat1*Basic Statistics^Display Descriptive Statistics 4. На экране раскроется диалоговое окно Display Descriptive Statistics, представленное на рис. 2.19. Рис. 2.19. Диалоговое окно Display Descrip- tive Statistics приложения Minitab а) в поле Variables выберите значение Ages (С1) б) щелкните на кнопке Graphs, и на экране раскроется диалоговое окно Display Descriptive Statistics-Graphs в) выберите в списке значение Graphical Summary и щелкните на кнопке ОК г) щелкните на кнопке ОК в диалоговом окне Display Descriptive Statistics, и на экран будут выведены результаты расчета, изображенные на рис. 2.20
80 ГЛАВА 2 Descriptive Statistics 95% Confidence interval for Median Variable: Ages Anderson-Darling Normality Test A-Squared 0.168 P-Value 0.910 Mean 40.2000 StDev 12.2002 Variance 148.844 Skewness 0.203000 Kurtosis -8.2E-01 N 10 Minimum 1st Quartile Median 3rd Quartile Maximum 23.0000 30.2500 40.0000 51.2500 60.0000 95% Confidence Interval for Mu 31.4725 48.9275 95% Confidence Interval for Sigma 8.3917 22.2728 95% Confidence Interval for Median 29.6036 51.7117 Puc. 2.20. Диалоговое окно приложения Minitab с результатами расчета описательных статистик д) для распечатки полученных графиков выберите на панели меню команду: File^Print Graph е) для того чтобы распечатать окно, содержащее результаты расчета описательных статистик, выберите на панели меню команду: File1* Print Session Window Результаты показаны на рис 2.1. 5. Приведенные ниже команды предназначены для получения точечной диаграммы, диаграммы-ящика и гистограммы. Graphs Dotplot Graphs Boxplot Graphs Histograph Инструкции о том, как использовать приложение Minitab для проведения корреля- ционного и регрессионного анализа, представлены в конце главы 6.
Обзор основных статистических понятий 81 Применение Excel Задание. В упр. 2.1 владелец магазина современного офисного оборудования Дик Гувер беспокоился о том, что высокая стоимость доставки и необходимые канцелярские расхо- ды приводят к убыткам в случае малых заказов. Решение в Excel 1. Запустите на выполнение программу Excel, и на экран будет выведена пустая элек- тронная таблица, изображенная на рис. 1.2 в конце главы 1. Переместите курсор так, чтобы выделенной оказалась ячейка в верхнем левом углу таблицы, т.е. ячейка А1. 2. Введите в нее первое значение, 10, и с помощью клавиши <ТаЬ> переместитесь в следующую ячейку. Введите следующее значение из представленного в упражнении набора данных и т.д. 3. После того как все 28 значений данных будут помещены в последовательные ячейки столбца А, переместите курсор в ту ячейку, в которой требуется получить результат первых вычислений, — ячейку АЗО. 4. Среднее значение данных, помещенных в ячейки А1-А28, вычисляется с помощью формулы, которую следует ввести в ячейку АЗО. Ввод любой формулы в ячейку на- чинается с символа Требуемая в нашем случае формула имеет вид: =Average(A1 ;А28). Обратите внимание на то, что номер ячейки АЗО показан в поле, расположенном слева от строки формул, а текст самой формулы =Average(A1 ;А28) — в поле справа над таблицей. 5. Тот же подход используется и для вычисления среднеквадратического отклонения. В этом случае формула =Stdev(A1 ;А28) вводится в ячейку А31. Результаты вычисле- ний показаны на рис. 2.21. Рис. 2.21. Таблица приложения Excel с результатами расчетов из упр. 2.1.
82 ГЛАВА 2 Среднее значение и среднеквадратическое отклонение могут быть также вычис- лены с использованием команды вставки функции или инструмента Data Analysis. Эти подходы будут рассматриваться нами в последующих главах. Инструкции о том, как использовать приложение Excel для выполнения корре- ляционного и регрессионного анализов, приведены в конце главы 6. Если вы намерены использовать программы Excel и Minitab в своей работе, то для быстрого и успешного освоения этих мощных инструментов следует как можно чаще применять их к различным множествам данных и пытаться выполнить с их по- мощью разнообразные статистические вычисления. Умение, которое вы при этом приобретете, окажется очень полезным при дальнейшем обсуждении процедур прогнозирования в данной книге. Рекомендуемая литература Berenson M.L., Levine D.M. Basic Business Statistics: Concepts and Applications, 7th ed. Upper Saddle River, NJ: Prentice-Hall, 1999. Cryer J.D., Miller R.B. Statistics for Business: Data Analysis and Modeling, 2nd ed. Belmont ,CA: Duxbury Press, 1994. Groebner D., Shannon P. Business Statistics. A Decision-Making Approach, 2nd ed. Columbus, OH: Charles E. Merrill Publishing Company, 1985. Hanke J., Reitsch A. Understanding Business Statistics, 2nd ed. Homewood, IL: Richard D. Irwin, Inc., 1994. Johnson R.A., Wichem D.W. Business Statistics: Decision Making with Data. New York: John Wiley & Sons, 1997. Olson C., Picconi M. Statistics for Business Decision Making. Glenview, IL: Scott, Foresman and Company, 1983.
гп1д W/W/WA1 F/W/W/W/ Исследование наборов данных и выбор метода прогнозирования Одним из наиболее сложных этапов прогнозирования, который отнимает много вре- мени и сил, является сбор обоснованных и достоверных данных. Персонал, занимаю- щийся обработкой данных, хорошо понимает смысл выражения “garbage in, garbage out” (“мусор на входе — мусор на выходе”). Это выражение вполне применимо и к прогнози- рованию. Точность любого прогноза ограничивается достоверностью тех данных, на ко- торых он построен. Наиболее сложные модели прогнозирования не сработают, если они будут применяться к недостоверным данным. Распространение компьютерных технологий способствовало накоплению невероят- ного количества данных практически по всем мыслимым показателям. Самая сложная задача из числа тех, с которыми сталкивается большинство создателей прогнозов, заклю- чается в том, как отыскать имеющие отношение к поставленной задаче данные, которые позволят принять обоснованное решение по исследуемой проблеме. Для оценки, будут ли имеющиеся данные полезны для решения поставленной задачи, можно использовать следующие четыре критерия. 1. Данные должны быть достоверными и точными. Необходимо позаботиться о том, чтобы данные были получены из достоверного источника, и обратить внимание на то, чтобы они имели требуемую точность. 2. Данные должны быть значимыми. Данные должны отражать те обстоятельства, для анализа которых они будут использоваться. 3. Данные должны быть согласованными. Если обстоятельства, в отношении которых данные собирались, изменились, необходимо внести корректировки, направлен- ные на сохранение согласованности новых данных с исторически сложившейся структурой. Это может оказаться серьезной проблемой, например, в тех случаях, когда правительственные учреждения изменяют состав “потребительской корзи- ны”, используемой для оценки жизненного уровня населения. Скажем, тридцать лет назад персональные компьютеры не входили в ассортимент товаров, приобре- таемых средними потребителями; а теперь они входят в него.
84 ГЛАВА 3 4. Данные должны собираться через определенные интервалы времени. Данные, соб- ранные и подытоженные в строгом хронологическом порядке, представляют наи- больший интерес для целей прогнозирования. Кроме того, данных может быть либо слишком мало (недостаточно предыстории, на которой базировались бы бу- дущие исходы), либо слишком много (данные периодов отдаленного прошлого, не имеющие отношения к поставленной задаче). Вообще говоря, для создания прогнозов представляют интерес два типа данных. К первому типу относят данные, собранные в фиксированный момент времени. Это может быть конкретный час, день, неделя, месяц или квартал. Второй тип представляют данные наблюдений, произведенных с течением времени. Если все наблюдения выполнены в один и тот же период времени, мы называем их кросс-секционными. Задача состоит в изу- чении таких данных с последующей экстраполяцией или последующим распространени- ем полученных взаимоотношений на большую генеральную совокупность. Одним из примеров может быть получение случайной выборки персональных файлов для изучения данных о работниках компании. Другой пример — набор данных о сроке эксплуатации (Age) девяти автобусов компании Spokane Transit Authority и текущих расходах на их со- держание (Cost). Диаграмма рассеяния, представленная на рис. 3.1, помогает получить визуальное представление о существующей в этом случае взаимосвязи и позволяет соста- вить прогноз в отношении годового бюджета на содержание автобусов. 1,100 - 1,000 - 900 - 800 - и 700 - о 600 - 500 - 400 - 300 - 200 - Cost and Аде for Nine Spokane Transit Buses Аде Рис. 3.1. Диаграмма рассеяния для данных о сроке эксплуатации и рас- ходах на содержание автобусов в компании Spokane Transit Buses (приложение Minitab) 10 5 0 Кросс-секционные данные представляют собой наблюдения, собранные в фиксирован- ный момент времени.
Исследование наборов данных и выбор метода прогнозирования 85 Любая величина, которая представлена набором данных наблюдений, собранных или зафиксированных через последовательные промежутки времени, называется временным рядом. Ежемесячный объем производства пива в США — пример временного ряда. Временной ряд состоит из данных, которые были собраны или зафиксированы через последовательные промежутки времени. Изучение наборов данных, являющихся временными рядами Одним из наиболее важных аспектов в выборе соответствующего метода прогнозирова- ния для временного ряда данных является рассмотрение их соответствия различным мо- делям поведения данных в наборе. Существует четыре основных типа моделей данных: горизонтальная, тренд, сезонная и циклическая. Говорят, что наблюдается горизонтальная модель поведения данных, если наблюдения флуктуируют относительно постоянного уровня или среднего значения. Ежемесячные про- дажи некоторого продукта, которые не возрастают и не убывают значительно с течением времени, могут рассматриваться как хороший пример данных горизонтальной модели. Если наблюдаемые данные возрастают или убывают в течение некоторого, достаточно большого промежутка времени, то говорят, что в них присутствует модель поведения, назы- ваемая трендом. На рис. 3.2 представлен временной ряд с интервалом значений в один год (например, расходы на содержание дома), обладающий долгосрочным ростом (трендом). Для иллюстрации этого роста на рисунке изображена прямая линейного тренда. Хотя сум- ма расходов на содержание дома не увеличивается из года в год, основное смещение значе- ний этой величины в периоды от 1 до 20 направлено вверх. Важнейшими причинами, кото- рые влияют на данный временной ряд и могут объяснять его тренд, являются инфляция, изменения в технологиях, предпочтения потребителей и рост производительности. Рис. 3.2. Тренд и циклические компоненты временного ряда расхо- дов на содержание дома за один год
86 ГЛАВА 3 Многие макроэкономические показатели, такие как совокупный национальный про- дукт и занятость, или показатели промышленного производства демонстрируют наличие тренда. На рис. 3.10 (см. ниже) представлен другой пример временного ряда с превали- рующим трендом. На этом рисунке показан рост годового дохода от основной деятельно- сти компании Sears за 1955—1997 гг. Тренд — это долгосрочная компонента, отражающая возрастание или убывание вре- менного ряда в течение длительного периода времени. Если данные наблюдений характеризуются подъемами и спадами, не имеющими фиксированного периода, говорят, что в них присутствует циклическая модель поведения. Циклическая компонента представляет собой волнообразные флуктуации вокруг тренда, которые обычно вызываются общими экономическими условиями. Циклические флук- туации чаще всего являются следствием периодических изменений в экономике — по- следовательных расширений и сокращений производства, обычно называемых бизнес- циклом. На рис. 3.2 изображен временной ряд с циклической компонентой. Цикличе- ский пик, зафиксированный в момент времени 9, иллюстрирует экономический подъем, а циклическая впадина в момент времени 12 — экономический спад. Циклическая компонента представляет собой волнообразные флуктуации вокруг тренда. Electrical Usage for Washington Water Power: 1980-1991 Year Рис. 3.3. Потребление электроэнергии клиентами компании Washington Water Power за 1980—1991 гг. (приложение Minitab) Если на данные наблюдений влияют сезонные факторы, то в них проявляется сезонная мо- дель поведения. Сезонной компонентой называют периодические изменения в данных, еди- нообразно повторяющиеся из года в год. Для ежемесячных рядов сезонная компонента отра- жает изменчивость значений ряда в каждом январе, каждом феврале ит.д. Для ежекварталь- ных рядов существует четыре сезонных элемента: по одному для каждого квартала. На рис. 3.3
Исследование наборов данных и выбор метода прогнозирования 87 легко заметить тот факт, что потребление электроэнергии (Kilowatts) клиентами компании Washington Water Power выше всего в первом квартале (зимние месяцы) каждого года (Year). Из рис. 3.14 (см. ниже) следует, что ежеквартальный объем продаж компании Outboard Marine, как правило, ниже всего в первом квартале каждого года. На сезонную изменчивость могут влиять погодные условия, праздники или календарная длина отдельных месяцев. Сезонной компонентой называется модель изменений, повторяющаяся из года в год. Исследование данных с помощью автокорреляционного анализа Если изменение величины наблюдается во времени, то часто наблюдения в различные промежутки времени оказываются взаимосвязанными, или коррелированными. Эта кор- реляция измеряется с помощью коэффициента автокорреляции. Автокорреляцией называется корреляция между величиной и ее запаздыванием в один или более периодов времени. С помощью механизма автокорреляции могут изучаться наборы данных, включаю- щие тренд и сезонность. Коэффициенты автокорреляции для различных значений запаз- дывания величин во времени используются для отождествления моделей поведения дан- ных, присутствующих во временных рядах. Понятие автокорреляции иллюстрируется данными, представленными в табл. 3.1. От- метим, что величины К,_, и К,_2 представляют значения величины ¥ с запаздыванием на один и два периода времени. Значения для марта, представленные в строке периода времени 3, отражают объем продаж видеомагнитофонов в марте (К,_, = 125), феврале (У,.] = 130) и янва- ре (Г,_2 = 123). Таблица 3.1. Данные о продаже видеомагнитофонов из примера 3.1 м Исходные Y с запаздыванием Y с запаздыванием Время, г месяц данные, Yt на один период, Yf1 на два периода, Yt2 1 Январь 123 _ 2 Февраль 130 123 _ 3 Март 125 130 "—123 4 Апрель 138 125 130 5 Май 145 138 125 6 Июнь 142 145 138 7 Июль 141 142 145 8 Август 146 141 142 9 Сентябрь 147 146 141 10 Октябрь 157 147 146 11 Ноябрь 150 157 147 12 Декабрь 160 150 157
88 ГЛАВА 3 Уравнение 3.1 представляет собой формулу для вычисления коэффициента автокор- реляции гк с запаздыванием на к моментов наблюдения, т.е. между наблюдениями Y, и У,_ к, которые отстоят друг от друга на к периодов. где гк - коэффициент автокорреляции для запаздывания на к периодов; Y - среднее значение ряда; Y, - наблюдение в момент времени /; Y,.t - наблюдение на к периодов ранее, т.е. в момент времени t -к. Пример 3.1 Гарри Вернон (Harry Vernon) собрал данные о числе продаж видеомагнитофонов в магазине Vernon’s Music Store за последний год. Данные представлены в табл. 3.1. В табл. 3.2 приведены результаты, полученные при вычислении коэффициента автокорреляции с запаздыванием на один период. На рис. 3.4 показана диаграмма рассеяния пар наблюдений (У,_ь У,). Из диаграммы вполне очевидно, что корреляция с запаздыванием на один период будет положительной. Таблица 3.2. Вычисление коэффициента автокорреляции с запаздыванием на один период для данных, представленных в табл. 3.1 Время, t Y, У,-, (У,-У) (У,-! - У) (У,-У)2 (Y-YXY^-Y) 1 123 -19 361 2 130 123 -12 -19 144 228 3 125 130 -17 -12 289 204 4 138 125 -4 -17 16 68 5 145 138 3 -4 9 -12 6 142 145 0 3 0 0 7 141 142 -1 0 1 0 8 146 141 4 -1 15 -4 9 147 146 5 4 25 20 10 157 147 15 5 225 75 11 150 157 8 15 64 120 12 160 150 18 8 324 144 Сумма 1 704 0 1 474 843 Y 1704 = = 142 12 843 = = 0, 572 1474
Исследование наборов данных и выбор метода прогнозирования 89 Scatter diagram for Example 3.1 160 - • 150 - • 140 - * 130 - • 120 - I ( ] j jJ 120 130 140 150 160 Puc. 3.4. Диаграмма рассеяния для данных по магазину Vernon’s Music Store (приложение Minitab) Коэффициент автокорреляции с запаздыванием на один период (rj, или корреляция ме- жду У, и К,.,, вычисляется на основании сумм из табл. 3.2 по уравнению 3.1. Таким образом, получим следующее. ---------2--- >=1 843 „ г, =----= 0,572 1474 Как свидетельствует диаграмма на рис. 3.4, для этого временного ряда существует положи- тельная автокорреляция с отставанием на один период. Корреляция между величинами Y, и Y^, или автокорреляция с отставанием на один период, равна 0,572. Это означает, что объемы по- следовательных ежемесячных продаж видеомагнитофонов каким-то образом коррелированы друг с другом. Эта информация может способствовать пониманию Гарри особенностей данного временного ряда и помочь ему подготовиться к использованию улучшенных методов прогнози- рования, а также может предостеречь его от применения регрессионного анализа к этим дан- ным. Все упомянутые здесь идеи будут подробно обсуждаться в последующих главах. Коэффициент автокорреляции второго порядка (г2), или коэффициент корреляции между К, и Kt_2, для данных Гарри также вычисляется по уравнению 3.1. 1=1 682 1474 = 0,463
90 ГЛАВА 3 Оказывается, что для этого временного ряда существует умеренная автокорреляция с за- паздыванием на два периода. Корреляция между величинами К, и К,_2, или автокорреляция с запаздыванием на два периода, равна 0,463. Отметим, что коэффициент автокорреляции с за- паздыванием на два периода (0,463) меньше коэффициента автокорреляции с запаздыванием на один период (0,572). Вообще говоря, с увеличением периода запаздывания к величина ко- эффициента автокорреляции убывает. На рис. 3.5 показан график автокорреляции в зависимости от времени запаздывания для данных Гарри Вернона, использованных в примере 3.1. Горизонтальная шкала внизу изо- бражает интересующие нас периоды запаздывания (1,2, 3 и т.д.). Вертикальная шкала слева изображает возможный интервал для коэффициента автокорреляции от -1 до +1. Горизон- тальная линия, проходящая посередине графика, представляет автокорреляцию, равную нулю. Вертикальная линия, проходящая вверх через точку, обозначающую запаздывание на один период, изображает коэффициент корреляции 0,57, т.е. г} = 0,57. Вертикальная линия, проходящая вверх через точку, обозначающую запаздывание на два периода, изображает коэффициент корреляции, равный 0,46, т.е. г2 = 0,46. Пунктирные линии и статистики Т и LBQ будут объяснены в примере 3.2. Модели поведения, просматривающиеся на коррело- грамме, используются для того, чтобы проанализировать ключевые особенности данных. Эти понятия будут рассмотрены в следующем разделе. Пакет статистических программ Minitab для персональных компьютеров (конкретные инструкции по работе с ним можно найти в разделе “Применение Minitab” в конце главы) может использоваться для вычисле- ния коэффициентов автокорреляции и построения коррелограмм. Рис. 3.5. Автокорреляционная функция для данных, использо- ванных в примере 3.1 Коррелограммой, или автокорреляционной функцией, является график коэффициентов ав- токорреляции для различных запаздываний во времени для заданного временного ряда.
Исследование наборов данных и выбор метода прогнозирования 91 Используя представления, подобные приведенному на рис. 3.5, можно с помощью ав- токорреляционного анализа изучать наборы данных, включающие тренд и сезонные ко- лебания. Коэффициент автокорреляции для различных запаздываний величины во вре- мени может использоваться для получения ответа на следующие вопросы о наборе дан- ных, являющихся временным рядом. 1. Являются ли данные случайными 2. Имеют ли данные тренд (нестационарность) 3. Являются ли данные стационарными 4. Имеют ли данные сезонные колебания Если ряд данных случаен, коэффициенты автокорреляции между Y, и K,_t для любого запаздывания близки к нулю. Последовательные значения временного ряда не связаны друг с другом. Если у ряда существует тренд, значения Y, и Yl4 имеют сильную корреляцию, причем коэффициенты автокорреляции существенно отличны от нуля для первых нескольких периодов запаздывания, а с увеличением периода постепенно убывают до нуля. Коэф- фициент автокорреляции для времени запаздывания, равного одного периоду, часто очень велик (близок к1). Коэффициент автокорреляции для времени запаздывания, равного двум периодам, также будет большим. Однако он не будет таким большим, как для времени запаздывания в один период. Если ряд имеет сезонную компоненту, значительный коэффициент автокорреляции будет наблюдаться для периодов запаздывания, равных сезонному периоду или кратных ему. Сезонный период запаздывания равен 4 для ежеквартальных данных и 12— для ежемесячных данных. Как аналитик может определить, существенно ли отличается от нуля коэффициент автокорреляции для данных, приведенных в табл. 3.1? Кэнуй (Quenouille) в 1949 году по- казал, что коэффициент автокорреляции случайных данных имеет выборочное распреде- ление, которое может быть аппроксимировано нормальной кривой со средним, рав- ным 0, и среднеквадратическим отклонением \/4п . Зная это, аналитик может сравнить выборочные коэффициенты автокорреляции с этим теоретическим выборочным распре- делением и определить для заданных периодов отставания, взяты ли эти значения из ге- неральной совокупности, среднее значение которой равно нулю. В действительности, как показано в уравнении 3.2, некоторые пакеты прикладных программ используют несколько отличную формулу для вычисления стандартных оши- бок автокорреляционной функции. В этой формуле предполагается, что любая автокор- реляция для запаздывания, меньшего к(к> I), отлична от нуля, а любая автокорреляция для запаздывания, большего или равного к, равна нулю. Для автокорреляции, соответст- вующей запаздыванию в один период, используется стандартная ошибка 1/Jn . Ji-1 1 + 22/2 (3.2) ----, п
92 ГЛАВА 3 где SE(rk) - стандартная ошибка автокорреляции с запаздыванием к; R, - автокорреляция с запаздыванием i; к - время запаздывания; п - количество наблюдений во временном ряде. Эти вычисления будут продемонстрированы в примере 3.2. Если ряд действительно случаен, практически все коэффициенты автокорреляции должны находиться внутри интервала, содержащего нуль, плюс или минус определенное число стандартных ошибок. При определенном уровне значимости ряд может считаться случайным, если вычислен- ные коэффициенты автокорреляции находятся внутри интервала, ограниченного выра- жениями [0 ± t .S'£(rt)]. Вместо проверки всех значений гк по одному, существует иной подход, состоящий в проверке всего множества значений гк одновременно. Для того чтобы определить, значи- тельно ли отличаются, скажем, первых десять значений гк от множества, в котором все десять равны 0, можно использовать искусственный тест. Одним из таких общих критериев является использование модифицированной Q- статистики Бокса-Пирса (Box, Pierce) (уравнение 3.3), предложенное Льюнгом (Ljung) и Боксом. Этот критерий, как правило, применяется к ошибкам модели прогноза. Если ав- токорреляции вычисляются из случайного процесса (белого шума), g-статистика имеет ^-распределение с т степенями свободы (т — число запаздываний, для которого выпол- няется проверка). Для ошибок модели прогноза g-статистика имеет ^-распределение с числом степеней свободы, равным т, минус число оцениваемых в модели параметров. Чтобы проверить, является ли значение g-статистики значимым, можно сравнить его со значениями ^-распределения, приведенными в таблице (табл. В.4). g-статистика, опре- деленная уравнением 3.3, будет рассмотрена в примере 3.3. П 2 2=и(и + 2)У-^— , (3.3) •" п - к где п - число наблюдений во временном ряде; к - время запаздывания; т - число запаздываний во времени, для которого проводится тести- рование; гк - выборочная функция автокорреляции ошибок для запаздывания на к периодов. Являются ли данные случайными Уравнение 3.4 представляет собой простую случайную модель, часто называемую моде- лью белого шума. Наблюдение Y, состоит из двух частей: с — общий уровень и е, — ком- понента, представляющая собой случайную ошибку. Важно отметить, что компонента е, некоррелирована от периода к периоду. Y, = с + е, (3.4) Согласуются ли данные в табл. 3.1 с этой моделью? Этот вопрос будет исследован в примере 3.2.
Исследование наборов данных и выбор метода прогнозирования 93 Пример 3.2 Существует определенный критерий, разработанный для проверки гипотезы о том, является ли ча- стный коэффициент автокорреляции существенно отличным от нуля для изображенной на рис. 3.5 коррелограммы. Приведены нулевая и альтернативная гипотезы проверки значимости коэффици- ента автокорреляции с запаздыванием на один период для генеральной совокупности. /То'- Pi = О И: р^О Для проверки нулевой гипотезы может быть использована /-статистика, определенная урав- нением 3.5. SE(rt) (3.5) Далее приведено правило принятия решения с уровнем значимости, равным 0,05, для данных о продажах видеомагнитофонов. Правило принятия решения. Если / < -2,2 или / > 2,2, гипотезу Но отвергаем. Здесь критические значения ±2,2 являются верхней и нижней точками, соответствующими значению /-распределения, равного 0,025, с и - 1 (т.е. 11-ю) степенями свободы. Стандартная ошибка равна следующему. -7^83 =0,2887 /-статистика равна следующему. / = = °’572~9 = 1 98 SE(j\) 0,2887 Поскольку -2,2 < 1,98 < 2,2, то мы совершим ошибку, если откажемся от нулевой гипотезы. Поэтому заключаем, что коэффициент автокорреляции для запаздывания на один период не является существенно отличным от нуля. Критерий для запаздывания, равного двум периодам, имеет следующий вид. //0: Рг = 0 Н\. р| *0 Используя уравнение 3.2, получим следующее. 1+2Уг2 |1+2Уг2 I, ,----- Ж(Г1). , J—= J5T55 = 0,371 2 у п V 12 V 12 V 12 /-статистика равна следующему. t _ Г2-Р2 0Л63-0 = 1 25 SE(r2) 0,371 Так как -2,2 < 1,25 < 2,2, то мы совершим ошибку, если откажемся от нулевой гипотезы, по- этому делаем вывод, что коэффициент автокорреляции для запаздывания, равного двум пе- риодам, не является существенно отличным от нуля. Более быстрый способ протестировать коэффициенты автокорреляции состоит в сравнении их с пределами доверительного интервала, соответствующими уровню значимости в 95% (рис. 3.4). Пределы доверительного интервала для запаздывания на один период равны следующему.
94 ГЛАВА 3 Верхний предел = /01ЭТ5 х SE(r|) = 2,2 х 0,2887 = 0,635 Нижний предел = /О,о25х SE(zr) = -2,2 х 0,2887 = -0,635 Пределы доверительного интервала для запаздывания на два периода равны следующему. Верхний предел = /0,975 х SE(r2) = 2,2 х 0,371 =0,816 Нижний предел = Го,о25 х SE(r2) = -2,2 х 0,371 = -0,635 Как только коэффициент автокорреляции оказывается вне доверительного интервала, нуле- вая гипотеза о равенстве нулю коэффициента автокорреляции отвергается. Пример 3.3 С помощью приложения Minitab сформирован временной ряд из 40 псевдо-случайных чисел, имеющих размерность три разряда (табл. 3.3). На рис. 3.6 изображен график указанного вре- менного ряда. Поскольку эти данные случайны, теоретически автокорреляции для всех зна- чений запаздывания должны быть равны нулю. Конечно, 40 значений в табл. 3.3 — это только одно множество из большого числа всех возможных выборок объемом 40 чисел. Каждая вы- борка будет давать разные автокорреляции. Большинство же из этих выборок будет давать выборочный коэффициент автокорреляции, близкий к нулю. Однако вполне возможен и та- кой вариант, когда выборка чисто случайно даст коэффициент автокорреляции, существенно отличный от нуля. Таблица 3.3. Временной ряд из 40 случайных чисел для примера 3.3 t У, t У, t К t У, 1 343 И 946 21 704 31 555 2 574 12 142 22 291 32 476 3 879 13 477 23 43 33 612 4 728 14 452 24 118 34 574 5 37 15 727 25 682 35 518 6 227 16 147 26 577 36 296 7 613 17 199 27 834 37 970 8 157 18 744 28 981 38 204 9 571 19 627 29 263 39 616 10 72 20 122 30 424 40 97 Затем с помощью приложения Minitab строится коррелограмма, изображенная на рис. 3.7. Обратите внимание на то, что две пунктирные линии на ней изображают доверительный ин- тервал уровня значимости в 95%. Исследованы 10 запаздываний, и все отдельные коэффици- енты автокорреляции лежат внутри соответствующих пределов. Отсюда следует, что нет при- чины сомневаться в том, что автокорреляции для первых 10 запаздываний одновременно равны нулю. Более того, g-статистика для 10 запаздываний равна 7,75, что меньше %2-значения 18,3 (полученного с уровнем значимости 0,05). Аналитик может сделать заклю- чение, что этот ряд случаен.
Исследование наборов данных и выбор метода прогнозирования 95 Autocorrelation 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 Время Рис. 3.6. График временного ряда из случайных чисел, описанный в примере 3.3 Lag Corr Т LBQ Lag Corr T LBQ 1 -0.19 -1.21 1.57 8 -0.03 -0.15 7.67 2 -0.01 -0.04 1.58 9 -0.03 -0.18 7.73 3 -0.15 -0.89 2.53 10 0.02 0.12 7.75 4 0.10 0.63 3.04 5 -0.25 -1.50 6.13 6 0.03 0.16 6.17 7 0.17 0.95 7.65 Рис. 3.7. Автокорреляционная функция для данных, использованных в примере 3.3 (приложение Minitab)
96 ГЛАВА 3 Имеют ли данные тренд Если ряд имеет тренд, то существует значительная взаимосвязь между последовательны- ми значениями этого временного ряда. В этом случае для коэффициентов автокорреля- ции типично, что они вначале являются большими для запаздываний в несколько первых периодов, а затем, с увеличением периода запаздывания, постепенно убывают к нулю. Стационарным временным рядом является ряд, для которого основные статистиче- ские характеристики, такие как среднее значение и дисперсия, являются постоянными во времени. Следовательно, стационарным будет тот временной ряд, значения которого с течением времени колеблются вокруг фиксированного уровня, не возрастая и не убы- вая. Считается, что ряд, имеющий тренд, не является стационарным. Коэффициенты ав- токорреляции стационарного ряда убывают до нуля достаточно быстро — в общем слу- чае, уже для запаздывания на два или три периода. С другой стороны, для нестационар- ного ряда выборочные автокорреляции остаются достаточно большими и для запаздыва- ний в несколько периодов. Часто для того, чтобы проанализировать нестационарный ряд, из него удаляется тренд и лишь затем выполняется дальнейшее моделирование. Процедуры, использующие этот подход, описываются в главе 9. Стационарным рядом называется ряд, основные статистические характеристики кото- рого, такие как среднее значение и дисперсия, остаются постоянными во времени. [ffiMicrosnlt 1 xrel В Г"Г Щ.Ча Erft Sjew Insert Fftreat look gata gtrio» КаИ ЦЛ !D_a? q! _ a a 9-; £ ife® ................................................. it Arial U4 Д ~2 3 10 -=151*1 * Z A Nil й-Г- - p). 10! 11 j2 13 14 Yt 1231 125! 7S1 146 142! 141 146 147- 157 150 13П Yt-1 .Differences О—Ё---г 123. 130! 125' 138’ 746! <42‘ 147 146' 147’ 157 150. -5 7з -3 10! -20 Differences 130-123= 7 125-130-5 7 ! 8 . 6 V. |<О>1 shw-l 1 ; • / НГ KAM {BStortp гуГОЯауег______iQXEfrfr Puc. 3.8. Рабочий лист Excel с расчетом разностей для данных из примера 3.1 Для удаления из нестационарного ряда тренда используется метод образования разностей. Данные о продаже видеомагнитофонов, первоначально представленные в табл. 3.1, вновь показаны на рис. 3.8 в столбце А. Значения Y с запаздыванием на один период при- ведены в столбце В. Разности, в которых из первоначальных значений Y, вычитаются значения Y с запаздыванием на один период, УД,, представлены в столбце С. Например,
Исследование наборов данных и выбор метода прогнозирования 97 первое значение разностей есть У2 - = 130 - 123 = 7. Обратите внимание на возрастание значений или тренд в данных о продажах видеомагнитофонов, представленных на диа- грамме А (рис. 3.9). Сравните со стационарной моделью, образованной разностями этих данных, показанными на диаграмме Б. Можно сделать вывод, что образование разностей данных позволило устранить из них тренд. Диаграмма Б -10 - ------1 1 1 1 1 1— 2 4 6 8 10 12 Месяцы Рис. 3.9. Графики временных рядов для данных о продажах видео- магнитофонов и образованных для них разностей
98 ГЛАВА 3 Пример 3.4 Мэгги Тримэйн (Maggie Trymane), аналитику компании Sears, было поручено спрогнозиро- вать доход от основной деятельности компании на 1998 год. Она собрала данные о доходах компании с 1955 по 1997 гг., которые приведены в табл. 3.4. Временной ряд этих данных гра- фически представлен на рис. 3.10. Сначала Мэгги вычислила доверительный интервал с уровнем значимости в 95% для коэффициента корреляции с запаздыванием на один период, используя 0 ± Z ), где для больших выборок точка 0,025 стандартного нормального рас- пределения заменена точкой, выражающей процентное соотношение для 1-распределения. О ±1,96.1— V43 0 ± 0,299 Таблица 3.4. Ежегодный доход от основной деятельности компании Sears Roebuck &Со. за 1955-1997 гг. Год У, Год У, Год У, Год У, 1955 3 307 1966 6 769 1977 17 224 1988 50 251 1956 3 556 1967 7 296 1978 17 946 1989 53 794 1957 3 601 1968 8 178 1979 17 514 1990 55 972 1958 3 721 1969 8 844 1980 25 195 1991 57 242 1959 4 036 1970 9 251 1981 27 357 1992 52 345 1960 4 134 1971 10 006 1982 30 020 1993 50 838 1961 4 268 1972 10 991 1983 35 883 1994 54 559 1962 4 578 1973 12 306 1984 38 828 1995 34 925 1963 5 093 1974 13 101 1985 40 715 1996 38 236 1964 5 716 1975 13 639 1986 44 282 1997 41 296 1965 6 357 1976 14 950 1987 48 440 Затем Мэгги ввела эти данные в приложение Minitab и получила коррелограмму, пока- занную на рис. 3.11. В результате проведенных исследований она обнаружила, что автокорре- ляции для первых трех времен запаздывания вначале значительно отличаются от нуля (0,95; 0,91 и 0,87), а затем их значения постепенно убывают к нулю. В качестве дополнительной проверки Мэгги изучила g-статистику для 10 времен запаздывания. Коэффициент LBQ ра- вен 236,12, что превышает %2-значение, равное 18,3 (оно получено с уровнем значимости 0,05). Мэгги пришла к выводу, что данные имеют значительную автокорреляцию для первых нескольких запаздываний во времени и, следовательно, демонстрируют заметный тренд.
Исследование наборов данных и выбор метода прогнозирования 99 Year Рис. 3.10. График временного ряда ежегодного дохода от основной дея- тельности компании Sears (приложение Minitab) Autocorrelation Function for Sears Operating Revenue I I 23456789 10 Lag Corr Т LBQ Lag Corr T LBQ 1 0.95 6.26 41.96 8 0.45 0.95 224.06 2 0.91 3.57 81.44 9 0.36 0.75 231.55 3 0.87 2.70 118.38 10 0.28 0.57 236.12 4 0.79 2.12 149.69 5 0.72 1.74 175.79 6 0.63 1.44 196.61 7 0.54 1.18 212.76 Puc. 3.11. Функция автокорреляции для данных о доходах от основной деятельно- сти компании Sears (приложение Minitab)
100 ГЛАВА 3 Sears Operating Revenue Data First Differenced Ф -10000 - b -20000 - 1960 1970 1980 1990 Year Puc. 3.12. График временного ряда первых разностей, образованных для данных о доходах от основной деятельности компании Sears (приложение Minitab) Autocorrelation Function for Sears Data First Differenced 1.0 -0.8 -1.0 1 2 3 4 5 6 7 8 9 10 Lag Corr т LBQ Lag Corr T LBQ 1 -0.08 -0.54 0.31 8 -0.09 -0.53 5.60 2 0.06 0.36 0.46 9 -0.09 -0.52 6.04 3 0.30 1.95 4.85 10 -0.02 -0.13 6.07 4 0.02 0.12 4.87 5 -0.04 -0.24 4.95 6 -0.04 -0.25 5.05 7 0.04 0.26 5.15 Puc. 3.13. Автокорреляционная функция ряда первых разностей, образованных для данных о ежегодном доходе от основной деятельности компании Sears (приложение Minitab)
Исследование наборов данных и выбор метода прогнозирования 101 Мэгги решила, что для устранения тренда и получения стационарного ряда необходимо об- разовать ряд, составленный из разностей. Сначала она получила разности на основе имеющихся данных (см. раздел “Применение Minitab” в конце этой главы). Графическое представление этих данных показано на рис. 3.12. Ряд, образованный из разностей, не демонстрирует наличие тренда. Затем Мэгги построила коррелограмму, изображенную на рис. 3.13. Она обратила вни- мание на то, что для запаздывания, равного трем периодам, коэффициент автокорреляции 0,30 значительно отличается от нуля (при тестировании с уровнем значимости 0,05), тогда как авто- корреляции для запаздываний, отличающихся от 3, малы. В результате Мэгги пришла к заклю- чению, что для выявления присутствующей в этих данных модели изменения придется обра- титься к более сложным методикам анализа, описанным ниже, в главе 9. Являются ли данные сезонными Если ряд является сезонным, модель, связанная с календарными изменениями, повторя- ется в течение всего временного интервала (обычно это год). Наблюдения в одном и том же моменте разных сезонных периодов имеют тенденцию к зависимости. Если наблюда- ются ежеквартальные данные с сезонной моделью, значения для первых кварталов име- ют тенденцию быть похожими, значения для вторых кварталов также имеют тенденцию быть похожими и т.д. При этом значительный коэффициент автокорреляции будет обна- ружен для запаздывания на четыре периода. Если анализируются ежемесячные данные, значительный коэффициент автокорреляции появится при временном запаздывании 12, т.е. каждый январь будет коррелирован с другими январями, каждый февраль будет кор- релирован с другими февралями и т.д. Ряд, характеризующийся сезонной моделью изме- нений, рассматривается в примере 3.5. Пример 3.5 Перкин Кендэлл (Perkin Kendell) — аналитик корпорации Outboard Marine. Он всегда пред- полагал, что объемы продаж в компании носят сезонный характер. Перкин собрал данные о ежеквартальных продажах Outboard Marine Corporation с 1984 по 1996 гг., приведенные в табл. 3.5 и представленные в виде графика на рис. 3.14. Затем он вычислил для большой вы- борки доверительный интервал уровня значимости в 95% для коэффициента автокорреляции с запаздыванием в один период. 0 ± 0,272 После этого Перкин вычислил коэффициенты автокорреляции, приведенные на рис. 3.15. Он обнаружил, что коэффициенты автокорреляции для запаздываний в 1 и 4 периода сущест- венно отличны от нуля (rt = 0,39 > 0,272 и г4 = 0,74 > 0,333). В результате Перкин пришел к за- ключению, что продажи корпорации Outboard Marine носят ярко выраженный ежекварталь- ный сезонный характер. Таблица 3.5. Ежеквартальный объем продаж в корпорации Outboard Marine за 1984-1996 гг. Финансовый год 31 декабря 31 марта 30 июня 30 сентября 1984 147,6 1985 139,3 251,8 273,1 249,1 221,2 260,2 259,5
102 ГЛАВА 3 Окончание табл. 3.5 Финансовый год 31 декабря 31 марта 30 июня 30 сентября 1986 140,5 245,5 298,8 287,0 1987 168,8 322,6 393,55 404,3 1988 259,7 401,1 464,6 479,7 1989 264,4 402,6 411,3 385,9 1990 232,7 309,2 310,7 293,0 1991 205,1 234,4 285,4 258,7 1992 193,2 263,7 292,5 315,2 1993 178,3 274,5 295,4 286,4 1994 190,8 263,5 318,8 305,5 1995 242,6 318,8 329,6 338,2 1996 232,1 285,6 291,0 281,4 Источник : “The Value Line Investment Survey” (New York: Value Line, 1988, 1992, 1996), с. 1773. Quarterly Sales for Outboard Marine: 1984-1996 Year Puc. 3.14. График временного ряда объема ежеквартальных продаж в корпорации Outboard Marine (приложение Minitab)
Исследование наборов данных и выбор метода прогнозирования 103 Lag Corr Т LBQ Lag Corr T LBQ 1 0.39 2.83 8.50 8 0.35 1.51 57.72 2 0.15 0.97 9.83 9 -0.18 -0.76 59.90 3 0.29 1.82 14.77 10 -0.43 -1.80 72.53 4 0.74 4.34 47.11 11 -0.32 -1.23 79.33 5 0.15 0.67 48.47 12 0.09 0.35 79.91 6 -0.15 -0.67 49.90 13 -0.35 -1.34 88.90 7 -0.05 -0.21 50.04 Рис. 3.15. Функция автокорреляции для данных корпорации Outboard Marine (приложение Minitab) Выбор соответствующего метода прогнозирования Этот раздел, в основном, посвящен описанию различных методов прогнозирования. Преж- де всего речь пойдет о важности выбора наиболее подходящего метода прогнозирования. При выборе оптимального метода прогнозирования для конкретной задачи предвари- тельно следует получить ответы на следующие вопросы. • Почему появилась потребность в создании прогноза? • Кто будет использовать прогноз? • Каковы характеристики имеющихся данных? • На какой период следует делать прогноз? • Каковы минимальные требования к данным? • Какая точность необходима? • Какова стоимость прогноза? Тот, кто будет составлять прогноз, для правильного выбора метода прогнозирования должен уметь делать следующее. • Определять природу прогнозируемых показателей. • Определять природу изучаемых данных.
104 ГЛАВА 3 • Представлять возможности и знать ограничения потенциально полезной техники прогнозирования. • Вырабатывать некоторые предопределенные критерии, на основании которых мо- жет быть сделан выбор. Основным фактором, влияющим на выбор метода прогнозирования, является иден- тификация и четкое понимание реальных моделей, присутствующих в данных. Если в них удастся распознать тренд, циклическую или сезонную модель, это существенно об- легчит поиск эффективного метода экстраполирования. Аппарат прогнозирования для стационарных данных Ранее стационарный ряд был определен как ряд, среднее значение которого не изменяет- ся с течением времени. Подобная ситуация возникает в том случае, когда внешние воз- действия на значения ряда являются относительно постоянными. Прогнозирование ста- ционарного ряда в своей простейшей форме включает в себя использование его предыс- тории для оценки среднего значения, которое затем становится прогнозом на будущие периоды. Более сложная техника состоит в уточнении оценки с использованием вновь поступившей информации. Эти методы полезны, когда начальные оценки ненадежны или когда постоянство среднего значения под вопросом. К тому же своевременная смена метода прогнозирования может представлять собой реакцию на изменения в основной структуре ряда. Стационарные методы прогнозирования используются в следующих случаях. • Воздействия, порождающие ряд, стабилизировались, и окружающая среда, в которой ряд существует, относительно неизменна. Примерами являются число поломок в неделю на сборочной линии, имеющей постоянную производительность; число продаж продукта или услуг на стадии насыщения их жизненного цикла; число про- даж продукта при постоянном уровне усилий, прилагаемых к его сбыту. • В силу недостатка данных либо для упрощения объяснения или реализации прогноза не- обходимо использовать очень простую модель. Например, это ситуация, когда бизнес или организация являются новыми и доступная предыстория очень мала. • Стабильность может быть достигнута за счет простой корректировки таких фак- торов, как рост населения или инфляция. Примером является переход от общего до- хода к доходу на душу населения или изменения объемов продаж из текущих дол- ларов в неизменные. • Ряд можно преобразовать в стабильный. Примерами являются преобразования ряда с помощью логарифмов, квадратных корней или разностей. • Ряд представляет собой множество ошибок прогноза, полученных в результате при- менения метода прогнозирования, который может считаться неадекватным (см. пример 3.7). Методы прогнозирования, которые могут применяться по отношению к стационар- ным рядам, включают в себя наивные методы, методы простого усреднения, скользящие средние, простое экспоненциальное сглаживание и методы авторегрессионого скользя- щего среднего (методы Бокса-Дженкинса).
Исследование наборов данных и выбор метода прогнозирования 105 Аппарат прогнозирования для данных, имеющих тренд Ряд, обладающий трендом, ранее был определен как ряд, содержащий долгосрочную ком- поненту, которая отражает постоянное возрастание или убывание значений ряда в тече- ние продолжительного периода времени. Другими словами, говорят, что ряд имеет тренд, если ожидается возрастание или убывание его среднего значения в течение того периода времени, для которого создается прогноз. Наличие тренда типично для временных рядов экономических показателей. Методы прогнозирования для рядов, обладающих трендом, используются в следую- щих случаях. • Повышение производительности труда и применение новых технологий ведут к изме- нению стиля жизни. Примерами могут служить потребность в электронных компо- нентах, которая постоянно возрастает в результате продолжающегося распростра- нения компьютеров, или же объем перевозок железнодорожного транспорта, уменьшающийся с ростом возможностей авиации. • Рост населения вызывает увеличение потребностей в товарах и услугах. Примерами являются ежегодные доходы от продажи товаров массового спроса, потребность в энергоснабжении или использование сырьевых ресурсов. • Покупательная способность доллара за счет инфляции оказывает влияние на общие экономические показатели. Примерами являются заработная плата, производствен- ные расходы и цены. • Возрастает признание продукта на рынке. Примером может быть период роста в жизненном цикле нового продукта. Аппарат прогнозирования, который должен использоваться для прогнозирования ря- дов, имеющих тренд, — это метод скользящих средних, метод линейного экспоненци- ального сглаживания Хольта (Holt), простая регрессия, возрастающие кривые, экспо- ненциальные модели и методы авторегрессионых интегрированных скользящих средних (методы Бокса—Дженкинса). Аппарат прогнозирования для данных с сезонной компонентой Сезонный ряд ранее был определен как временной ряд, описывающий изменения, кото- рые повторяются из года в год. Разработка аппарата прогнозирования для сезонных ря- дов обычно включает выбор мультипликативного или аддитивного метода разложения с последующей оценкой сезонных элементов с помощью предыстории ряда. Полученные индексы затем используются для включения сезонности в прогнозы или исключения се- зонных эффектов из наблюдаемых значений. Упомянутый процесс называется сезонной настройкой данных и обсуждается в главе 5. Методы прогнозирования для сезонных данных используются в следующих случаях. • На изучаемую величину влияет погода. Примерами являются потребление электро- энергии, уровень летней и зимней активности (например, для такого вида спорта, как лыжный), одежда и сельскохозяйственные сезоны.
106 ГЛАВА 3 • Рассматриваемая величина определяется годичным циклом. Примерами могут слу- жить розничные продажи, на объем которых влияют ежегодные праздники, трех- дневные уик-энды и школьные расписания. Методы, которые следует использовать для прогнозирования сезонных рядов, вклю- чают классическое разложение, метод Census X-12, экспоненциальное сглаживание Вин- тера (Winter), многомерную регрессию временного ряда и методы Бокса-Дженкинса. Аппарат прогнозирования для циклических рядов Циклический эффект описывался выше как волнообразные флуктуации вокруг линии тренда. Циклические модели имеют тенденцию к повторению шаблона поведения дан- ных каждые два, три или более лет. Циклические компоненты трудно моделировать, так как они не являются устойчивыми. Волнообразные флуктуации вверх-вниз относительно тренда редко повторяются через фиксированные промежутки времени, и амплитуда флуктуаций также является изменчивой. Для анализа циклических данных можно ис- пользовать методы разложения (глава 5). Однако в силу нерегулярного поведения циклов анализ циклической компоненты ряда часто требует отыскания совпадающих или веду- щих экономических показателей. Методы прогнозирования для циклических данных используются в следующих случаях. • На интересующую нас величину влияет бизнес-цикл. Примерами являются экономи- ческие и рыночные показатели, а также уровень конкуренции. • Имеют место изменения в общественных вкусах. Примерами могут быть мода, му- зыка и продукты питания. • Возникают изменения в народонаселении. Примерами могут служить войны, голо- довки, эпидемии и стихийные бедствия. • Происходят сдвиги в цикле производства продуктов потребления. Примерами явля- ются введение продукта, рост и созревание спроса и насыщение рынка продуктом с последующим падением спроса. Аппарат, который необходимо использовать для прогнозирования циклических ря- дов, включает классическое разложение, экономические индикаторы, эконометрические модели, многомерную регрессию и методы Бокса-Дженкинса. Другие факторы, которые нужно учитывать при выборе метода прогнозирования Непосредственное влияние на выбор метода прогнозирования оказывает установленный для прогноза временной горизонт. Для создания краткосрочных и средней длительности прогнозов может использоваться множество количественных методов. Однако с расши- рением горизонта прогнозирования ряд этих методов становится все менее приемлемым. Например, скользящие средние, экспоненциальное сглаживание и модель AR1MA едва ли можно использовать для отыскания и предсказания важных изменений в экономике; для подобных целей более предпочтительными будут эконометрические модели. Регрес- сионные методы более подходят для короткого, среднего и длинного периодов. Средние, скользящие средние, классическое разложение и оценка тренда представляют собой ко-
Исследование наборов данных и выбор метода прогнозирования 107 личественные методы, применимые для коротких и средних временных промежутков. Более сложные методы Бокса-Дженкинса и эконометрическая модель также подходят для краткосрочных прогнозов и прогнозов средней длительности. Для более отдаленных временных горизонтов часто используются качественные методы (см. главу 10). Применимость соответствующего аппарата прогнозирования, вообще говоря, пред- ставляет собой нечто, устанавливаемое в процессе практического применения. Менед- жерам часто необходим прогноз на относительно короткий промежуток времени. В этой ситуации преимущества имеют методы экспоненциального сглаживания, оценки тренда, регрессионные модели и методы классического разложения (табл. 3.6). । Таблица 3.6. Рекомендации по выбору метода прогнозирования Минимальные дань ИМ требования к 1ЫМ Сезонные Метод Модель данных Временная отдаленность Тип модели Несезонные Наивный СТ, т, с К ВР 1 Простые средние ст К ВР 30 Скользящие средние ст к ВР 4-20 Экспоненциальное сглаживание ст к ВР 2 Линейное экспоненциаль- ное сглаживание т к ВР 3 Квадратичное экспоненци- альное сглаживание т к ВР 4 Сезонное экспоненциальное сглаживание с к ВР 2хс Адаптивная фильтрация с к ВР 5хс Простая регрессия т с к 10 Множественная регрессия Ц, с с к ЮхВ Классическое разложение с к ВР 5хс Экспоненциальные трендовые модели т с,д ВР 10 Подгонка S-кривой т с,д ВР 10 Модели Гом перца т с,д ВР 10 Возрастающие кривые т с,д ВР 10 “Перепись-Н" с к ВР бхс Модели Бокса-Дженкинса ст, т, ц, с к ВР 24 Зхс
108 ГЛАВА 3 Окончание табл. 3.6 Минимальные требования к данным Метод Модель данных Временная отдаленность Тип модели Несезонные Сезонные Ведущие индикаторы Ц К К 24 Эконометрические модели ц К К 30 Многомерная регрессия Т, С с.д К бхс временного ряда Модели данных: СТ — стационарные; Т — трендовые; С — сезонные; Ц — циклические. Отдаленность прогноза во времени: К — краткий период (менее трех месяцев); С — средний период; L — большой период. Тип модели: ВР — временной ряд; К — каузальная. Сезонные: с — продолжительность сезонности. Величина: В — количество величин. Стоимость компьютерных расчетов уже не оказывает существенного влияния на вы- бор метода прогнозирования. Настольные компьютеры и пакеты прикладных программ для прогнозирования получили широкое распространение во многих организациях. В ре- зультате, другие критерии практически затмили стоимость применения компьютеров при прогнозировании. В конечном итоге, прогноз будет представлен менеджерам или руководителям для ут- верждения и использования в процессе принятия решения. Следовательно, важнейшим условием прогнозирования является простота понимания и интерпретации результатов. В соответствии с этим критерием самой высокой оценки заслуживают регрессионные модели, метод оценки тренда, классическое разложение и методы экспоненциального сглаживания. Эмпирическая оценка методов прогнозирования Эмпирические исследования показали, что точность прогноза, выполненного простыми методами, практически так же хороша, как точность, полученная при использовании комплексной или статистически сложной методики.' Результаты, полученные при прове- дении тестовых испытаний M3-IJF Competition, когда каждый из привлеченных экспер- тов использовал свою любимую методологию прогнозирования с целью получения про- гнозов для 3 003 различных временных рядов, убедительно подтверждают это утвержде- ние.1 2 Может показаться, что чем сложнее статистическая методика, тем она эффективнее при предсказании модели временных рядов. К сожалению, выбранная модель времен- ного ряда часто может изменяться со временем и действительно изменяется. Таким обра- зом, при использовании модели, которая наилучшим образом представляет уже сущест- вующие данные (мы думаем, что комплексные модели это делают хорошо), мы не полу- чаем надежной гарантии большей точности будущих прогнозов. Конечно же, возможно- сти создающего прогноз также играют важную роль в получении хорошего прогноза. 1 См. Fildes и др., 1997и Makridakis и др., 1993. 2 См. Makridakis, Hibon и др., 2000
Исследование наборов данных и выбор метода прогнозирования 109 Тестовые испытания M3-IJF Competition были проведены в 1997 году. Прогнозы, полу- ченные с помощью различных методов прогнозирования, были сопоставлены на выборке из 3 003 временных рядов с тем уровнем точности, который может быть достигнут за счет применения широкого набора различных показателей. Цель выполненных в 1997 году ис- следований состояла в проверке четырех основных заключений, сделанных в результате предыдущих испытаний M-Competition, на большем наборе данных.3 Макридакис и Гибон (2000) по результатам проведения второго испытания сделали следующие выводы. 1. Как и утверждалось ранее, статистически сложные или комплексные методы прогнозирования действительно не приводят в обязательном порядке к получе- нию более точных прогнозов, чем более простые методы. 2. Разные показатели точности (MAD, MSE, МАРЕ), используемые для оценки раз- личных методов прогнозирования, дают согласованные результаты. 3. Комбинирование результатов трех экспоненциальных сглаживающих методов превосходит, в среднем, отдельные комбинируемые методы и дает наилучший эффект в сравнении с другими методами. 4. Эффективность различных методов прогнозирования зависит от отдаленности прогноза во времени и типа (ежегодные, ежеквартальные, ежемесячные) анализи- руемых данных. Одни методы дают большую точность для короткого промежутка времени, в то время как другие больше подходят для составления длительных прогнозов. Некоторые методы хорошо работают с ежегодными данными, а другие более эффективны для ежеквартальных и ежемесячных данных. По завершении исследования необходимо проверить, насколько каждый метод наде- жен и применим к рассматриваемой проблеме. Кроме того, нужно оценить его стоимост- ную эффективность и точность в сравнении с конкурирующими методами, а также рас- смотреть возможность его применения менеджерами. В табл. 3.6 приведены обобщенные сведения о применимости соответствующего аппарата прогнозирования в отношении наборов данных определенных типов. Эту таблицу полезно использовать в качестве от- правной точки при отборе методов, которые можно использовать для данных с опреде- ленными характеристиками. Как бы там ни было, результаты применения любого вы- бранного метода следует постоянно проверять, чтобы быть уверенным в том, что он дает адекватное решение поставленной задачи. Измерение ошибки прогноза Количественная техника прогнозирования часто применяется к временнь/м рядам данных, в результате чего была выработана соответствующая математическая нотация, позволяю- щая ссылаться на любой крнкретный период времени. Буква У будет использоваться для обозначения значений временного ряда, пока рассматривается не более одной величины. Период времени, соответствующий наблюдению, указывается в виде индекса. Таким обра- зом, обозначение У, определяет значение временного ряда в момент времени t. Ежеквар- тальные данные для компании Outboard Marine Corporation, представленные в примере 3.5, можно было бы обозначить как Ц = 5147,6; У2 = 5251,8; У3 = 5273,1;...; У52 = 5281,4. См. Makridakis и др., 1982
110 ГЛАВА 3 Необходимо также ввести такие математические обозначения, которые позволили бы различать действительные значения временного ряда и прогнозируемые для него значе- ния. С этой целью над значением, обозначающим прогноз, будет помещаться символ “л” (крышечка). Значением прогноза для У является У,. Точность метода прогнозирования часто определяется путем сравнения исходного ряда Уь У2,... с его прогнозом Уь У2, .... Основные обозначения, используемые в прогнозировании, представлены ниже. Основные обозначения, используемые в прогнозировании У, — значение временного ряда в момент t. У, — прогноз значения У,. е,= У,-У,— погрешность или ошибка прогноза. Разработано несколько методов оценки ошибок, присущих отдельным методам про- гнозирования. Большинство этих методов состоит в усреднении некоторых функций от разностей между действительным значением и его прогнозом. Такие разности между на- блюдаемыми значениями и прогнозами часто считаются ошибками прогноза. Ошибкой прогноза является разность между действительным значением и его прогнозом. Для вычисления ошибки прогноза или погрешности для каждого момента времени, в котором рассматривается прогноз, используется уравнение 3.6. е,= У,-У,, (3.6) где е, - ошибка прогноза в момент времени t; У, - действительное значение в момент времени t. В одном из способов оценки метода прогнозирования используется суммирование аб- солютных ошибок. Среднее абсолютное отклонение (Mean Absolute Derivation, MAD) измеряет точность прогноза, усредняя величины ошибок прогноза (абсолютные значе- ния каждой ошибки). Использование MAD наиболее полезно в тех случаях, когда анали- тику необходимо измерить ошибку прогноза в тех же единицах, что и исходный ряд. Ошибка MAD вычисляется с помощью уравнения 3.7. MAD = -£|у - УI (3.7) Среднеквадратическая ошибка (Mean Squared Error, MSE) — это другой способ оцен- ки метода прогнозирования. Каждая ошибка или погрешность возводится в квадрат; эти величины затем суммируются и делятся на количество наблюдений. Поскольку каждое значение отклонения возводится в квадрат, этот метод подчеркивает большие ошибки прогноза. Данная особенность очень важна, так как метод прогнозирования, постоянно дающий средние по величине ошибки, в некоторых случаях может быть предпочтитель- нее другого метода, который обычно дает малые ошибки, но временами может давать очень большие. Ошибка MSE вычисляется с помощью уравнения 3.8. Л/5£ = -У(у-у)2 (3.8) п ~ '
Исследование наборов данных и выбор метода прогнозирования 111 Иногда предпочтительнее вычислять не абсолютные величины ошибок, а их про- центное отношение. Средняя абсолютная ошибка в процентах (Mean Absolute Percentage Error, МАРЕ) вычисляется путем отыскания абсолютной ошибки в каждый момент вре- мени и деления ее на действительно наблюдаемое значение (в этот момент времени) с последующим усреднением полученных абсолютных процентных ошибок. Этот подход полезен в том случае, когда размер или значение прогнозируемой величины важны в оценке точности прогноза. МАРЕ подчеркивает, насколько велики ошибки прогноза в сравнении с действительными значениями ряда. Данный метод в особенности хорош тогда, когда значения У, велики. МАРЕ можно также использовать для сравнения точно- сти одного и того же или различных методов на двух абсолютно разных рядах. Ошибка МАРЕ вычисляется с помощью уравнения 3.9. (3.9) «т/ Y, Часто необходимо определить, является ли метод прогнозирования смещенным (полученный прогноз постоянно оказывается заниженным или завышенным). В этих случаях используется средняя процентная ошибка (Mean Percentage Error, МРЕ). Она вычисляется посредством нахождения ошибки в каждый момент времени и деления ее значения на дейст- вительное значение в этот момент времени с последующим усреднением полученных про- центных выражений ошибок. Если метод прогнозирования является несмещенным, уравне- ние 3.10 будет давать процентное значение, близкое к нулю. Если в результате получается большое отрицательное процентное значение, то метод прогнозирования является последова- тельно переоценивающим. Если получено большое положительное процентное значение, то метод прогнозирования является последовательно недооценивающим. , „ (у _ у) МРЕ = ку^—1 (3.10) "% Y, Часть решения о выборе соответствующего метода прогнозирования состоит в опре- делении того, дает ли данный метод достаточно малые ошибки прогноза. Действительно, естественно ожидать, что правильно подобранный метод будет давать относительно ма- лые ошибки прогноза. Определенные выше четыре способа оценки точности прогноза используются для следующих целей. • Сравнение точности двух различных методов. • Оценка полезности и надежности метода. • Отыскание оптимального метода. В примере 3.6 показано, как вычисляется каждая из определенных выше средних ошибок метода. Пример 3.6 В табл. 3.7 приведены данные о ежедневном количестве клиентов, обращающихся на станцию тех- обслуживания Gary’s Chevron Station по поводу выполнения ремонтных работ (У,), и представлен прогноз этих данных (У,). Выбранный метод прогнозирования предполагал использование количе- ства клиентов, обслуженных за предыдущий период, как прогнозируемое значение на текущий пе- риод. Этот простой метод будет обсуждаться нами в главе 4. Для оценки эффективности этого ме- тода с помощью показателей MAD, MSE, МАРЕ и МРЕ были выполнены следующие вычисления.
112 ГЛАВА 3 Таблица 3.7. Исходные данные и вычисления для оценки метода прогнозирования, применяемого в примере 3.6 Время, t Количество клиентов, Y, Прогноз, Y, Ошибка, е. |е,| \e,\lY,% e,lY,% 1 58 - - - - - - 2 54 58 -4 4 16 7,4 -7,4 3 60 54 6 6 36 10,0 10,0 4 55 60 -5 5 25 9,1 -9,1 5 62 55 7 7 49 11,3 11,3 6 62 62 0 0 0 0,0 0,0 7 65 62 3 3 9 4,6 4,6 8 63 65 -2 2 4 3,2 -3,2 9 70 63 2 2 49 10,0 10,0 Сумма 12 34 188 55,6 16,2 MAD = -У |г, - У,| = — = 4,3 п^1 1 8 MSE = -£(Г, - У, )2 = — = 23,5 и /=i 8 55,6% лпс„ МАРЕ = - > )--! = —--= 6,95% Y, 8 МРЕ = - jffi----) = = 2,03% п% Y, 8 Значение MAD свидетельствует о том, что каждый прогноз отклоняется от реального значе- ния в среднем на 4,3 посетителя. Ошибки MSE (23,5) и МАРЕ (6,95%) следовало бы сравнить с ошибками MSE и МАРЕ, полученными при использовании любого другого метода для прогнозирования этих же данных. И наконец, малое значение ошибки МРЕ (2,03%) свиде- тельствует о том, что данный метод не является систематически переоценивающим или недо- оценивающим количество ежедневно обслуживаемых клиентов. Оценка адекватности выбранного метода прогнозирования Прежде чем использовать некоторый метод прогнозирования, необходимо оценить его соответствие поставленной задаче. Создающий прогноз обязательно должен ответить на следующие вопросы. • Являются ли коэффициенты автокорреляции ошибок показательными для данного временного ряда? На этот вопрос можно ответить, изучив коэффициенты автокорреля- ции для диаграммы ошибок, подобной той, которая будет обсуждаться в примере 3.7.
Исследование наборов данных и выбор метода прогнозирования 113 • Являются ли ошибки приблизительно нормально распределенными? На этот во- прос можно ответить, проанализировав гистограмму для ошибок или нормальный вероятностный график. • Имеют ли все оцениваемые параметры значительные «-значения? Напомним, что t- распределение описывалось в главе 2, а применение «-значений — в примере 3.2 и главах 6-9. • Является ли метод простым в использовании и доступным для понимания тех, кто будет принимать решения? Основное требование, состоящее в том, что множество ошибок должно быть случай- ным, проверяется посредством изучения коэффициентов автокорреляции для временного ряда ошибок. Для этого ряда не должно наблюдаться сколько-нибудь значительных коэф- фициентов автокорреляции. В примере 3.2 было показано, как можно использовать корре- лограмму для выяснения, является ли заданный ряд случайным. С целью проверки, явля- ются ли коэффициенты автокорреляции для всех периодов запаздывания (вплоть до А-го) равными нулю, можно использовать 2-статистику Льюинга-Бокса. В примере 3.7 эта про- цедура проиллюстрирована в отношении ошибок для двух подходящих случаю моделей. Пример 3.7 Мэгги Тримэйн, аналитику компании Sears, было поручено составить прогноз объема продаж в компании на 1998 год. Данные об объемах продаж с 1955 по 1997 гг. приведены в табл. 3.4. Сначала Мэгги подготовила пробный прогноз для уже имеющихся данных, используя метод пятимесячного скользящего среднего (мы познакомимся с этим методом в главе 4). Она вы- числила и записала ошибки прогноза, представляющие собой разность между действитель- ным и прогнозируемым значениями. Коэффициенты автокорреляции для вычисленного ряда ошибок приведены на рис. 3.16. Изучая полученные коэффициенты автокорреляции, можно отметить, что два коэффициента значительно отличаются от нуля (Г) = 0,74 и г2 = 0,56). Суще- ственная величина коэффициентов автокорреляции выявляет некоторую модель поведения значений во множестве ошибок. Более того, 2-статистика для девяти временных запаздыва- ний равна 50,6; это больше х2-квадрат значения с восемью степенями свободы, равного 15,5 (получено при уровне значимости 0,05). Отметим, что в этом случае число степеней свободы равно 9 - 1 (количество изучаемых запаздываний минус число параметров в подходящей для имеющихся данных модели скользящего среднего). Поскольку одно из основных требований, предъявляемых к методу прогнозирования, состоит в том, чтобы множество ошибок, полу- чаемых при его использовании, было случайным, Мэгги пришла к заключению, что метод пятимесячного скользящего среднего не является адекватным данному случаю. Затем Мэгги попробовала применить метод линейного экспоненциального сглаживания Хольта (Holt) (описание этого метода будет дано в главе 4). Коэффициенты автокорреляции для ряда ошибок, порожденных данным методом, приведены на рис. 3.17. Анализ этих коэф- фициентов показывает, что ни один из них существенно не отличается от нуля. Кроме того, была проверена 2-статистика для 10 временных запаздываний. Значение LBQ, равное 8,38, меньше х2-распределения, значение которого при восьми степенях свободы равно 15,5. В данном случае количество степеней свободы равно 10-2 (число изучаемых запаздываний минус число параметров в линейной экспоненциальной сглаживающей модели, соответст- вующей данным). Можно сделать заключение, что метод линейного экспоненциального сглаживания для имеющихся данных дает некоррелированные ошибки для любых значений периода запаздывания. Поэтому Мэгги решила выбрать этот метод в качестве подходящей модели прогнозирования дохода от основной деятельности компании Sears на 1998 год.
114 ГЛАВА 3 Lag Corr Т LBQ 1 0.74 4.58 22.70 2 0.56 2.39 36.05 3 0.41 1.52 43.27 4 0.23 0.82 45.69 5 0.06 0.21 45.86 6 -0.05 -0.16 45.96 7 -0.09 -0.32 46.38 Lag Corr T LBQ 8 -0.17 -0.60 47.92 9 -0.23 -0.77 50.60 Рис. 3.16. Функция автокорреляции для ошибок, не образующих случайного набора (приложение Minitab) c о § Ф 1.0 0.8 0.6 0.4 0.2 2-0.4 <-0.6 -0.8 -1.0 Autocorrelation for the Residuals of Holt's Model Lag Corr T LBQ Lag Corr T LBQ 1 0.00 0.03 0.00 8 0.02 0.09 8.25 2 -0.17 -1.13 1.40 9 -0.00 -0.02 8.25 3 0.31 1.94 5.90 10 0.05 0.26 8.38 4 -0.08 -0.48 6.22 5 -0.17 -0.99 7.69 6 -0.01 -0.07 7.69 7 0.10 0.58 8.24 Рис. 3.17. Функция автокорреляции для ошибок, образующих случайное множество (приложение Minitab)
Исследование наборов данных и выбор метода прогнозирования 115 Применение в менеджменте Изложенные в этой главе концепции предоставляют основу для выбора такого метода прогнозирования, который будет соответствовать рассматриваемой ситуации. В после- дующих главах обсуждается большинство наиболее важных методов прогнозирования и их применимость в той или иной ситуации. Ниже приведено несколько ситуаций, постоянно возникающих в мире бизнеса, при которых адекватно выбранный аппарат прогнозирования способен оказать существен- ную помощь в процессе принятия решений. Изложенный в этой главе материал может быть успешно применен в подобных ситуациях при условии, что в каждом случае будут учтены оба жизненно важных аспекта эффективного прогнозирования, а именно: сбор соответствующих данных и выбор правильного метода прогнозирования. • Компании, выпускающей прохладительные напитки, требуется составить прогноз спроса на свой основной продукт на последующие два года по месяцам. • Крупной телекоммуникационной компании требуется составить прогноз ежеквар- тальных дивидендов своего основного конкурента на последующие три года. • Университету необходимо на последующие четыре года составить прогноз количе- ства часов, выделяемых на получение студентами зачетов, на квартал, чтобы госу- дарственные законодательные учреждения могли планировать соответствующие бюджетные расходы. • Открытой бухгалтерской фирме необходим ежемесячный прогноз курса доллара, чтобы планировать дополнительные учетные позиции и начать их накопление. • Менеджеру по контролю качества предприятия, выпускающего алюминиевые слитки, необходим еженедельный прогноз количества дефектной продукции, кото- рый он должен предоставить высшим менеджерам компании. • Банкиру требуется оценить предполагаемый ежемесячный доход небольшой фаб- рики, выпускающей велосипеды, которая нуждается в значительной ссуде для уве- личения своих производственных мощностей. • Федеральному правительственному агентству необходим ежегодный прогноз сред- него количества миль, которое пройдет автомобиль американского изготовления, израсходовав один галлон бензина, чтобы подготовить соответствующие регули- рующие рекомендации на ближайшие 10 лет. • Менеджеру отдела кадров для планирования расходов на оплату внеурочных часов необходим ежемесячный прогноз числа рабочих дней, пропущенных работниками компании. • Чтобы избежать банкротства, компании, занимающейся предоставлением ссуд, не- обходим прогноз суммы невозвращенных ссуд на последующие два года. • Чтобы планировать бюджет затрат на модернизацию и развитие производства, компании, производящей компьютерные чипы, необходим общеотраслевой про- гноз числа проданных персональных компьютеров на последующие пять лет. Глоссарий Автокорреляция. Это корреляция между величиной и ее запаздыванием на один или более периодов времени. Временной ряд. Временной ряд состоит из данных, собранных, зафиксированных или наблюдаемых в течение последовательных промежутков времени.
116 ГЛАВА 3 Коррелограмма. Коррелограммой временного ряда называется график коэффициентов автокорреляции для различных значений запаздывания во времени. Кросс-секционный. Кросс-секционные данные — это наблюдения, произведенные в один и тот же момент времени. Ошибка прогноза. Представляет собой разность между действительно наблюдаемым значением и его прогнозом. Сезонная компонента. Это модель изменения данных, повторяющаяся из года в год. Стационарный ряд. Это временной ряд данных, основные статистические характеристики которого, такие как среднее значение и дисперсия, остаются постоянными во времени. Тренд. Это долгосрочная компонента, представляющая возрастание или убывание значений временного ряда в течение продолжительного промежутка времени. Циклическая компонента. Это волнообразная флуктуация значений данных вокруг линии тренда. Основные формулы Коэффициент автокорреляции k-го порядка Стандартная ошибка коэффициента автокорреляции SE(rt) = Q-статистика Льюинга-Бокса в=п{п + 2)У\-Л— ^п~к Случайная модель Y, = с + е, /-статистика для проверки значимости коэффициента автокорреляции с запаздыванием к (_гк~ Рк SE(rt) Ошибка прогноза или погрешность et=Yt-Yt Среднее абсолютное отклонение 1 лГ А М4Р = -У|г -fl (3.1) (3.2) (3.3) (3.4) (3.5) (3.6) (3.7)
Исследование наборов данных и выбор метода прогнозирования 117 Среднеквадратическая ошибка mse = -У (г; -y,Y (3-8> Средняя абсолютная ошибка в процентах 1 V' - I (3 9) МАРЕ = - У' л — Yt Средняя процентная ошибка 1 w (Y — Y 'l МРЕ = - У —------- (3-10) Y, Упражнения 1. Объясните различие между качественными и количественными методами прогнози- рования. 2. Что называется временным рядом? 3. Опишите все компоненты временного ряда. 4. Что такое автокорреляция? 5. Что измеряет коэффициент автокорреляции? 6. Опишите, как используются коррелограммы для анализа коэффициентов автокор- реляции, вычисляемых для различных запаздываний временного ряда. 7. Каждое из следующих утверждений описывает стационарный или нестационарный ряд. Определите, к какому типу относится каждый из них. а) ряд, имеющий тренд б) ряд, у которого среднее значение и дисперсия остаются постоянными во времени в) ряд, у которого среднее значение изменяется с течением времени г) ряд, не содержащий ни подъема, ни спада 8. Ниже описано несколько типов рядов: случайные, стационарные, содержащие тренд или сезонные. Определите тип каждого из этих рядов. а) ряд, основные статистические характеристики которого, такие как среднее и дисперсия, остаются постоянными с течением времени б) временной ряд, последовательные значения которого не связаны друг с другом в) между всеми последовательными значениями ряда существует сильная взаимо- связь г) значительный коэффициент автокорреляции появляется для момента запазды- вания, равного 4, и данные являются ежеквартальными д) ряд не содержит ни подъема, ни спада е) коэффициенты автокорреляции значительно отличаются от нуля для первых нескольких запаздываний, а затем постепенно убывают к нулю с увеличением времени запаздывания
118 ГЛАВА 3 9. Перечислите несколько методов прогнозирования, которые следует использовать для прогнозирования значений стационарных рядов. Приведите примеры ситуаций, в которых эти методы применимы. 10. Перечислите несколько методов прогнозирования, которые следует использовать для прогнозирования рядов с трендом. Приведите примеры ситуаций, в которых эти методы применимы. 11. Перечислите несколько методов прогнозирования, которые следует использовать для прогнозирования сезонных рядов. Приведите примеры ситуаций, в которых эти методы применимы. 12. Перечислите несколько методов прогнозирования, которые следует использовать для прогнозирования циклических рядов. Приведите несколько ситуаций, в которых эти методы применимы. 13. В табл. 3.8 приведены сведения о количестве бракосочетаний, зарегистрированных в США. Вычислите первые разности для этих данных. Изобразите исходные данные и данные, представленные разностями в виде временных рядов. Присутствует ли тренд в обоих этих рядах? Обсудите этот вопрос. Таблица 3.8. Данные о количестве бракосочетаний в США Год Количество браков (тыс.) 1985 2413 1986 2407 1987 2403 1988 2396 1989 2403 1990 2448 1991 2371 1992 2362 1993 2334 1994 2362 1995 1954 1996 1840 Источник: Statistical Abstract of the United States, 1998, c.76 14. Найдите доверительный интервал с 95% уровнем значимости для коэффициента ав- токорреляции с запаздыванием в один период для временного ряда, содержащего 80 значений. 15. Какую меру точности прогноза следует использовать в каждой из следующих ситуаций? а) аналитику необходимо определить, является ли метод прогнозирования сме- щенным
Исследование наборов данных и выбор метода прогнозирования 119 б) аналитик предполагает, что размер или абсолютное значение прогнозируемой величины важны в оценке точности прогноза в) аналитику необходимо выявить большие ошибки прогноза 16. Какие из приведенных ниже утверждений в отношении мер точности, используемых для оценки прогнозов, являются верными? а) показатель МАРЕ принимает во внимание действительное значение прогнози- руемой величины б) показатель MSE выявляет большие ошибки в) показатель МРЕ используется для выяснения того, является ли модель система- тически завышающей или занижающей прогноз г) преимущество метода вычисления MAD состоит в том, что он соотносит размер ошибки с действительным наблюдением 17. Элли Вайт (Allie White), руководителю отдела кредита в банке Dominion Bank, требу- ется проанализировать портфель банковских ссуд с 1995 по 2000 гг. Соответствую- щие данные приведены в табл. 3.9. Таблица 3.9. Ежеквартальные ссуды Dominion Bank за 1995-2000 гг. (млн долл.) Годы Март 31 Июнь 30 Сентябрь 30 Декабрь 31 1995 2313 2495 2609 2792 1996 2860 3099 3202 3161 1997 3399 3471 3545 3851 1998 4458 4850 5093 5318 1999 5756 6013 6158 6289 2000 6369 6568 6646 6861 Источник: записи Dominion Bank а) вычислите коэффициенты автокорреляции для запаздываний, равных одному и двум периодам. Проверьте, будут ли эти коэффициенты автокорреляции суще- ственно отличны от нуля для уровня значимости 0,05 б) используйте компьютерную программу для построения графического представ- ления данных и вычисления коэффициентов автокорреляции для первых шести интервалов запаздывания. Является ли данный временной ряд стационарным? 18. Данный вопрос относится к временному ряду, описанному в упр. 17. Вычислите первые разности для ежеквартальных данных о ссудах в банке Dominion Bank. а) вычислите коэффициент автокорреляции при запаздывании в один период для ряда вычисленных разностей б) используйте компьютерную программу для построения графического представ- ления данных и вычисления коэффициентов автокорреляции для первых шести интервалов запаздывания. Является ли данный временной ряд стационарным? 19. Проанализируйте коэффициенты автокорреляции для некоторых рядов, представ- ленные на рис. 3.18—3.21. Кратко опишите характеристики каждого из этих рядов.
120 ГЛАВА 3 о *й 2 о о о Autocorrelation Function for Trade 1.0 - 0.8 - 0.6 - 0.4 - 0.2 - 0.0 - -0.2 - -0.4 - < -0.6 - -0.8 - -1.0 - Рис. 3.18. 1-я функция автокорреляции для упр. 19 (приложение Minitab) Рис. 3.20. 3-я функция автокорреляции для упр. 19 (приложение Minitab)
Исследование наборов данных и выбор метода прогнозирования 121 20. Аналитик хотел бы определить, существует ли некоторая модель изменения в дан- ных о средних доходах из расчета на одну сделку для компании Price Company, кото- рая руководит всеми операциями купли/продажи за наличный расчет во многих штатах под именем Price Club. Указанные данные приведены в табл. 3.10. Охаракте- ризуйте модели, которые присутствуют в этих данных. Таблица 3.10. Ежеквартальные доходы из расчета на одну сделку для компании Price Club за 1986-1993 гг. 4 квартал Годы 1 квартал 2 квартал 3 квартал 1986 0,40 0,29 0,24 0,32 1987 0,47 0,34 0,30 0,39 1988 0,63 0,43 0,38 0,49 1989 0,76 0,51 0,42 0,61 1990 0,86 0,51 0,47 0,63 1991 0,94 0,56 0,50 0,65 1992 0,95 0,42 0,57 0,60 1993 0,93 0,38 0,37 0,57 Источник: The Value Line Investment Survay (New York: Value Line, 1994), c. 1646. а) найдите значение прогноза ежеквартального дохода из расчета на одну сделку для компании Price Club для каждого квартала, используя наивную модель прогнозирования (прогноз для первого квартала 1994 года является значением для четвертого квартала 1993 года, т.е. 0,57) б) оцените прогноз, полученный наивным методом, используя показатель MAD в) оцените прогноз, полученный наивным методом, используя показатель MSE г) оцените прогноз, полученный наивным методом, используя показатель МАРЕ д) оцените прогноз, полученный наивным методом, используя показатель МРЕ е) составьте письменный отчет о полученных результатах
122 ГЛАВА 3 /АЧ lift flft lift /I ft л ft fl ft lift fl ft fl ft lift flft flft MF/ W MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ Задание 3.1. Сеть мебельных магазинов Murphy Brothers В 1958 году братья Мэрфи (Murphy) открыли мебельный магазин в деловом центре горо- да Даллас. Дела пошли успешно, и со временем они распространили свой бизнес на За- пад и Средний Запад США. К 1996 году сеть их мебельных магазинов прочно укрепилась в 36 штатах. Дочь одного из основателей дела, Джулия Мэрфи (Julie Murphy), недавно закончила бизнес-колледж и присоединилась к управлению фирмой. Ее отец и дядя обладали бога- тым опытом и знаниями во многих областях, но не умели обращаться с количественной информацией. В частности, оба они прекрасно понимали, что не смогут составить точ- ный прогноз объемов продаж мебели в магазинах сети Murphy Brothers с помощью со- временных компьютерных технологий. Поэтому с подобным предложением они обрати- лись к Джулии, представив это как часть ее новых должностных обязанностей. Обучаясь в колледже, Джулия изучала бизнес-прогнозирование, и потому она уже приобрела пакет прикладных программ по прогнозированию и приложение Minitab и ус- тановила их на своем офисном компьютере. Сначала она решила в качестве изучаемой величины выбрать объемы продаж мебели в компании в долларах, но обнаружила, что сведения за несколько лет истории фирмы отсутствуют. Она обратилась с вопросом к от- цу, и он ответил, что в то время “он не предполагал, что эти данные когда-либо окажутся важными”. Джулия предположила, что объем продаж фирмы Murphy Brothers, вероятно, близок к показателям, описывающим объемы продаж в национальном масштабе. Поэтому она решила отыскать соответствующие оценки в одном из многих опубликованных феде- ральных исследований. Просматривая последний выпуск бюллетеня Survey of Current Business, она обнаружила сведения о ежемесячных объемах продаж всех магазинов роз- ничной торговли в США. Джулия решила использовать эти сведения вместо первона- чально выбранного показателя — объемов продаж мебели в долларах в магазинах фирмы Murphy Brothers. Она предположила, что если ей удастся получить точный прогноз для объемов продаж в национальных масштабах, она сможет применить найденную зависи- мость к имеющимся данным об объемах продаж мебели в фирме Murphy Brothers и полу- чить интересующие ее прогнозы. В табл. 3.11 приведены собранные Джулией данные, а на рис. 3.22 представлен соот- ветствующий график, построенный компьютерной программой. Джулия начала свой анализ, воспользовавшись компьютером для построения графика коэффициентов авто- корреляции.
Исследование наборов данных и выбор метода прогнозирования 123 Таблица 3.11. Ежемесячные объемы продаж (млрд долл.) во всех магазинах США, торгующих в розницу, за 1983-1995 гг. 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 Январь 81,3 93,1 98,8 105,6 106,4 113,6 122,5 132,6 130,9 142,1 148,4 154,6 167,0 Февраль 78,9 93,7 95,6 99,7 105,8 115,0 118,9 127,3 128,6 143,1 145,0 155,8 164,0 Март 93,8 103,3 110,2 114,2 120,4 131,6 141,3 148,3 149,3 154,7 164,6 184,2 192,1 Апрель 93,8 103,9 113,1 115,7 125,4 130,9 139,8 145,0 148,5 159,1 170,3 181,8 187,5 Май 97,8 111,8 120,3 125,4 129,1 136,0 150,3 154,1 159,8 165,8 176,1 187,2 201,4 Июнь 100,6 112,3 115,0 120,4 129,0 137,5 149,0 153,5 153,9 164,6 175,7 190,1 202,6 Июль 99,4 106,9 115,5 120,7 129,3 134,1 144,6 148,9 154,6 166,0 177,7 185,8 194,9 Август 100,1 111,2 121,1 124,1 131,5 138,7 153,0 157,4 159,9 166,3 177,1 193,8 204,2 Сентябрь 87,9 104,0 113,8 124,4 124,5 131,9 144,1 145,6 146,7 160,6 171,1 185,9 192,8 Октябрь 100,7 109,6 115,8 123,8 128,3 133,8 142,3 151,5 152,1 168,7 176,4 189,7 194,0 Ноябрь 103,9 113,5 118,1 121,4 126,9 140,2 148,8 156,1 155,6 167,2 180,9 194,7 202,4 Декабрь 125,8 132,3 138,6 152,1 157,2 171,0 176,5 179,7 181,0 204,1 218,3 233,3 238,0 Источник: Бюллетень Survey of Current Busines за разные годы Monthly Sales for all U.S. Retail Stores: 1983-1995 Year Puc. 3.22. График временного ряда объема ежемесячных продаж во всех магазинах США, торгующих в розницу (приложение Minitab) После изучения полученной коррелограммы, показанной на рис. 3.23, Джулии стало ясно, что собранные ею данные имеют тренд. Вначале коэффициенты автокорреляции очень велики, а затем они постепенно убывают к нулю с увеличением периода запазды-
124 ГЛАВА 3 вания. Для того чтобы сделать ряд стационарным, после чего к нему можно будет приме- нять различные методы прогнозирования, Джулия решила получить для имеющихся данных первые разности и посмотреть, поможет ли это устранить из них тренд. Корре- лограмма для первых разностей собранных Джулией данных представлена на рис. 3.24. Autocorrelation Function for Retail Sales Рис. 3.23. Функция автокорреляции для объемов ежемесячных продаж во всех ма- газинах США, торгующих в розницу (приложение Minitab) Autocorrelation Function for Retail Sales First Differenced Puc. 3.24. Функция автокорреляции для первых разностей, образованных из данных об объемах ежемесячных продаж всех магазинов в США, торгующих в розницу (приложение Minitab) Вопросы 1. Какой вывод должна сделать Джулия о ряде данных, представляющих объем ежеме- сячных розничных продаж в США? 2. Существенно ли продвинулась Джулия в выборе метода прогнозирования? 3. Какой метод прогнозирования следует пытаться применить Джулии? 4. Как Джулия сможет определить, какой из методов прогнозирования дает наилучший эффект?
Исследование наборов данных и выбор метода прогнозирования 125 Задание 3.2. “Mr. Tux” Джон Мосби, владелец нескольких пунктов проката, функционирующих под вывеской “Мт. Тих”, решил получить прогноз для показателя, наиболее полно отражающего ус- пешность его бизнеса, — дохода от проката в долларах (см. задание “Mr. Tux” в преды- дущих главах). Одна из его служащих, Виржиния Перо (Virginia Perot), собрала данные о ежемесячных доходах, приведенные в задании 2.2. Джон решил использовать все собранные им данные (за 96 месяцев). Эти данные бы- ли введены в приложение Minitab, после чего для них были вычислены коэффициенты автокорреляции, представленные на рис. 3.25. Поскольку все коэффициенты автокорре- ляции положительны и значения их постепенно убывают, Джон пришел к заключению, что собранные им данные имеют тренд. Autocorrelation Function for Mr. Tux Sales Puc. 3.25. Функция автокорреляции для данных о доходах компании “Mr. Тих” (приложение Minitab) Далее Джон вычислил первые разности для этих данных. На рис. 3.26 представлены коэффициенты автокорреляции для полученных разностей. Коэффициент автокорреля- ции для запаздывания, равного 12 периодам, г12 = 0,68, существенно отличен от нуля. Затем Джон воспользовался еще одной компьютерной программой для вычисления процентного соотношения изменчивости в исходных данных, объясняемого трендом, се- зонностью и случайными компонентами. Вычисленное программой процентное соотношение изменчивости в исходных дан- ных, объясняемое исследуемыми факторами, оказалось следующим. Фактор Процент изменчивости Данные Тренд Сезонность 100 6 45 Случайные факторы 49
126 ГЛАВА 3 Рис. 3.26. Функция автокорреляции для первых разностей, вычисленных для дан- ных о доходах компании “Mr. Тих” (приложение Minitab) Вопросы 1. Обобщите результаты анализа Джона, представив их одной фразой, которую должен понять менеджер, а не тот, кто создавал прогноз. 2. Опишите тренд и сезонные эффекты, которые присутствуют в данных о доходах компании “Mr. Tux”. 3. Как бы вы объяснили смысл строки “Случайные факторы — 49%”? 4. Предположим, коэффициенты автокорреляции г24 и г36 существенно отличны от ну- ля. Можно ли в этом случае сделать заключение, что сезонные явления также имеют тренд? Если да, то поясните, что, по вашему мнению, означает тренд в сезонности. Задание 3.3. Корпорация Consumer Credit Counseling Функционирование корпорации Consumer Credit Counseling (CCC) было описано в гла- ве 1 (задание 1.2). Мэрв Харнишфегер (Marv Hamishfeger), исполнительный директор корпорации, столкнулась с проблемой определения размеров штата сотрудников и составления гра- фиков их работы на оставшуюся часть 1993 года. Она объяснила ситуацию Дороти Мер- сер (Dorothy Mercer), которая недавно была избрана президентом исполнительного ко- митета корпорации. Дороти обдумала проблему и пришла к выводу, что необходимо про- анализировать количество новых клиентов, обращающихся в корпорацию ССС каждый месяц. Дороти, которая занималась оценкой эффективности предоставляемых услуг, бы- ла знакома с различными методами исследования данных и согласилась выполнить соот-
Исследование наборов данных и выбор метода прогнозирования 127 ветствующий анализ. Она попросила Мэрв предоставить ей ежемесячные данные о коли- честве новых клиентов корпорации ССС, и Мэрв передала ей требуемые данные за пери- од с января 1985 года по март 1993 года (табл. 3.12). Таблица 3.12. Количество новых клиентов, обратившихся в корпорацию ССС с января 1985 года по март 1993 года Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь Декабрь 1985 182 136 99 77 75 63 87 73 83 82 74 75 1986 102 121 128 128 112 122 104 108 97 141 97 87 1987 145 103 113 150 100 131 96 92 88 118 102 98 1988 101 153 138 107 100 114 78 106 94 93 103 104 1989 150 102 151 100 100 98 97 120 98 135 141 67 1990 127 146 175 110 153 117 121 121 131 147 121 110 1991 171 185 172 168 142 152 151 141 128 151 121 126 1992 166 138 175 108 112 147 168 149 145 149 169 138 1993 152 151 199 Дороти проанализировала предоставленные ей данные, построив график этого вре- менного ряда и выполнив для него автокорреляционный анализ. Вопросы 1. Объясните, как Дороти могла использовать автокорреляционный анализ при иссле- довании набора данных о количестве новых клиентов корпорации ССС. 2. Какой вывод она должна была сделать после завершения этого анализа? 3. Какой из существующих методов прогнозирования Дороти могла рекомендовать для этого множества данных? Задание 3.4. Компания Alomega Food Stores В примере 1.1 президент компании Alomega Food Stores, Джулия Рас, собрала данные о функционировании своей компании. Она подобрала данные об объемах продаж за не- сколько месяцев наряду с несколькими, возможно влияющими на этот показатель, неза- висимыми величинами (вспомните ситуацию, описанную в примере 1.1). Пока ее коман- да аналитиков работала с этими данными для подготовки прогноза ежемесячных объемов продаж в компании, Джулия проявила нетерпение и заинтересовалась тем, какой из не- зависимых факторов, потенциально влияющих на прогноз, имеет наибольшее значение.
128 ГЛАВА 3 В задании 2.3 Джулия исследовала взаимосвязь между объемом продаж в компании и, возможно влияющими на этот показатель, независимыми величинами. В конце концов она обнаружила, что ее действия были преждевременными, так как она даже не знала, какая модель поведения присутствует в собранных данных о продажах (табл. 3.13). Таблица 3.13. Ежемесячный объем продаж в 27 продовольственных магазинах компании Alomega Food Stores за 1996-1999 гг. Месяц 1996 1997 1998 1999 Январь 425 075 629 404 655 748 455 136 Февраль 315 305 263 467 270 483 247 570 Март 432 101 468 612 429 480 732 005 Апрель 357 191 313 221 260 458 357 107 Май 347 874 444 404 528 210 453 156 Июнь 435 529 386 986 379 856 320 103 Июль 299 403 414 314 472 058 451 779 Август 296 505 253 493 254 516 249 482 Сентябрь . 426 701 484 365 551 354 744 538 Октябрь 329 722 305 989 335 826 421 186 Ноябрь 281 783 315 407 320 408 397 367 Декабрь 166 391 182 784 276 901 269 096 Вопрос 1. Какой вывод сделала Джулия относительно набора данных об объемах продаж в компании Alomega Food Stores? Применение Minitab Задание. В примере 3.4 Мэгги Тримэйн, аналитик компании Sears, желает составить прогноз объема продаж компании на 1998 год. Ей необходимо определить модель изме- нения в данных об объемах продаж с 1955 по 1997 гг. Решение в Minitab 1. Введите данные об объемах продаж компании Sears, представленные в табл. 3.4, в столбец С1. Чтобы построить коррелограмму, выберите команду Stat^Time Se- ries^ Autocorrelation, как показано на рис. 3.27. 2. На экране раскроется диалоговое окно Autocorrelation Function, показанное на рис. 3.28. а) дважды щелкните на переменной Operating Revenue, и ее имя появится справа в поле ввода Series б) введите текст заголовка в поле ввода Title и щелкните на кнопке ОК. Результи- рующая коррелограмма представлена на рис. 3.11
Исследование наборов данных и выбор метода прогнозирования 129 Рис. 3.27. Меню Autocorrelation приложения Minitab Рис. 3.28. Диалоговое окно Autocorrelation Function при- ложения Minitab 3. Для того чтобы вычислить разности данных, выберите команду Stat^Time Se- ries^ Differences. На рис. 3.27 показано, что команда Differences находится в меню выше команды Autocorrelation. 4. На экране раскроется диалоговое окно Differences, представленное на рис. 3.29. а) дважды щелкните на переменной Operating Revenue, и ее имя появится справа в поле ввода Series б) перейдите в поле ввода Store differences in и введите в него имя столбца С2. Ре- зультаты вычисления разностей будут помещены в этот столбец
130 ГЛАВА 3 Рис. 3.29. Диалоговое окно Differences при- ложения Minitab Применение Excel Задание. Гарри Вернон желает использовать приложение Excel для вычисления коэффи- циентов автокорреляции и построения коррелограммы для данных о продажах видео- магнитофонов, представленных в табл. 3.1. Решение в Excel Наилучшим методом решения этой задачи было бы применение специализированной надстройки Excel для выполнения статистического анализа, подобной пакету Kaddstat. Подход к решению задач с использованием надстроек Excel будет обсуждаться нами в конце главы 9. С помощью приведенной ниже последовательности действий можно ре- шить поставленную задачу и без применения надстройки Kaddstat. 1. Создайте новый файл, для чего выберите команду Файл ^Создать. 2. Поместите указатель мыши в ячейку А1. Обратите внимание на то, что как только указатель мыши помещается в какую-либо ячейку, она выделяется. Введите в ячейку А1 заголовок VERNON S MUSIC STORE (^Музыкальный магазин Vernon). Пере- местите курсор в ячейку А2 и введите в нее текст “NUMBER OF VCRS SOLD” (Количество проданных видеомагнитофонов). 3. Поместите курсор в ячейку А4 и введите в нее текст “Month” (Месяц). Нажмите кла- вишу <Enter>, в результате чего выделенной окажется ячейка А5. Введите в нее и последующие 11 ячеек названия всех месяцев, начиная с января. 4. Поместите курсор в ячейку В4 и введите в нее название переменной Y. Затем введите данные из табл. 3.1 в двенадцать последовательных ячеек, начиная с ячейки В5. По- местите курсор в ячейку С4 и введите в нее значение “Z”. 5. Выделите диапазон ячеек В4:С16 и введите команду Insert^Name^Create (Вставка^ Имя ^Создать). В раскрывшемся диалоговом окне Create Names (Создать имена) уста- новите флажок опции Top Row (Верхняя строка) и щелкните на кнопке ОК. В результате диапазону ячеек В5:В16 присваивается имя Y, а диапазону ячеек С5:С16 — имя Z. 6. Выделите ячейку С5 и введите в нее формулу =(B5-AVERAGE(Y))/STDEV(Y). Скопи- руйте значение из ячейки С5 в оставшиеся ячейки этого столбца, для чего выделите эту
Исследование наборов данных и выбор метода прогнозирования 131 ячейку, а затем поместите указатель мыши на манипулятор Fill в нижнем правом углу рамки и перетащите его вниз до ячейки С16. Оставив ячейки С5:С16 выделенными, щелкайте на кнопке Decrease Decimal (Уменьшить разрядность), которая показана на рис. 3.30 вверху справа, пока у значений в столбце С не окажется по три десятичных разряда. Кнопка уменьшения разрядности расположена на панели форматирования. Эту панель можно вывести на экран, щелкнув правой кнопки мыши на команде File и выбрав в раскрывшемся контекстном меню команду Formatting (Форматирование). 7. Введите заголовки LAG и ACF в ячейки Е4 и F4. Для того чтобы получить значения для первых шести временных запаздываний, введите цифры от 1 до 6 в ячейки Е5:Е 10. 8. Выделите ячейку F5 и введите в нее формулу =SUMPRODUCT(OFFSET(Z1E5,0,12- E5),OFFSET(Z,0,0,12-E5))/11. Выделите ячейку F5, поместите указатель мыши на мани- пулятор Fill в нижнем правом углу рамки и перетащите его вниз до ячейки F10. Оставив выделенными ячейки F5.F10, уменьшите разрядность их значений до трех десятичных разрядов. Результат выполнения описанных выше действий представлен на рис. 3.30. £3 Microsoft Excel - fig3-30 ВЬ Е® Insert Fpmat Josh gate IMndcw fiadd t№> x ОйН 314» И -• f-'eiii П 4ft и J, - о - в I л E 5 3 $ % , tag Й8 ijr ip л ’ - A, -. ___ F5 _ ; '! =SUMPRODUCT(OFFSET(ZE5,0,12-E5),OFFSET(Z,0,0,12-E5))/11 ~“ C . . D . E ... F„ | G .. ..H I T VERNON'S MUSIC STORE NUMBER OF VCRS SOLD 2 4 12 13 14 Month j’ January '< February ; March____[ April....] May .....I June I July....Г August j Sepiembej October • November^ December! 123 130 "125" 138 145": 142 J4i'! 1461 1471 157’ 150 160 -1.6411 ..-1 037 ..-1469 •0.346 ...0.259 "~'О.ООбГ ..-0.086 ' " 0.346 ...61432]""'" 1 296 ...616911.. iLAG 2 31 4! 5! 6i 0.5721 0.463! о.ш: 010161 -01033. 0W2! Z zi-'... Рис. 3.30. Заполненная рабочая таблица Excel 9. Для того чтобы получить коррелограмму, выделите ячейки F5:F10. Щелкните на кнопке Chartwizard (Мастер диаграмм), показанной на рис. 3.31 справа вверху. 10. На экране раскроется диалоговое окно Chartwizard (Мастер диаграмм), в котором по- требуется выполнить этапы с 1 по 4. На этапе 1 выберите тип диаграммы Column (Столбчатая) и щелкните на кнопке Next (Далее). На этапе 2 установите флажок опции Series (Ряды) и введите в поле Name (Имя) значение Corr. Щелкните на кнопке Next, и на экране раскроется диалоговое окно этапа 3. В поле Chat title удалите значение Corr. В поле Category (X) axis (Ось категорий (X)) введите Time Lags. Теперь щелкните на кнопке Data Table и установите флажок опции Show data table. Для того чтобы пе- рейти в диалоговое окно этапа 4, щелкните на кнопке Next. Для получения коррело-
132 ГЛАВА 3 граммы, показанной на рис. 3.31, щелкните на кнопке Finish (Конец). Чтобы увели- чить изображение коррелограммы, щелкните на одном из ее углов и потяните за него. 11. Для того чтобы сохранить эти данные для дальнейшего использования в главе 9, вы- берите команду File^Save As (Файл1^Сохранить как). В раскрывшемся диалоговом окне Save As (Сохранить как) введите значение ТаЬЗ-1 в поле File Name (Имя фай- ла). Щелкните на кнопке Save (Сохранить), в результате чего новый файл будет со- хранен надиске под именем ТаЬЗ-1 .xls. L-Mi.io’ull I -к! lui I И к]0е Е* Fffnat 1 2 •3. Я Corr. Г“ Г 0.800 - 0.600 0.400 0.200 0.000 -0.200 0.572 0.463 0.111 0.016 -0.033-0.102 1Г k , Time Lags i Chart Area I / Sheers / Shee‘6 J | « | Chart Area d ____________________________________________ -------A R-----------------C----------5---------Ё----------F" , G . H- —--------R VERNON'S MUSIC STORE Nlf Ре Мс SJMa и 12 :ДЗ И 15 16 Jul Зе Ос No De И < » Н\ Sheetl 1 Puc. 3.31. Отображение коэффициентов автокорреляции в Excel Рекомендуемая литература Ermer С.М. Cost of Error the Forecasting Model Selection. Journal of Business Forecasting (Spring, 1991), 10-12. Fildes R., Hibon M., Makridakis S., Meade N. The Accuracy of Extrapolative Forecasting Methods: Additional Empirical Evidence. International Journal of Forecasting (1997), 13. Makridakis S., Andersen A., Carbone R., Fildes R., Hibon M., Lewandowski R., Newton J., Parzen E., Winkler R. The Accuracy of Extrapolation (Time Series) Methods: Results of Forecasting Competi- tion. Journal of Forecasting, 1 (1982), 111—153. Makridakis S., Chadtfield C., Hibon M., Lawrence M.J., Mills T., Ord K., Simmons I.F. The M2- Competition: A Real Time Judgmentally Based Forecasting Study. International Journal of Fore- casting, 9 (1993), 5—30. Makridakis S., Hibon M. The M-3 Competition: Results, Conclusions and Implications. International Journal of Forecasting, 16 (2000), 451—476. Quenouille M.H. The Joint Distribution of Serial Correlation Coefficients. Annals of Mathematical Statistics, 20 (1949), 561—571. Wilkinson G.F. How a Forecasting Model is Chosen. Journal of Business Forecasting (Summer, 1989), 7-8.
wwwm ГЛАВА г/w/w/w/ Методы сглаживания и скользящие средние В этой главе описываются три простые группы методов прогнозирования временных ря- дов: наивные, усреднения и сглаживания. При наивных методах строятся простые модели прогноза, в которых предполагается, что будущее лучше всего характеризуется последними событиями. Методы усреднения позволяют делать прогнозы, основываясь на среднем зна- чении прошлых наблюдений. Методы сглаживания делают прогноз, усредняя прошлые данные с набором уменьшающихся (экспоненциально) весовых коэффициентов. На рис. 4.1 приведено описание процедуры предсказания для методов, рассматривае- мых в этой главе. На временной шкале наглядно представлены различные периоды. На рисунке точка t соответствует настоящему моменту. Все точки до нее соответствуют про- шлым наблюдениям интересующей нас переменной (К,), а точки после нее — будущим, которые предсказываются. Когда методика прогнозирования выбрана, можно восполь- зоваться известными данными и рассчитать прогнозируемые величины (У,). После того как предсказываемые значения будут получены, следует сравнить их с наблюдаемыми и рассчитать ошибку предсказания (е,). Правильная стратегия для оценки метода прогнозирования состоит из следующих этапов. 1. Метод прогноза выбирается, исходя из природы изучаемых данных. 2. Все данные делятся на две группы — данные инициализации или подгонки и дан- ные проверки или прогноза. 3. Выбранная методика прогнозирования определяет способ подбора значений для части данных, использованных для инициализации. 4. Согласно выбранной методике вычисляется прогноз для тестовой группы данных, а затем рассчитывается и оценивается ошибка предсказания (см. глава 3, “Исследование наборов данных и выбор метода прогнозирования”). 5. Результаты готовы. На их основе можно принимать решение о том, приемлема ли методика для использования в таком виде или потребуется ее модификация. Воз- можно, необходимо будет воспользоваться иной методикой прогноза с целью сравнить полученные результаты.
134 ГЛАВА 4 Текущий момент Данные прошедшего периода t Прогнозируемый период Yt-3. Yt-2, Yt.b Yt, Yt+b Yt+2, Yt+3, здесь Yt— последнее наблюдаемое значение переменной, Yf+1 — ближайшее прогнозируемое значение Рис. 4.1. Описание процесса прогнозирования Наивные модели Часто “молодые” фирмы оказываются в затруднительном положении; они вынуждены делать прогнозы на основе незначительного количества исходных данных. Это является настоящей проблемой, поскольку большинство методик прогнозирования требует доста- точно больших массивов исходных данных. В подобном случае наивные прогнозы — единственно возможное решение, поскольку они базируются только на самой свежей из доступной информации. При наивном прогнозировании полагается, что последний период лучше всего пред- сказывает будущее. Самой простой моделью, таким образом, будет Yl+i = Y., (4.1) где У,+| — это прогноз, сделанный в момент времени t (начальное предсказание) для мо- мента времени t + 1. Наивным прогнозом для каждого периода является непосредственно предшествую- щее ему наблюдение. Текущему значению величины в ряду присваивается стопроцент- ный вес, поэтому наивный прогноз можно назвать “прогнозом без изменений”. Поскольку наивное прогнозирование (уравнение 4.1) отбрасывает все прочие наблю- дения, в этой схеме изменения отслеживаются очень быстро. Проблема этого приближе- ния заключается в том, что случайные флуктуации отслеживаются так явно, как ни в ка- кой другой модели. Пример 4.1 На рис. 4.2 показаны квартальные объемы продаж бензопил в компании Acme Tool. Наивная методика прогнозирует, что объемы продаж в следующем квартале будут такие же, как и в предыдущем. В табл. 4.1 представлены данные об объемах продаж за 1994—2000 гг. Если дан- ные за 1994—1999 гг. взять как начальную часть, а данные за 2000 год — как тестовую, то про- гноз на первый квартал 2000 года будет следующим. Т24+1 = У24 У25 = 650
Методы сглаживания и скользящие средние 135 Таблица 4.1. Объем продаж бензопил в компании Acme Tool за 1994-2000гг. Год Квартал t Объем продаж 1994 1 1 500 2 2 350 3 3 250 4 4 400 1995 1 5 450 2 6 350 3 7 200 4 8 300 1996 1 9 350 2 10 200 3 И 150 4 12 400 1997 1 13 550 2 14 350 3 15 250 4 16 550 1998 1 17 550 2 18 400 3 19 350 4 20 600 1999 1 21 750 2 22 500 3 23 400 4 24 650 2000 1 25 850 2 26 600 3 27 450 4 28 700 Ошибка прогнозирования определяется, исходя из уравнения 3.6. Ошибка для периода 25 будет следующей. е25 = У25 - Г25 = 850 - 650 = 200 В аналогичном случае для периода 26 прогноз даст значение 850 с ошибкой 250. На рис. 4.2 показано, что исходные данные имеют тенденцию к возрастанию, и в то же время в них заметны сезонные колебания (в первый и четвертый кварталы объемы продаж относи- тельно высоки), поэтому выбранную модель следует модифицировать.
136 ГЛАВА 4 Year Рис. 4.2. Уровень продаж бензопил в компании Acme Tool за 1994—2000 гг. (приложение Minitab) Изучение исходных данных из примера 4.1 показывает, что их значения возрастают со временем. Если значение величины изменяется со временем, то ее называют нестацио- нарной, или имеющей тренд. Уравнение 4.1 дает очень низкую степень предвидения. Впрочем, данную методику можно приспособить к учету возможного тренда, приплюсо- вав разницу между текущим и предыдущим периодами. Такой моделью будет следующая. У,+1 = У, + (У, - Ум) (4.2) В уравнении 4.2 учитываются те изменения, которые наблюдаются между кварталами. Уравнение 4.2 для периода, включающего первый квартал 2000 года, даст следующее. ^24+1 = У’4 + (Уг4 ~ У24-1) У25 = У24 + (I24 _ Угз) У25 = 650 + (650 - 400) У25 = 650 + 250 = 900 Ошибка прогнозирования в этой модели будет следующей. е25 = У25 — У25 = 850 — 900 — —50 Иногда знание скорости изменения может оказаться более предпочтительным, чем знание абсолютной величины изменения. В этом случае модель может быть следующей. y,+1=yt^- (4-3) ъ-1 В примере 4.1 прогноз на первый квартал 2000 года (на основе уравнения 4.3) будет следующим. Y Y — У -4 *24+1 “ 124 ~ •*24-1
Методы сглаживания и скользящие средние 137 л Y V — v ^25 - >24 '23 f25 = 650— = 1056 400 Изучение данных из табл. 4.1 показывает, что в них есть сезонные колебания. Объем продаж в первый и четвертый кварталы, как правило, больше, чем в другие кварталы. Ес- ли сезонные вариации достаточно сильны, то модели можно придать следующий вид. Е,+1 = У,-з (4.4) Уравнение 4.4 устанавливает значение переменной в следующем квартале таким же, как и в соответствующем квартале прошлого года. В этом случае в примере 4.1 прогноз на первый квартал 2000 года будет следующим. ^24+1 = ^24-3 Г25 = Г21 У25 = 750 Главным недостатком этой модели является то, что в ней не учитываются события, про- исшедшие за этот год, а также какой-либо тренд. Существует несколько способов учета “свежих” данных. Например, аналитик может скомбинировать обе модели и учесть се- зонные вариации вместе с трендом. Одна из возможных моделей может выглядеть сле- дующим образом. Yl+l = Yl_3+(Y'-Y'-^-+^-Y^ (4.5) 4 Здесь член У,_3 отвечает за сезонные колебания, а последний член учитывает тренд, про- явившийся за последние четыре квартала. На основе уравнения 4.5 прогноз на первый квартал 2000 года для примера 4.1 будет следующим. у _ у , (^24 — ^24-1 ) + • + (1г4_з — Г24_4) '24+1 - '24-3 "I ~----------- 4 у -V . (г24-г23) + (г23-г22) + (г22-г21) + (г21-г2о) 4 v (650-400)+ (400-500)+ (500-750)+ (750-600) 4 У25 = 750 + 12,5 = 762,5 Очевидно, что число и сложность возможных наивных моделей ограничиваются лишь изобретательностью аналитика. Однако использование этих методик требует тщательной проверки. Наивные методы также могут служить основой для принятия решений при сравнении характеристик, полученных с помощью более сложных методов. Методы прогнозирования, основанные на усреднении Зачастую нужно обновлять прогнозы ежедневно, еженедельно или ежемесячно для рее- стров, содержащих сотни или тысячи записей. Чаще всего нет реальной возможности
138 ГЛАВА 4 применить сложный метод к каждому из наименований. Для того чтобы решить подоб- ную задачу, необходимо достаточно быстрое, недорогое и относительно краткосрочное средство прогнозирования. В данном случае аналитик, вероятно, воспользуется методикой, основанной на ус- реднении или сглаживании. При таких методиках взвешенное усреднение данных про- шлых наблюдений применяется для сглаживания случайных флуктуаций. В основу этих методик положено предположение о том, что флуктуации в наблюдениях являются слу- чайными отклонениями от некоторой гладкой кривой. Если вид этой кривой будет опре- делен, то можно рассчитать прогноз для последующих периодов. Простые средние Данные наблюдений можно сгладить различными способами. Целью является построение модели прогнозирования для последующих периодов, исходя из прошлых наблюдений. В этом разделе рассматривается метод простых средних. Как и в наивных моделях, в качестве начальных данных используется значение величины в момент времени t, а в качестве тесто- вой части — остальные. Ниже в уравнении 4.6 выполняется усреднение (вычисляется сред- нее значение) начальных данных и строится прогноз на следующий период. Е,+1 = (4.6) t м Как только новое наблюдение станет доступным, для прогнозирования на следующий период Y/+2 в уравнении 4.6 при вычислении среднего следует учесть и это наблюдение. Если одновременно предсказывается большое количество рядов данных (например, для нужд управления товарно-материальным снабжением), хранение данных может стать серьезной проблемой. Но она перестанет быть таковой, если обратиться к уравнению 4.7. В этом случае потребуется сохранять в принципе только наиболее “свежие” прогнозы и наблюдения; ведь время не стоит на месте. у = +'1 (4.7) г + 1 Метод простых средних приемлем в тех случаях, когда процессы, генерирующие вре- менные ряды, стабилизировались, а окружение, в котором существуют эти ряды, в ос- новном, неизменно. В качестве примеров такого типа рядов могут выступать количество продаж, зависящее от текущего уровня усилий продавца; количество продаж продуктов, достигших стадии насыщения своего жизненного цикла; и число планируемых на неделю визитов к врачу или адвокату, количество клиентов которых постоянно. В методе простого среднего для создания прогноза на следующий период используется среднее значение всех значимых прошлых наблюдений. Пример 4.2 Компания Spokane Transit Authority (STA) эксплуатирует парк автобусов, предназначенных для перевозки пожилых и немощных людей. В табл. 4.2 представлен отчет, сколько бензина закуплено для этих автобусов. Фактическое количество бензина, потребляемое автобусом в какой-либо день, — величина случайная, определяемая характером вызова и маршрута. На рис. 4.3 приведен график закупок бензина. На нем видно, что данные о закупках весьма ста-
Методы сглаживания и скользящие средние 139 бильны. А поскольку данные стабильны, можно применить метод простых средних к данным с 1 по 28 недели, чтобы построить прогноз на 29 и 30 недели. Для 29 недели прогноз будет иметь следующий вид. 1 28 г„-^.281.2 Ошибка прогнозирования будет следующей. е29 = У29 - У29 = 302 - 281,2 = 20,8 В прогнозе для 30 недели данных на одно значение больше (302). Поэтому прогнозирование даст такой результат. v 28У28+1 + У28+1 728+2 ’ 28 + 1 У _ 28(У29) + У29 730--------29 Узо = =281,9 29 Соответственно, ошибка прогнозирования для 30 недели будет следующей. е30 = Узо-?30 = 285-281,9 = 3,1 Тогда для 31 недели метод простых средних даст следующий прогноз. 30 730+1 = У31= — =282 30 Таблица 4.2. Закупки бензина компанией Spokane Transit Authority Неделя, t Количество, Yt Неделя, t Количество, Yt Неделя, t Количество, Yt 1 275 11 302 21 310 2 291 12 287 22 299 3 307 13 290 23 285 4 281 14 311 24 250 5 295 15 277 25 260 6 268 16 245 26 245 7 252 17 282 27 271 8 279 18 277 28 282 9 264 19 298 29 302 10 288 20 303 30 285
140 ГЛАВА 4 Gasoline Purchases for Spokane Transit Authority Рис. 4.3. Недельные закупки бензина в компании Spokane Transit Authority (приложение Minitab) Скользящие средние При использовании метода простых средних прогнозирование выполняется на основе усреднения всех существующих данных. Но иногда аналитика больше интересуют самые последние наблюдения. Тогда можно фиксировать число точек данных, подлежащих ус- реднению, и ограничиться только последними наблюдениями. Для описания такой мо- дели используется термин скользящее среднее. Как только новое наблюдение становится доступным, оно включается в усреднение, а наиболее старое, соответственно, исключа- ется. Вновь вычисленное скользящее среднее используется для создания прогноза на следующий период. Уравнение 4.8 дает простой пример модели скользящего среднего. Скользящее среднее порядка к, СС(к), определяется выражением YM = (Y'+-Y'-'~.Y-2+- + y,-m) ; (4,8) к где У/+1 — прогнозируемая величина на следующий период; Т, — значение величины в текущем периоде; к — число членов в скользящем среднем. Скользящее среднее для периода t — это арифметическое среднее к последних наблюдений. Следует отметить, что всем наблюдениям присваиваются одинаковые весовые коэф- фициенты. Каждое новое наблюдение включается в среднее по мере его появления, а наиболее старые тотчас исключаются. Скорость реакции на изменения в структуре дан- ных зависит от числа периодов к, участвующих в усреднении.
Методы сглаживания и скользящие средние 141 Важно также, что в методике скользящего среднего используются только последние к наблюдений; и число точек, подлежащих усреднению, не меняется со временем. Модель скользящего среднего не очень хорошо учитывает тренд и сезонные вариации, хотя дела- ет это лучше, чем метод простого среднего. Аналитик может изменять число периодов к в скользящем среднем. В скользящем среднем порядка 1, СС(1), последнее наблюдение Y, является прогнозом на следующий период. Этот случай полностью соответствует модели наивного прогнозирования, опре- деленной в уравнении 4.1. Скользящее среднее порядка к — это среднее значение к последовательных наблюдений. Пример 4.3 Прогнозирование на основе методики скользящего среднего демонстрируется в табл. 4.3. Для данных компании Spokane Transit Authority использовано пятинедельное скользящее среднее. Прогноз для 29 недели будет следующим. у _ (^28 ^28-1 '*’^28-2 *’•••*’^28-5+1) у _ (^+^+^+^+^24) - (282 + 271 + 245 + 260 + 250) 1308 , 2 29“ ---------------------- — ---- — 261,6 Таблица 4.3. Закупки бензина компанией Spokane Transit Authority е, f Количество i 275 * * 2 291 * * 3 307 * * 4 281 * * 5 295 * * 6 268 289.8 -21.8 7 252 288.4 -36.4 8 279 280.6 -1.6 9 264 275.0 -11.0 10 288 271.6 16.4 И 302 270.2 31.8 12 287 277.0 10.0 13 290 284.0 6.0
142 ГЛАВА 4 t Количество Y, е, 14 311 286.2 24.8 15 277 295.6 -18.6 16 245 293.4 -48.4 17 282 282.0 0.0 18 277 281.0 -4.0 19 298 278.4 19.6 20 303 275.8 27.2 21 310 281.0 29.0 22 299 294.0 5.0 23 285 297.4 -12.4 24 250 299.0 -49.0 25 260 289.4 -29.4 26 245 280.8 -35.8 27 271 267.8 3.2 28 282 262.2 19.8 29 302 261.6 40.4 30 285 272.0 13.0 Когда действительное значение для 29 недели станет известно, рассчитывается ошибка про- гнозирования. e29=Y29- У29 =302-261,6 = 40,4 Прогноз на 31 неделю будет следующим. у _ (^30 + ^30-1 + Уо-2 +••• + ^30-5+1) 130+1 - ------------------------- у _ (УзО + ^29 + ^28 + ^27 + Уб) Уз.- - - (285 + 302 + 282 + 271 + 245) 1381 Ул = -------------------------- =------ = 277 5 5 Для расчета прогноза методом скользящего среднего можно использовать приложение Minitab (см. раздел “Применение Minitab” в конце главы). На рис. 4.4 изображены графики изменений величины закупок наряду с прогнозами этих величин для соответствующих пе- риодов, выполненными методом скользящего пятинедельного среднего. Также здесь можно видеть, что Minitab позволяет определить среднеквадратическую ошибку {MSE, а в Minitab — MSD), среднюю ошибку в процентах {МАРЕ) и среднее отклонение {MAD).
Методы сглаживания и скользящие средние 143 Рис. 4.4. Прогноз недельных закупок бензина компании Spokane Transit Authority, выполненный с применением метода скользящего пятинедельного среднего (приложение Minitab) На рис. 4.5 представлена автокорреляционная функция остатков для метода скользящего пятинедельного среднего. Выполнив тест Льюинга-Бокса для шести временных интервалов, можно сделать вывод, что полученный ряд не случаен. Действительно, девятинедельная мо- дель дает лучший прогноз для этих данных, поскольку модели больших порядков менее чув- ствительны к флуктуациям в рядах данных. Autocorrelation Function for Example 4.3 Residuals 7.39 10.13 21.81 35.74 37.46 2 3 4 5 6 0.32 -1.21 -2.31 -2.06 -0.61 0.08 -0.30 -0.60 -0.64 -0.22 Рис. 4.5. Автокорреляционная функция остатков при использовании пятинедельного скользящего среднего для данных компании Spokane Transit Authority (приложение Minitab)
144 ГЛАВА 4 Аналитик может самостоятельно определить, сколько дней, недель, месяцев или кварталов нужно учитывать в скользящем среднем. Чем меньше их число, тем больший удельный вес приобретают последние периоды. И наоборот, большее число используе- мых периодов уменьшает удельный вес последних периодов. Если ряды подвержены неожиданным изменениям, то уместно было бы использовать в модели меньшее количество данных. В то же время большее количество данных в модели необходимо в тех случаях, когда в рядах наблюдаются отдельные редкие флуктуации. В главе 5 будет показано, что скользящее среднее зачастую используется для сглаживания компонент внутри самих временных рядов на основе квартальных или месячных данных. Для квартальных данных четырехквартальное скользящее среднее, СС(4), дает среднее значение для четырех кварталов. А для месячных данных 12-месячное скользящее сред- нее, СС(12), усредняет или устраняет сезонные явления. Чем больший порядок скользя- щего среднего, тем ощутимее эффект сглаживания. В примере 4.3 методика скользящего среднего применяется к стабильным данным. Из примера 4.4 видно, что происходит, если метод скользящего среднего применяется к данным, имеющим какой-либо тренд. Ниже рассматривается методика двойного сколь- зящего среднего, разработанная специально для оперирования данными, имеющими су- щественный тренд. Двойные скользящие средние Одним из способов построения прогноза для данных, имеющих линейный тренд, являет- ся использование методики двойных скользящих средних. Этот метод подразумевает именно то, о чем говорит его название: сначала вычисляется ряд значений методом скользящих средних, а потом уже этот набор прогнозов усредняется этим же методом. Ниже в табл. 4.4 представлены данные о доходах от проката видеокассет компании Movie Video Store. Тут же приводятся результаты прогнозирования объемов проката ме- тодом трехнедельного скользящего среднего. Изучив колонку ошибок в этой таблице, можно увидеть, что каждая из записей положительна. Это означает, что подобный метод прогнозирования не учитывает тренда. Таблица 4.4. Недельные доходы от проката для компании Movie Video Store t Сдано в прокат за неделю, У, Скользящий итог за 3 недели Прогноз, е. 1 654 - - - 2 658 - - - 3 665 1997 - - 4 672 1995 659 13 5 673 2010 665 8 6 671 2016 670 1 7 693 2037 672 21 8 694 2058 679 15
Методы сглаживания и скользящие средние 145 Окончание табл. 4.4 t Сдано в прокат за неделю, У, Скользящий итог за 3 недели Прогноз, YM е< 9 701 2088 686 15 10 703 2098 696 7 11 702 2106 699 3 12 710 2115 702 8 13 712 2124 705 7 14 711 2133 708 3 15 728 2151 711 17 16 - 717 MSE= 133 На рис. 4.6 для данных из табл. 4.4 представлены прогнозы, вычисленные по методам скользящего среднего и двойного скользящего среднего. Из графика видно, что прогно- зы, сделанные с помощью скользящего среднего, постоянно отстают от действительных значений соответствующих периодов. Этот пример иллюстрирует результаты примене- ния методики скользящего среднего к данным, в которых есть тренд. Видно также, что прогнозы на основе двойного скользящего среднего запаздывают по сравнению с мето- дом скользящего среднего в той же мере, в какой метод скользящего среднего отстает от реальных величин. Рис. 4.6. Трехнедельное простое и двойное скользящее среднее для данных компании Movie Video Store
146 ГЛАВА 4 Способ расчета двойного скользящего среднего описывается уравнениями 4.9-4.12. Прежде всего для вычисления скользящего среднего используется уравнение 4.8. к Затем для вычисления вторичного скользящего среднего применяется уравнение 4.9. _ (М, +М,, + M,2+...+M,ttl) к Для того чтобы построить прогноз, в уравнении 4.10 к первичному скользящему средне- му прибавляется разница между первичным и вторичным скользящими средними. а, = М, + (И - Л/,) = 2М, - М, (4.10) В уравнении 4.11 вводится дополнительный корректировочный фактор, сходный с ко- эффициентом наклона, который может меняться для различных диапазонов значений в ряду. 2 Ь,= —-{М-М^ (4.11) к-1 И наконец, в уравнении 4.12 делается прогноз нар периодов вперед. Г»? = а, + Ь,р (4.12) Здесь к— количество периодов, задействованных в скользящем среднем; р — количество периодов вперед, на которое делается прогноз. Пример 4.4 Компания Movie Video Store владеет в Денвере, шт. Колорадо, несколькими заведениями по прокату видеофильмов. Компания растет и нуждается в расширении складских помещений, чтобы справиться с увеличением спроса на ее услуги. Президент компании поручил Джил От- тенбрит (Jill Ottenbreit) спрогнозировать доход от проката видеокассет на следующий месяц. Данные о доходах от проката за последние 15 недель приведены в табл. 4.5. Таблица 4.5. Прогноз метадом двойного скользящего среднего для данных компании Movie Video Store t Y, M, at b, a + bp, (P = l) et 1 2 3 4 5 6 7 8 1 654 - - - - - - 2 658 - - - - - - 3 665 659 - - - - - 4 672 665 - - - - - 5 673 670 665 675 5 - 6 671 672 669 675 3 680 -9
Методы сглаживания и скользящие средние 147 ИМ t Y, м, а. b, Окончание табл. 4.5 a + bp, (Р = 1) et 1 2 3 4 5 6 7 8 7 693 679 634 684 5 678 15 8 694 686 679 693 7 689 5 9 701 696 687 705 9 700 1 10 703 699 694 704 5 714 -И 11 702 702 699 705 3 709 -7 12 710 705 702 708 3 708 2 13 712 708 705 711 3 711 1 14 711 711 708 714 3 714 -3 15 728 717 712 722 5 717 11 16 - - - - 727 Значение MSE = 63,7 Джил сначала попыталась сделать прогноз на основе метода трехнедельного скользящего среднего. Для такой модели MSE оказалось равным 133. Поскольку наличие тренда в данных очевидно, она пришла к выводу, что ее прогноз будет недооценивать величину реальных до- ходов. Поэтому она решила применить методику двойного скользящего среднего. Результаты применения этой методики показаны в табл. 4.5. Чтобы пояснить полученное значение про- гноза для 16 недели, ниже приводятся детальные расчеты. Для определения трехнедельного скользящего среднего (колонка 3) использовалось уравнение 4.8. I/ _ у _ (^15 + ^15-1 + ^15-2 + •" + ^15-3+1) ЛЯ 15 - 115+1 - ------------------------ - (728 + 711 + 712) Л/15 = У16 =--------------=717 Для двойного скользящего среднего (столбец 4) применяется уравнение 4.9. = ^15 +^15-1 А/15-2 Л-... + М15 3+1) . (717 + 711 + 708) М]5 - ----------------- = 712 3 Для вычисления разницы между двумя скользящими средними (столбец 5) используется уравнение 4.10. а15 = 2Л/|5 - М15 = 2(717) - 712 = 722 Уравнение 4.11 рассчитывает наклон (столбец 6). 2 bi5= — (Л/15-Л/15) = 2/2(717 -712) = 5
148 ГЛАВА 4 Для прогноза на один период в будущее использовано уравнение 4.12 (столбец 7). + = 722 + 5(1) = 727 Прогноз на четыре недели вперед будет следующим. У15+4 = al5 + Ь15р = 722 + 5(4) = 742 Обратите внимание на то, что в результате MSE уменьшилось с 133 до 63,7. Это подтверждает обоснованность предположения о том, что более “свежие” наблю- дения содержат больше важной информации. В методе, который вводится в следующем разделе, более свежим наблюдениям придается еще больший вес. Методы экспоненциального сглаживания По сравнению с методами скользящих средних, где задействованы только наиболее све- жие данные, в методе простого экспоненциального сглаживания применяется взвешен- ное (экспоненциально) скользящее усреднение всех данных предыдущих наблюдений. Эта модель чаще всего применяется к данным, о которых заранее не известно, имеют ли они тренд. Целью такого подхода является оценка текущего состояния, результаты кото- рой и определят все последующие прогнозы. Экспоненциальное сглаживание предусматривает постоянное обновление модели за счет наиболее свежих данных. Этот метод основывается на усреднении (сглаживании) временных рядов прошлых наблюдений в нисходящем (экспоненциально) направлении. Иными словами, здесь более поздним событиям присваивается больший вес. Вес при- сваивается следующим образом: для последнего наблюдения весом будет величина а, для предпоследнего — (1 - а), для того, которое было перед ним, — (1 - а)2 и т.д. В сглаженном виде новый прогноз (для периода времени /+ 1) можно представлять как взвешенное среднее последнего наблюдения величины в момент времени г и ее прежнего прогноза на этот же период /. Причем вес а присваивается наблюдаемому зна- чению, а вес (1 - а) — прогнозу; при этом полагается, что 0 < а < 1. Это правило в общем виде можно записать следующим образом. Новый прогноз = [ах (последнее наблюдение)] + [(1 - а) х последний прогноз] Более формально данное выражение можно записать так: У/+1 = аУ, + (1-а)У,я (4.13) где У ,+1 — прогнозируемое значение на следующий период; а — постоянная сглаживания (0 < а < 1); Y , — наблюдение величины за текущий период /; У , — прежний сглаженный прогноз этой величины на период t. Чтобы прояснить смысл постоянной а, уравнение 4.13 можно переписать в следую- щем виде. У,+1 = аУ, + (1 - а)У, У,+1 = аУ, + Y, - аУ, У(+1 = У, + а(У, - У,) Экспоненциальное сглаживание — это просто старый прогноз (У,) с уточнением в виде про- изведения а на ошибку последнего прогноза (У, - У,).
Методы сглаживания и скользящие средние 149 Экспоненциальное сглаживание — это процедура для постоянного пересмотра результа- тов прогнозирования в свете самых последних событий. Постоянная сглаживания а является взвешивающим фактором. Ее реальное значение определяется тем, в какой мере текущее наблюдение должно влиять на прогнозируемую величину. Если а близко к 1, значит, в прогнозе существенно учитывается величина ошибки последнего прогнозирования. И наоборот, при малых значениях а прогнозируе- мая величина наиболее близка к предыдущему прогнозу. Можно представить У, как взве- шенное среднее значение всех прошлых наблюдений с весовыми коэффициентами, экс- поненциально убывающими с “возрастом” данных.' Скорость, с которой прошедшие на- блюдения теряют свою значимость, можно проследить по табл. 4.6. Постоянная а является ключом к анализу данных. Если требуется, чтобы спрогнозиро- ванные величины были стабильны и случайные отклонения сглаживались, необходимо вы- бирать малое значение а. Большее значение постоянной а имеет смысл в том случае, если нужна быстрая реакция на изменения в спектре наблюдений. Для оценки оптимального значения а один из методов состоит в минимизации среднеквадратической ошибки (MSE), которая определяется уравнением 3.8. Последовательно вычисляются прогнозы при а, рав- ном 0,1; 0,2;...; 0,9, и рассчитывается величина среднеквадратической ошибки прогнозиро- вания для каждого из них. То значение а, для которого величина ошибки будет наимень- шей, и выбирается для дальнейшего использования в прогнозах. При использовании уравнения 4.13 необходимо оговорить начальное сглаженное зна- чение. Одна из моделей предлагает установить первую оценку равной первому наблюде- нию. Эта модель показана в примере 4.5. В ином методе в качестве начального использу- ется среднее значение первых пяти или шести наблюдений. Пример 4.5 Методика выполнения экспоненциального сглаживания демонстрируется в табл. 4.7 и на рис. 4.7 и 4.8. Для данных компании Acme Tool за 1994—2000 гт. постоянная сглаживания взята равной 0,1 и 0,6. Данные за 2000 год составят тестовую часть; по ним будет сделана оценка эффективности ка- ждой из моделей. Для экспоненциального сглаживания рядов начальное значение У, берется рав- ным 500. Если имеются более ранние данные (до 1994 года), то можно, предварительно сгладив, взять их как начальные. Ниже приведены этапы вычисления прогноза для периода 3. 1. Прогноз на период 3 определяется следующим образом. У,+1 = aY,+ (1 - а)У, У2+1 = аУ2+(1-а)У2 У3 = 0,1(350) + (1 - 0,1)500 = 485 2. Ошибка прогнозирования будет следующей. е3 = У3 - У3 = 250 - 485 = -235 3. Прогноз для периода 4 таков. У4 = 0,1(250) + 0,9(485) = 461,5 1 Поскольку в уравнении 4.13 неявно предполагается, что Y, = CtY,-! + Yt-1, подстановка выражения для Y, в уравнение 4.13 даст Y-l = UY, + (1 — а)[ОД-7 + Yt-1], где коэффициентом перед Y,-l является а(1 - а). Продолжение подстановки позволяет представить Y,-l как сумму текущего и предыдущих значений Y с экспоненциально убывающими весовыми коэффициентами.
150 ГЛАВА 4 4. Для постоянной сглаживания, равной 0,1, прогнозируемая величина для первого кварта- ла 2000 года равна 469. При постоянной сглаживания, равной 0,6, — прогноз дает 576. Таблица 4.6. Сравнение влияния разных значений постоянных сглаживания Период а = 0,1 а = 0,6 Расчет Вес Расчет Вес t 0,100 0,600 Г-1 0,9 х 0,1 0,090 0,4 х 0,6 0,240 Г-2 0,9 х 0,9 х 0,1 0,081 0,4 х 0,4 х 0,6 0,096 Г-3 0,9x0,9x0,9x0,1 0,073 0,4 х 0,4 х 0,4 х 0,6 0,038 Г-4 0,9x0,9x0,9x0,9x0,1 0,066 0,4 х 0,4 х 0,4 х 0,4 х 0,6 0,015 Остальные 0.590 0,011 Всего 1,000 1,000 Таблица 4.7. Экспоненциально сглаженные значения объемов продаж для компании Время Действительное Сглаженное Ошибка Сглаженное Ошибка значение значение У, прогноза значение Yt прогноза Год Квартал Ъ (а = 0,1) е, (а = 0,6) е» 1994 1 500 500,0 0,0 500,0 0,0 2 350 500,0 -150,0 500,0 -150,0 3 250 485,0 -235,0 410,0 -160,0 4 400 461,5 -61,5 314,0 86,0 1995 5 450 455,4 -5,4 365,0 84,4 6 350 454,8 -104,8 416,2 -66,2 7 200 444,3 -244,3 376,5 -176,5 8 300 419,9 -119,9 270,6 29,4 1996 9 350 407,9 -57,9 288,2 61,8 10 200 402,1 -202,1 325,3 -125,3 И 150 381,9 -231,9 250,1 -100,1 12 400 358,7 41,3 190,0 210,0 1997 13 550 362,8 187,2 316,0 234,0 14 350 381,6 -31,5 456,4 -106,4 15 250 378,4 -128,4 392,6 -142,6 16 550 365,6 184,4 307,0 243,0
Методы сглаживания и скользящие средние 151 Окончание табл. 4,7 Время Действительное значение Сглаженное значение Yt Ошибка прогноза Сглаженное значение Y, Ошибка прогноза Год Квартал Y. (а = 0,1) е, (а = 0,6) е, 1998 17 550 384,0 166,0 452,8 97,2 18 400 400,6 -0,6 511,1 -111,1 19 350 400,5 -50,5 444,5 -94,5 20 600 395,5 204,5 387,8 212,2 1999 21 750 415,9 334,1 515,1 234,9 22 500 449,3 -50,7 656,0 -156,0 23 400 454,4 -54,4 562,4 -162,4 24 650 449,0 201,0 465,0 185,0 2000 25 850 469,0 576,0 Рис. 4.7. Экспоненциальное сглаживание с а = 0,1 для данных компании Acme Tool (приложение Minitab)
152 ГЛАВА 4 Simple Exponential Smoothing Using Alpha = .6 Time • Actual a Predicted ----Actual ----Predicted Smoothing Constant Alpha: 0.600 MAPE: 36.5 MAD: 134.5 MSD: 22248.4 Puc. 4.8. Экспоненциальное сглаживание с a =0,6 для данных компании Acme Tool (при- ложение Minitab) Обратите внимание на то, насколько стабильны сглаженные значения данных при постоянной сглаживания, равной 0,1. Если исходить из минимизации среднеквадратиче- ской ошибки MSE (в Minitab она обозначена как MSD), то значение а, равное 0,6, дает лучший результат. Если сравнивать значения средних абсолютных ошибок в процентах (МАРЕ), то значение 0,6 все равно будет лучше. Сравнение прогнозов при каждом значе- нии постоянной сглаживания с действительными объемами продаж за первый квартал 2000 года показывает, что значение постоянной, равное 0,6, также оказывается наиболее эффективным. Если подытожить сказанное, то получится следующая картина. а = 0,1 MSE = 24 264 МАРЕ = 38,9% а = 0,6 MSE = 22 248 МАРЕ = 36,5% Как уже говорилось ранее, еще одним фактором, влияющим на прогнозирование, яв- ляется выбор начальной величины для сглаживания, Y}. Из табл. 4.7 следует, что для примера 4.5 в качестве начальной взята величина = У, = 500. Такой выбор придает ей слишком большой вес в последующих прогнозах. Но, к счастью, влияние начальных данных быстро падает с ростом времени /. В другой модели для получения начального значения для сглаживания предлагается усреднить первые к наблюдений. Тогда сглаживание начнется со следующего значения. 1=1 Пример 4.6 В этом примере рассматривается вычисление начальной величины как среднего значения для данных компании Acme Tool, представленных в табл. 4.5. Если значение к выбрать равным 6, то начальное значение будет следующим.
Методы сглаживания и скользящие средние 153 = 1/6 = 1/6(500 + 350 + 250 + 400 + 450 + 350) = 383,3 ;=i Ниже приведены значения MSE и МАРЕ для различных постоянных сглаживания а при на- чальном значении 383,3. а = 0,1 МЖ=21091 М4Р£=32,1% а = 0,6 MSE = 22 152 МАРЕ = 36,7% Для а = 0,1 выбранное начальное значение уменьшает значение и MSE, и МАРЕ, однако этого не наблюдается при а = 0,6. Поэтому теперь лучшей моделью будет та, в которой а = 0,1, вме- сто а = 0,6. В приложении Minitab для вычисления начального значения коэффициент к берется равным 6, при этом для выбора постоянной сглаживания применяется процедура минимиза- ции. На рис. 4.9 показан результат обработки данных из табл. 4.5 в приложении Minitab (см. раздел “Применение Minitab” в конце главы). С целью оптимизации MSE величина постоян- ной а автоматически взята равной 0,266. При этом MSE уменьшается до 19 477, МАРЕ рав- на 32,2 %, а МРЕ--6,4 %. Прогноз на первый квартал 2000 года — 534. Simple Exponential Smoothing Using Alpha = .266 Time • Actual a Predicted ----Actual ----Predicted Smoothing Constant Alpha: 0.266 MAPE: 32.2 MAD: 117.5 MSD: 19447.0 Puc. 4.9. Экспоненциальное сглаживание с a = 0,26 для данных компании Acme Tool (при- ложение Minitab) На рис. 4.10 показана автокорреляционная функция остатков для простого экспоненци- ального метода сглаживания при а = 0,266. Большое значение LBQ в результате проведения теста Льюинга-Бокса для шести интервалов означает, что ряды не случайны. Во втором и чет- вертом интервалах большие автокорреляционные остатки свидетельствуют о том, что сезон- ные вариации данных не учитываются простым экспоненциальным сглаживанием.
154 ГЛАВА 4 Autocorrelation Function for Example 4.6 Residuals Puc. 4.10. Автокорреляционная функция остатков в методе экспоненциального сглаживания для данных компании Acme Tool (приложение Minitab) Поскольку при экспоненциальном сглаживании неслучайная структура в данных сохра- няется и в будущем, оно применимо для введения нормативов, которые должны опреде- лять, когда следует вносить изменения в схему. Следящий сигнал — это одна из возможно- стей учета изменений. Такой сигнал выполняет две задачи: постоянный расчет степени ошибочности прогнозирования и определение пределов ошибки, выход за которые дол- жен приводить к прерыванию прогнозирования. Следящий сигнал выполняет две задачи: постоянную оценку степени ошибочности прогнозирования и определение предельно допустимой ошибки, выход за которую должен прерывать прогнозирование. Например, с помощью следящего сигнала можно узнать, когда нужно изменять зна- чение постоянной сглаживания а. Поскольку прогноз обычно строится для большого ко- личества наименований, как правило, одно и то же значение а применяется в течение многих периодов, прежде чем будет предпринята попытка проверить необходимость его изменения. К несчастью, сильным аргументом против внесения изменений в значение постоянной а является простота применения отлаженной модели экспоненциального сглаживания. Но иногда действительно возникает необходимость замены а. Когда мо- дель начинает давать прогнозы с большой долей ошибок, изменения просто необходимы. Применение следящего сигнала — это метод отслеживания необходимости измене- ний. В такой системе задан диапазон допустимых отклонений прогноза от реального зна- чения прогнозируемой величины, и пока прогноз попадает в область допустимых значе- ний, необходимости в изменении постоянной сглаживания а нет. В противном случае,
Методы сглаживания и скользящие средние 155 когда полученный прогноз выходит за рамки допустимого диапазона, система сигнали- зирует о необходимости замены значения постоянной а. Например, если дела идут хорошо, методика прогнозирования с одинаковой частотой как переоценивает, так и недооценивает прогнозируемые величины. На этом логичном выводе можно построить следующую методику организации работы следящего сигнала. Пусть U равно числу недооценок в последних п прогнозах. Иными словами, U — это число ошибок из последних k, которые больше нуля. Если ситуация под контролем, то можно ожидать, что U = Л/2; но с учетом вариабельности выборки значение, достаточно близкое к к!2, тоже будет вполне приемлемо. С другой стороны, значение, сильно отли- чающееся от Л/2, сигнализирует, что в прогнозах имеет место перекос. Пример 4.7 Допустим, что в компании Acme Tool решено применить методику экспоненциального сгла- живания с а = 0,1, как показано в примере 4.5. Процесс прогнозирования необходимо кон- тролировать, и аналитик решил отслеживать значение последних 10 ошибок. Предполагаемое значение Uравно 5. В этом случае значения 11= 2, 3, 4, 5,6, 7 или 8 не вызовут особой трево- ги. Напротив, значения 0, 1, 9 и 10 должны вызывать беспокойство, поскольку вероятность появления подобной величины очень мала (0,022, считая распределение биномиальным). Будем считать, что если 8 > U > 2, тогда прогноз адекватен. Если U< 2 или U > 8, то прогнозирование дает недопустимую ошибку. В частности, в нашем примере из 10 прогнозов, сделанных по выбранной методике, толь- ко первый дает положительную ошибку. Так как вероятность обнаружения только одной по- ложительной ошибки крайне мала (0,011), ситуацию следует понимать как недопустимую (прогноз характеризуется переоценкой). Можно сделать обоснованный вывод, что значение постоянной сглаживания а необходимо изменить. Иной способ отслеживания процесса прогнозирования состоит в определении диапа- зона, в который должна попадать ошибка прогнозирования. Это можно реализовать так же, как и в случае оптимизации значения постоянной а. Если методика экспоненциаль- ного сглаживания достаточно точна, то ошибка прогнозирования в среднем близка к ну- лю. При этом существует вероятность (равная 95%), что реальное наблюдение попадет в диапазон приблизительно из 2 стандартных отклонений прогноза. Поэтому для следя- щего сигнала будет достаточно установить приблизительно 95%-ный предел точности. Работа этой модели иллюстрируется в примере 4.8. Пример 4.8 Для приведенных выше данных компании Acme Tool оптимальное значение постоянной сглаживания а было определено как а = 0,266; при этом MSE = 19 447. Среднеквадратическое отклонение ошибки прогнозирования будет равно д/MSE , или V19.447 = 139,5. Если ошиб- ки распределены нормально, в среднем около нуля, то существует 95%-ная вероятность, что реальное наблюдение попадет в диапазон из приблизительно 2 стандартных отклонений прогноза. ±2 -4MSE = ±2-719447 = ±2(139,5) = ±279 Следовательно, допустимое отклонение равно 279. Если для последующих отклонений абсо- лютная ошибка будет больше 279, это может послужить причиной для поисков более подхо- дящего значения а или выбора иной методики прогнозирования.
156 ГЛАВА 4 Тема мониторинга процесса прогнозирования, затронутая выше, в той же мере отно- сится и ко всем остальным методам, рассматриваемым ниже в этой главе. Следует отметить, что в методике экспоненциального сглаживания предполагается, что данные колеблются около уровня, который меняется нечасто. Когда же в данных присутствует значительный тренд, простое экспоненциальное сглаживание постоянно отстает от реальных наблюдений. Далее рассматривается методика линейного экспонен- циального сглаживания Хольта, разработанная для оперирования данными, имеющими существенный тренд. Экспоненциальное сглаживание с учетом тренда: метод Хольта В простом методе экспоненциального сглаживания предполагалось, что уровень значений временных рядов меняется редко; поэтому в нем необходима оценка лишь текущего уров- ня. В некоторых случаях данные наблюдений могут иметь заметный тренд, т.е. включают информацию, которая позволит учитывать возможные будущие повышения. В подобной ситуации необходима функция прогнозирования линейного тренда. Поскольку в экономи- ке или бизнесе временные ряды редко характеризуются фиксированным линейным трен- дом, следует рассмотреть возможность учета локального линейного тренда, меняющегося со временем. В 1957 году Хольт (Holt) разработал метод экспоненциального сглаживания, получивший название двухпараметрического метода Холыпа. В этом методе учитывается ло- кальный линейный тренд, присутствующий во временных рядах. Если во временных рядах имеется тенденция к росту, то вместе с оценкой текущего уровня необходима и оценка наклона. В методике Хольта значения уровня и наклона сглаживаются непосредственно, при этом используются различные постоянные сглажи- вания для каждого из них. Эти постоянные сглаживания позволяют оценить текущий уровень и наклон, уточняя их всякий раз, когда появляются новые наблюдения. Одним из преимуществ методики Хольта является ее гибкость, позволяющая выбирать соотно- шение, в котором отслеживаются уровень и наклон. Ниже приведены три уравнения, составляющие метод Хольта. 1. Экспоненциально сглаженный ряд или оценка текущего уровня. Д=аГ,+ (1-а)(Д_1-Г,_1) (4.14) 2. Оценка тренда. Т, = Р(£/-£,_1) + (1-₽)7’ы (4-15) 3. Прогноз на р периодов вперед. Yl+p = L,+PT„ (4.16) где Lt — новая сглаженная величина; а — постоянная сглаживания для данных (0 < а < 1); К, — новое наблюдение или реальное значение ряда в период г; Р — постоянная сглаживания для оценки тренда (0 < Р < 1); Т, — собственно оценка тренда; р — количество периодов вперед, на которое делается прогноз; Y,+/, — прогноз на р периодов вперед.
Методы сглаживания и скользящие средние 157 Уравнение 4.14 очень похоже на исходное уравнение 4.13 для простого экспоненци- ального сглаживания, за исключением члена, учитывающего тренд (Г,). Тренд оценивает- ся при подсчете разницы между двумя последовательными экспоненциально сглажен- ными значениями уровня (Л,- L^x). Поскольку последовательные величины сглаживают- ся случайно, их разница учитывает весь тренд в данных. Постоянная Р нужна для сглаживания оценки тренда. В уравнении 4.15 оценка трен- да, (L, - L^x), умножается на р и суммируется со старой оценкой тренда, (7)), умноженной на (1 - Р). Уравнение 4.15 очень похоже на уравнение 4.14, однако в нем сглаживанию в первую очередь подвергается тренд, а уже потом данные. В результате уравнение 4.15 дает сглаженный тренд, исключающий всякую случайность. Уравнение 4.16 описывает прогноз на/? периодов вперед. Оценка тренда (Г,) умножа- ется на число периодов р, на которое строится прогноз, а затем это произведение прибав- ляется к текущему уровню L сглаженных данных. Как и при обычном экспоненциальном сглаживании, постоянные аир выбираются субъективно или путем минимизации ошибки прогнозирования, например значения MSE. Чем большие значения весов будут взяты, тем более быстрый отклик на происхо- дящие изменения будет иметь место. И наоборот, если веса будут небольшие, то и реак- ция модели на изменения в данных будет более слабой. Поэтому чем большие веса задей- ствуются, тем большему сглаживанию подвергаются данные. Меньшие веса делают структуру сглаженных значений менее ровной. Для минимизации значения MSE нужно создать сетку значений аир (т.е. все комби- нации а = 0,1, 0,2, ..., 0,9 и Р = 0,1, 0,2, ..., 0,9) и выбрать ту комбинацию, которая даст меньшее значение MSE. Особый случай имеет место, когда а = Р, поскольку здесь в оди- наковой мере проводится сглаживание как текущего уровня значений, так и тренда. Та- кой вариант называется двойным экспоненциальным сглаживанием Брауна (Brown). Для того чтобы воспользоваться алгоритмом уравнения 4.14, нужно иметь набор из начальных величин и тренда. Одно из возможных решений состоит в том, чтобы первую оценку положить равной первому наблюдению. При этом тренд будет равен нулю. Другое решение — это определить начальное значение как среднее для первых пяти или шести наблюдений. Тогда тренд можно оценить наклоном линии, образованной этими пятью или шестью точками. В приложении Minitab используется регрессионное уравнение с пе- ременной Y в роли интересующей величины и переменной X, обозначающей время. Кон- станта в этом уравнении — это начальная оценка сглаженного ряда, или текущий уровень значений. А наклон, или коэффициент регрессии, — это начальная оценка составляю- щей тренда. Пример 4.9 Пример 4.6 показывает, что для данных компании Acme Tool не удается построить хороший прогноз по методу простого экспоненциального сглаживания. Из рис. 4.9 следует, что исход- ные данные имеют заметный тренд, поэтому можно попробовать применить к ним метод Хольта. Чтобы начать вычисления, результаты которых приведены в табл. 4.8, необходимо сделать две оценки, а именно — задать начальное значение тренда и начальную сглаженную величину. В данном примере начальная оценка тренда приравнивается к нулю, а оценке на- чальной величины соответствует первое наблюдение. При расчете результатов, приведенных в табл. 4.8, использовались значения а = 0,3 и (3 = 0,1.
158 ГЛАВА 4 Таблица 4.8. Прогноз продаж для компании Acme Tool, рассчитанный с применением метода Хольта s ™ ~ «чял, у«®» л тмя» -^»в»>ы»ляя Год 1 t 2 К 3 Lt 4 Т, 5 Yl+P 6 е, 7 1994 1 500 500,0 0 500,0 0 2 350 455,0 -4,5 500,0 -150,0 3 250 390,4 -10,5 450,5 -200,5 4 400 385,9 -9,9 379,8 20,2 1995 5 450 398,2 -7,7 376,0 74,0 6 350 378,3 -8,9 390,5 -40,5 7 200 318,6 -14,0 369,4 -169,4 8 300 303,2 -14,1 304,6 - 4,6 1996 9 350 307,4 -12,3 289,1 60,9 10 200 266,6 -15,2 295,1 -95,0 11 150 221,0 -18,2 251,4 -101,4 12 400 262,0 -12,3 202,8 197,2 1997 13 550 339,8 -3,3 249,7 300,3 14 350 340,6 -2,9 336,5 13,5 15 250 311,4 -5,5 337,7 -287,7 16 550 379,1 1,8 305,9 244,1 1998 17 550 431,7 6,9 381,0 169,0 18 400 427,0 5,7 438,6 -38,6 19 350 407,9 3,3 432,7 -82,7 20 600 467,8 8,9 411,2 188,8 1999 21 750 558,7 17,1 476,8 273,2 22 500 553,1 14,8 575,9 -75,9 23 400 517,6 9,8 567,9 -167,9 24 650 564,2 13,5 527,4 122,6 2000 25 850 577,7 MSE =20515,5. Назначение постоянной сглаживания а соответствует ее роли в модели простого экспо- ненциального сглаживания (уравнение 4.13) и состоит в устранении случайностей в значении данных. Назначение постоянной сглаживания /3 подобно назначению постоянной а, но от- носится к сглаживанию тренда. Обе постоянные устраняют флуктуации путем взвешивания данных прошлых наблюдений. Для прогноза на период 3 проводятся следующие вычисления.
Методы сглаживания и скользящие средние 159 1. Корректирование сглаженного ряда или вычисление текущего уровня. L, = аГ, + (1 -а)(Е,_, -Т„х) L2 = 0,3 Г2 + (1 - 0,3)(L2_i + Ггч) Ьг = 0,3(350) + 0,7(500 + 0) = 455 2. Корректирование оценки тренда. 7’, = ₽(Д-Д_,) + (1-Р)7’,_1 7’2 = 0,1(Z2-Z2_i) + (1 -0,1)Т2.1 Г2 = 0,1(455 - 500) + 0,9(0) = -4,5 3. Прогноз на один период вперед. Р/+р = Lt + рТ, ^2+1 = Т.2 + 1Т2 Y3 = 455 + 1 (-4,5) = 450,5 4. Определение ошибки прогнозирования. е3 = Y3 - Y3 = 250 - 450,5 = -200,5 Прогнозирование для периода 25 выглядит следующим образом. 1. Корректирование экспоненциально сглаженного ряда. Л24 = 0,3У24 + (1 - 0,3)(Л24_1 + 724-1) £24 = 0,3(650) + 0,7(517,6 + 9,8) = 564,2 2. Корректирование оценки тренда. Г24 = 0,1 (£24 - Л24_|) + (1 - 0,1)7’24_| Г24 = 0,1(564,2 - 517,6) + 0,9(9,8) = 13,5 3. Прогноз на один период вперед. 7^24+1 = Т24 + 1^24 Г25 = 564,2+1(13,5) = 577,7 В отношении минимизации значения MSE эта модель выглядит не лучше модели про- стого экспоненциального сглаживания, в которой используется а = 0,266. Сравнение значений МАРЕ дает те же результаты. Но если сравнить прогноз и реальные продажи за первый квартал 2000 года, то выяснится, что метод Хольта оказывается более точным. Вот общие достигнутые результаты. а = 0,266 MSE = 19 447 МАРЕ = 32,2% а = 0.3, Р = 0,1 MSE = 20 515,5 М4РЕ = 35,4% Результаты обработки данных согласно этой модели с помощью приложения Minitab2 (при постоянных а = 0,3 и Р = 0,1) показаны на рис. 4.11. Ниже на рис. 4.12 приведена ав- токорреляционная функция остатков линейного экспоненциального сглаживания по ме- тоду Хольта. Тест Лыоинга-Бокса, выполненный для шести временных интервалов, по- казывает большое значение LBQ. Это говорит о том, что ряды данных неслучайны. Большое количество ошибок означает, что данные следует внимательно изучить на предмет сезонных вариаций. В приложении Minitab параметр оценки тренда у идентичен параметру р.
160 ГЛАВА 4 Рис. 4.11. Линейный метод экспоненциального сглаживания Хольта для данных компании Acme Tool (приложение Minitab) Autocorrelation Function for Example 4.9 Residuals Lag Согг т LBQ 1 0.09 0.45 0.23 2 -0.63 -3.06 11.47 3 0.07 0.27 11.63 4 0.60 2.18 22.92 5 -0.07 -0.22 23.08 6 -0.62 -1.90 36.33 Puc. 4.12. Автокорреляционная функция остатков в методе Хольта для данных компании Acme Tool (приложение Minitab) Результаты, полученные в примерах 4.6 и 4.9 (рис. 4.9 и 4.11), не сильно различаются, поскольку постоянная сглаживания а в них одна и та же, а постоянная р в примере 4.9 мала. (Если положить Р = 0, то метод сглаживания Хольта сводится к обычному экспо- ненциальному сглаживанию.)
Методы сглаживания и скользящие средние 161 Экспоненциальное сглаживание с учетом тренда и сезонных вариаций: метод Винтерса Если внимательно изучить данные компании Acme Tool, то можно увидеть, что в первом и четвертом кварталах продажи существенно выше, чем в третьем квартале. Это свиде- тельствует о наличии в структуре данных сезонных колебаний. Для уменьшения ошибок прогнозирования существует трехпараметрическая, линейная и сезонная модель экспо- ненциального сглаживания, предложенная в 1960 году Винтерсом (Winters). Этот подход является расширением метода Хольта. Для учета сезонных колебаний здесь задействуется дополнительное уравнение. Оценка уровня сезонности осуществляется с помощью ко- эффициента сезонности, как это видно из уравнения 4.19. В этом уравнении коэффици- ент сезонности (УД,,) умножается на постоянную у и суммируется со старой оценкой се- зонности (St-d, умноженной на (1 - у). Причина того, что член Y, делится на Lt, заключает- ся в необходимости выразить эту величину как коэффициент, а не как абсолютный член, чтобы его можно было использовать для дальнейших усреднений с коэффициентом се- зонности, сглаженным до периода t - s. Модель Винтерса (мультипликативная) определяется четырьмя следующими уравне- ниями. 1. Экспоненциально сглаженные ряды. Y (4.17) L, = а + (1 - + Т,.д v 4 S, * 7 $i-s Оценка тренда. Г, = 3(Z,z - Z.,-0 + (1 - 3)77., (4.18) Оценка сезонности. 2. 3. 5, = Y^+(1-Y)5,-s Л Прогноз на р периодов вперед. (4.19) Y(+p = (Lt+pTtjS/s+p, (4-20) новое сглаженное значение или оценка текущего уровня; постоянная сглаживания для этого уровня; новое наблюдение или реальное значение величины за период; постоянная сглаживания для оценки тренда; оценка тренда; постоянная сглаживания для оценки сезонности; оценка сезонности; количество периодов в будущем, на которое строится прогноз; длительность периода сезонного колебания; прогноз на р периодов вперед. 4. где L, а Y, Р Т, Y S, Р s YH„ Уравнение 4.17 корректирует сглаженные ряды. Оно слегка отличается от аналогич- ного в модели Хольта (уравнение 4.14). В уравнении 4.17 У, делится на.8',_„ учитывая для Y, сезонность и исключая, таким образом, сезонные эффекты, если они имеют место в исходных данных Y,.
162 ГЛАВА 4 После учета сезонности и тренда оценки сглаживаются в уравнениях 4.18 и 4.19, а в уравнении 4.20 делается прогноз. Это уравнение имеет почти такой же вид, как и уравне- ние 4.16, которое в модели Хольта служит аналогичным целям. Разница лишь в том, что оценка на будущий период, t + р, умножается на величину S,_s+/J. Последняя является ко- эффициентом сезонности, который необходим для сезонной корректировки прогноза. Как и в методе линейного экспоненциального сглаживания Хольта, веса а, 0 и у могут выбираться субъективно или путем минимизации ошибки прогнозирования, например значения MSE. Наиболее подходящей методикой для определения этой величины являет- ся алгоритм нелинейной оптимизации постоянных сглаживания. Прежде чем применять уравнение 4.17, требуется установить начальные значения для сглаженных рядов L„ тренда 7), коэффициентов сезонности S,. Одна из схем предлагает установить начальное значение сглаженного ряда равным первому наблюдению. Тогда тренд равен нулю, а коэффициенты сезонности устанавливаются равными 1,0. В другой схеме в качестве начального используется среднее значение за первый сезон или.? (период сезонности) наблюдений. Тогда тренд определяется наклоном линии, образо- ванной этими наблюдениями. Коэффициенты сезонности определяются следующим от- ношением. S, = YJLS В приложении Minitab строится уравнение регрессии с интересуемой переменной в каче- стве неизвестного Y и временем X. Постоянные в этом уравнении — это начальная оцен- ка сглаженных рядов или составляющей уровня и наклон или коэффициент регрессии в начальной оценке составляющей тренда. Начальное значение сезонной составляющей определяется из регрессии с фиктивной переменной и данными с исключенным трендом (см. главу 8). Пример 4.10 В табл. 4.9 методика Винтерса демонстрируется при а = 0,4, 0 = 0,1 и у = 0,3 в применении к данным компании Acme Tool. Постоянная а здесь аналогична той, которая использовалась в модели простого экспоненциального сглаживания (уравнение 4.13), и также служит для ис- ключения случайностей. Постоянная сглаживания 0 выполняет ту же роль, что и постоян- ная а, но уже для сглаживания тренда в данных. Константа у подобна двум предыдущим, но она нужна для сглаживания эффекта сезонности в данных. Для решения данного примера можно применить приложение Minitab3 (см. раздел “Применение Minitab” в конце главы). Результаты приведены в табл. 4.9 и на рис. 4.13. Про- гноз на первый квартал 2000 года дает значение 778,2. Вычисления, выполняемые для про- гноза на период 25 или первый квартал 2000 года, следующие. 1. Экспоненциально сглаженные ряды. Z,, = а—— + (1 - а)(£(-1 + 7)_i) ‘-‘l-S Л24 = 0,4-^- + (1 - 0,4)(Л24_, + Т’24_1) ^24-4 3 В приложении Minitab параметр оценки тренда у идентичен параметру Д а сезонный параметр 8 идентичен параметру у в уравнениях 4.18 и 4.19.
Методы сглаживания и скользящие средние 163 Ди = 0,4 —+0,6(501,286 + 9,148) 1,39628 V Lu = 0,4(465,52) + 0,6(510,434) = 492,469 2. Корректировка тренда. 7’, = р(Д-Дч) + (1-р)Д_1 Т24 = 0,1(£24-Д4_,) + (1-0,1)^, Г24 = 0,1(492,47 - 501,29) + 0,9(9,1484) 7’24 = 0,1(-8,82) +8,234 = 7,35 3. Корректировка сезонности. S, = y^+(l-y)S,_s 524 = 0,3-^- + (1 - 0,3)S24_4 Д24 S24 = 0,3 -^9 - + 0,7(1’,39628) S24 = 0,3(1,32)+ 0,9774= 1,37 4. Прогноз нар периодов вперед. Д4+1 = (7-24 + 1 Д4)5'24-4-Н Г25 = (492,47 + 1(7,35))1,55691 = 778,17 MINITAB - Untitled - IGView “СЛРгсират Fites\MTB_BETA\OaU\bnok\39ch4\fig4-13 д jfte Ы* Her* S«* Suph E$f« £nai» Htp ,|gf 900 800 700 Forecast _____ Actual Predicted Forecast Actual Predicted 600 600 400 300 200 100 15.21 53.55 7вЗв.8А <л Minaab Instructions: STAT>TWE SER!ES>WNTERS' METHOD JBSlail| *, LL'PVM,|I?<MINITAD - UnMIed-1 . ‘<ЗЖ 4W+M Smoothing Constants Mpha (level): 0.4 Gamma (trend): 0.1 Delta (season): DJ МАРЕ MAD: MSD: Puc. 4.13. Прогноз no методу экспоненциального сглаживания Винтерса для данных компании Acme Tool (приложение Minitab)
164 ГЛАВА 4 Таблица 4.9. Прогноз продаж компании Acme Tool по методу Винтерса Год t Y, Е т, S, Y,+P et 1 2 3 4 5 6 7 1994 1 500 415,459 -41,9541 1,26744 563,257 -63,257 2 350 383,109 -40,9937 0,89040 328,859 21,141 3 250 358,984 -39,3068 0,66431 222,565 27,435 4 400 328,077 -38,4668 1,18766 375,344 24,656 1995 5 450 315,785 -35,8494 1,31471 367,063 82,937 6 350 325,194 -31,3235 0,94617 249,255 100,745 7 200 296,748 -31,0358 0,66721 195,221 4,779 8 300 260,466 -31,5604 1,17690 315,576 -15,576 1996 9 350 243,831 -30,0679 1,35093 300,945 49,055 10 200 212,809 -30,1632 0,94426 202,255 -2,255 11 150 199,515 -28,4764 0,69259 121,863 28,137 12 400 238,574 -21,7228 1,32682 2301,294 198,706 1997 13 550 292,962 -14,1117 1,50886 292,949 257,051 14 350 315,575 -10,4393 0,99371 263,306 86,694 15 250 327,466 -8,2062 0,71385 211,335 38,665 16 550 357,366 -4,3956 1,39048 423,599 126,401 1998 17 550 357,588 -3,9339 1,51763 532,584 17,416 18 400 373,206 -1,9787 1,01713 351,428 48,572 19 350 418,856 2,7843 0,75038 264,999 85,001 20 600 425,586 3,1788 1,39628 586,284 13,716 1999 21 750 454,936 5,7959 1,55691 650,706 99,294 22 500 473,070 7,0297 1,02907 468,626 31,374 23 400 501,276 9,1484 0,76465 360,255 39,745 24 650 492,469 7,3518 1,37336 712,712 -62,712 2000 25 850 778,179 26 600 521,917 27 450 393,430 28 700 716,726 MSE = 7 636,86.
Методы сглаживания и скользящие средние 165 При рассматриваемых значениях параметров методика Винтерса дает более высокие (в смысле минимизации значения MSE) результаты, чем те две модели, которые были рассмотрены ранее. Точно так же сравнение прогнозов на первый квартал 2000 года с реальными продажами за этот период показывает, что методика Винтерса опережает остальные обсуждавшиеся методы. На рис. 4.14 приводится автокорреляционная функция остатков экспоненциального сглаживания для метода Винтерса. Очевидно, что ни один из автокорреляционных коэффициентов остатков не является существенно большим нуля. Тест Льюинга-Бокса дает для всех шести временных интервалов низкое значение LBQ. Отсюда следует, что ряды остатков случайны. А это означает, что метод экспоненциального сглажи- вания Винтерса дает наиболее адекватный прогноз для данных компании Acme Tool. Autocorrelation Function for Example 4.10 Residuals Puc. 4.14. Автокорреляционная функция остатков для метода экспоненциального сглаживания Винтерса для данных компании Acme Tool (приложение Minitab) Метод Винтерса позволяет наиболее просто учесть в модели сезонность, если исход- ные данные имеют сезонную структуру. В альтернативном способе предлагается сначала исключить сезонную составляющую или, наоборот, учесть сезонность в самих данных. Процесс исключения сезонных эффектов состоит в их удалении из последовательности данных и обсуждается в главе 5. Затем при прогнозировании используются данные с ис- ключенной сезонной составляющей, после чего сезонность заново вставляется в данные для корректировки полученного прогноза. Обычно специалисты по прогнозированию с большим успехом применяют метод данных с исключенной сезонностью, чем модель Винтерса, оперирующую подлинными данными. Этот метод сохраняет все преимущества простого экспоненциального сглажи- вания в том случае, если данные имеют сезонность, но не имеют тренда. Экспоненциальное сглаживание представляет собой популярную методику кратко- срочного прогнозирования. Ее преимуществами являются низкие затраты и простота
166 ГЛАВА 4 реализации. Если прогноз делается в отношении списка товаров, содержащего тысячи наименований, методы сглаживания часто оказываются единственно приемлемыми. Простые скользящие средние и экспоненциальное сглаживание основываются на взвешенном усреднении данных прошлых наблюдений. Это мотивируется тем, что про- шедшие события всегда содержат информацию о будущих. Так как прошлые события не- сут в себе случайные флуктуации так же, как и информацию, описывающую общую схе- му изменений, для исключения флуктуаций можно попытаться усреднить эти события. При этом предполагается, что в последовательности наблюдений флуктуации распреде- ляются случайным образом. Скользящие средние требуют вычисления среднего значения для некоторого количе- ства значений переменной. Это среднее значение и становится прогнозом на следующий период. В такой модели всем прошедшим событиям присваивается равный вес. Впрочем, можно привести веские аргументы в пользу преимущества последних наблюдений. Ме- тоды экспоненциального сглаживания и привлекательны тем, что в них прогноз строится на присвоении данным веса, убывающего с “возрастом” данных. Применение в менеджменте Прогнозирование является одной из наиболее важных составляющих в процессе приня- тия менеджером решения. Фактически каждое важное рабочее решение в определенной степени зависит от сделанного прогноза. Формирование запаса товаров на складах зави- сит от предполагаемого спроса; производственный отдел должен планировать загрузку мощностей и поставку сырья на следующий месяц (или два); отдел кадров должен опре- делять потребность в найме или увольнении работников. Список применений методов прогнозирования может быть очень длинным. Управленцы прекрасно осведомлены о необходимости прогнозирования. Несомнен- но, много времени уделяется ими изучению тренда в экономике и политике, а также то- му, насколько происходящие и будущие события могут повлиять на востребованность их продукции и/или обслуживания. Старшие должностные лица заинтересованы в количе- ственном прогнозе для сравнения его со своим собственным мнением. Интерес к про- гнозированию особо повышается в тех случаях, когда происходит падение спроса. Недос- таток методов количественного прогноза — их зависимость от данных прошлых наблю- дений. По этой причине они, вероятно, менее эффективны в определении неожиданных перемен, приводящих к резкому повышению или падению спроса. Компьютеры позво- ляют менеджерам автоматически реагировать на резкие изменения спроса посредством применения адаптивных систем и каузальных моделей. Методы наивного прогнозирования, рассмотренные в этой главе, могут оказаться по- лезными в силу своей простоты. Эти несложные методы не требуют значительных затрат и просты в использовании. Часто затраты и сложность более “изощренных” моделей превышают выгоду, которая может быть получена с их помощью. Поэтому наивные ме- тоды чаще всего применяются в малом бизнесе. Фирмы, не имеющие достаточно компь- ютеров и/или персонала, способного применять статистические модели, тоже использу- ют наивные методы. Менеджеры часто оказываются в ситуации, когда необходимо сде- лать краткосрочный прогноз для большого числа наименований продукции. Типичным примером является ситуация, когда менеджер должен наладить производство на основе прогнозирования спроса на несколько сотен наименований продуктов, образующих одну
Методы сглаживания и скользящие средние 167 линию. Наконец, эти модели могут оказаться полезными молодым фирмам, не имеющим большой базы данных о прошлых продажах. Метод скользящего среднего очень хорошо учитывает сдвиги в структуре данных. Это экономный в применении и нетребовательный к большим базам данных метод. Методы скользящего среднего чаще всего используются в случае необходимости повторного прогнозирования. Методы экспоненциального сглаживания популярны благодаря достаточно высокой краткосрочной точности и возможности быстрой их корректировки. Данная методика широко применяется при регулярном еженедельном или ежемесячном прогнозировании для большого числа (вплоть до тысяч) наименований продукции. Управление товарно- материальными запасами — хороший пример регулярного применения методов экспо- ненциального сглаживания. Глоссарий Простое среднее. Вычисляется как среднее значение для всего набора участвующих в расчетах данных, которое затем применяется для построения прогноза на следующий период. Скользящее среднее. Вычисляется как среднее значение для определенного количества элементов данных, которое затем применяется для построения прогноза на следующий период. Следящий сигнал. Метод следящего сигнала предусматривает постоянное определение ошибки прогнозирования и наличие заранее установленных для нее пределов, выход за которые должен вызвать остановку процесса прогнозирования. Экспоненциальное сглаживание. Это процедура для постоянного пересмотра прогнозов в свете наиболее свежих поступающих данных. Основные формулы Наивная модель YM = Y, (4.1) Наивная модель с учетом тренда Ym = Y, + (Y- У,.,) (4.2) Наивная модель скорости изменений (4.3) К-1 Наивная модель с квартальной сезонностью данных Г,+, = Г,.3 (4.4) Наивная модель с трендом и квартальной сезонностью данных Простое среднее (4.6)
168 ГЛАВА 4 Обновление простого среднего на следующий период v _ +^1+1 Л+г-----:— г + 1 Скользящее среднее для к периодов времени у _ О', + ^-1 +Yl-2 +- + ^-М1) Двойное скользящее среднее м’1= (М,+М,}+М1.г+- + М^м) к a, = 2М, - М, 2 ъ,= Y,v = а, + Ь,р Простое экспоненциальное сглаживание YM = aY, + (l-a)Y, Экспоненциальное сглаживание Хольта Экспоненциально сглаженные ряды (оценка уровня) L^aY.+ V-aKL^-T^ Оценка тренда 7) = р(Л,-Лм) + (1 Прогноз на р периодов вперед Yl+p = L,+pT, Модель Винтерса Экспоненциально сглаженные ряды (оценка уровня) Л, = а-А- + (1 _ «)(£,_, + Г,.,) Оценка тренда Т( = р(4-Л(_,) + (1 -Р)77_, Оценка сезонности = +(1-у)^ Л Прогноз на р периодов вперед Yl+p = (L, + pT,)S^s+p Упражнения 1. Какая из методик прогнозирования постоянно пересматривает оценку следних событий? (4.7) (4.8) (4.9) (4.Ю) (4.П) (4.12) (4.13) (4.14) (4.15) (4.16) (4.17) (4.18) (4.19) (4.20) свете по-
Методы сглаживания и скользящие средние 169 2. В какой методике прогнозирования значение величины за текущий период считает- ся прогнозом на следующий период? 3. В какой методике прогнозирования событиям присваиваются равные весовые ко- эффициенты? 4. Какую методику прогнозирования следует применять, если данные имеют тренд? 5. Какую методику прогнозирования следует использовать, если данные имеют сезон- ность? 6. Фонд Apex Mutual Fund в первую очередь инвестирует средства в промышленность. Суммарные фонды этой компании на конец месяца за последние 12 месяцев приве- дены в табл. 4.10. Таблица 4.10 Месяц Суммарные фонды январь 19,39 февраль 18,96 март 18,20 апрель 17,89 май 18,43 июнь 19,98 июль 19,51 август 20,63 сентябрь 19,78 октябрь 21,25 ноябрь 21,18 декабрь 22,14 а) постройте наивный прогноз для суммарных фондов на каждый месяц. Фонды на декабрь 1999 года составили 19,00 б) оцените этот метод, используя значение MAD в) оцените этот метод, используя значение MSE г) оцените этот метод, используя значение МАРЕ д) оцените этот метод, используя значение МРЕ е) сделайте прогноз на январь 2001 года ж) составьте итоговый отчет прогнозов 7. Условия см. в упр. 6. Постройте прогноз суммарного фонда на январь 2001 года, применяя методику трехмесячного скользящего среднего. Будет ли эта методика лучше, чем прогнозирование в рамках наивной модели? Поясните свой ответ. 8. Исходные ряды данных приведены в табл. 4.11.
170 ГЛАВА 4 Таблица 4.11 Период tu 1 200 200 2 210 3 215 4 216 5 219 6 220 7 225 8 226 а) какой прогноз для периода 9 будет получен по методике скользящего среднего для пяти периодов? б) если применить метод экспоненциального сглаживания при а - 0,4, каково бу- дет значение прогноза для периода 4? в) при условиях, указанных в предыдущем пункте, каково будет значение прогноза для периода 3? 9. Доходность облигаций общего займа города Девенпорт на рынке колеблется. Ме- сячные котировки этих облигаций за 1999 год приведены в табл. 4.12. Таблица 4.12 Месяц Доходность январь февраль 9,29 9,99 март 10,16 апрель май 10,25 10,61 июнь 11,07 июль 11,52 август сентябрь октябрь ноябрь декабрь 11,09 10,80 10,50 10,86 9,97 а) постройте прогноз доходности облигаций для каждого месяца, начиная с апре- ля, с помощью методики трехмесячного скользящего среднего
Методы сглаживания и скользящие средние 171 б) постройте прогноз доходности облигаций для каждого месяца, начиная с июля, посредством методики пятимесячного скользящего среднего в) оцените эти методы прогноза, используя значение MAD г) оцените эти методы прогноза с помощью значения MSE д) оцените эти методы прогноза, используя значение МАРЕ е) оцените эти методы прогноза посредством значения МРЕ ж) сделайте прогноз на январь 2001 года з) составьте итоговый отчет прогнозов 10. Условия см. в упр. 9. Сделайте прогноз на январь 2000 года по методу экспоненци- ального сглаживания при а = 0,2 и начальном значении, равном 9,29. Лучше ли эта методика, чем методика скользящего среднего? Поясните свой ответ. 11. В компании Hughes Supply методика управления складскими запасами включает оцен- ку ежемесячного спроса на различные продукты. Величины спроса на различные про- дукты за последние 12 месяцев регистрировались для последующего прогнозирования. Спрос на некий электрический прибор за 2000 год представлен в табл. 4.13. Месяц Спрос январь 205 февраль 251 март 304 апрель 284 май 352 июнь 300 июль 241 август 284 сентябрь 312 октябрь 289 ноябрь 385 декабрь 256 Источник: данные компании Hughes Supply Спрогнозируйте спрос на январь 2001 года, применив методику экспоненциального сглаживания с а = 0,5 и начальной величиной, равной 205. 12. General American Investors, Со., инвестиционная компания закрытого типа, инве- стирует средства, в первую очередь, в средне и высоко котируемые акции. Джим Кэмпбелл (Jim Campbell) изучил номинальную стоимость активов на пай для этой компании с целью сделать прогнозы на 1996 год. Соответствующие данные пред- ставлены в табл. 4.14.
172 ГЛАВА 4 Год Квартал 1 2 3 4 1985 16,98 18,47 17,63 20,65 1986 21,95 23,85 20,44 19,29 1987 22,75 23,94 24,84 16,70 1988 18,04 19,19 18,97 17,03 1989 18,23 19,80 22,89 21,41 1990 21,50 25,05 20,33 20,60 1991 25,33 26,06 28,89 30,60 1992 27,44 26,69 28,71 28,56 1993 25,87 24,96 27,61 24,75 1994 23,32 22,61 24,08 22,31 1995 22,67 23,52 25,41 23,94 1996 25,68 Источник: The Value Line Investment Survey (New York: Value Line, 1990, 1993,1996), c. 2187. Оцените возможность прогноза изменений номинальной стоимости активов на пай, используя следующие методы: наивный, скользящего среднего и экспоненциаль- ного сглаживания. При оценке указанных методик учтите, что реальное значение номинальной стоимости активов на пай для второго квартала 1996 года составляло 26,47. Составьте отчет о том, какой метод следует использовать и почему. 13. Компания Southdown, Inc., один из крупнейших производителей цемента, настой- чиво внедряет программу экономного расхода горючего. Соответствующие суммар- ные затраты компании Southdown составляют около 37 миллионов долларов в год. По этой причине для компании крайне важно иметь точные прогнозы доходов на первый квартал 2000 года. Требуемые данные представлены в табл. 4.15. Таблица 4.15. Доходы компании Southdown, Inc., за 1986-1999 гг. Год _ Квартал 1 2 3 4 1986 77,4 88,8 92,1 79,8 1987 77,5 89,1 92,4 80,1 1988 74,7 185,2 162,4 178,1 1989 129,1 158,4 160,6 138,7 1990 127,2 149,8 151,7 132,9 1991 103,0 136,8 141,3 123,5
Методы сглаживания и скользящие средние 173 Год Квартал Окончание табл. 4.15 1 2 3 4 1992 107,3 136,8 141,3 123,5 1993 106,1 144,4 156,1 138,2 1994 111,8 149,8 158,5 141,8 1995 119,1 158,0 170,4 151,8 1996 127,4 178,2 189,3 169,5 1997 151,4 187,2 199,2 181,4 1998 224,9 317,7 341,4 300,7 1999 244,9 333,4 370,0 326,7 Источник: The Value Line Investment Survey (New York: Value Line, 1990,1993,1996,1999), c. 896. а) применяя метод экспоненциального сглаживания с постоянной сглажива- ния а = 0,4 и начальным значением 77,4, постройте прогноз квартальных дохо- дов компании на первый квартал 2000 года б) постройте прогноз доходов на акцию на первый квартал 2000 года при а = 0,6 и начальном значении 77,4 в) оцените, при каком значении постоянной а прогноз будет наиболее точен г) воспользовавшись результатами из предыдущего пункта, изучите автокорреля- ции остатков. Как вы считаете, дает ли в этом случае метод простого экспонен- циального сглаживания удовлетворительные результаты? Поясните свой ответ 14. Компания Triton Energy Corporation выполняет добычу и переработку нефти и газа. Президент компании, Гэйл Фримен (Gail Freeman), хотел бы иметь прогноз объема продаж (в расчете на акцию) на 2000 год. Этот прогноз имеет для компании большое значение, поскольку при реализации принятого плана реструктуризации компания столкнулась с определенными трудностями. Необходимые данные представлены в табл. 4.16. Определите наилучший метод и дайте прогноз объема продаж на 2000 год. Таблица 4.16. Доля продаж на акцию в компании Triton Energy Corporation за 1974-1999 гг. Год Доля продаж Год Доля продаж 1974 0,93 1987 5,33 1975 1,35 1988 8,12 1976 1,48 1989 10,65 1977 2,36 1990 12,06 1978 2,45 1991 11,63 1979 2,52 1992 6,58
174 ГЛАВА 4 Окончание табл. 4 Год Доля продаж Год Доля продаж 1980 2,81 1993 2,96 1981 3,82 1994 1,58 1982 5,54 1995 2,99 1983 7,16 1996 3,69 1984 1,93 1997 3,98 1985 5,17 1998 4,39 1986 7,72 1999 6,85 Источник: The Value Line Investment Survey (New York: Value Line, 1990,1993,1996,1999), c. 1872. 15. Компания Consolidated Edison занимается поставками электроэнергии (82% дохо- дов), газа (13%) и тепла (5%) в город Нью-Йорк и округ Вестчестер. Перед Бартом Томасом (Bart Thomas), специалистом по прогнозированию, поставлена задача сде- лать прогноз квартальных доходов компании на 2000 год. Собранные им данные представлены в табл. 4.17. Определите наилучший метод и дайте прогноз объема продаж на 2000 год. Таблица 4.17. Квартальные доходы компании Consolidated Edison (млн долл.) Год 31 марта 30 июня 30 сентября 31 декабря 1985 1441 1209 1526 1321 1986 1414 1187 1411 1185 1987 1284 1125 1493 1192 1988 1327 1102 1469 1213 1989 1387 1218 1575 1371 1990 1494 1263 1613 1369 1991 1479 1330 1720 1344 1992 1456 1280 1717 1480 1993 1586 1396 1800 1483 1994 1697 1392 1822 1461 1995 1669 1460 1880 1528 1996 1867 1540 1920 1632 1997 1886 1504 2011 1720 1998 1853 1561 2062 1617 1999 1777 1479 2060 1624 Источник: The Value Une Investment Survey (New York: Value Line, 1990,1993,1996,1999), c. 168.
Методы сглаживания и скользящие средние 175 /дч /м /ж /ж /ж /ж /дч /ж /дч /дч /ж W W W W W W W W W W W W/ W Задание 4.1. Компания Solar Alternative4 Компания Solar Alternative официально существует три года. Она была основана Бобом и Мэри Джонсон (Bob and Mary Johnson), которые преподают естественные науки в мест- ной средней школе. Компания задумывалась ими как дополнительная статья доходов. В результате проведения исследований в области систем энергообеспечения, использую- щих энергию солнца, им удалось сконструировать бытовую установку для получения го- рячей воды. Система состоит из 100-галлонного стекловолоконного бака для хранения воды, двух 36-футовых панелей солнечных батарей, системы электронного контроля, по- ливинилхлоридного трубопровода и другого вспомогательного оборудования. Период окупаемости системы — 10 лет. Хотя это и не слишком привлекательно с фи- нансовой точки зрения, но новизна идеи может обеспечить этому продукту средний уро- вень продаж. Чистая прибыль (после вычета всех издержек) составляет 75 долларов при цене устанавливаемой системы в 2000 долларов. Стоимость материалов и комплектую- щих составляет 75% от стоимости установленной системы. Фактором, позволяющим преодолеть порог рентабельности, является отсутствие какой-либо конкуренции в этой области по причине недостаточной доходности продукта. Бизнес Джонсонов ведется до- ма. Офис располагается в подвале, гараж на одну машину используется исключительно для хранения компонентов систем и материалов. В результате накладные расходы сво- дятся к минимуму. Джонсонов устраивает тот скромный дополнительный доход, кото- рый они получают от деятельности своей фирмы. К тому же занятие бизнесом дает им определенные преимущества при налогообложении. Боб и Мэри вполне удовлетворены ростом их бизнеса. Впрочем, уровень продаж меня- ется из месяца в месяц, но в целом итоги второго года были лучше, чем первого. Многие покупатели на втором году деятельности фирмы являлись соседями тех клиентов, которые купили систему в первом году. Вероятно, многие, увидев систему в работе в течение года, прониклись желанием попробовать подобное устройство и у себя. Продажи происходят круглый год. Наибольший спрос на систему отмечен поздним летом и ранней осенью, когда домовладельцы обычно планируют подготовку к наступающему отопительному сезону. Предвидя определенный рост своего бизнеса, Джонсоны почувствовали необходи- мость в прогнозировании продаж для более эффективного ведения дел в следующем году. Обычно между заказом и получением бака для хранения воды проходит от 60 до 90 дней. Панели солнечных батарей доступны со склада большую часть года, хотя поздним летом и на протяжении всей осени время ожидания заказа может увеличиться до 90 и даже 100 дней. Несмотря на отсутствие конкуренции, отказ покупателя от сделки все же возмо- 4 Материал для этого задания был любезно предоставлен Уильямом П. Дарроу из Тусонского универси- тета, г. Тусон, шт. Мэриленд.
176 ГЛАВА 4 жен, если потенциальный клиент вынужден будет ждать установки системы несколько месяцев. Но еще более важным фактором является необходимость более точно представ- лять себе размеры предстоящих продаж, что позволит получать определенные скидки при закупках материалов и комплектующих. Все эти факторы, наряду с высокой стоимо- стью материалов и компонентов солнечных систем, а также ограниченными размерами гаража владельцев, требуют получения надежных прогнозов. Статистика продаж за пер- вые два года работы компании приведена в табл. 4.18. Месяц 1999 2000 Месяц 1999 2000 Январь 5 17 Июль 23 44 Февраль 6 14 Август 26 41 Март 10 20 Сентябрь 21 33 Апрель 13 23 Октябрь 15 23 Май 18 30 Ноябрь 12 26 Июнь 15 38 Декабрь 14 17 Вопросы 1. Определите, какую модель прогнозирования следует использовать Бобу и Мэри как основу для бизнес-планирования в 2001 году. Объясните, почему именно эта модель была выбрана вами. 2. Составьте прогноз продаж на 2001 год. Задание 4.2. “Mr. Tux” Джон Мосби является владельцем нескольких пунктов проката, функционирующих под вы- веской “Mr. Tux”. Он заинтересован в составлении прогноза наиболее важного показателя в его бизнесе — ежемесячного дохода от проката в долларах (см. задание “Mr. Tux” в предыду- щих главах). Одна из его служащих, Виржиния Перо (Virginia Perot), собрала данные о ежеме- сячных доходах, приведенные в задании 2.2. Джон хотел бы построить прогноз по этим дан- ным, используя методики скользящего среднего и экспоненциального сглаживания. В задании 3.2 Джон с помощью приложения Minitab пытался определить, имеют ли соб- ранные данные тренд и сезонность. Ранее ему говорили, что в случае его данных методы скользящего среднего и простого экспоненциального сглаживания едва ли дадут удовлетво- рительные результаты, однако он решил докопаться до истины самостоятельно. Он начал с применения метода трехмесячного скользящего среднего. Программа рас- считала ему несколько показателей суммарной ошибки прогнозирования. Эти значения обобщают ошибку в предсказаниях значений реальных данных, полученных посредством трехмесячного скользящего среднего. Джон решил принять во внимание три из этих по- казателей ошибок.
Методы сглаживания и скользящие средние 177 MAD = 54 373 МРЕ = -16,5% МАРЕ = 47,0% MAD (среднее абсолютное отклонение) — это средняя абсолютная ошибка в прогно- зировании интересующих величин. Все прогнозы, использующие метод трехмесячного скользящего среднего, характеризуются средним значением 54 373. Отклонения опреде- ляются с помощью МРЕ (средняя ошибка, выраженная в процентах). Значение -16.5% означает, что выбранный метод прогнозирования постоянно дает завышенный прогноз, т.е. выдает значения, которые больше реальных величин. МАРЕ (средняя абсолютная ошибка, выраженная в процентах) отображает ошибку как процент от реального значе- ния, подлежащего прогнозированию. Средняя ошибка, которая получается в результате применения методики трехмесячного скользящего среднего, составляет 47% или почти половину значения прогнозируемой величины. Далее Джон опробовал метод простого экспоненциального сглаживания. Программа предложила либо ввести требуемое значение постоянной сглаживания, которое будет исполь- зоваться в расчетах, либо определить его автоматически, посредством минимизации ошибки. Джон выбрал последний вариант, и программа определила оптимальное значение постоян- ной а. = 0,867. В результате были получены следующие значения показателей ошибки. MAD = 46 562 МРЕ = -11,8% МАРЕ =44,0% Джон решил воспользоваться методом линейного экспоненциального сглаживания Хольта. В этом случае программа не только применяет метод экспоненциального сгла- живания, но и позволяет учитывать характеристики тренда, присутствующего в данных. Для обеих постоянных сглаживания, аир, Джон выбрал одно и то же значение, рав- ное 0,4. Для метода Хольта бьии получены следующие три показателя ошибки. MAD = 63 579 МРЕ = -15,3% Л7Л/’Е=59,0% Столь большие значения показателей ошибки для этой методики оказались для Джо- на полной неожиданностью. Он решил, что проблема заключается в наличии в данных заметных сезонных колебаний. Поэтому следующий метод, который применил Джон, — это метод экспоненциального сглаживания Винтерса. Данный метод хорошо учитывает как сезонность, так и тренд. Джон выбрал следующие значения постоянных сглажива- ния: а = 0,2, р = 0,2 и у = 0,2. В результате были получены следующие показатели ошибки. MAD = 25 825 МРЕ = -4,9% МАРЕ = 22,0% Результаты проведенного анализа разочаровали Джона. Метод Винтерса является серьезным усовершенствованием применяемой им ранее техники, хотя показатель МАРЕ в этом случае все еще составляет целых 22%. Он надеялся, что хотя бы один из методов сможет достаточно точно спрогнозировать прошедшие периоды. Тогда с помощью этого метода он мог бы прогнозировать уровни ежемесячных доходов в течение всего следую- щего года. Но полученные показатели среднего отклонения (MAD) и средней ошибки в процентах (МАРЕ) вынудили его продолжить поиск других методов прогнозирования.
178 ГЛАВА 4 Вопросы 1. Проанализируйте в приложении Minitab показатели ошибки прогнозирования для метода, который дал Джону наилучшие результаты. 2. Какое значение показателя МРЕ будет наилучшим при использовании любого из ме- тодов экспоненциального сглаживания? 3. Каков смысл отрицательного знака у показателя МРЕР 4. Можно ли согласиться с неудовлетворительной оценкой, которую дал Джон полу- ченным результатам? 5. Что должен был сделать Джон для определения адекватности методики прогнозиро- вания Винтерса? Задание 4.3. Корпорация Consumer Credit Counseling Функционирование корпорации Consumer Credit Counseling (ССС) описано в главе 1 (задание 1.2). Исполнительный директор корпорации, Мэрв Харнишфегер, считала, что наиболее важной переменной, нуждающейся в прогнозировании, является число новых клиентов, которые могут обратиться в корпорацию за оставшийся период 1993 года. До- роти Мерсер предоставила Мэрв ежемесячные данные о количестве новых клиентов ССС за период с января 1985 по март 1993 (см. задание 3.2). В том задании Дороти иссле- довала структуру данных с помощью автокорреляционного анализа. Основываясь на ре- зультатах этого исследования, дайте ответы на приведенные ниже вопросы. Вопросы 1. Постройте наивную модель для прогнозирования числа новых клиентов ССС на ос- таток 1993 года. 2. Постройте модель скользящего среднего для прогноза числа новых клиентов ССС на остаток 1993 года. 3. Примените процедуру экспоненциального сглаживания для прогнозирования числа новых клиентов ССС на остаток 1993 года. 4. Сравните указанные выше методы прогнозирования, используя итоговые показате- ли ошибок прогнозирования, обсуждавшиеся в главе 3. 5. Выберите наилучшую модель и постройте прогноз числа новых клиентов на остаток 1993 года. 6. Обоснуйте адекватность выбранной вами модели прогнозирования.
Методы сглаживания и скользящие средние 179 Задание 4.4. Пятилетний план доходов клиники Downtown Radiology Клиника Downtown Radiology планирует создать новый медицинский диагностический центр. Предусматривается установка более сложного и технологически более прогрессивного обору- дования, по сравнению с используемым на данный момент в том районе, который принято называть “внутренней империей” (это восточная часть штата Вашингтон и северная часть штата Айдахо). Планируемое для установки оборудование будет либо таким же, как любое ди- агностическое оборудование, уже установленное в медицинских центрах указанного региона, либо будет превосходить его по своим характеристикам. В диагностическом центре планиру- ется разместить сканирующий томограф серии 9800 и оборудование для ЯМР-интраскопии (ЯМР — ядерный магнитный резонанс). Кроме того, центр будет оснащен ультразвуковым оборудованием, оборудованием ЯМР-диагностики, установками для маммографии и цифро- вой ангиографии, а также установками радиотерапии и рентгеноскопии. Акции центра пред- полагается выпустить в свободное обращение, поэтому руководству клиники Downtown Radi- ology понадобилась независимая оценка потенциального рынка. Администрация клиники Downtown Radiology обратилась к компании Professional Marketing Associates, Inc., с предло- жением сделать оценку рынка и составить полный пятилетний план доходов. Постановка проблемы Целью этого рассмотрения является прогноз доходов на следующие пять лет от услуг, предоставляемых медицинским диагностическим центром. Задачи Задачи, поставленные перед этим исследованием, перечислены ниже. • Определение потенциального рынка для каждого типа процедур, предлагаемых но- вым оборудованием. • Сбор и анализ существующих данных о доходах на данном рынке для каждого типа процедур, предоставляемых новым оборудованием. • Определение тех тенденций в области здравоохранения, которые положительно или отрицательно повлияют на доходы от каждого типа процедур, предлагаемых устанавливаемым оборудованием. • Определение факторов в бизнесе и маркетинге, а также новых функциональных возможностей вновь создаваемой аппаратуры, которые способны позитивно или негативно повлиять на планируемые доходы. • Анализ имеющихся сведений о прошлой деятельности клиники Downtown Radiol- ogy как базы данных для разрабатываемой модели прогнозирования. • Применение соответствующей модели количественного прогнозирования для ус- пешной разработки пятилетнего плана доходов от деятельности создаваемого диаг- ностического центра.
180 ГЛАВА 4 Методология Процедуры Получение полного пятилетнего плана доходов потребовало выполнения нескольких (перечисленных ниже) этапов. Проведение анализа определенного количества процедур позволило разработать адекватную модель прогнозирования, которая затем использова- лась для определения точки отсчета в планировании каждой процедуры. 1. Определение рынка сбыта для каждого типа процедур и расчет совокупности прогнозов с 1986 по 1990 гг. 2. Изучение данных о выдаваемых врачами направлениях на обследования с целью определения процента докторов, которые направляют пациентов в клинику Down- town Radiology, а также среднего количества таких направлений на одного врача. 3. Запрос и обработка данных из Национального центра статистики и здоровья. Эта информация сравнивались с реальными данными, полученными из регистратуры клиники. 4. Определение удельного веса клиники Downtown Radiology на рынке соответст- вующих услуг, который был рассчитан на примере рынка обследований, выпол- няемых с помощью сканирующих томографов. (Удельный вес на рынке для дру- гих процедур определялся исходя из сравнения удельного веса клиники Downtown Radiology с данными Национального центра статистики и здоровья.) Допущения Для правильного построения прогноза потребовалось сделать несколько допущений. • Новый медицинский центр вступит в действие с 1 января 1985 года с полностью налаженным оборудованием, за исключением установок ЯМР-интраскопии. • Установка для ЯМР-интраскопии начнет функционирование в апреле 1985 года. • Будет успешно подписано соглашение о партнерстве с не менее чем 50 врачами, практикующими в обслуживаемом центром районе. • Лечащие врачи, принимающие финансовое участие в проекте нового диагностиче- ского центра, будут заинтересованы в увеличении количества выдаваемых направ- лений в центр. • Новый тип оборудования для ЯМР-интраскопии не появится на рынке до 1987 года. • В новом медицинском центре услуги будут иметь меньшую стоимость, чем у кон- курентов. • Будут предприняты эффективные маркетинговые мероприятия, особенно те, кото- рые рассчитаны на привлечение внимания крупных работодателей, страховых групп и объединений. • Оборудование для ЯМР-интраскопии в течение шести месяцев работы заменит приблизительно 60% всего количества основного существующего оборудования, которое на текущий момент представлено сканирующими томографами, и достиг- нет 70% в течение следующих 12 месяцев. • Общественность будет продолжать оказывать давление на сферу здравоохранения с требованием сохранить низкие цены. • Стоимость издержек в области здравоохранения за период с 1971 по 1981 гг. возраста- ла, в среднем, на 13,2% в год. По оценкам управления по финансированию здраво- охранения средние темпы роста издержек за период с 1981 по 1990 гг. могут снизиться и составить приблизительно 11% или 12% в год (Industry Survey, апрель, 1984 год).
Методы сглаживания и скользящие средние 181 • Страховые компании будут возмещать пациентам от 0% до 100% стоимости услуг по проведению обследований на оборудовании ЯМР-интраскопии. Модели Прогноз разрабатывается для каждой процедуры исходя из прошлого опыта, показа- телей состояния индустрии и некоторых разумных допущений. Модели строились с уче- том приведенных выше допущений, поэтому, если сделанные допущения окажутся не- верными, модели не дадут достаточно точного прогноза. Анализ прошлых данных Отделение радиологии Количество выполненных рентгенографических процедур было проанализировано за период с июля 1981 по май 1984 года. В данные входят сведения о рентгеновской диагно- стике, рентгенографии желудочно-кишечных заболеваний, флюорографии, процедурах лучевой терапии и ряде других специальных процедур. Изучение данных показало, что тренд, сезонная или циклическая структура в них отсутствуют. По этой причине наибо- лее приемлемой моделью прогнозирования полагается метод простого экспоненциаль- ного сглаживания. После подбора различных значений постоянной сглаживания, наи- лучшей оказалась модель с а = 0,3. Результаты применения этой модели представлены на рис. 4.15. Прогноз на июнь 1984 года составляет 855 рентгеновских процедур. Simple Exponential Smoothing for Office X-Rays • Actual д Predicted 4 Forecast ____Actual ----Predicted ....Forecast Smoothing Constant Alpha: 0.300 MAPE: 14.2 MAD: 133.7 MSD: 33765.7 P uc. 4.15. Простое экспоненциальное сглаживание: прогноз для отделения радиологии клиники Downtown Radiology (приложение Minitab) Отделение ультразвуковой диагностики Количество процедур, выполненных в отделении ультразвуковой диагностики, также было проанализировано с июля 1981 по май 1984. Структура этих данных представлена на рис. 4.16. Здесь тоже отсутствуют тренд, сезонные или циклические эффекты. Наи-
182 ГЛАВА 4 лучшей моделью представляется метод простого экспоненциального сглаживания с по- стоянной сглаживания а = 0,5. Прогноз на июнь 1984 года составляет 127 процедур. Simple Exponential Smoothing for Office Ultrasound • Actual д Predicted ♦ Forecast ----Actual ----Predicted ....Forecast Smoothing Constant Alpha: 0.500 MAPE: 12.211 MAD: 12.035 MSD: 242.739 Puc. 4.16. Простое экспоненциальное сглаживание: прогноз для отделения ультразвуко- вой диагностики клиники Downtown Radiology (приложение Minitab) Nonoffice Ultrasound Holt's Linear Smoothing for Nonoffice Ultrasound Time • Actual a Predicted ♦ Forecast ----Actual ----Predicted ....Forecast Smoothing Constants Alpha (level): 0.500 Gamma (trend): 0.100 MAPE: MAD: MSD: 14.45 25.85 1064.17 Puc. 4.17. Метод линейного экспоненциального сглаживания Хольта: прогноз для мобильных станций ультразвуковой диагностики клиники Downtown Radiology (приложение Minitab)
Методы сглаживания и скользящие средние 183 Анализу (с июля 1981 по май 1984) также подлежало количество процедур ультразву- ковой диагностики, выполненных двумя мобильными станциями, принадлежащими клинике Downtown Radiology. Эти данные представлены на рис. 4.17. Форма графика, несомненно, отмечает наличие тренда, что может быть учтено с помощью двухпарамет- рического линейного метода экспоненциального сглаживания Хольта. При значениях а = 0,5 и р = 0,1 прогноз на июнь 1984 года составляет 227 процедур. Процедуры ЯМР-диагностики Количество процедур, выполненных двумя подразделениями ЯМР-диагностики, принад- лежащими клинике Downtown Radiology, проанализировано с августа 1982 по май 1984 года. Структура данных представлена на рис. 4.18. Данные не имеют сезонности, не наблюдается тренда или циклической структуры. Поэтому для выполнения прогноза был выбран метод простого экспоненциального сглаживания. Самые лучшие результаты были достигнуты при значении константы сглаживания а=0,5. Прогноз на июнь 1984 года составляет 48 процедур. Simple Exponential Smoothing for Nuclear Medicine Time • Actual д Predicted ♦ Forecast ....Actual ....Predicted ....Forecast Smoothing Constant Alpha: 0.500 MAPE: 59.02 MAD: 25.48 MSD: 1027.09 Puc. 4.18. Простое экспоненциальное сглаживание: прогноз для отделений ЯМР- диагностики клиники Downtown Radiology (приложение Minitab) Отделение томографии Количество процедур, выполненных отделением томографии, также анализировалось с июля 1981 по май 1984 года. В данных не наблюдается тренда или сезонности, но заметна цик- лическая структура. Важной величиной для прогноза событий в текущем месяце является ко- личество процедур, выполненных за предыдущий месяц. Было решено применить авторегрес- сионую модель (см. главу 8 и главу 9) и сравнить ее результаты с результатами модели экспо- ненциального сглаживания при а= 0,461. Большее значение постоянной сглаживания нужно в этом случае для придания большего веса в прогнозах последним наблюдениям. Эта модель признана лучшей, и на рис. 4.19 представлены полученные с ее помощью результаты. Прогноз для количества томограмм на июнь 1984 года составляет 221 процедуру.
184 ГЛАВА 4 Simple Exponential Smoothing for CT Scans Time • Actual д Predicted ♦ Forecast ----Actual ....Predicted ----Forecast Smoothing Constant Alpha: 0.461 MAPE: 11.35 MAD: 27.43 MSD: 1208.42 Puc. 4.19. Простое экспоненциальное сглаживание: прогноз для отделения томографии клиники Downtown Radiology (приложение Minitab) Анализ рынка сбыта Рынок сбыта для процедур, выполняемых в клинике Downtown Radiology, определялся на основании исторических данных о самостоятельной записи пациентов и количестве направлений на обследование, выдаваемых врачами. Рынок сбыта для процедур, еще не выполняемых в клинике Downtown Radiology, определялся на основе изучения данных о работе конкурентов и анализа статистических показателей тех географических районов, которые они обслуживают. Рынок обследований на сканирующих томографах Область рынка обследований на сканирующих томографах, предлагаемых диагностиче- скими центрами, охватывает округа Спокан, Уитмен, Адамс, Линкольн, Стивенс и Пенд Орей штата Вашингтон и округа Боннер, Боундари, Кутинаи, Бенева и Шошон штата Ай- дахо. Исходя из подходящей случаю процентной оценки, рынок выполнения томограмм предполагается равным от 630 655 процедур в 1985 году до 696 018 процедур в 1990 году. Количественная оценка Подготовка плана доходов требует наличия определенных количественных оценок. Наиболее важная из них — это число врачей, являющихся партнерами клиники. Оценка их количества, принятая для дальнейших расчетов, составляет для округа Спокан не ме- нее 8% от всего количества практикующих врачей этого округа. Кроме того, необходимо уточнить, какая часть из 50 практикующих врачей будет иметь с клиникой партнерские отношения. Предполагается, что те 30 докторов, которые уже сей- час направляют пациентов в клинику Downtown Radiology, сохранят с ней партнерские от- ношения. Для этих 30 уже существующих партнеров предполагается, что 10 из них не уве- личат количество выдаваемых направлений, а оставшиеся 20 — удвоят это число. Также
Методы сглаживания и скользящие средние 185 предполагается, что 20 практикующих врачей, которые ранее не выдавали направлений в клинику Downtown Radiology, будут иметь с ней партнерские отношения и начнут направ- лять туда, по крайней мере, половину своих пациентов. Количественную оценку дополнительных направлений в клинику можно сделать на осно- ве определенных качественных наблюдений. Предположение, что 50 докторов будут иметь с ней партнерские отношения, — это весьма умеренная оценка. Существует большая вероят- ность, что доктора из других районов, не относящихся к округу Спокан, также будут иметь партнерские отношения с ней. Обычно схема распределения направлений на обследование, выдаваемых докторами, меняется очень медленно, но конкуренция на рынке может изменить ситуацию. Если предложение о сотрудничестве направляется тем докторам, специализация которых предполагает высокую вероятность проведения радиологического обследования па- циента, то количество выданных ими направлений может оказаться большим, чем планирова- лось. Известно, что несколько докторов выдали очень много направлений в клинику Down- town Radiology. Если удастся привлечь к сотрудничеству еще несколько таких докторов, то это может оказать значительное влияние на общее количество процедур, выполненных клиникой Downtown Radiology в рамках индивидуального обслуживания. Наконец, следует учесть эффект изменения доли рынка, принадлежащей клинике Downtown Radiology, вызванный новизной диагностического центра. Новый центр будет лучше оснащен и лучше подготовлен к выполнению всего спектра медицинских услуг по более низкой цене. Число направлений в клинику, поступающих от новых докторов, бу- дет возрастать вследствие устных рекомендаций докторов, уже привлеченных к партнер- ству. Если в соглашение с новым диагностическим центром вступят страховые компа- нии, крупные работодатели и/или их объединения, то доля Downtown Radiology на рынке должна возрасти не менее чем на 4% в 1985, 2% в 1986 году и 1% в 1987 году, причем дос- тигнутый уровень сохранится и в 1988-1989 гг. Подобный рост занимаемой клиникой доли рынка ниже мы будем называть общим эффектом роста популярности. План доходов План доходов составляется для каждого вида процедур. Ниже приводится лишь та часть плана, которая относится к отделению томографии. План доходов для отделения томографии Прогноз количества томограмм на 1984 год (с января 1984 по январь 1985), выпол- ненный по методу экспоненциального сглаживания данных за первые пять месяцев 1984 года, составляет 2600 томограмм. Национальный центр статистики и здоровья свидетельствует о следующем уровне выполнения томограмм в месяц: 261 томограмма на 100 тыс. человек. Если население территории, принимаемой за рынок сбыта томограмм, 630 655 человек, то общее количе- ство процедур может достичь значения 19 752 за весь 1985 год. Реальное количество про- цедур на указанном рынке на протяжении 1983 года оценивается в 21 000 процедур. Эта оценка строится на реальных данных клиник Downtown Radiology (2260), Sacred Heart (4970), Deaconess (3850), Valley (2300), Kootenai (1820) и оценочных данных клиник Ra- diation Therapy (2400) и Northwest Imaging (4000). Если указанная оценка является точ- ной, то клинике Downtown Radiology в 1983 году принадлежало приблизительно 10,5% рынка. Аналогичные данные анализировались и для 1982 года, и в соответствии с ними клинике Downtown Radiology принадлежало около 15,5% рынка томограмм в течение го- да. Поэтому для клиники Downtown Radiology прогнозируется в среднем 13% рынка.
186 ГЛАВА 4 Если принимать в расчет предполагаемый рост числа направлений от докторов, являю- щихся партнерами клиники, и учесть среднее значение числа этих направлений, то можно планировать увеличение количества томограмм на 320 процедур в течение 1985 года. Если воспользоваться цифрами за 1983 год, то уровень рынка томограмм для “внутренней импе- рии” составлял 3568 (21 600/6,054) процедур на 100 тыс. населения. Если подобная картина сохранится, то потребность в томограммах на рынке в 1985 году возрастет до 22 514 (3568x6,31). Таким образом, доля клиники Downtown Radiology на рынке планируется око- ло 13% (2920/22 514). Если сюда добавить еще 4% доли рынка, связанные с общим подъе- мом спроса в этой области здравоохранения, то доля рынка клиники Downtown Radiology составит 17%, и планируемое количество томограмм достигнет 3827 (22 514x0,17). Впрочем, исследования показывают, что ЯМР-диагностика, в конце концов, вытес- нит большинство барабанных сканирующих томографов (Applied Radiology, Мау/June 1983, и Diagnostic Imaging, февраль 1984). По наблюдениям Национального центра стати- стики и здоровья, 60% всех томографов являются барабанными. Данные по клинике Downtown Radiology показывают, что 59% всех ее томографов в 1982 году и 54% в 1983 были барабанными. Если 60% из всех томографов Downtown Radiology являются бара- банными и приблизительно 60% из них будут вытеснены ЯМР-оборудованием, то на 1985 год потребуется иной план по сканирующим томографам. Поскольку установки ЯМР-интраскопии в 1985 году будут работать лишь полгода, то предвидится снижение количества томограмм на 689 (3827/2x0,60x0,60). Таким образом, планируемое на 1985 год число томограмм равно 3138. Средняя стои- мость одной процедуры составляет 360 долларов, и от этих процедур планируется доход в 1 129 680 долларов. В табл. 4.19 приводится план доходов по отделению томографии на следующие пять лет. Предполагается, что стоимость процедур будет возрастать прибли- зительно на 11% в год. Таблица 4.19. Пятилетний план доходов для отделения томографии Год Кол-во процедур Доход (долл.) 1985 3138 1 129 680 1986 2531 1 012 400 1987 2716 1 205 904 1988 2482 1 223 626 1989 2529 1 383 363 Без учета влияния ЯМР-интраскопии, на 1986 следует ожидать выполнения 4363 (6,31x1,02x3568x0,19) томограмм. Но если 60% оборудования будут составлять барабан- ные томографы, то ЯМР-интраскопы заменят 70% из них и число томограмм снизится до 2531 [4363 - (4363x0,60x0,70)]. На 1987 год, без учета вытеснения, количество томограмм планируется равным 4683 (6,31x1,04x3568x0,20). С учетом влияния ЯМР-интраскопов эта величина составит 2482 [4773-(4773x0,60x0,80)]. Для 1989 года планируется выполнение 4863 (6,31x1,08x3568x0,20) томограмм, без учета вытеснения томографов ЯМР-интраскопами. Прогноз с учетом этого эффекта дает 2529 [4863 - (4863x0,60x0,80)] томограмм.
Методы сглаживания и скользящие средние 187 Вопрос Финансисты клиники Downtown Radiology планировали, что доходы должны быть зна- чительно выше. Так как владельцев интересовала возможность выпуска публичных акций, руководство клиники Downtown Radiology должно было принять решение относительно тщательности анализа, проведенного компанией Professional Marketing Associates. Проана- лизируйте приведенный выше отчет и дайте по нему собственное заключение. Применение Minitab Задание. На основе данных компании Spokane Transit Authority из примера 4.3 подготовь- те требуемый прогноз с помощью метода пятинедельного скользящего среднего. Решение в Minitab 1. Введите данные компании Spokane Transit Authority из табл. 4.2 в столбец С1 и выбе- рите на панели меню команду Stat^Time Series^Moving Average. 2. На экране раскроется диалоговое окно Moving Average (Скользящее среднее). а) дважды щелкните кнопкой мыши на переменной Gallons (Галлоны); в резуль- тате она будет помещена в строку Variable б) для выбора пятимесячного скользящего среднего введите в поле МА length (Период усреднения) значение 5 в) не следует устанавливать флажок опции Center (Центр). Метод центрирован- ного скользящего среднего для сглаживания данных рассматривается в главе 5 г) далее установите флажок опции Generate forecasts (Сделать прогнозы) и вве- дите значение 1 в поле Number of forecasts (Количество прогнозов) д) щелкните на кнопке ОК Задание. Подготовьте прогноз по методу простого экспоненциального сглаживания для данных компании Acme Tool. Решение в Minitab 1. Введите в столбец С1 данные компании Acme Tool из табл. 4.1 и выберите на панели меню команду Stat^Time Series^Single Exponential Smoothing. 2. На экране раскроется диалоговое окно Single Exponential Smoothing. а) дважды щелкните кнопкой мыши на переменной Saws (бензопилы); это вызо- вет помещение ее в строку Variable б) в поле Weight to Use in Smoothing (Вес сглаживания) выберите значение Opti- mize (Оптимизировать) и щелкните на кнопке ОК Результаты приведены на рис. 4.9. Задание. Подготовьте прогноз по методу экспоненциального сглаживания, учитывающе- му тренд и сезонность, для данных компании Acme Tool. Решение в Minitab 1. Введите в столбец С1 данные компании Acme Tool из табл. 4.1 и выберите на панели меню команду Stat^Time Series1^Winters’ Method. 2. На экране раскроется диалоговое окно Winters’ Method, показанное на рис. 4.20.
188 ГЛАВА 4 Рис. 4.20. Приложение Minitab: диалоговое окно Winters’ Method а) поскольку исходные данные являются поквартальными, в поле Seasonal length (Длительность периода) необходимо ввести значение 4 б) в группе Weight to Use in Smoothing (Вес сглаживания) введите следующие значения полей: в поле Level — значение 0,4; в поле Trend — 0,1; в поле Sea- sonal — 0,3 в) установите флажок опции Generate forecasts (Сделать прогнозы) и введите значение 4 в поле Number of forecasts (Количество прогнозов) г) щелкните на кнопке Storage (Память) 3. На экране раскроется диалоговое окно Winters’ Method Storage. а) установите флажки опций Level estimates (Оценка уровня), Trend estimates (Оценка тренда), Seasonal estimates (Оценка сезонности), Fits (Прогноз на один период вперед) и Residuals (Остатки) б) щелкните на кнопках ОК в обоих диалоговых окнах. Результат работы програм- мы представлен в табл. 4.9 и на рис. 4.13. Прогноз на первый квартал 2000 года составляет 778,2 4. Сохраните данные для дальнейшего использования; для этого выберите следующую команду меню. File^Save Worksheet As 5. На экране раскроется диалоговое окно Save Worksheet As. а) в поле File Name введите имя, под которым будет сохранен данный документ, например saws б) в поле Save as Туре укажите расширение имени для сохраняемого файла. Если в дальнейшем предполагается применять лишь приложение Minitab, то указанное в этом поле значение можно не менять. Однако если необходимо будет использо- вать сохраняемые данные и в других приложениях, то целесообразнее сохранить файл в формате документа Excel. В частности, файл с именем saws. xls будет ис- пользоваться нами при обсуждении в разделе “Применение Excel”.
Методы сглаживания и скользящие средние 189 Применение Excel Задание. В примере 4.5 строится прогноз по данным компании Acme Tool с помощью ме- тода простого экспоненциального сглаживания с константой сглаживания, равной 0,6. Решение в Excel 1. Откройте файл с данными из табл. 4.1, сохраненный в предыдущем упражнении. Для этого выберите следующую команду меню. File^Open Нужный файл называется saws. xls. 2. Выберите следующую команду. Tools^ Data Analysis На экране раскроется диалоговое окно Data Analysis (Анализ данных). В списке Analysis Tools (Инструменты анализа) выберите значение Exponential Smoothing (Экспоненциальное сглаживание) и щелкните на кнопке ОК. 3. На экране раскроется диалоговое окно Exponential Smoothing, представленное на рис. 4.21. не 1_ JSaws 2 I. .. 500 350 -Incut KE 101 11' .12) 13 400 450 350 200 300 350 200 150 400 > Input Rang®} гид ' Output options - Р Х/Г-* Z — I /|11>н1‘Г1||/11 ‘.mnnthiriij 5 । S ! e ’5 S-1S- ‘7 250 550 Puc. 4.21. Приложение Excel: диалоговое окно Exponential Smoothing а) в поле Input Range (Диапазон ввода) введите значение А2:А5 б) установите флажок опции Labels (Метки) в) введите в поле Damping factor (Фактор затухания) значение 0,4, поскольку это значение определяется как дополнение до единицы к постоянной сглаживания, т.е. (1 - а) г) в поле Output Range (Диапазон вывода) введите значение В2 д) установите флажок опции Chart Output (Схема вывода) е) щелкните на кнопке ОК
190 ГЛАВА 4 4. Результаты расчета (столбец В) и соответствующий график приведены на рис. 4.22. Из рисунка можно видеть, что инструмент анализа Exponential Smoothing помещает в итоговые ячейки рабочего листа явно заданные формулы. Ячейка В4 выделена, и соответствующее ей выражение =0.6*АЗ+0.4*ВЗ показано на панели инструментов. J MhfuHiK Excel - Tab4-1 jjFile Fdt Wew inserf Fo-nal d^hea?и I Anal т 10 ДО :oc- В4 1 =0 6*АЗ+0 4*ВЗ' А В J С П Е F G • Н I Й' 5 6 7 8 9 ¥0 «_ i2 Я u JS 16 500 #N/A 350':.....500 25C'| 4101 400' 456' 350 200 ЗОО: 35.3" 200 150 400 550' 350: 550: 314 ...3656 ...416.24: 376 496 '270'5984 288.2394 '325.2957 250.1183': "190.0473: 316.0189' 456.4075 ""392'563 30Z0252 Exponential Smoothing 1000 500 Data Point Actual Forec • I НГ ЙймГ, О Puc. 4.22. Результаты экспоненциального сглаживания, полученные в Excel для данных из примера 4.5 Рекомендуемая литература Aaker D. A., Jacobson R. The Sophistication of ‘Naive’ Modeling. International Journal of Forecast- ing 3(314), 1987:449-452. Dalrymple D. J., KingB. E. Selecting parameters for Short-Term Forecasting Technoques. Decision Sciences 12, 1981: 661—669. Gardner E. S. Jr., Dannenbring D. G. Forecasting with Exponential Smoothing: Some Guidelines for Model Selection. Decision Sciences 11, 1980: 370—383. Holt С. C. Forecasting Seasonal and Trends by Exponentially Weighted Moving Averages. Office of Naval Research, Memorandum No. 52, 1957. Holt С. C., Modigliani F., Muth J. F., Simon H. A. Planning Production Inventories and Work Force. Englewood Cliffs, NJ: Prentice-Hall, 1960. LedolterJ, Abraham B. Some Comments on the Initialization of Exponential Smoothing. Journal of Forecasting 3 (1), 1984: 79—84. Makridakis S., Wheelwright S. C., Hyndman R. Forecasting Methods and Applications. New York: John Wiley & Sons, 1998. McKenzie E. An Analysis of General Exponential Smoothing. Operations Research 24, 1976: 131—140. Winters P. R. Forecasting Sales by Exponential Weighted Moving Averages. Management Sciences 6, 1960: 324-342.
/А\ /А\ Л W W/ W/ М ЯШ ГЛА|А F/ W W W Временные ряды и их компоненты К1ак было отмечено в предыдущих главах, совокупность наблюдений величины Y, вы- полненных в течение некоторого промежутка времени, называют данными временного ряда или просто временным рядом. Чаще всего наблюдения регистрируются через посто- янные промежутки времени. Так, например, величина Y может описывать объем продаж, а соответствующие временные ряды могут представлять последовательность годичных объемов продаж. Другие примеры временных рядов включают квартальную прибыль, го- довой уровень запасов или недельный валютный курс. В общем случае временнь/е ряды не представляют собой случайную выборку и требуют специальных методов для их ис- следования. Наблюдения во временных рядах, как правило, зависят друг от друга (автокоррелируют). Эта зависимость образует модель изменения или поведения данных, которую можно использовать для предсказания их будущих значений, а это, в свою оче- редь, может значительно помочь руководству в управлении деловыми операциями. Ниже рассматриваются примеры подобных ситуаций. В авиакомпании American Airlines (АА) текущее число забронированных билетов сравнивается с прогнозируемым значением, вычисленным на основе исторически на- блюдаемой модели поведения этих данных. В зависимости от того, отстают показатели текущего бронирования от прогнозируемого значения или опережают его, в компании устанавливается соответствующая доля посадочных мест, продаваемых со скидкой. Та- кое регулирование проводится для каждого направления выполняемых рейсов. Канадские импортеры срезанных цветов покупают их у производителей в США, Мек- сике, Центральной и Южной Америке. Однако поскольку все эти производители приобре- тают сырье для выращивания и химикаты в Соединенных Штатах, все цены на момент со- вершения сделки выражаются в долларах США. Накладные оплачиваются не сразу, и по- скольку курс обмена “канадский доллар—американский доллар” постоянно меняется, для импортеров реальная цена в канадских долларах на момент покупки неизвестна. Если курс перед оплатой счета не изменился, то для импортеров цена остается прежней. Если курс по- вышается, то импортеры теряют деньги на каждом американском долларе в стоимости по- купки. И наоборот, если курс снижается, канадские импортеры выигрывают. Для эффек- тивного управления запасами срезанных цветов импортеры прибегают к прогнозированию недельного курса обмена канадских долларов на американские.
192 ГЛАВА 5 Несмотря на то что временные ряды зачастую генерируются внутри самих компаний и являются уникальными для конкретной организации, многие интересные в бизнесе вре- менные ряды можно получить из внешних источников. В изданиях, подобных Statistical Abstract of the United States, Survey of Current Business, Monthly Labor Review и Federal Reserve Bulletin, публикуются временные ряды всех типов. Эти и другие издания предоставляют данные о временных рядах цен, объемов производства и продаж, показателей трудоуст- ройства и безработицы, количества отработанного времени и использованного топлива, суммы доходов и т.п., организованные на месячной, квартальной или годовой основе. Сейчас обширная коллекция временных рядов доступна на Web-узлах, поддерживаемых американскими правительственными организациями, статистическими организациями, университетами и частными лицами. Важно, чтобы менеджеры понимали то, что происходило ранее, и использовали исто- рически накопленные данные при подготовке продуманных планов, отвечающих требо- ваниям будущего. Корректно составленный временной ряд прогнозов поможет исклю- чить некоторую неопределенность, связанную с будущим, и поможет управляющему персоналу в поиске альтернативных стратегий. Так, Питер Бернштейн (Peter Bernstein, 1996) отмечает следующее. Вы не принимаете решение о ввозе товаров через океан, приобретении товаров для продажи или займе денег, не выяснив сначала, какое будущее может вас ожидать. Получение гарантий, что необходимое сырье и материалы будут поставлены в уста- новленный срок, а также забота о том, чтобы товары, которые планируется прода- вать, производились вовремя, а сеть их сбыта была своевременно развернута, — все это должно быть спланировано до того момента, как появятся клиенты и выложат свои деньги на прилавок. Успешный руководитель бизнеса в первую очередь должен быть хорошим прогнозистом. Приобретение материалов, производство, маркетинг, ценовая политика и организация сбыта — все это будет потом. Конечно, возможная альтернатива состоит в том, чтобы ничего не планировать за- ранее. Однако в динамичной деловой среде отсутствие планирования может иметь ка- тастрофические последствия. Производитель компьютеров-мэйнфреймов, который несколько лет назад проигнорировал бы тенденцию к быстрому распространению пер- сональных компьютеров и рабочих станций, очень скоро потерял бы большую часть своей доли рынка. Несмотря на то что ниже внимание фокусируется на модельном подходе к анализу временных рядов, который опирается, прежде всего, на имеющиеся данные, весьма важ- ной также является субъективная оценка самой попытки прогнозирования. Всякий раз, когда прошлое изучается для получения ключа к будущему, это будет уместно только в той мере, в которой прежняя причинная обусловленность будет сохраняться и в после- дующие периоды. В экономической и деловой среде причинная обусловленность редко остается постоянной. Множество существующих причинных факторов склонно к непре- рывным изменениям, поэтому взаимосвязь между прошлым, настоящим и будущим ну- ждается в постоянной переоценке. Техника временнь/х рядов предлагает концептуальный метод прогнозирования, который уже доказал свою несомненную полезность. Прогнозы делаются с соблюде- нием ряда специфических формальных процедур, и принимаемое решение оказыва- ется ясным и точным.
Временные ряды и их компоненты 193 Декомпозиция Один из методов анализа данных временных рядов включает попытку определить состав- ляющие факторы, которые влияют на каждое значение временного ряда. Подобная про- цедура идентификации называется декомпозицией. Каждая компонента идентифицирует- ся отдельно. Затем вклады каждой компоненты комбинируются с целью получения прогнозов будущих значений временнь/х рядов. Методы декомпозиции используются как для кратковременных, так и для долговременных прогнозов. С их помощью также можно просто отображать рост или спад, лежащий в основе ряда, или корректировать значения ряда, исключая из них одну или несколько компонент. Анализ временных рядов путем разложения их на составные части имеет длинную ис- торию. Однако в последнее время слава прогнозов, выполненных на основе метода де- композиции, несколько потускнела. Проекция отдельных компонент на будущее с по- следующей их комбинацией для получения прогноза значений основного ряда на прак- тике работает не очень хорошо. Трудность заключается в том, что сложно дать точный прогноз для отдельных компонент. Разработка более гибких модельных процедур про- гнозирования (некоторые из них рассматриваются в следующих главах) сделала декомпо- зицию скорее инструментом для достижения понимания временных рядов, чем само- стоятельным методом прогнозирования. Рассмотрение методов декомпозиции мы начнем с четырех компонент временных ря- дов, введенных в главе 3. Это трендовая, циклическая, сезонная и нерегулярная (или слу- чайная) компоненты. 1. Тренд. Тренд — это компонента, представляющая основной рост (или спад) во временном ряду. Трендовая компонента может образовываться, например, за счет постоянного изменения популяции, инфляции, технологических изменений или роста продуктивности. Компонента тренда обозначается буквой Т. 2. Цикличность. Циклическая компонента — это последовательность волнообраз- ных флуктуаций или циклы длительностью более одного года. Изменение эконо- мических условий обычно происходит циклически. Циклическая компонента обозначается буквой С. На практике сложно идентифицировать цикл, и он часто кажется частью тренда. В этом случае рассматриваемый основной рост (или спад) компонент называют трендово-циклическим и обозначают буквой Т. Та же буква, что и для обозначе- ния тренда, используется здесь потому, что циклическую компоненту часто не- возможно отделить от тренда. 3. Сезонность. Сезонные изменения обычно присутствуют в квартальных, месячных или недельных данных. Под сезонными вариациями понимаются изменения с более или менее стабильной структурой, имеющие годовую цикличность и повторяющие- ся из года в год. Сезонные изменения являются следствиями влияния погоды или повторения календарно-зависимых событий, таких как школьные каникулы или национальные праздники. Сезонная компонента обозначается буквой S. 4. Нерегулярность. Нерегулярная компонента включает непредсказуемые или слу- чайные флуктуации. Флуктуации являются результатом множества разнообраз- ных событий, которые сами по себе несущественны, но совместно могут дать зна- чительный эффект. Нерегулярная компонента обозначается буквой I.
194 ГЛАВА 5 Для изучения компонент временных рядов аналитик должен рассмотреть, как каждая из них связана с реальным рядом. Эта задача решается посредством задания модели (математического соотношения), в которой переменная временного ряда Y выражается в терминах его компонент Т, С, S и I. Модель, которая трактует каждое значение времен- ного ряда как сумму компонент, называется моделью аддитивных компонент. Модель, рассматривающая каждое значение временного ряда как произведение компонент, име- нуется моделью мультипликативных компонент. Обе модели иногда относят к моделям не- наблюдаемых компонент, поскольку на практике, хотя сами значения временнь/х рядов наблюдаются, значения их компонент не могут наблюдаться. При использовании метода анализа временнь/х рядов, описанного в этой главе, можно получить оценки значений компонент для заданного наблюдаемого ряда. По этим оценкам можно делать прогнозы или отображать ряды, “не обременяя” их данные сезонными изменениями. Последний процесс называется сезонной корректировкой. Иметь дело с циклическими компонентами временнь/х рядов сложно. До некоторой степени циклы можно определить на основе данных наблюдений, но их длительность (измеряемая в годах) и величина (разница между наибольшим и наименьшим значения- ми) далеко не постоянны. Отсутствие постоянства в волнообразной структуре создает значительные трудности при отделении циклов от гладко развивающегося тренда. По- этому, чтобы сохранить простоту изложения, предположим, что все циклы в данных бу- дут частью тренда. По этой причине сначала рассмотрим только три компоненты — Т, S и/. Краткое обсуждение способа учета циклических флуктуаций в декомпозиционном методе анализа временнь/х рядов приводится в этой главе, в разделе “Циклические и не- регулярные вариации”. Двумя простейшими моделями, связывающими наблюдаемую величину временного ряда (У,) с компонентами тренда (Г,), сезонности (S,) и нерегулярности (/,), являются мо- дель ад дитивных компонент Y, = Т, + 5',+/, (5.1) и модель мультипликативных компонент. Y, = Т, х S, х I,. (5.2) Модель аддитивных компонент применима в тех случаях, когда анализируемый вре- менной ряд имеет приблизительно одинаковые изменения на протяжении всей длитель- ности ряда. Иными словами, все значения ряда существенно убывают в пределах полосы постоянной ширины, центрированной на уровне тренда. Модель мультипликативных компонент эффективнее в тех ситуациях, когда измене- ние временной последовательности увеличивается с ростом уровня1, т.е. значения ряда расходятся как имеющие тренд, а наблюдаемая последовательность значений напомина- ет рупор или воронку. Примеры временных рядов с постоянной и возрастающей вариа- бельностью показаны на рис. 5.1. Оба эти месячные ряда имеют растущий тренд и явную сезонную структуру2. Можно преобразовать мультипликативную декомпозицию в аддитивную, используя логарифмы данных. На основе уравнения 5.3 и свойств логарифма можно записать log}' = log(7X S X I) = log? + log.S" + log/. Декомпозиция логарифмированных данных рассматривается в задании 5.15. Существует вариант декомпозиционной модели (уравнения 5.1 и 5.2), который содержит как мульти- пликативные, так и аддитивные члены. Например, некоторые пакеты программного обеспечения выполня- ют “мультипликативную ” декомпозицию, используя модель Y = Т X S +1.
Временные ряды и их компоненты 195 Месяцы Рис. 5.1. Временной ряд с постоянной (вверху) и возрастающей ва- риабельностью (внизу) Тренд Тренд представляет собой долговременные изменения во временных рядах, которые иногда можно описать с помощью прямой линии или гладкой кривой. Примерами ос- новных сил, продуцирующих или вызывающих тренд рядов, являются изменение чис- ленности населения, изменение цен, технологические изменения, рост продуктивности и жизненный цикл товара.
196 ГЛАВА 5 Увеличение населения может привести к тому, что розничные продажи в обществе будут постоянно возрастать в течение многих лет. Кроме того, уровень продаж в долларах может подскочить в этот период из-за всеобщего возрастания цен на розничные товары, даже если физический объем проданных товаров не изменился. Технологические изменения также могут привести к тому, что временные ряды будут воз- растать или убывать. Разработка высокоскоростных компьютерных чипов, создание устройств памяти сверхвысокой емкости, усовершенствование средств визуального представления ин- формации одновременно с бурным развитием телекоммуникационных технологий — все это в совокупности вызвало рост использования компьютеров и сотовых телефонов. И конечно, те же технологические изменения привели к появлению нисходящего тренда в производстве ме- ханических вычислительных устройств и телефонов с дисковым номеронабирателем. Рост продуктивности производства, который, в свою очередь, может быть обусловлен технологическими изменениями, является причиной роста значений во многих времен- нь/х рядах. Изменение продуктивности влияет на любой итоговый показатель общест- венного производства, например на объем реализованной продукции. Для деловых и экономических временных рядов лучше всего рассматривать трендо- вую (или трендово-циклическую) компоненту как гладкое изменение во времени. В дей- ствительности редко можно предположить, что тренд будет описываться такой простой функцией, как прямая линия, на протяжении всего времени наблюдений временного ря- да. Однако зачастую кривую тренда временного ряда удобнее сглаживать по двум причи- нам. Во-первых, вводится показатель основного направления исследуемого ряда, а во- вторых, можно исключить влияние тренда из первоначального ряда с целью получения более отчетливой картины сезонности. Если грубо представить тренд в виде прямой линии, т.е. если рост или спад похожи на прямую линию, то она описывается следующим уравнением. Т = b0+b{t, (5.3) где Т, — это расчетное значение тренда в момент времени /. Символ t используется для независимой переменной, представляющей время и обыч- но принимающей целочисленные значения 1,2,3,..., соответствующие последователь- ным периодам времени. Коэффициент наклона bt является средним ростом или спа- дом Т для любого возрастания во времени за один период. Временное уравнение для тренда, включающее линейный тренд, может быть приме- нено к данным на основе метода наименьших квадратов. В этом методе значения коэф- фициентов в уравнении для тренда (bQ и в линейном случае) отбираются так, чтобы оцененное значение Т, было наиболее близко к реальному значению Y„ что измеряется с помощью суммы квадратов ошибок (SSE). SSE = '^J(YI-T,)2 (5.4) Пример 5.1 В табл. 5.1 приведены данные о ежегодной регистрации новых пассажирских автомобилей в Соединенных Штатах с 1960 по 1992 год, а на рис. 5.2 представлены соответствующие графи- ки. Значения величин с 1960 по 1992 год были использованы для получения трендового урав- нения. Регистрация является зависимой переменной, а независимой является время t, поме- ченное таким образом: 1960 = 1, 1961 = 2 и т.д.
Временные ряды и их компоненты 197 Линия сглаженного тренда дается следующим уравнением. Т, =7,988 + 0,0687/ Наклон в уравнении для тренда указывает на то, что в среднем каждый год регистрируется на 68 700 автомобилей больше. На рис. 5.3 показана прямая тренда, сглаживающая реальные данные, а также представлены прогнозы регистрации новых автомобилей на 1993 и 1994 годы (t = 34 и t = 35), рассчитанные экстраполяцией линии тренда. Ниже прогноз тренда будет рас- смотрен подробнее. Оцененное значение тренда для регистрации пассажирских автомобилей с 1960 по 1992 год показано в табл. 5.1, в столбце величин Г . Например, уравнение для тренда оцени- вает количество регистраций в 1992 году (/ = 33) следующим образом. Т1992 =7,988+ 0,0687(33) = 10,255 Иными словами, имеем 10 255 000 регистраций. Регистрация новых пассажирских автомобилей в действительности в 1992 году равнялась 8 054 000. Для 1992 года уравнение для тренда пере- оценивает регистрацию приблизительно на 2,2 миллиона автомобилей. Эта и остальные ошибки приведены в табл. 5.1, в столбце Y -Т. Данная ошибка была использована для расчета показа- телей MAD, MSD и МАРЕ, как показано на рис. 5.3. Это те же оценки точности прогнозирова- ния, которые описываются в главе 3 уравнениями (3.7), (3.8) и (3.9). (Команды приложения Minitab, необходимые для получения результатов примера 5.1, приводятся в конце главы.) Таблица 5.1. Регистрация новых пассажирских автомобилей в США, 1960-1392 гг. Год Регистрации (млн) Y Время t Оценка тренда (млн) Т Погрешность Y-Т 1960 6,577 1 8,0568 -1,4798 1961 5,855 2 8,1255 -2,2705 1962 6,939 3 8,1942 -1,2552 1963 7,557 4 8,2629 -0,7059 1964 8,065 5 8,3316 -0,2666 1965 9,314 6 8,4003 0,9138 1966 9,009 7 8,4690 0,5401 1967 8,357 8 8,5376 -0,1807 1968 9,404 9 8,6063 0,7977 1969 9,447 10 8,6750 0,7720 1970 8,388 11 8,7437 -0,3557 1971 9,831 12 8,8124 1,0186 1972 10,409 13 8,8811 1,5279 1973 11,351 14 8,9498 2,4012 1974 8,701 15 9,0185 -0,3175 1975 8,168 16 9,0872 -0,9192 1976 9,752 17 9,1559 0,5961
198 ГЛАВА 5 Год Регистрации (млн) Y Окончание табл. 5.1 Время t Оценка тренда (млн) Т Погрешность Y- Т 1977 10,826 18 9,2246 1,6014 1978 10,946 19 9,2933 1,6527 1979 10,357 20 9,3620 0,9950 1980 8,761 21 9,4307 -0,6697 1981 8,444 22 9,4994 -1,0554 1982 7,754 23 9,5681 -1,8141 1983 8,924 24 9,6368 -0.7128 1984 10,118 25 9,7055 0.4125 1985 10,889 26 9,7742 1.1148 1986 11,140 27 9,8429 1.2971 1987 10,183 28 9,9116 0.2714 1988 10,398 29 9,9803 0.4177 1989 9,833 30 10,0490 -0.2160 1990 9,160 31 10,1177 -0.9577 1991 9,234 32 10,1863 -0.9524 1992 8,054 33 10,2550 -2.2010 Источник: данные министерства торговли, Survey of Current Business (за разные года). Registrations of New Passenger Cars: 1960-1992 Year Puc. 5.2. Временной ряд регистрации новых автомобилей в США (приложение Minitab)
Временные ряды и их компоненты 199 Рис. 5.3. Линия тренда для временного ряда регистрации новых автомобилей (приложение Minitab) Некоторые типы трендовых кривых Жизненный цикл нового товара имеет три стадии: появление, рост, зрелость и насыщение. Кривая, описывающая продажи товара (в долларах или штуках) в течение его жизненного цикла, показана на рис. 5.4. Время, отложенное вдоль горизонтальной оси, может изме- няться от недели до года, в зависимости от природы рынка. Для такого типа данных линей- ный тренд не приемлем. В линейной модели предполагается, что переменная возрастает или убывает на постоянную величину за каждый промежуток времени. Приросты за про- межуток времени, соответствующий кривой жизненного цикла товара в целом, совершенно различаются в зависимости от стадии цикла. Для того чтобы смоделировать тренд в течение жизненного цикла товара, нужна кривая, отличная от прямой линии. Простой функцией, учитывающей кривизну, является квадратичный тренд. Т, ^bg + bj + bf (5.5) На рис. 5.5 кривая квадратичного тренда, сглаживающая данные о регистрации пас- сажирских автомобилей из примера 5.1, построена с использованием критерия SSE. Квадратичный тренд можно спроецировать за пределы имеющихся данных для, скажем, двух дополнительных годов: 1993 и 1994. Последствия такого проецирования мы обсудим в следующем разделе. Исходя из показателей МАРЕ, MAD и MSD, квадратичный тренд лучше описывает ос- новную модель поведения ряда данных о регистрации автомобилей, чем линейный тренд, показанный на рис. 5.3. Какая модель тренда является наиболее подходящей? Прежде чем рассмотреть этот вопрос, нужно ввести несколько дополнительных типов кривых тренда, которые могут оказаться полезными. Когда временной ряд начинается медленно, а потом возрастает (рис. 5.4) так, что про- центное различие наблюдений остается постоянным, можно для сглаживания использо- вать показательный тренд, который задается следующим выражением.
200 ГЛАВА 5 т,=ьаь{ Коэффициент bx зависит от степени роста. Если показательный тренд сглаживает го- довые данные, то предполагаемое увеличение роста будет 100(Z>i - 1)%. (5.6) Время Рис. 5.4. Типичная кривая жизненного цикла нового продукта Quadratic Trend for Car Registarion Time Series Quadratic Trend Model Yt = 6.35619 + 0.348449*t - 8.23E-03*t**2 • Actual * Predicted ----Actual ----Predicted MAPE: 8.61698 MAD: 0.77385 MSD: 0.89395 Puc. 5.5. Квадратичная кривая тренда для данных о регистрации автомобилей (приложение Minitab)
Временные ряды и их компоненты 201 На рис. 5.6 показано количество членов фонда взаимопомощи в частной компании за период с 1991 по 1997 год. Увеличение числа членов фонда не является постоянным, по- скольку в каждый последующий год добавляется все большее число новых членов. Рис. 5.6. График количества членов фонда взаимопомощи Кривая показательного тренда, сглаживающая эти данные, описывается уравнением Т, =10,016(1,313)', предполагающим ежегодное возрастание количества членов фонда около 31%. Следова- тельно, если модель предполагает, что в 1996 году в фонде будет 51 член, то увеличение их числа для 1997 года будет соответствовать 16(51x0,31), что в итоге дает оценку в 67 человек. Эта оценка очень близка к реальному значению — 68 человек. При сглаживании данных о членах фонда взаимопомощи линейным трендом предпо- лагается, что средний рост составляет приблизительно девять новых членов фонда в год. Такой тренд переоценивает реальное возрастание в ранние годы и недооценивает в позд- ние. Поэтому линейный тренд моделирует реальное поведение данных хуже, чем показа- тельная кривая. Ясно, что экстраполяция данных показательным трендом с 31%-ным уровнем роста очень скоро даст слишком большие числа. Это потенциальная проблема модели показа- тельного тренда. Что будет, когда экономический рост замедлится и биржевые курсы начнут падать? Потребность в предоставлении взаимных кредитов будет уменьшаться и количество членов фонда взаимопомощи может даже сократиться. Прогнозы тренда, по- лученные с помощью показательной кривой, окажутся слишком завышенными. Кривая роста Гомперца или же кривая логистического типа описывают общую тен- денцию многих отраслей промышленности и серий новых продуктов к все уменьшаю- щемуся возрастанию при их вступлении в фазу зрелости. Если график исследуемых дан- ных отражает ситуацию, когда объемы продаж (исходно небольшие) сначала быстро воз- растают по мере того, как товар завоевывает рынок, а затем их рост замедляется после достижения насыщения рынка, то их поведение можно описать с помощью кривой Гом-
202 ГЛАВА 5 перца или логистической модели Перла-Рида (Pearl-Reed). На рис. 5.7 для сравнения представлен общий вид кривой Гомперца (а) и логистической кривой Перла-Рида (б). Следует отметить, что логистическая кривая очень похожа на кривую Гомперца; имеется лишь небольшая разница в наклоне. На рис. 5.7 показано, что рост величины К строго ограничен и максимальное ее значение для каждой из кривых функционально определя- ется некоторыми коэффициентами. Формула для этих кривых тренда является слишком сложной (ее обсуждение выходит за рамки данного рассмотрения). Многие программные приложения, применяющие статистические методы, включая и приложение Minitab, по- зволяют сглаживать данные в соответствии с несколькими моделями тренда, рассмот- ренными в этом разделе. а) трендовая кривая Гомперца б) логистическая (Перла-Рида) трендовая кривая Рис. 5.7. S-образные кривые роста Хотя и существуют объективные критерии выбора приемлемой модели тренда, в об- щем случае подбор модели тренда осуществляется посредством субъективной оценки и, следовательно, требует определенного опыта аналитика. Как будет показано в следую- щем разделе, линия или кривая, хорошо сглаживающие набор уже существующих точек данных, могут не иметь смысла, если проектировать их как тренд в будущее. Прогноз тренда Пусть прогноз величины К нар шагов вперед делается в момент времени t = п (конец после- довательности), при этом для прогнозирования используется трендовая модель. Период времени, на который делается прогноз, — в данном случае это п — называется началом пред- сказания. Значение р именуется дальностью прогнозирования. Для модели линейного тренда можно сделать прогноз, вычисляя значения по уравнению Т = Ьо + Ь^п + р). При использовании линейного тренда для сглаживания данных о регистрации авто- мобилей в США из примера 5.1, прогноз тренда для 1993 года (/ = 34), сделанный в 1992 году (г = п = 33), будет предсказанием нар = 1 шаг вперед.
Временные ряды и их компоненты 203 4+i = 7,988 + 0,0687(33 +1) = 7,9881 + 0,687(34) = 10,324 Аналогично на/? = 2 шага вперед (1994 год) прогноз дается следующим выражением. 4+2 = 7,988 + 0,0687(33 + 2) = 7,9881 + 0,687(35) = 10,393 Эти два прогноза показаны на рис. 5.3 как экстраполяция сглаженной линии тренда. На рис. 5.5 показана сглаживающая кривая квадратичного тренда для данных о реги- страции автомобилей. С помощью уравнения, приведенного на рисунке, можно рассчи- тать прогноз тренда на 1993 и 1994 годы, приняв t = 33 + 1 = 34 и t = 33 + 2 = 35. Можно убедиться, что f33+i = 8,690 и f33+2 = 8,470. Эти данные можно нанести на рис. 5.5 как экс- траполяцию линии квадратичного тренда. Следует помнить, что сведения о регистрации автомобилей приведены в миллионах штук и два прогноза тренда, полученные на основании квадратичной кривой, сущест- венно отличаются от прогнозов, полученных на основании линейного уравнения тренда. Более того, они указывают тенденцию в противоположных направлениях. Если экстра- полировать линейный и квадратичный тренд на более отдаленные промежутки времени, то различие между ними будет постоянно увеличиваться. Пример с регистрацией автомобилей показывает, что при использовании сглажи- вающих кривых тренда для прогнозирования будущих трендов нужно быть предельно внимательным. Два уравнения, которые достаточно точно описывают исследуемый ряд, могут давать весьма различные результаты при проецировании на будущие периоды вре- мени. Эта разница может быть весьма существенной для прогнозов большой длительно- сти в случае долговременных прогнозов. Моделирование с помощью кривых тренда предполагает следующие обязательные условия. 1. Была выбрана соответствующая кривая тренда. 2. Кривая, сглаживающая прошлые данные, указывает на будущие. Это говорит о том, что субъективная оценка и личный опыт играют существенную роль при выборе и использовании кривой тренда. Чтобы применить кривую тренда для прогнозирования, нужно доказать, что выбранная кривая тренда корректна и что с большой вероятностью поведение данных в будущем будет аналогично их поведению в прошлом. Существуют и объективные критерии отбора кривых тренда. В последующих главах рассматриваются два из них: информационный критерий Акаике (Akaike) и информаци- онный критерий Баезиана (Bayesian). Однако несмотря на то что эти и другие критерии помогают определить рамки применимости модели, все же они не могут полностью за- менить здравого смысла и субъективной оценки. Сезонность Сезонная структура имеет место при наличии явлений, повторяющихся из года в год. На годичных данных сезонность никак не отражается, поскольку нет возможности смодели- ровать внутригодовую структуру данных, значения которых регистрируются лишь один раз в год. Однако во временных рядах, содержащих недельные, месячные или кварталь- ные наблюдения, сезонность проявляется очень часто.
204 ГЛАВА 5 Анализ сезонной компоненты временных рядов имеет непосредственные краткосроч- ные последствия и весьма важен для менеджмента среднего и нижнего звена. Например, в маркетинговых планах обязательно должны приниматься во внимание ожидаемые се- зонные структуры изменения потребительского спроса. Существует несколько методов для оценки сезонных вариаций. Основная идея всех этих методов заключается в том, что в реальном ряду сначала оценивается и убирается тренд, а потом сглаживается возможная нерегулярная компонента. Принимая во внима- ние рассмотренные ранее модели декомпозиции, можно считать, что оставшиеся данные будут содержать только сезонные вариации. Сезонные величины собираются и сумми- руются для получения числа (а точнее числового индекса) для каждого наблюдаемого ин- тервала года (недели, месяца, квартала и т.п.). Таким образом, определение сезонной компоненты во временном ряду отличается от анализа тренда, по меньшей мере, в двух отношениях. 1. Тренд определяется непосредственно из начальных данных, а сезонная компо- нента вычисляется лишь после исключения из набора данных всех остальных компонент, в результате чего в них остается только сезонность. 2. Тренд описывается с помощью одной, хорошо сглаживающей исходные данные кривой или одного уравнения, а в случае сезонности отдельное значение рассчи- тывается для каждого наблюдаемого интервала (недели, месяца, квартала) года и чаще всего имеет вид числового индекса. При использовании аддитивной декомпозиции, оценки трендовой, сезонной и нере- гулярной компонент суммируются, что в результате дает исходный ряд. Если использует- ся мультипликативная декомпозиция, то для того, чтобы восстановить исходную после- довательность, отдельные компоненты перемножаются. В этом случае сезонная компо- нента представляется набором числовых индексов. Эти числа показывают, какие перио- ды в году характеризуются относительно низкими показателями, а какие — относительно высокими. Сезонная структура проявляется в сезонных индексах. Числовые индексы являются удельными величинами, характеризующими изменения величины во времени. Для месячных данных, например, сезонный индекс 1,0 для одного месяца означает, что ожидаемое значение для него составляет 1/12 от общего значения для всего года. Значение ин- декса 1,25 для другого месяца подразумевает, что ожидаемые наблюдения для него превысят на 25% 1/12 годичного целого. Месячный индекс 0,80 указывает на то, что ожидаемый уровень активности для этого месяца будет на 20% меньше 1/12 годичного целого, и т.д. Числовые ин- дексы указывают на ожидаемые подъемы и спады уровня активности в течение года после того, как трендовая (или трендово-циклическая) и нерегулярная компоненты были удалены. Чтобы выделить сезонность, нужно в первую очередь оценить и удалить тренд. Тренд можно оценить с помощью одной из кривых тренда, которые рассматривались выше, или с помощью метода скользящих средних, обсуждавшегося в главе 4. При использовании модели мультипликативной декомпозиции существует популяр- ный метод оценки сезонных вариаций, называемый отнесение к скользящему среднему. В этом методе тренд оценивается с использованием центрированного скользящего сред- него. Данный метод иллюстрируется на примере месячных объемов продаж в компании Cavanaugh, представленных на рис. 5.1 в следующем примере.
Временные ряды и их компоненты 205 Пример 5.2 Чтобы проиллюстрировать метод отнесения к скользящему среднему, рассмотрим месячные объемы продаж в компании Cavanaugh3 за два года. В табл. 5.2 приведены данные о месячных объемах продаж с января 1998 по декабрь 1999 года. На первом этапе для месячных данных вычисляется 12-месячное скользящее среднее (для квартальных данных следует вычислять четырехмесячное скользящее среднее). Поскольку в вычисление этого скользящего среднего включены все месяцы года, в результате сезонная компонента будет исключена, а само сколь- зящее среднее будет включать только трендовую и нерегулярную компоненты. Период Объем 12-месячная Двухгодичная 12-месячное Сезонный продаж скользящая скользящая центрированное индекс сумма сумма скользящее среднее 1988 Январь 518 Февраль 404 Март 300 Апрель 210 Май 196 Июнь 186 Июль 247 4869 . 1 4964 2 9833}3 409,7}4 0,60}5 Август 343 4952 9916 413,2 0,83 Сентябрь 464 4925 9877 411,5 1,13 Октябрь 680 5037 9962 415,1 1,64 Ноябрь 711 5030 10067 419,5 1,69 Декабрь 610 5101 10131 422,1 1,45 Единицы измерения были опущены, а даты и название были изменены с целью защитить интересы ком- пании.
206 ГЛАВА 5 Окончание табл. 5.2 Период Объем продаж 12-месячная скользящая сумма Двухгодичная скользящая сумма 12-месячное центрированное скользящее среднее Сезонный индекс 1999 Январь 613 5178 10279 428,3 1,43 Февраль 392 5239 10417 434,0 0,90 Март 273 5452 10691 445,5 0,61 Апрель 322 5630 11082 461,8 0,70 Май 189 5814 11444 476,8 0,40 Июнь 257 5868 11682 486,8 0,53 Июль 324 Август 404 Сентябрь 677 Октябрь 858 Ноябрь 895 Декабрь 664 В целом, для расчета сезонных индексов по методу отнесения к скользящему среднему требуется выполнить следующие действия (см. также табл. 5.2). Этап 1. Начиная с первого члена ряда рассчитывается 12-месячная скользящая сумма, с ян- варя по декабрь 1998 года, которая помещается между июнем и июлем 1998 года. Этап 2. Рассчитывается двухгодичная скользящая сумма, и результат помещается в таблицу в строку июля, а не между месяцами. Этап 3. Поскольку двухгодичная сумма уже содержит данные о 24 месяцах (январь 1998 года один раз, данные с февраля по декабрь 1998 года дважды и январь 1999 года снова один раз), она центрирована (находится напротив) на июле 1998 года. 4869 + 4964 = 9833 Этап 4. Двухгодичная скользящая сумма делится на 24 для получения 12-месячного цен- трированного скользящего среднего. 9833/24 = 409,7
Временные ряды и их компоненты 207 Этап 5. Сезонный индекс для июля получается в результате деления реального значения для июля на 12-месячное центрированное скользящее среднее4. 247/409,7 = 0,60 Этапы 1—5 повторяются начиная со второго месяца ряда и т.д. Процесс заканчивается тогда, когда уже нельзя вычислить полную 12-месячную скользящую сумму. После того как получено несколько оценок (соответствующих разным годам) сезонных индексов для каждого месяца, их надо тем или иным образом обобщить, чтобы получилось одно значение. Как обобщенную меру более предпочтительно использовать медиану, а не среднее значение. Использование медианы исключает влияние тех месячных данных в году, которые являются необычайно большими или маленькими. Сводка сезонных отношений вместе со значением медианы для каждого месяца показана в табл. 5.3. Сумма месячных сезонных индексов для всего года должна равняться 12, поэтому, чтобы получить результирующий набор сезонных индексов5, значение медиан следует соответст- вующим образом подогнать. Необходимый множитель должен быть больше единицы, если сумма медиан до подгонки оказалась меньше 12, и меньше единицы, если сумма медиан была больше 12. Поэтому необходимый множитель определяется следующей формулой. 12 множитель =---------------------- Действительная сумма Ту ' Месяц 1994 1995 1996 1997 1998 1999 2000 Медиана Подогнанный сезонный индекс (Медианах1,0044) Январь — 1,208 1,202 1,272 1,411 1,431 — 1,272 1,278 Февраль — 0,700 0,559 0,938 1,089 0,903 — 0,903 0,907 Март — 0,524 0,564 0,785 0,800 0,613 — 0,613 0,616 Апрель — 0,444 0,433 0,480 0,552 0,697 — 0,480 0,482 Май — 0,424 0,365 0,488 0,503 0,396 — 0,424 0,426 Июнь — 0,490 0,459 0,461 0,465 0,528 0,465 0,467 Июль 0,639 0,904 0,598 0,681 0,603 0,662 0,651 0,654 Август 1,115 0,913 0,889 0,799 0,830 0,830 0,860 0,864 Сентябрь 1,371 1,560 1,346 1,272 1,128 1,395 1,359 1,365 Октябрь 1,792 1,863 1,796 1,574 1,638 1,771 1,782 1,790 Ноябрь 1,884 2,012 1,867 1,697 1,695 1,846 1,857 1,865 Декабрь 1,519 1,088 1,224 1,282 1,445 — JL282 11,948 1.288 12,002 Эта операция деления на скользящее среднее и дала данной процедуре ее название. 5 Сумма месячных индексов должна равняться 12, чтобы ожидаемый годичный итог равнялся реальному годовому итогу.
208 ГЛАВА 5 Используя данные из табл. 5.3, получаем следующее. 12 Множитель =-------= 1,0044 11,948 Последний столбец в табл. 5.3 содержит результирующие сезонные индексы для каждого месяца, полученные за счет подгонки (умножения на 1,0044) каждой вычисленной медианы6. На рис. 5.8 вычисленные сезонные индексы представлены графически. Они представляют се- зонную компоненту в мультипликативной декомпозиции временного ряда ежемесячных объ- емов продаж компании Cavanaugh. На рис. 5.8 сезонность в объемах продаж компании очевидна. Каждый годичный период характеризуется сравнительно низкими продажами поздней весной и относительно высоки- ми продажами поздней осенью. Рис. 5.8. Сезонные индексы для объемов продаж в компании Cava- naugh (приложение Minitab) При анализе ряда данных об объеме продаж из примера 5.2 предполагалось, что их се- зонная структура постоянна из года в год. Если сезонная структура претерпевает измене- ния, то оценка сезонной компоненты на полном наборе данных может дать ошибочные результаты. В этом случае для оценки сезонной компоненты лучше использовать либо только самые свежие данные (за последние несколько лет), либо модель временных ря- дов, допускающую выделение сезонности. (Модели, допускающие выделение сезонно- сти, рассматриваются в последующих главах.) Сезонный анализ, продемонстрированный в примере 5.2, приемлем при мультипли- кативной модели декомпозиции. Однако общий подход, описываемый этапами 1-5, бу- дет пригоден и для аддитивной декомпозиции, если на этапе 5 для получения индекса се- зонность будет оцениваться посредством вычитания тренда из исходной последователь- ности, а не деления на тренд (скользящее среднее). При аддитивной декомпозиции се- зонная компонента выражается в тех же единицах, что и исходный ряд. Кроме того, из приведенного выше примера с объемами продаж видно, что определе- ние тренда на основе центрированного скользящего среднего дает в результате некото- рые недостающие значения в конце ряда. Это чрезвычайно проблематично, если главной Сезонные индексы иногда умножаются на 100 и выражаются в процентах.
Временные ряды и их компоненты 209 целью является прогнозирование. Чтобы спрогнозировать будущие значения с помощью методов декомпозиции, для оценки тренда следует применять альтернативные методы. Результаты сезонного анализа могут быть использованы для исключения сезонности из данных, предсказания будущих значений данных, оценки текущего состояния дел (например, в торговле, производстве или при выполнении перевозок), а также для целей планирования производства. Данные с устраненными сезонными колебаниями После определения сезонную компоненту можно использовать для вычисления данных с устраненными сезонными колебаниями. Для аддитивной декомпозиции такие данные вы- числяются путем вычитания сезонной компоненты из исходных значений. Y,-S,= T, + I, Для мультипликативной декомпозиции данные с устраненными сезонными колебания- ми вычисляются путем деления исходных данных наблюдений на сезонную компоненту. — = 7]х/ (5.7) S, В экономике большинство временных рядов, обнародованных государственными уч- реждениями, являются данными с устраненными сезонными колебаниями, поскольку сезонные вариации не вызывают большого интереса. Интерес представляют скорее об- щие модели экономической активности, независящие от обычных сезонных изменений. Например, число регистраций новых автомобилей может возрасти на 10% в период с мая по июнь, но указывает ли это на то, что продажи новых автомобилей в этом квартале бу- дут рекордными? Конечно же, нет, поскольку увеличение данной величины на 10% ти- пично для этого времени года и в подавляющей степени является следствием исключи- тельно сезонных факторов. В обзоре, касающемся получения данных с устраненными сезонными колебаниями, Белл (Bell) и Гилмер (Hillmer) (1984) отметили, что многие потребители отдают должное поправке на сезонность. Авторы выделяют три мотива для выполнения сезонной коррек- тировки данных. 1. Исключение сезонности позволяет достоверно сравнивать значения в различные моменты времени. 2. Соотношение между экономическими или деловыми переменными понять будет легче, если осложняющий фактор сезонности предварительно устранен из дан- ных. 3. Исключение сезонности может быть полезным элементом в получении кратко- временных прогнозов будущих значений данных временных рядов. Белл и Гилмер (1984) сделали вывод, что “исключение сезонности упрощает данные таким образом, что простые потребители в результате смогут более просто статистически интерпретировать их, причем без значительных потерь информации” (с. 301).
210 ГЛАВА 5 Циклические и нерегулярные изменения Циклы — это долговременные волнообразные колебания, которые чаще всего встречают- ся в макропоказателях экономической деятельности. Как говорилось ранее, в тех преде- лах, в которых они могут быть измерены, циклы обычно не имеют устойчивой структуры. Однако определенное понимание циклического поведения временных рядов может быть получено путем исключения из них трендовой и сезонной компонент с использованием метода мультипликативной декомпозиции.’ 2^=7^<£><S£2<A = (58) T,xS, T,xS, Для сглаживания нерегулярностей, /„ можно использовать скользящее среднее, со- храняя в данных лишь циклическую компоненту С,. Чтобы исключить проблему центри- рования при использовании метода скользящего среднего с четными временными перио- дами, нерегулярности сглаживаются по методу скользящего среднего с нечетным количе- ством периодов. Для месячных данных удобнее всего использовать 5-, 7-, 9- и даже 11- периодическое скользящее среднее. Для квартальных данных оценка С может быть рас- считана с использованием 3-периодического скользящего среднего для значений Cxf. Наконец, нерегулярная компонента оценивается с помощью следующего уравнения. z QSL (5.9) С, Нерегулярная компонента описывает вариабельность во временных рядах после того, как были удалены все остальные компоненты. Иногда ее также называют остатком или ошибкой. При мультипликативной декомпозиции как циклическая, так и нерегулярная компоненты выражаются индексами. Единственная причина выполнения декомпозиции временной последовательности состоит в стремлении выделить и рассмотреть отдельные компоненты последовательно- сти. После того как аналитик рассмотрит трендовую, сезонную, циклическую и нерегу- лярную компоненты по отдельности, можно попытаться проникнуть в суть структуры исходных данных. Кроме того, однажды выделенные компоненты могут комбинировать- ся заново или синтезироваться с целью получения прогнозов будущих значений времен- ных рядов. Пример 5.3 В примере 3.5 Перкин Кенделл, аналитик компании Outboard Marine, с помощью автокорре- ляционного анализа обнаружил в данных о ежеквартальных объемах продаж наличие сезон- ной компоненты. Чтобы лучше понять поведение этого временного ряда, он решил приме- нить метод декомпозиции. Перкин ввел данные в приложение Minitab (см. раздел “Применение Minitab” в конце главы) и получил результаты, приведенные в табл. 5.4 и на рис. 5.9. Для того чтобы надлежащим образом сохранить текущую сезонную структуру, дан- ные о продажах (У) были проанализированы только за последние семь лет (с 1990 по 1996 гг). Обратите внимание на то, что в уравнение мультипликативной декомпозиции (5.2) была добавлена циклическая компонента. В годичных данных сезонная компонента отсутствует, и произведение циклической компоненты на не- регулярную вычисляется посредством простого удаления тренда из исходных данных.
Временные ряды и их компонент ы 211 Исходные данные показаны на верхнем левом графике на рис. 5.10. Тренд вычислялся с использованием линейной модели: Т, =253,742 +1,284?. Так как 1 соответствует первому кварталу 1990 года, в табл. 5.4 для этого промежутка времени показано значение тренда, рав- ное 255,026, а увеличение объема продаж оценивается в 1,284 за каждый квартал. Верхний правый график (рис. 5.10) представляет данные с исключенным трендом. Эти данные также приведены в столбце SCI в табл. 5.4. Значение для первого квартала 1990 года с исключенным трендом составляет следующее’. Y SCI=- т 232,7 255,026 = 0,912 Данные с устраненными сезонными колебаниями показаны в столбце TCI табл. 5.4 и на левом нижнем графике на рис. 5.10. Значение с устраненными сезонными колебаниями для первого квартала 1990 года будет равно следующему. 232 7 TCI = -=^— = 298,486 0,7796 Объем продаж в первом квартале 1995 года оказался равен 242,600. Однако проверка столбца с устраненными сезонными колебаниями показывает, что продажи в этом квартале фактически были высокими, хотя данные были подогнаны исходя из того, что первый квар- тал обычно является очень слабым. Таблица 5.4. Мультипликативная декомпозиция данных о квартальных объемах продаж компании Outboard Marine t Год Квартал Продажи Т SCI S TCI CI С I 1 1990 1 232,7 255,026 0,912 0,780 298,486 1,170 * * 2 2 309,2 265,310 1,206 1,016 304,297 1,187 1,146 1,036 3 3 310,7 257,594 1,206 1,117 278,175 1,080 1,103 0,979 4 4 293,0 258,878 1,132 1,087 269,459 1,041 1,044 0,997 5 1991 1 205,1 260,162 0,788 0,780 263,084 1,011 0,978 1,034 6 2 234,4 261,446 0,897 1,016 230,683 0,882 0,955 0,924 7 3 285,4 262,730 1,086 1,117 255,524 0,973 0,919 1,059 8 4 258,7 264,014 0,980 1,087 237,914 0,901 0,936 0,963 9 1992 1 193,2 265,298 0,728 0,780 247,820 0,934 0,936 0,998 10 2 263,7 266,583 0,989 1,016 259,518 0,974 0,962 1,013 И 3 292,5 267,867 1,092 1,117 261,880 0,978 1,009 0,969 12 4 315,2 269,151 1,171 1,087 289,875 1,077 0,967 1,114 13 1993 1 178,3 270,435 0,659 0,780 228,708 0,846 0,972 0,870 ’ Для того чтобы упростить обозначения в этом примере, нижний индекс t в обозначении исходных дан- ных Yue обозначениях каждой из их компонент Т, S, С и I опускается. Также опущен знак умножения, х, между компонентами, так как ясно, что рассматривается мультипликативная декомпозиция.
212 ГЛАВА 5 Окончание табл. 5.4 t Год Квартал Продажи Т SCI 5 TCI CI С I 14 2 274,5 271,719 1,010 1,016 270,147 0,994 0,936 1,062 15 3 295,4 273,003 1,082 1,117 264,477 0,969 0,974 0,995 16 4 286,4 274,287 1,044 1,087 263,389 0,960 0,939 1,022 17 1994 1 190,8 275,571 0,692 0,780 244,742 0,888 0,928 0,957 18 2 263,5 276,855 0,952 1,016 259,321 0,937 0,950 0,986 19 3 318,8 278,139 1,146 1,117 285,427 1,026 0,989 1,037 20 4 305,3 279,423 1,093 1,087 280,770 1,005 1,047 0,960 21 1995 1 242,6 280,707 0,864 0,780 311,186 1,109 1,075 1,032 22 2 318,8 281,991 1,131 1,016 313,744 1,113 1,088 1,023 23 3 329,6 283,275 1,164 1,117 295,097 1,042 1,082 0,963 24 4 338,2 284,559 1,189 1,087 311,027 1,093 1,059 1,032 25 1996 1 232,1 285,843 0,812 0,780 297,718 1,042 1,038 1,004 26 2 285,6 287,127 0,995 1,016 821,071 0,979 0,975 1,004 27 3 291,0 288,411 1,009 1,117 260,537 0,903 0,925 0,976 28 4 281,4 289,695 0,971 1,087 258,791 0,893 * * Рис. 5.9. Результаты декомпозиции данных о квартальных объ- емах продаж компании Outboard Marine в приложении Minitab
Компоненты анализа продаж 350 300 250 200 Исходные данные 0 10 20 30 320 310 300 290 280 270 260 250 240 230 Данные с сезонной корректировкой 0 10 20 30 Данные с устраненными трендом и сезонностью 0 10 20 30 Рис. 5.10. Анализ компонент данных о продажах компании Outboard Marine (пример 5.3)
Сезонный анализ продаж Процентное отклонение, за период сезонности Остатки, за период сезонности Рис. 5.11. Сезонный анализ данных о квартальных объемах продаж компании Outboard Marine
Временные ряды и их компонент ы 215 На рис. 5.9 представлены следующие сезонные компоненты. Первый квартал = 0,77960 —> 78,0% Второй квартал = 1,01611 —> 101,6% Третий квартал = 1,1169 —> 111,7% Четвертый квартал = 1,08737 —> 108,7% Верхняя левая диаграмма на рис. 5.11 представляет сезонные компоненты, отнесенные к 1,0. Можно видеть, что продажи в первом квартале на 22% ниже средних, во втором кварта- ле они приблизительно такие, как и ожидалось, в третьем квартале продажи почти на 12% выше средних, а в четвертом квартале почти на 9% превышают обычные. Циклически-нерегулярная компонента для первого квартала 1990 года равна следующему10. Y 232 7 CI = — =--------------------= 1,170 TS (255,026)(0,7796) Для расчета столбца циклической компоненты вычисляется 3-периодическое скользящее среднее. Его значение для второго квартала 1990 года равно следующему. 1,170 1,187 1,080 о 3Q-7/Q 1 1ЛД ------ 3,437/3 = 1.146 3,437 Обратите внимание на то, как сглажены значения в столбце С, по сравнению со столбцом CI. По сути, использование скользящего среднего сглаживает (т.е. устраняет) всю нерегулярность. Для второго квартала 1990 года расчет значения в столбце / дает следующее. Проверка значений в столбце / показывает, что в нерегулярной компоненте присутствуют большие вариации. Индекс нерегулярности убывает от 111,4% в четвертом квартале 1992 года до 87% в первом квартале 1993, а потом возрастает до 106,2% во втором квартале 1993 года. Та- кое поведение вытекает из необычайно низкого уровня продаж в первом квартале 1993 года. Циклические индексы могут быть использованы для получения ответа на следующие вопросы. 1. Является ли последовательность циклической? 2. Если да, то каковы крайние значения цикла? 3. Придерживается ли ряд общей схемы изменения состояния экономики (деловой цикл)? Одним из путей исследования циклической структуры является изучение деловых по- казателей. Деловой показатель представляет собой связанный с деловой активностью временной ряд, предназначенный для оценки общего состояния экономики, в частности ‘° В приложении Minitab произведение циклической компоненты на нерегулярную компоненту (или просто нерегулярная компонента, если циклическая не рассматривается) рассчитывается путем вычитания из ис- ходных данных тренда, умноженного на сезонную компоненту. Или в обозначениях, принятых в приложении Minitab: Cl = Y- TS. Компонента CI представлена на нижнем правом графике рис. 5.10 и на нижней правой диаграмме на рис. 5.11.
216 ГЛАВА 5 по отношению к бизнес-циклу. Многие деловые люди и экономисты систематически следят за динамикой таких статистических рядов, чтобы получить экономическую или деловую информацию в виде развернутой общей картины — актуальной на сегодняшний день, всесторонней, относительно объективной и поддающейся восприятию и понима- нию с минимальной затратой времени. Деловой показатель — это связанный с деловой активностью временной ряд, предна- значенный для упрощения понимания общего состояния экономики. Наиболее важные статистические показатели появились во время резкого экономиче- ского спада в 1937-1938 гг. Министр финансов, Генри Моргентау (Henry Morgenthau), потребовал от Национального комитета экономических исследований США (НКЭИ) разработать систему, которая могла бы указать, когда спад будет близок к концу. Под ру- ководством Уэсли Митчелла (Wesley Mitchell) и Артура Бернса (Arthur F. Burns) эконо- мисты из НКЭИ отобрали 21 ряд, которые на основе уже происшедших событий обеща- ли быть четкими и надежными показателями делового возрождения. С того времени спи- сок показателей пересматривался несколько раз. Текущий список состоит из 22 показа- телей, причем 11 из них классифицируются как опережающие, 4 — как синхронные и 7 — как запаздывающие. 1. Опережающие показатели. На практике компоненты опережающих рядов изуча- ются для того, чтобы помочь предугадать поворотные моменты в экономике. Из- дание Survey of Current Business публикует эти списки каждый месяц вместе с дей- ствительными значениями каждого ряда для нескольких прошедших месяцев и последнего года. Кроме того, сводный индекс опережающих показателей рассчи- тывается для каждого месяца и года; а наиболее свежие месячные значения часто публикуются в популярных изданиях, чтобы указать основное направление даль- нейшего развития экономики. В качестве примеров опережающих показателей можно привести новые заказы у производителей и показатель курса акций. 2. Синхронные показатели. Четыре синхронных показателя указывают, как экономи- ка США функционирует в настоящее время. Индекс этих четырех рядов рассчи- тывается для каждого месяца. Примерами синхронных показателей являются ин- дивидуальные доходы и объемы продаж. 3. Запаздывающие показатели. Эти показатели имеют тенденцию к отставанию от общего состояния экономики как в подъемах, так и в спадах. Сводный индекс рассчитывается и для этих рядов. Примерами запаздывающих показателей могут служить нормы процентных ставок и неоплаченные коммерческие ссуды. Цикличность подразумевает наличие точек поворота. Иначе говоря, точки поворота имеют место только как результат последовательного спада или подъема в деловых цик- лах. Опережающие показатели изменяют направление изменений в ключе грядущих пе- ремен в общей деловой деятельности, синхронные показатели изменяются приблизи- тельно в то же время, что и общее состояние экономики, а изменения в запаздывающих показателях следуют за изменениями в общем состоянии экономики. Однако очень сложно выявить точки поворота цикла в тот момент, когда они наступают, так как раз- ные области экономики по-разному расширяются во время общего подъема и не во всех областях сужение производства происходит в период спада одновременно. Поэтому
Временные ряды и их компонент ы 217 должно пройти несколько месяцев, прежде чем переломную точку подъема или спада можно будет определить с необходимой достоверностью. Авторы статьи Early warning signals for the economy (“Ранние предупреждающие сигна- лы в экономике”), Джеффри Мур (Geoffrey Н. Moor) и Джулиус Шискин (Julius Shiskin) (1976), говорят относительно полезности показателей деловых циклов следующее. Из накопленных данных становится ясно, что показатели деловых циклов являются полезными в оценке характера текущих дел и кратковременных перспектив. Однако вследствие своей ограниченности эти показатели должны использоваться совместно с другими данными, с полной осведомленностью о существе дела, надеждах и дове- рии потребителей, государственной политике и международных событиях. Также нужно ожидать, что показатели часто будет трудно интерпретировать, интерпрета- ции разных аналитиков будут иногда различаться и сигналы, которые они несут, могут быть неправильно трактованы. Показатели предоставляют чувствительную и показательную картину приливов и отливов экономических течений, которую уме- лый аналитик экономики, политики и международных событий может использовать, чтобы увеличить свои шансы в надежном предсказании кратковременных экономи- ческих тенденций. Если аналитик осведомлен об ограничениях и внимателен к про- исходящему в окружающем мире, он найдет полезные свидетельства существующих тенденций для критической оценки экономики и ее нужд (с. 81). Циклические компоненты отдельных временнь/х рядов чаще всего согласуются не- точно, а иногда и совсем не согласуются с деловыми циклами, описываемыми показате- лями НКЭИ. Однако если выполнена оценка циклической компоненты для данного временного ряда, ее всегда можно распространить на определенный период, получив не- которое представление о величине и длительности любого цикла, который существует в действительности. К тому же построенный график может быть сопоставлен с данными о росте и спаде общей экономической активности. Предыдущее обсуждение демонстрирует, как факторы, приводящие к изменениям во временнь/х рядах, могут быть разделены и изучены по отдельности. Анализ —это процесс разделения временнь/х рядов на составляющие; синтез — это процесс обратного объеди- нения этих составляющих в одно целое. Компоненты временнь/х рядов могут вновь ре- комбинироваться с целью получения прогноза. Прогноз сезонного временного ряда В прогнозировании сезонных временнь/х рядов используется процесс, обратный процес- су декомпозиции. После разбиения ряда на отдельные компоненты для их раздельного изучения, его компоненты собираются для построения прогноза на будущие периоды. Для составления прогноза квартального объема продаж компании Outboard Marine при- меним мультипликативную модель и воспользуемся результатами примера 5.3. Пример 5.4 Прогноз объемов продаж компании Outboard Marine для четырех кварталов 1997 года можно построить, воспользовавшись данными из табл. 5.4.
218 ГЛАВА 5 1. Тренд. Уравнение квартального тренда будет иметь вид: Т, =253,742 + 1,284?. Ис- ходным периодом для прогнозирования является четвертый квартал 1996 года или период времени t = п = 28. Объем продаж для первого квартала 1997 года опреде- ляется для периода времени / = 28 + 1 = 29. Из этого ясно, что прогноз делается на р= 1 период вперед. Тогда, полагая t = 29, прогноз тренда определяется следую- щим образом. Тг9 =253,742 + 1,284(29) = 290,978 2. Сезонность. Значение сезонного индекса для первого квартала, равное 0,7796, пред- ставлено на рис. 5.9. 3. Цикличность. Прогноз цикличности должен быть получен из оценки общей цик- лической структуры ряда (если таковая имеется) и любой другой информации, порождаемой общеэкономическими показателями для 1997 года. Прогноз цикли- ческой структуры на будущие периоды времени является неопределенным и, как указывалось ранее, будет скорее предположением, поэтому при прогнозировании его следует включить в тренд. Для полноты нашего примера примем циклический индекс равным 1,0. 4. Нерегулярность. Нерегулярные флуктуации представляют случайные изменения, кото- рые нельзя отнести к другим компонентам. В прогнозе среднее значение нерегулярной компоненты полагается равным 1,0". Прогноз на первый квартал будет следующим. f29 = Т29 х S29 х С29 х 129 = (290,978)(0,7796)(1,0)(1,0) = 226,846 Прогноз на остальные кварталы 1997 года. Второй квартал = 269,973 Третий квартал = 327,870 Четвертый квартал = 320,590 Приближение, которое получено посредством мультипликативной декомпозиции данных о квартальных объемах продаж компании Outboard Marine, и полученный прогноз на 1997 год представлены на рис. 5.12. Из рисунка видно, что данное приближение, составленное из тренда и сезонной компоненты, достаточно хорошо описывает реальные данные. Однако это приближение дает неверные результаты для двух последних кварталов 1996 года. Прогнозы на 1997 год повторяют общую структуру приближения. Прогнозы, получаемые с помощью модели аддитивной или мультипликативной де- композиции, отражают важность отдельных компонент. Если сезонность переменной высока, то прогнозы будут иметь сильную сезонную структуру. Если к тому же присутст- вует тренд, то прогнозы будут следовать сезонной модели, накладываясь на экстраполи- рованный тренд. Если в анализе доминирует одна компонента, лишь она может давать действительный, точный и кратковременный прогноз. " Для прогноза, составляемого с использованием аддитивной модели, нерегулярный индекс принимается в среднем равным нулю.
Временные ряды и их компонент ы 219 Decomposition Fit for Sales • Actual a Predicted Ф Forecast ____Actual ____Predicted ____Forecast MAPE: 7.103 MAD: 18.651 MSD: 496.939 Puc. 5.12. Приближение, полученное методом мультипликативной декомпозиции, и прогнозы объема продаж компании Outboard Marine (приложение Minitab) Метод декомпозиции Census II Методы декомпозиции временных рядов имеют длинную историю. В 1920-х и начале 1930-х годов в Федеральном резервном управлении и Национальном комитете экономи- ческих исследований США проводились интенсивные исследования в области сезонных корректировок и методов сглаживания экономических временнь/х рядов. Однако пока компьютерная техника не получила необходимого развития, декомпозиционные вычис- ления были трудоемкими и практическое применение этих методов было ограничено. В начале 1950-х годов Джулиус Шискин (Julius Shiskin), руководитель группы экономиче- ских статистиков в Бюро переписи населения США, разработал масштабную компью- терную программу для декомпозиции временнь/х рядов. Первая компьютерная програм- ма весьма приближенно соответствовала ручному методу, что было пределом возможно- стей на то время, и поэтому годом позже ее заменили на усовершенствованную програм- му, известную как Method II. Далее последовала серия усовершенствованных вариантов этой программы. Текущий вариант программы декомпозиции временного ряда Бюро пе- реписи населения известен как X-12-ARIMA. Эта программа бесплатно предоставляется в Бюро переписи населения всем желающим и широко используется правительственны- ми организациями и частными компаниями. Декомпозиция по методу Census II обычно является мультипликативной, поскольку большинство экономических временных рядов имеет сезонные вариации, которые уве- личиваются с ростом уровня ряда. Кроме того, этот метод декомпозиции предполагает использование трех компонент: трендово-циклической, сезонной и нерегулярной. Метод Census II включает выполнение последовательности этапов, повторяющихся до тех пор, пока компоненты не будут успешно разделены. На большинстве этапов к данным применяется метод взвешенного скользящего среднего, что приводит к неми-
220 ГЛАВА 5 нуемой утрате данных в результате усреднения в начале и в конце последовательности. Программа ARIMA, часть пакета X-12-ARIMA, позволяет расширить при прогнозирова- нии исходный ряд в обоих направлениях, поэтому большинство наблюдений подгоняет- ся с использованием полного взвешенного скользящего среднего. Эти прогнозы созда- ются на основе модели изменения временнь/х рядов ARIMA (глава 9). Этапы, выполняемые на каждой итерации метода Census II, реализованного в про- граммном пакете X-12-ARIMA, описываются ниже. Из-за большого количества этапов метод может показаться слишком сложным. Однако основная его идея очень проста — отделить трендово-циклическую, сезонную и нерегулярную компоненты друг от друга. Наличие множества итераций лишь улучшает оценку каждой компоненты. Для дополни- тельного изучения можно рекомендовать следующие работы: Makridakis, Wheelwright, Hyndman. Forecasting: Methods and Applications, 3-rd ed. (1998) и Findley et. al. New Capabilities and Methods of the X-12-ARIMA Seasonal-Adjustment Program (1998). Этап 1. Чтобы получить грубую оценку трендово-циклической компоненты, к исход- ным данным применяется метод ^-периодического скользящего среднего. (Для месячных данных №12, для квартальных данных s = 4 и т.д.) Этап 2. Отношения исходных данных к этим значениям скользящего среднего вычис- ляются по методу классической мультипликативной декомпозиции, проиллю- стрированной в примере 5.2. Этап 3. Полученные на втором этапе отношения содержат как сезонную компоненту, так и нерегулярную. В них также входят экстремальные значения, являющиеся результатом необычных событий, таких как забастовки или войны. Вычислен- ные отношения делятся на грубую оценку сезонной компоненты, что в резуль- тате дает оценку нерегулярной компоненты. Большие значения нерегулярной компоненты указывают на экстремальные величины в исходных данных. По- добные экстремальные величины выявляются, и полученные на втором этапе отношения соответствующим образом подгоняются. Такой подход эффектив- но исключает те значения, которые не соответствуют общей структуре всех ос- тальных данных. Недостающие значения в начале и в конце последовательно- сти также заменяются на оценки, полученные на этом этапе. Этап 4. Отношения, полученные из модифицированных данных (с исключенными экстремальными величинами и оценками для недостающих значений), сгла- живаются по методу скользящего среднего с целью исключения нерегулярных изменений. В результате будет получена предварительная оценка сезонной компоненты. Этап 5. Затем исходные данные делятся на предварительную оценку сезонной компо- ненты, полученную на четвертом этапе, что дает предварительные ряды с сезон- ной коррекцией. Эти ряды с сезонной коррекцией включают трендово- циклическую и нерегулярную компоненты. Это выглядит следующим образом. _7jx5,xZ — — А 1, S, S, Этап 6. Трендово-циклическая компонента оценивается посредством применения ме- тода взвешенного скользящего среднего к предварительному ряду с коррекци- ей сезонных колебаний. Скользящее среднее устраняет нерегулярные измене-
Временные ряды и их компоненты 221 ния и дает гладкую кривую, которая демонстрирует предварительную оценку трендово-циклической компоненты в данных. Этап 7. Далее повторяется выполнение второго этапа, но уже с новыми оценками трендово-циклической компоненты. Иными словами, новые отношения, со- держащие только сезонную и нерегулярную компоненты, будут получены по- средством деления исходных наблюдений на значения трендово-циклической компоненты, рассчитанные на этапе 6. В результате будут получены оконча- тельные значения сезонно-нерегулярных отношений. Математически это вы- глядит следующим образом. т, т, Этап 8. Повторяется выполнение третьего этапа, но уже с использованием новых от- ношений, вычисленных на седьмом этапе. Этап 9. Повторяется выполнение четвертого этапа, что дает новую оценку сезонной компоненты. Этап 10. Выполняются действия пятого этапа с использованием оценки сезонной ком- поненты, полученной на девятом этапе. Этап 11. Данные с сезонной коррекцией из десятого этапа делятся на значения трендо- во-циклической компоненты, полученные на шестом этапе, что в результате дает оценку нерегулярной компоненты. Этап 12. Экстремальные значения нерегулярной компоненты исключаются по методу, описанному на третьем этапе. Ряды модифицированных данных получаются путем перемножения значений трендово-циклической, сезонной и подогнан- ной нерегулярной компонент. Эти данные соответствуют исходным данным, за исключением удаленных экстремальных значений. Затем все эти двенадцать этапов повторяются, причем вместо исходных данных ис- пользуются модифицированные данные из двенадцатого этапа. В некоторых случаях диапазон скользящих средних может быть изменен в зависимости от вариабельности данных. Окончательный ряд с исключенными сезонными колебаниями определяется посред- ством деления исходных данных на окончательную сезонную компоненту. Результат со- держит только произведение трендово-циклической и нерегулярной компонент. Значения каждой из финальных компонент распечатываются, и по ним строятся гра- фики. Существует ряд диагностических тестов, с помощью которых можно определить, насколько удачной оказалась выполненная декомпозиция. Программный пакет X-12-ARIMA включает множество дополнительных возможно- стей, которые не были описаны. Например, можно делать корректировку для различного числа операционных дней в месяцах и для учета эффекта праздников. Можно оценить и добавить недостающие значения ряда, можно до начала декомпозиции удалить нетипич- ные эффекты, можно смоделировать другие изменения в тренде, такие как эффекты сдвига уровня или временных уклонов.
Ill ГЛАВА 5 Применение в менеджменте Анализ временных рядов является широко используемым статистическим инструментом прогнозирования будущих событий, которые в определенной степени переплетаются с экономикой. Производители в особенности интересуются циклами типа подъема-спада во внутренней и внешней экономике — это необходимо им, чтобы точнее прогнозиро- вать спрос на производимые товары. Прогнозируемый спрос, в свою очередь, определяет уровень запасов сырья и материалов на складах, количество используемой рабочей силы, движение финансовых средств и всю прочую деловую активность внутри компании. Обратимся, например, к проблеме прогнозирования спроса на нефть и производимые из нее продукты. В конце 1960-х годов стоимость барреля нефти была очень низкой, а спрос на бензин и нефть в мировых масштабах казался просто ненасытным. Затем в на- чале и середине 1970-х годов произошел скачок цен. Каким мог быть будущий спрос на нефть? А состояние цен на нее? Такие фирмы, как Exxon и General Motors, очевидно, весьма интересовались этим вопросом. Если цены на нефть будут возрастать, будет ли в результате этого падать спрос на большие автомобили? Каков будет спрос на электро- энергию? В общем и целом аналитики предсказывали, что спрос на энергию и, следова- тельно, на нефть будет весьма стойким; поэтому цены будут постоянно опережать ин- фляцию. Однако эти прогнозы не учитывали общий спад делового цикла в начале 1980-х годов, и изменения в потребительском спросе на энергию оказались большими, чем ожи- далось. К 1980 году в мире уже наблюдался излишек нефти на рынках, что повлекло ра- дикальное падение цен на нее. Было трудно поверить, что потребители, как ни странно, еще раз извлекли пользу из войны цен на бензин. Спрос на нефть находится под влиянием не только долговременных циклических со- бытий, но и сезонных и случайных событий, как и множество других прогнозов спроса на любой вид товаров и услуг. Взять, к примеру, сферу услуг и розничную торговлю. Бизнес- прогнозисты и футуристы предсказывают, что в течение нескольких следующих лет будет наблюдаться постоянный отток занятости из сферы производства в сферу розничной торговли и услуг. Следовательно, поскольку розничная торговля в значительной степени является сезонным и циклическим бизнесом и эффективное планирование товарно- материальных запасов для розничных торговцев весьма критично, следует ожидать, что анализ временных рядов будет все более широко использоваться опытными розничными торговцами. Выживание во время сильной конкуренции теперь в значительной степени зависит от изощренности методов, применяемых тем или иным торговцем, по сравнению с его конкурентом. Расширяющийся рынок персональных компьютеров, прикладных пакетов различных баз данных и статистического программного обеспечения является одним из показателей стремительного изменения в применении статистических инстру- ментов в области принятия решений, ориентированного на анализ и обработку накоп- ленных данных. Производители будут постоянно нуждаться в статистическом прогнозе будущих собы- тий. Каков будет процент инфляции? Как это повлияет на поправку на рост стоимости жизни, которая может быть включена в трудовые соглашения компании? Как эти по- правки повлияют на цены и спрос? Какие требования к способностям руководителей бу- дут предъявляться в 2020 году? Каковы будут результаты государственных инвестиций во время бумов и спадов в экономике и при выбранных стратегиях налогообложения?
Временные ряды и их компоненты 223 Каким будет новое молодое поколение, чем оно будет увлекаться и какой выберет об- раз жизни? Каков будет его этнический состав? Эти вопросы затрагивают почти все сег- менты экономики. Демографы тщательно следят за уровнем рождаемости и используют почти любую доступную технику прогнозирования временных рядов для того, чтобы проверить и предсказать изменения в народонаселении. Весьма незначительные просче- ты могут значительно повлиять на все, начиная с производства детских игрушек и закан- чивая финансовой прочностью системы социального обеспечения. Интересно, что де- мографы рассматривают весьма долговременные деловые циклы (20 или больше лет за цикл) в попытке предсказать, как женщины детородного возраста этого поколения пове- дут себя в отношении рождения детей. Будут ли они иметь одного или двух детей, как бы- ло в семьях 60-х и 70-х годов, или они возвратятся к рождению двух или трех детей, как было с предыдущим поколением? Эти заключения определят возрастной состав населе- ния на следующие 50—75 лет. В политике ученые интересуются анализом временных рядов для изучения изменения структуры государственных затрат на программы обороны и социального обеспечения. Очевидно, что это имеет огромное влияние на будущее всей промышленности. Наконец, одно из любопытных применений в миниатюре анализа временнь/х рядов просматривается на юридическом поприще. Юристы все чаще пользуются оценками специалистов для освидетельствования настоящей величины доходов личности или фирмы, суммы убытков, вытекающих из-за потери работы в результате дискриминации, или влияния на рынок, оказанного вследствие незаконных забастовок. На все эти вопро- сы зачастую можно получить обоснованные ответы путем разумного применения мето- дов анализа временных рядов. Приложение: индекс цен Данные многих временных рядов в производстве, торговле и других областях доступны только в долларовом эквиваленте. На эти данные влияют как физическое количество проданных товаров, так и их цены. Инфляция и изменение цен в широком диапазоне со временем могут стать причиной серьезных проблем при анализе. Например, возрастаю- щий объем долларовой массы может скрыть спад продаж в единицах за счет взвинчива- ния цен. Таким образом зачастую необходимо знать, в какой мере изменения в долларо- вом эквиваленте отражают реальные изменения физических величин и в какой мере это является результатом изменения цен из-за инфляции. В подобных ситуациях желательно было бы выражать долларовые значения в терминах “неизменных” долларов. Важным понятием является покупательная способность. Покупательная способность одного доллара определяется следующим образом. Текущая покупательная способность 1$ =-——-------- (5.10) Текущий индекс цен Таким образом, если в ноябре 1999 года индекс потребительских цен (который в 1995 году составлял 100) возрос до 150, текущая покупательная способность одного доллара потребителя на ноябрь 1999 года будет соответствовать следующему. Текущая покупательная способность 1$ = = 0,67
224 ГЛАВА 5 Следовательно, на каждый доллар в 1999 году можно получить только две трети того объе- ма товаров или услуг, который предоставлялся за один доллар в базовом периоде (1995). Для того чтобы выразить долларовое значение в терминах неизменных долларов, ис- пользуется следующее уравнение. Дефлятированное долларовое значение = (Долларовый объем) х (5 11) (Покупательная способность \$) Предположим, что объем продаж автомобилей возрос с 300 000$ в 1998 году до 350 000$ в 1999 году, тогда как индекс цен на новые машины (принимая 1995 год как ба- зовый) возрос с 135 до 155. Дефлятированный объем продаж для 1998 и 1999 годов в этом случае составляет следующее. Дефлятированные продажи для 1998 года = (300 000$)^j - 222 222$ Дефлятированные продажи для 1999 года - (350 000$)^= 225 806$ Обратите внимание на то, что действительный объем продаж в долларах имел сущест- венный прирост — на 350 000$ - 300 000$ = 50 000$. Однако дефлятированные продажи возросли только лишь на 225 806$ - 222 222$ = 3 584$. Целью дефлятирования долларовых значений является устранение влияния измене- ний цен. Данная подгонка называется дефлятированием цен или же выражением значе- ний ряда в неизменных долларах. Дефлятирование цен — это процесс выражения членов ряда в неизменных долларах. Процедура дефлятирования относительно проста. Чтобы скорректировать цены с це- лью выражения в неизменных долларах, вычисляется соответствующий индекс исходя из цен на те товары, для которых проводится дефлятирование. Например, объемы продаж обувного магазина должны дефлятироваться с помощью индекса цен на обувь, а не об- щего ценового индекса. Для дефлятирования долларовой величины, которая представля- ет более одного типа товаров, аналитик должен разработать ценовой индекс, скомбини- ровав соответствующие ценовые индексы в требуемом соотношении. Пример 5.5 Мистер Бернхем желает изучить особенности продолжительного роста оборота компании Bumham Furniture Store, владеющей сетью мебельных магазинов. Долговременный тренд в его бизнесе можно оценить исходя из физического объема продаж. Если не сделать этой оценки, ценовые изменения, отражающиеся на объемах продаж мебели в долларах, дадут ис- каженную модель, скрывающую реальную структуру роста компании. Если использовать данные об объемах продаж, выраженные в долларах, то действительный объем продаж в дол- ларах необходимо разделить на соответствующий ценовой индекс, что позволит получить объемы продаж, выраженные в неизменных долларах. Общий индекс потребительских цен (CPI) не подходит для Бернхема, поскольку сюда входят такие элементы, как оплата жилья, расходы на питание и индивидуальное обслужива- ние. Однако некоторые компоненты этого индекса могут оказаться вполне подходящими. Бернхем знает, что 70% всего объема продаж составляет мебель, а 30% — бытовая техника. Следовательно, он может умножить CPI для розничной мебельной компоненты на 0,70, a CPI
Временные ряды и их компоненты 225 для розничной компоненты бытовой техники на 0,30, а затем сложить полученные значения и получить необходимый комбинированный ценовой индекс. В табл. 5.5 иллюстрируется этот подход. В частности, расчеты для 1992 года дают следующее. 90,1(0,70) + 94,6(0,30) = 91,45 Дефлятированный объем продаж для 1992 года в терминах покупательной способности доллара в 1995 году будет иметь следующее значение. Дефлятированные продажи для 1992 года = (42,1) 100 4 91,45, = 46,0 В табл. 5.5 показано, что хотя реальные объемы продаж в долларах с 1992 по 1999 год не- уклонно увеличивались, физический объем с 1997 по 1999 год оставался практически ста- бильным. Несомненно, что возрастание объемов продаж в эти годы является результатом на- ценок, которые устанавливались из-за общей инфляционной тенденции в экономике. Таблица 5.5. Данные об объемах продаж в компании Burnham Furniture за 1992-1999 гг. Год Объем продаж (тыс. долл.) Розничный ценовой индекс для мебели (1995 = 100) Розничный ценовой индекс для бытовой техники (1995 = 100) Комбинированный ценовой индекс" (1995= 100) Дефлятированный объем продав (тыс. долл. 1995 года) 1992 42,1 90,1 94,6 91,45 45,5 1992 47,2 95,4 97,2 95,4 49,2 1994 48,4 97,2 98,4 97,56 49,6 1995 50,6 100,0 100,0 100,0 50,6 1996 55,2 104,5 101,1 103,48 53,3 1997 57,39 108,6 103,2 106,98 54,1 1998 59,8 112,4 104,3 109,97 54,4 1999 60,7 114,0 105,6 111,48 54,4 а) Из расчета на мебель (доля 70%) и бытовую технику (доля 30%). б) Объемы продаж, деленные на ценовой индекс и умноженные на 100. Глоссарий Деловой показатель — это связанный с деловой деятельностью временной ряд, обычно помогающий оценить общее состояние экономики. Дефлятирование цен — это процесс выражения членов ряда в неизменных долларах. Числовые индексы — это удельные величины или процентные отношения, отражающие изменение величины во времени. Основные формулы Аддитивная декомпозиция временных рядов K,= 7) + S, + /, (5.1)
226 ГЛАВА 5 Мультипликативная декомпозиция временнь/х рядов Y, = Tt х St х It (5.2) Линейный тренд Т =ba+ b,t (5.3) Квадратичный тренд Т{ = bQ + bj + b2t2 (5.5) Экспоненциальный тренд т.=ь^ (5.6) Данные с устраненными сезонными колебаниями (мультипликативная декомпозиция) Y —=t.xi. S, (5.7) Циклически-нерегулярная компонента (мультипликативная декомпозиция) Y T,xS, (5.8) Нерегулярная компонента (мультипликативная декомпозиция) тС,х/, ' с, (5.9) Текущая покупательная способность 1S 100 (5.10) Текущий индекс цен Дефлятированное долларовое значение (Долларовый объем) X (Покупательная способность \$) (5.П) Упражнения 1. Объясните идею декомпозиции временных последовательностей. 2. Объясните, в каких случаях метод мультипликативной декомпозиции является более подходящим, чем метод аддитивной декомпозиции. 3. Какие основные типы воздействий оказывают влияние на тренд-циклы большинст- ва анализируемых показателей? 4. Какие модели тренда должны быть использованы в каждом из следующих случаев? а) переменная возрастает с постоянным отношением б) переменная возрастает с постоянной скоростью до момента насыщения, а далее выравнивается в) переменная возрастает на постоянное значение 5. Какие основные типы воздействий оказывают наибольшее влияние на сезонную компоненту?
Временные ряды и их компоненты 2Т1 6. В издании Value Line оценки роста объема продаж и доходов отдельных компаний определяются с учетом взаимного влияния объемов продаж, заработков и дивиден- дов на соответствующие компоненты счетов национального дохода, таких как капи- тальные вложения. Джейсон Блэк (Jason Black), аналитик издания Value Line, изучил тенденции изменения капитальных вложений компаний с 1977 по 1993 год. Соответ- ствующие данные приведены в табл. 5.6. Таблица 5.6. Капитальные вложения компаний (млрд долл.) в 1977-1993 гг. Год Сумма Год Сумма Год Сумма 1977 214 1983 357 1989 571 1978 259 1984 416 1990 578 1979 303 1985 443 1991 556 1980 323 1986 437 1992 566 1981 369 1987 443 1993 623 1982 367 1988 545 1994 680“ Источник: The Value Line Investment Survey (New York : Value Line, 1988,1990,1994), c. 175. a) Оценка издания Value Line на 1994 год. а) начертите график приведенных данных б) определите подходящую модель тренда для периода на 1977—1993 годы в) если соответствующая модель тренда является линейной, рассчитайте уравне- ние линейного тренда для периода с 1977 по 1993 год г) каков был средний рост капитальных вложений компаний за год, начиная с 1977 года? д) оцените величину тренда капитальных вложений для 1994 года е) сравните свою оценку тренда с оценкой издания Value Line ж) какой фактор (факторы) влияет на тренд капитальных вложений компаний? 7. Крупная компания анализирует возможность сокращения ее телевизионной рекла- мы в пользу бизнес-видео, предоставляемого их клиентам. Этот вопрос был поднят после того, как президент компании прочитал в популярном издании статью, в ко- торой говорилось, что бизнес-видео является современным “оружием суперпро- даж”. Одним из моментов, который президент хотел бы проанализировать, прежде чем предпринять столь решительный шаг, является общая история телевизионной рекламы в США, в особенности ее тренд-цикл. В табл. 5.7 приведены суммы (в млн долл.), израсходованные в США на телевизион- ную рекламу. Необходимо построить модель линейного тренда для этого временного ряда ежегодных наблюдений.
228 ГЛАВА 5 Таблица 5.7. Расходы на телевизионную рекламу в США (млн долл.) Сумма Год Сумма Год 1980 11,424 1989 26,891 1981 12,811 1990 29,073 1982 14,566 1991 28,189 1983 16,542 1992 30,450 1984 19,670 1993 31,698 1985 20,770 1994 35,435 1986 22,585 1995 37,828 1987 23,904 1996 42,484 1988 25,686 1997 44,580 Источник: Statistical Abstract of the United States, разные года. а) постройте график временного ряда затрат на рекламу в США б) смоделируйте данные о затратах на рекламу линейным трендом и отобразите сглаживающую линию на графике временной последовательности в) составьте прогноз затрат на телевизионную рекламу в 1998 году г) исходя из результатов п. б, поясните, может ли в затраты на телевизионную рек- ламу входить циклическая компонента 8. Предположим, имеются следующие конкретные процентные сезонные индексы для марта, вычисленные по методу отнесения к скользящему среднему. 102,2 105,9 114,3 122,4 109,8 98,9 Каким будет сезонный индекс для марта, вычисленный как медиана? 9. Ожидаемое значение тренда для октября — 850$. Пусть сезонный индекс для октяб- ря равен 1,12 (112%). Каков будет прогноз на этот месяц? 10. Даны следующие конкретные процентные сезонные индексы для декабря. 75,4 86,8 96,9 72,6 80,0 85,4 Каков будет прогноз на декабрь, если ожидаемый тренд для этого месяца составляет 900$, а в вычислениях должна использоваться медиана сезонной коррекции? 11. На большом курорте Мейн возле г. Портланд в течение нескольких лет отслежива- лись месячные объемы доходов, но эти данные никогда не анализировались. В управлении курорта были рассчитаны сезонные индексы для месячных доходов. Ка- кие из приведенных ниже утверждений об этих индексах будут верны? а) сумма двенадцати месячных числовых индексов, выраженных в процентах, должна составлять 1200 б) индекс 85 для мая указывает на то, что доходы в этот месяц на 15% ниже сред- него месячного дохода в) индекс 130 для января указывает, что доходы в этом месяце на 30% выше сред- него месячного дохода
Временные ряды и их компоненты 229 г) индекс для любого месяца должен находиться между 0 и 200 д) средний процентный индекс для всех 12 месяцев должен составлять 100 12. В отчете, подготовленном для Джун Банкок (June Bancock), менеджера универмага Kula Department Store, приведена следующая статистика объемов продаж за последние годы (табл. 5.8). Взглянув на эти данные, миссис Банкок сказала: “Данный отчет под- тверждает мои слова: дела идут лучше и лучше”. Верно ли это утверждение? Почему? Таблица 5.8. Объемы продаж универмага Kula Department Store и соответствующие сезонные индексы Месяц Продажи (тыс. долл.) Скорректированный сезонный индекс (%) Январь 125 51 Февраль ИЗ 50 Март 189 87 Апрель 201 93 Май 206 95 Июнь 241 99 Июль 230 96 Август 245 89 Сентябрь 271 103 Октябрь 291 120 Ноябрь 320 131 Декабрь 419 189 Источник: данные компании Kula Department Store. 13. Квартальные объемы продаж компании Goodyear Tire в миллионах долларов приве- дены в табл. 5.9. Имеется ли в этих данных значительный сезонный эффект? Про- анализируйте этот временной ряд, определите четыре сезонных индекса и оцените величину сезонной компоненты в объемах продаж компании Goodyear. Таблица 5.9. Квартальные объемы продаж в компании Goodyear Tire (млн долл.) Квартал Год 1 2 3 4 1985 2292 2450 2363 2477 1986 2063 2358 2316 2366 1987 2268 2533 2479 2625 1988 2616 2793 2656 2746 1989 2643 2811 2679 2736
230 ГЛАВА 5 Квартал Год 1 2 3 4 1990 2692 2871 2900 2811 1991 2497 2792 2838 2780 1992 2778 3066 3213 2928 1993 2874 3000 2913 2916 1994 2910 3052 3116 3210 1995 3243 3351 3305 3267 1996 3246 3330 3340а 3300а Источник: The Value Line Investment Survey (New York: Value Line, 1988, 1989, 1993,1994, 1996), c. 126. a) Прогноз издания Value Line на 1996 год. а) следует ли при составлении прогнозов использовать трендовую, сезонную или обе компоненты вместе? б) составьте прогноз для третьего и четвертого кварталов 1996 года в) сравните ваши прогнозы со значениями, предложенными изданием Value Line 14. Сведения о месячных объемах продаж компании Cavanaugh, графически представ- ленные на рис. 5.1, приведены в табл. 5.10. Таблица 5.10. Месячные объемы продаж компании Cavanaugh за 1994-2000 гг. Месяц 1994 1995 1995 1997 1998 1999 2000 Январь 154 200 223 346 518 613 628 Февраль 96 118 104 261 404 392 308 Март 73 90 107 224 300 273 324 Апрель 49 79 85 141 210 322 248 Май 36 78 75 148 196 189 272 Июнь 59 91 99 145 186 257 Июль 95 167 135 223 247 324 Август 169 169 211 272 343 404 Сентябрь 210 289 335 445 464 677 Октябрь 278 347 460 560 680 858 Ноябрь 298 375 488 612 711 895 Декабрь 245 203 326 467 610 664 а) выполните мультипликативную декомпозицию временного ряда объемов про- даж компании Cavanaugh, определив трендовую, сезонную и нерегулярную компоненты
Временные ряды и их компонент ы 231 б) следует ли использовать при составлении прогнозов трендовую, сезонную или обе компоненты вместе? в) сделайте прогноз объема продаж для оставшихся месяцев 2000 года 15. Используя данные табл. 5.10, составьте таблицу из натуральных логарифмов месяч- ных объемов продаж этой компании. Например, в этой таблице для января 1990 года будет указано значение /«(154) = 5,037. а) выполните аддитивную декомпозицию величины Y = /«(продажи), используя модель Y=T+S + I б) следует ли при составлении прогноза использовать трендовую, сезонную или обе компоненты вместе? в) сделайте прогноз величины /«(продажи) для оставшихся месяцев 2000 года г) извлеките из под знака логарифма значения прогнозов, вычисленные в п. в, что даст прогнозы реальных объемов продаж для оставшихся месяцев 2000 года д) сравните прогнозы, полученные в п. г, с аналогичными прогнозами, сделанны- ми в упр. 14 (п. в). Какой набор предсказаний предпочтительнее? Почему? 16. В табл. 5.11 приведены данные о квартальных объемах продаж (в млн долл.) компа- нии Disney с января 1980 по март 1995 года. Таблица 5.11. Квартальные объемы продаж (в млн долл.) компании Disney Квартал Год 1 2 3 4 1980 218,1 245,4 265,5 203,5 1981 235,1 258,0 308,4 211,8 1982 247,7 275,8 295,0 270,1 1983 315,7 358,5 363,0 302,2 1984 407,3 483,3 463,2 426,5 1985 451,5 546,9 590,4 504,2 1986 592,4 647,9 726,4 755,5 1987 766,4 819,4 630,1 734,6 1988 774,5 915,7 1013,4 1043,6 1989 1037,9 1167,6 1345,1 1288,2 1990 1303,8 1539,5 1712,2 1492,4 1991 1439,0 1511,6 1739,4 1936,6 1992 1655,1 1853,5 2079,1 2391,4 1993 2026,5 1936,8 2174,5 2727,3 1994 2275,8 2353,6 2698,4 3301,7 1995 2922,8 2764,0 3123,6 а) выполните мультипликативную декомпозицию временного ряда, содержащего данные о квартальных объемах продаж компании Disney
232 ГЛАВА 5 б) проявляется ли в этом ряду существенный тренд? Опишите особенности его се- зонной компоненты в) следует ли при прогнозировании использовать трендовую, сезонную или обе компоненты вместе? г) составьте прогноз объемов продаж для последнего квартала 1995 года и четырех кварталов 1996 года 17. В табл. 5.12 приведены данные о ежемесячном спросе на бензин (тыс. баррелей/день) в компании Yukong Oil из Южной Кореи за период с марта 1986 по сентябрь 1996 года. Таблица 5.12. Ежемесячный спрос на бензин (тыс. баррелей/день) в компании Месяц 1986 1987 1988 1989 1990 1991 Январь 15,5 20,4 26,9 36,0 52,1 64,4 Февраль 17,8 20,8 29,4 39,0 53,1 68,1 Март 18,1 22,2 29,9 42,2 56,5 68,5 Апрель 20,5 24,1 32,4 44,3 58,4 72,3 Май 21,3 25,5 33,3 46,6 61,7 74,1 Июнь 19,8 25,9 34,5 46,1 61,0 77,6 Июль 20,5 26,1 34,8 48,5 65,5 79,9 Август 22,3 27,5 39,1 52,6 71,0 86,7 Сентябрь 22,9 25,8 39,0 52,2 68,1 84,4 Октябрь 21,1 29,8 36,5 50,8 67,5 81,4 Ноябрь 22,0 27,4 37,5 51,9 68,8 85,1 Декабрь 22,8 29,7 39,4 55,1 68,1 81,7 Месяц 1992 1993 1994 1995 1996 Январь 82,3 102,7 122,2 145,8 170,0 Февраль 83,6 102,2 121,4 144,4 176,3 Март 85,5 104,7 125,6 154,2 174,2 Апрель 91,0 108,9 129,7 148,6 176,1 Май 92,1 112,2 133,6 153,7 185,3 Июнь 95,8 109,7 137,5 157,9 182,7 Июль 98,3 113,5 143,0 169,7 197,0 Август 102,2 120,4 149,0 184,2 216,1 Сентябрь 101,5 124,6 149,9 163,2 192,2 Октябрь 98,5 116,7 139,5 155,4 Ноябрь 101,1 120,6 147,7 168,9 Декабрь 102,5 124,9 154,7 178,3
Временные ряды и их компоненты 233 а) постройте график для данного временного ряда. Какая декомпозиция будет наиболее приемлемой для этого ряда — мультипликативная или аддитивная? Поясните свой ответ б) выполните декомпозиционный анализ данных о спросе на бензин в) дайте собственную интерпретацию значений сезонных индексов г) спрогнозируйте спрос на бензин для последних трех месяцев 1996 года 18. В табл. 5.13 приведены данные о суммарном месячном объеме продаж во всех роз- ничных магазинах США (в млрд долл.). Выполните декомпозиционный анализ этого ряда вплоть до 1994 года. Прокомментируйте поведение всех трех компонент ряда. Составьте прогноз суммарного месячного объема розничных продаж для 1995 года и сравните свои результаты с реальными значениями, приведенными в таблице. Таблица 5.13. Суммарный месячный объем продаж во всех розничных магазинах США (в млрд долл.) 1992 1993 1994 1995 Месяц 1988 1989 1990 1991 Январь 113,6 122,5 132,6 130,9 142,1 148,4 154,6 167,0 Февраль 115,0 118,9 127,3 128,6 143,1 145,0 155,8 164,0 Март 131,6 141,3 148,3 149,3 154,7 164,6 184,2 192,1 Апрель 130,9 139,8 145,0 148,5 159,1 170,3 181,8 187,5 Май 136,0 150,3 154,1 159,8 165,8 176,1 187,2 201,4 Июнь 137,5 149,0 153,5 153,9 164,6 175,7 190,1 202,6 Июль 134,1 144,6 148,9 154,6 166,0 177,7 185,8 194,9 Август 138,7 153,0 157,4 159,9 166,3 177,1 193,8 204,2 Сентябрь 131,9 144,1 145,6 146,7 160,6 171,1 185,9 192,8 Октябрь 133,8 142,3 151,5 152,1 168,7 176,4 189,7 194,0 Ноябрь 140,2 148,8 156,1 155,6 167,2 180,9 194,7 202,4 Декабрь 171,0 176,5 179,7 181,0 204,1 218,3 233,3 238,0 Источник: Survey of Current Business, 1989, 1993,1996. 19. Скорректированные сезонные индексы, представленные в табл. 5.14, отображают изменение дохода курортного отеля Mt. Spokane Resort, в котором летом обслужи- ваются семьи туристов, а зимой — любители лыжного спорта. В 2000 году не ожида- ется никаких резких циклических изменений. Таблица 5.14. Сезонные индексы для доходов курортного отеля Mt. Spokane Resort Месяц Скорректированный сезонный индекс Месяц Скорректированный сезонный индекс Январь Февраль Март 120 Июль 153 137 Август 151 100 Сентябрь 95
234 ГЛАВА 5 Месяц Окончание табл. 5.14 Скорректированный сезонный индекс Месяц Скорректированный сезонный индекс Апрель 33 Октябрь 60 Май 47 Ноябрь 82 Июнь 125 Декабрь 97 Источник: данные Mt. Spokane Resort Hotel. а) если курорт в январе 2000 года посетили 600 туристов, то какой будет разумная оценка этого показателя для февраля? б) уравнение месячного тренда для доходов отеля имеет вид f = 140 + 5t, где t = 0 соответствует 15 января 1994 года. Каким будет прогноз на каждый месяц 2000 года? в) каково среднее число посещающих отель новых туристов в месяц? 20. Поясните значение композиции индексов ведущих показателей как барометра дело- вой активности в последние годы. . 21. Каково текущее состояние деловых циклов? Расширяются они или сокращаются? Когда произойдет следующий перелом? 22. Какова цель дефлятирования временных рядов, значения которых измеряются в долларах? 23. В базовый месячный период, в качестве которого был выбран июнь, цена опреде- ленного набора товаров составляла 1289,73$. В текущем месяце ценовой индекс этого же набора товаров составлял 284,7. Сколько будет стоить данный набор това- ров при покупке в этом месяце? 24. Дефлятируйте приведенные в табл. 5.15 объемы продаж в долларах, используя ука- занные в ней индексы цен. Индексы цен для всех товаров определены при условии 1992 год= 100. Таблица 5.15. Объемы продаж (долл.) и индексы цен Объемы продаж Индексы цен (1992 = 100) 1996 Январь 358 235 118,0 Февраль 297 485 118,4 Март 360 321 118,7 Апрель 378 904 119,2 Май 394 472 119,7 Июнь 312 589 119,6 Июль 401 345 119,3 Источник: Survey of Current Business.
Временные ряды и их компоненты 235 /Ж /ДЧ /1Ж /ДЧ /ДЧ /Ж /дч /дч /дч /дч /дч /дм /дм W/ W W/ W W W W W W МГ/ IV/ MW w Задание 5.1. Фирма Small Engine Doctor12 Томас Браун (Thomas Brown), который прежде работал почтальоном в почтовой службе США, решил создать свой бизнес. Фирма Small Engine Doctor, которую он создал, зани- малась ремонтом бытовой техники. Том с детства любил технику, всегда с удовольствием приводил в порядок мелкую бытовую аппаратуру, стараясь понять, “что как работает”. Когда Том вырос и стал обычным городским жителем, он приобрел множество оборудо- вания для обработки газонов и сада. Однажды Том узнал о существовании курсов по ре- монту мелких механизмов, предлагаемых местным коммунальным колледжем, и немед- ленно воспользовался представившимся ему удобным случаем. Он начал ремонтировать мелкие вещи, разбирая собственное оборудование, тщательно перебирая его и затем со- бирая снова. Вскоре после окончания курса по ремонту механизмов он начал ремонтиро- вать газонокосилки, почвофрезы, снегоочистители и другое оборудование для газонов и садов у своих друзей и соседей. При необходимости он приобретал требуемое ручное оборудование и специальные инструменты. Прошло немного времени, и Том решил превратить свое хобби в бизнес с частичной занятостью. Он поместил в местном каталоге товаров и услуг рекламное объявление, вы- брав для своей фирмы название “Small Engine Doctor”. За последующие два года его биз- нес достаточно вырос и обеспечивал солидную добавку к жалованию, которое Том полу- чал на основной работе. Хотя и ожидался дальнейший рост его бизнеса, однако к началу третьего года деловой активности у Тома появилось много хлопот. Он вел свой бизнес дома. Полуподвальный этаж был разделен на общую комнату, мастерскую и офис. Изна- чально площадь офиса использовалась для того, чтобы управляться с рекламой, обработ- кой заказов и бухгалтерией. Заказанный ремонт выполнялся только в мастерской. Том хранил у себя лишь ограниченное число запасных частей, заказывая заменяемые детали по мере необходимости. Ему казалось, что это единственный приемлемый способ работы с огромным разнообразием деталей, используемых в ремонтируемой им технике, выпу- щенной дюжиной или около того производителей газонного и садового оборудования. Запасные части представляли наиболее серьезную проблему в его бизнесе. Том начал свой бизнес с непосредственной закупки запасных частей у поставщиков оборудования. Однако это имело свои недостатки. Прежде всего, он покупал детали в розницу. Кроме того, очень часто у поставщиков на складах отсутствовали какие-то детали, необходимые для проведения ремонта, и их приходилось заказывать у изготовителей. Однако заказы на поставку от изготовителей обычно выполнялись от 30 до 120 дней. В конце концов Том изменил свою политику и начал заказывать запасные части прямо на фабриках. При этом ,г Это задание предоставил Вильям Дерроу (William Р. Darrow) из Тусонского университета, г. Тусон, шт. Мэриленд.
236 ГЛАВА 5 он обнаружил, что расходы на доставку и обработку заказов были слишком большими, даже когда цены на запчасти составляли только 60% от розничных. Однако потеря кли- ентов и ограниченность пространства для хранения запчастей оказались двумя наиболее важными проблемами, с которыми ему пришлось столкнуться. Том привлекал клиентов высоким качеством оказываемых им услуг и разумными расценками на выполняемый им ремонт, причем последние были прямым следствием низких накладных расходов. К со- жалению, множество его потенциальных клиентов предпочитали обращаться к постав- щикам оборудования — клиенты не желали ожидать завершения ремонта, затянувшегося на несколько месяцев. И все же наиболее острой проблемой было пространство для хра- нения запчастей. Пока разобранное оборудование дожидалось поступления запасных частей, оно должно было храниться в помещении. Очень скоро мастерская Тома и его га- раж на одну машину оказались переполненными разобранным оборудованием, ожидаю- щим поступления запасных частей. На второй год предпринимательской деятельности Тому, вследствие острой нехватки пространства для хранения, пришлось фактически от- казаться от рекламы, чтобы ограничить число новых клиентов. На третьем году своей деятельности Том пришел к выводу о необходимости организа- ции склада для запасных частей. Это позволило бы ему снизить затраты на их приобрете- ние за счет получения некоторых оптовых скидок и более выгодных сроков поставки. Он также надеялся, что это приведет к более быстрому обслуживанию клиентов, в результате чего возрастет как оборот его средств, так и общее количество заказов. Риск здесь заклю- чался в неконтролируемости расходов на поддержку запаса деталей и их морального ста- рения при длительном хранении. Перед тем как приступить к организации склада запасных частей, Том решил надеж- но спрогнозировать свою деловую активность на предстоящий год. Он был достаточно уверен в своих знаниях о существующем ассортименте товаров, чтобы воспользоваться обобщенным прогнозом заказов клиентов на ремонт в качестве основы для выборочного заказа необходимых запасных частей. Прогнозирование осложнялось сезонной структу- рой спроса и трендом в направлении постоянного роста числа заказов. Том планировал получить прогноз числа заказов для третьего года своей деятельности. Сведения о посту- плении заказов за первые два года приведены в табл. 5.16. Таблица 5.16. Данные о количестве заказов в фирме Small Engine Doctor за 1998— Месяц 1998 1999 Месяц 1998 1999 Январь 5 21 Июль 28 46 Февраль 8 20 Август 20 32 Март 10 29 Сентябрь 14 27 Апрель 18 32 Октябрь 8 13 Май 26 44 Ноябрь 6 11 Июнь 35 58 Декабрь 26 52
Временные ряды и их компоненты 237 Вопросы 1. Нарисуйте диаграмму для этого временного ряда на период 1998-1999 гг. 2. Рассчитайте уравнение линейного тренда, используя метод линейной регрессии, и графически представьте полученные результаты на диаграмме. 3. Оцените фактор сезонных колебаний для каждого месяца, разделив средний спрос для соответствующего месяца на соответствующий прогноз линейного тренда. Ото- бразите на графике трендовую прямую с сезонной корректировкой. 4. Выполните сглаживание временного ряда, используя метод трендово- корректированного экспоненциального сглаживания с тремя наборами сглаживаю- щих постоянных: (а = 0,1, (3 = 0,1), (а=0,25, (3 = 0,25) и (а = 0,5, (3 = 0,5). Представьте три набора сглаженных значений на графике временного ряда. Сделайте прогноз до конца третьего года для каждого экспоненциального сглаживания с корректировкой тренда. 5. Вычислите значение MAD для двух моделей, которые визуально показали наилучшее приближение (наиболее точное предсказание на один шаг вперед). 6. Считая, что возможный выбор ограничен одной из моделей, упоминавшихся в во- просах 2 и 4, определите, какую именно модель следовало бы использовать для пла- нирования бизнеса в 2000 году. Поясните, в чем преимущество выбранной вами мо- дели по отношению ко всем остальным. Задание 5.2. “Mr. Tux” Джон Мосби с нетерпением ожидал выполнения декомпозиции временного ряда ежеме- сячных доходов от проката в долларах. Он знал, что этот ряд имеет ярко выраженную се- зонную структуру и хотел бы оценить ее по двум важным для него причинам. Во-первых, банкир не позволял Джону вносить различные месячные выплаты по предоставленной ему ссуде. Джон неоднократно объяснял банкиру, что, вследствие ярко выраженной се- зонности его месячных доходов и движения денежной массы, ему бы хотелось вносить в некоторые месяцы повышенные платежи, снижая суммы выплат в другие месяцы почти до нуля. Наконец, банкир запросил документальное подтверждение о том, что в доходах Джона имеется сильный сезонный эффект. Во-вторых, Джон считал необходимым уметь составлять прогнозы своих месячных доходов от проката. Он нуждался в таких прогнозах для планирования своей деятельно- сти, в особенности с тех пор, как его бизнес начал расти. Оба заинтересованных лица, как банкир, так и идущий на риск предприниматель, хотели бы иметь достаточно надеж- ный прогноз, на основании которого можно было бы обсуждать вопросы инвестиций. Джон знал, что его бизнес успешно развивается, и будущее этого бизнеса виделось ему просто блестящим, но инвесторы хотели иметь этому документальное подтверждение. Сведения об объемах месячных доходов от проката компании “Mr. Tux” были введе- ны в приложение Minitab. Рассчитанные сезонные индексы представлены в табл. 5.17, а остальные вычисленные компьютером показатели помещены в табл. 5.18.
238 ГЛАВА 5 Таблица 5.17. Месячные сезонные индексы для доходов от проката компании Декомпозиция временных рядов Уравнение линейного тренда Т, = 19092,3 + 2861,58? Сезонный индекс Период Индекс 1 0,3173 2 0,4817 3 0,9013 4 1,8194 5 1,9409 6 1,1913 7 1,0229 8 1,2616 9 0,9016 10 0,7806 11 0,6035 12 0,7780 Точность модели МАРЕ: 19 MAD: 20 672 MSD: 8.56Е+08 Таблица 5.18. Расчет краткосрочных компонент для доходов от проката компании t Год Месяц Доходы Т SCI TCI CI С I 1 1990 Январь 16 850 21 954 0,7675 53 106 2,4190 — — 2 Февраль 12 753 24 815 0,5139 26 476 1,0669 — — 3 Март 26 901 27 677 0,9720 29 848 1,0784 1,5904 0,6781 4 Апрель 61 494 30 539 2,0137 33 799 1,1068 1,3751 0,8049 5 Май 147 862 33 400 4,4270 76 183 2,2809 1,4182 1,6080
Временные ряды и их компоненты 239 Продолжение табл. 5.18 t Год Месяц Доходы Т SCI TCI CI С I 6 Июнь 57 990 36 262 1,5992 48 676 1,3424 1,4049 0,9555 7 Июль 51 318 39 123 1,3117 50 168 1,2823 1,2975 0,9883 8 Август 53 599 41 985 1,2766 42 486 1,0120 1,0636 0,9514 9 Сентябрь 23 038 44 846 0,5137 25 553 0,5698 0,9218 0,6181 10 Октябрь 41 396 47 708 0,8677 53 028 1,1115 0,7746 1,4350 11 Ноябрь 19 330 50 570 0,3823 32 032 0,6334 0,7446 0,8507 12 Декабрь 22 707 53 431 0,4250 29 188 0,5463 0,8470 0,6449 13 1991 Январь 15 395 56 293 0,2735 48 521 0,8619 0,7163 1,2034 14 Февраль 30 826 59 154 0,5211 63 996 1,0819 0,7644 1,4153 15 Март 25 589 62 016 0,4126 28 392 0,4578 0,9558 0,4790 16 Апрель 103 184 64 878 1,5904 56 712 0,8742 0,9465 0,9236 17 Май 197 608 67 739 2,9172 10 181 1,5030 0,8363 1,7971 18 Июнь 68 600 70 601 0,9717 57 582 0,8156 0,9346 0,8727 19 Июль 39 909 73 462 0,5433 39 015 0,5311 0,9244 0,5745 20 Август 91 368 76 324 1,1971 72 425 0,9489 0,8102 1,1713 21 Сентябрь 58 781 79 185 0,7423 65 198 0,8234 0,7776 1,0589 22 Октябрь 59 679 82 047 0,7274 76 449 0,9318 0,8287 1,1244 23 Ноябрь 33 443 84 909 0,3939 55 420 0,6527 0,8321 0,7844 24 Декабрь 53 719 87 770 0,6120 69 051 0,7867 0,8302 0,9477 25 1992 Январь 27 773 90 632 0,3064 87 532 0,9658 0,7616 1,2681 26 Февраль 36 653 93 493 0,3920 76 093 0,8139 0,8721 0,9333 27 Март 51 157 96 355 0,5309 56 761 0,5891 0,9229 0,6383 28 Апрель 217 509 99 216 2,1923 И 955 1,2049 0,9059 1,3301 29 Май 206 229 102 078 2,0203 106 255 1,0409 0,9297 1,1196 30 Июнь 110 081 104 940 1,0490 92 401 0,8805 0,9965 0,8836 31 Июль 102 893 107 801 0,9545 100 588 0,9331 0,9602 0,9717 32 Август 128 857 110 663 1,1644 102 141 0,9230 0,9965 0,9263 33 Сентябрь 104 776 113 524 0,9229 116215 1,0237 0,9974 1,0263 34 Октябрь 111 036 116386 0,9540 142 237 1,2221 0,9848 1,2409 35 Ноябрь 63 701 119 247 0,5342 105 561 0,8852 0,9587 0,9234 36 Декабрь 82 657 122 109 0,6769 106 248 0,8701 0,9*110 0,9551 37 1993 Январь 31 416 124 971 0,2514 99 014 0,7923 0,8120 0,9758
240 ГЛАВА 5 Продолжение табл. 5.18 t Год Месяц Доходы Т SCI TCI CI С I 38 Февраль 48 341 127 832 0,3782 100 358 0,7851 0,8347 0,9406 39 Март 85 651 130 694 0,6554 95 033 0,7272 0,8794 0,8269 40 Апрель 242 673 133 555 1,8170 133 379 0,9987 0,9190 1,0867 41 Май 289 554 136 417 2,1226 149 186 1,0936 0,9829 1,1126 42 Июнь 164 373 139 279 1,1802 137 973 0,9906 1,0300 0,9617 43 Июль 160 608 142 140 1,1299 157010 1,1046 1,0439 1,0582 44 Август 176 096 145 002 1,2144 139 586 0,9627 1,0205 0,9433 45 Сентябрь 142 363 147 863 0,9628 157 905 1,0679 1,0674 1,0005 46 Октябрь 114 907 150 725 0,7624 147 196 0,9766 1,0552 0,9255 47 Ноябрь ИЗ 552 153 586 0,7393 188 171 1,2252 1,0669 1,1484 48 Декабрь 127 042 156 448 0,8120 163 300 1,0438 1,0591 0,9856 49 1994 Январь 51 604 159 310 0,3239 162 641 1,0209 1,1447 0,8919 50 Февраль 80 366 162 171 0,4956 166 844 1,0288 1,0724 0,9594 51 Март 208 938 165 033 1,2660 231 826 1,4047 1,0158 1,3828 52 Апрель 263 830 167 894 1,5714 145 007 0,8637 1,0240 0,8435 53 Май 252 216 170 756 1,4771 129 949 0,7610 0,9834 0,7739 54 Июнь 219 566 173 617 1,2647 184 302 1,0651 0,8915 1,1908 55 Июль 149 082 176 479 0,8448 145 742 0,8258 0,9366 0,8817 56 Август 213 888 179 341 1,1926 169 543 0,9454 0,9694 0,9752 57 Сентябрь 178 947 182 202 0,9821 198 483 1,0894 0,9634 1,1308 58 Октябрь 133 650 185 064 0,7222 171 206 0,9251 1,0194 0,9075 59 Ноябрь 116 946 187 925 0,6223 193 796 1,0312 1,0219 1,0092 60 Декабрь 164 154 190 787 0,8604 211 004 1,1060 0,9781 1,1308 61 1995 Январь 58 843 193 649 0,3039 185 456 0,9577 1,0433 0,9180 62 Февраль 82 386 196 510 0,4193 171 037 0,8704 1,0296 0,8454 63 Март 224 803 199 372 1,1276 249 429 1,2511 0,9733 1,2853 64 Апрель 354 301 202 233 1,7519 194 732 0,9629 1,0350 0,9304 65 Май 328 263 205 095 1,6005 169 130 0,8246 1,0599 0,7780 66 Июнь 313 647 207 956 1,5082 263 273 1,2660 1,0599 1,1945 67 Июль 214 561 210818 1,0178 209 754 0,9950 1,0533 0,9429 68 Август 337 192 213 680 1,5780 267 283 1,2509 1,0592 1,1810 69 Сентябрь 183 482 216 541 0,8473 203 513 0,9398 1,0144 0,9265
Временные ряды и их компоненты 241 t Год Месяц Доходы Т SCI TCI Окончание табл. 5.18 CI С I 70 Октябрь 144 618 219 403 0,6591 185 256 0,8444 1,0261 0,8229 71 Ноябрь 139 750 222 264 0,6288 231 585 1,0419 0,9724 1,0715 72 Декабрь 184 546 225 126 0,8198 237 216 1,0537 1,0595 0,9946 73 1996 Январь 71 043 227 987 0,3116 223 907 0,9821 1,1285 0,8703 74 Февраль 152 930 230 849 0,6625 317 490 1,3753 1,1104 1,2385 75 Март 250 559 233 711 1,0721 278 006 1,1895 1,0696 1,1121 76 Апрель 409 567 236 572 1,7313 225 108 0,9515 1,0622 0,8958 77 Май 394 747 239 434 1,6487 203 385 0,8494 0,9708 0,8750 78 Июнь 272 874 242 295 1,1262 229 048 0,9453 0,9729 0,9717 79 Июль 230 303 245 157 0,9394 225 144 0,9184 0,9554 0,9613 80 Август 375 402 248 018 1,5136 297 571 1,1998 0,9607 1,2489 81 Сентябрь 195 409 250 880 0,7789 216 742 0,8639 1,0063 0,8585 82 Октябрь 173 518 253 742 0,6838 222 276 0,8760 1,0790 0,8119 83 Ноябрь 181 702 256 603 0,7081 301 105 1,1734 — — 84 Декабрь 258 713 259 465 0,9971 332 551 1,2817 — — Джон не удивился, увидев приведенные в распечатке сезонные индексы, и был очень рад тому, что теперь у него есть несколько конкретных цифр, которые можно было бы показать банкиру. После совместного изучения полученных данных Джон и банкир пришли к соглашению о том, что Джон будет вносить двойную оплату в апреле, мае, ию- не и августе и вовсе не будет платить по займу в январе, феврале, ноябре и декабре. Бан- кир попросил Джона распечатать копию таблицы сезонных индексов, чтобы показать их своему руководству и включить в файл займа Джона. Для получения прогноза на первые шесть месяцев 1997 года Джон начал с оценки значения тренда, воспользовавшись уравнением тренда 7^=19092,3 + 2861,58/. Оценка тренда для января 1997 года составила следующее. Т = 19092,3 + 2861,58(85) = 262326,6 Затем Джон воспользовался сезонными индексами из табл. 5.17. Индекс для января составил 31,73%. Джон регулярно читал журнал The Wall Street и смотрел по телевизору ток-шоу, посвященные обсуждению деловых новостей, так что у него уже было представ- ление об ожидаемом поведении экономики и ее общем курсе. Он также был членом де- лового клуба, в котором регулярно проводились встречи с местными экономическими экспертами. Поэтому после изучения в выданной компьютером таблице столбца С, де- монстрирующего циклическую компоненту временного ряда, он задумался над тем, как спрогнозировать эти значения для первых шести месяцев 1997 года. Поскольку предска- зания ведущих столичных и местных экспертов на 1997 год указывали на медленное улучшение состояния дел в бизнесе и последнее значение в столбце С для октября 1996 года было завышено (107,9%), он решил использовать для своих прогнозов значения циклической компоненты С, приведенные в табл. 5.19.
242 ГЛАВА 5 Таблица 5.19. Значения циклической компоненты для прогноза на 1997 год Год Месяц С 1996 Ноябрь 108 Декабрь 109 1997 Январь 109 февраль 110 Март 111 Апрель 113 Май 114 Июнь 115 В значениях нерегулярной компоненты (7) для этих месяцев Джон не предполагал по- явления каких-либо необычных ситуаций, за исключением марта 1997 года. В этом меся- це он планировал организовать кампанию “открытых дверей” и, соответственно, снизить цены в одном из своих отделений, в котором недавно закончилась реконструкция. Он ожидал, что вследствие подобного стимулирования, дополненного интенсивной радио- и телевизионной рекламой, объем доходов от проката в этом отделении будет на 50% вы- ше, чем обычно. В результате в отношении общего объема месячных доходов можно ожидать эффект повышения приблизительно на уровне 15%. Используя все свои оценки и другие, полученные компьютером результаты, Джон со- ставил прогноз доходов от проката компании “Mr. Tux” на первые шесть месяцев 1997 года, приведенный в табл. 5.20. Таблица 5.20. Прогноз доходов от проката компании “Mr. Tux” Месяц Прогноз = Т X S X с X / Январь 90727 262326,6 0,3173 1,09 1,00 Февраль 140515 265188,2 0,4817 1,10 1,00 Март 308393 268049,8 0,9013 1,11 1,15 Апрель 556972 270911,4 1,8194 1,13 1,00 Май 605757 273773,0 1,9409 1,14 1,00 Июнь 378988 276634,5 1,1913 1,15 1,00 После изучения полученных прогнозов на 1997 год Джон был весьма встревожен, об- наружив, что ожидается столь широкий ряд значений объемов месячных доходов — от 90 727$ до 605 757$. Хотя он и знал, что объем месячных доходов от проката в его компа- нии существенно меняется, все же столь сильные флуктуации его обеспокоили. Ранее Джон уже задумывался над расширением своего бизнеса, локализованного в Спокане, в район города Сиэтла. Недавно он выяснил, что для Сиэтла характерно наличие несколь- ких обстоятельств, отличающих этот регион от рынка услуг проката в Спокане. В частно- сти, официальные балы на встречах выпускников в Сиэтле проводятся гораздо чаще, чем
Временные ряды и их компоненты 243 в Спокане. Поскольку эти торжества проходят обычно во время спада бизнеса Джона в Спокане, когда уровень доходов от проката минимален (см. сезонный индекс для октяб- ря и ноября), выравнивание доходов, связанное с выходом его бизнеса на рынок Сиэтла, могло принести ощутимую выгоду компании. Однако действительно серьезное беспокойство у него вызвали два наихудших меся- ца — январь и февраль. Не так давно Джон обдумывал возможность покупки машины для пошива рубашек под смокинги, которую он видел на выставке. Он полагал, что этим делом можно будет вплотную заняться в течение зимних месяцев. Если бы со стороны потенциальных покупателей рубашек наблюдалась положительная реакция на повыше- ние объемов поставок в указанный период времени, он охотно предпринял бы такую по- пытку. Как бы там ни было, рассчитанные компьютером сезонные индексы помогли Джону сосредоточить внимание на возможных чрезвычайных колебаниях в уровне ме- сячных доходов компании от проката. Вопросы 1. Если бы банкир попросил Джона привести два аргумента, чтобы предоставить их руководству в качестве обоснования просьбы вносить удвоенные выплаты по займу в одни месяцы и вовсе не платить в другие, то какие аргументы ему следовало бы привести? 2. Предположим, что доход Джона в Сиэтле в следующем году будут ровно в два раза превосходить его доход в Спокане. Подберите такие сезонные индексы для ежеме- сячных доходов в Сиэтле, которые позволили бы полностью сбалансировать общие ежемесячные доходы для компании “Mr. Tux”. 3. Пренебрегая доходами в Сиэтле, рассчитайте, какие объемы сбыта рубашек должны быть достигнуты Джоном, чтобы поднять общие доходы компании в январе и фев- рале до “среднего уровня”? Задание 5.3. Корпорация Consumer Credit Counseling Деятельность корпорации Consumer Credit Counseling (ССС) была описана в главе 1 (задание 1.2). Мэрв Харнишфегер, исполнительный директор корпорации, пришла к заключению, что наиболее важной переменной, прогноз которой необходим для успешной работы ССС, является количество новых клиентов, которые могли бы обратиться в корпорацию за оставшуюся часть 1993 года. Мэрв предоставила Дороти Мерсер ежемесячные данные о количестве новых клиентов, обратившихся в ССС за период с января 1985 по март 1993 года (см. задание 3.3). Чтобы составить требуемый прогноз, Дороти необходимо выполнить декомпозици- онный анализ полученного временного ряда. Она полагает, что важнее всего будет выяс- нить поведение трендовой и сезонной компонент, а также оценить их относительную
244 ГЛАВА 5 важность. Кроме того, она хочет знать, имеются ли в собранных данных какие-либо не- обычные нерегулярности. Конечная же цель всей работы состоит в получении прогноза на оставшуюся часть 1993 года. Вопрос 1. Составьте отчет, содержащий всю необходимую Дороти Мерсер информацию. Задание 5.4. Клуб AAA Washington13 AAA. Washington — это один из двух региональных автомобильных клубов штата Вашинг- тон, относящихся к Американской автомобильной ассоциации (ААА или “Три А”). В 1993 году 69% всех участников автомобильных клубов США являлись членами Американской автомобильной ассоциации, что делало ее наибольшим автомобильным клубом в Северной Америке. ААА— это общенациональная ассоциация, насчитывающая около 150 регио- нальных клубов. Эта ассоциация установила определенный набор минимальных требова- ний, которые каждый из входящих в нее клубов должен неукоснительно выполнять, чтобы его членство в ассоциации было действительным. В каждом региональном клубе имеется собственный совет попечителей и управляющий персонал. Местное управление и попечи- тели несут ответственность за привлечение новых и сохранение уже имеющихся членов клуба в пределах выделенной территории, а также за обеспечение финансового здоровья регионального клуба. Помимо соблюдения минимального набора общих требований, уста- новленных ассоциацией ААА, каждый региональный клуб волен определять, какие допол- нительные товары и услуги он будет предлагать своим членам и какова будет цена на них. Клуб ААА Washington был основан в 1904 году. Обслуживаемая им территория вклю- чает 26 округов штата Вашингтон, расположенных западнее реки Колумбия. Клуб пред- лагает своим членам широкий выбор автомобилей и услуг, связанных с их обслуживани- ем и эксплуатацией. Выгода от членства в клубе обеспечивается за счет кооперации дея- тельности отделений в масштабе всей национальной ассоциации. Здесь предоставляются такие услуги, как аварийное дорожное обслуживание; широкая сеть дорожных гостиниц, ресторанов, автомобильных ремонтных мастерских; предоставление путеводителей с ука- занием одобренных ААА гостиниц, ресторанов, лагерей и разнообразных интересных мест; законодательная и финансовая защита, действующая в интересах владельцев авто- мобилей. В дополнение к этому клуб ААА Washington предлагает своим членам расши- ренный перечень аварийных дорожных услуг; некоторые финансовые услуги, включая кредитные карточки для групп лиц, объединенных общими интересами, персональные кредитные лимиты, чековые и сберегательные счета, временные депозиты и льготное по- лучение дорожных чеков American Express; доступ к парку фургонов мобильной диагно- стики, предназначенных для экстренного определения состояния транспортных средств членов клуба; услуги бюро путешествий и страхового агентства. Клуб предоставляет эти 11 Это задание предоставил Стив Брентон (Steve Branton), бывший студент Eastern Washington University.
Временные ряды и их компоненты 245 услуги через сеть своих офисов, находящихся в городах Белльвью, Биллингхем, Бремер- тон, Эверетт, Линнвуд, Олимпия, Рентон, Сиэтл, Такома, Паско, Ричлэнд, Кенневик, Ванкувер, Уэнетчи и Якима (штат Вашингтон). Проводимые в клубе исследования показывают, что главной побудительной причи- ной вступления новых членов в ААА является аварийное дорожное обслуживание. Важ- ность службы аварийного дорожного обслуживания в организации защиты членов отра- жена в трех типах членства, предлагаемых клубом AAA Washington: базовый, “ААА Плюс” и “ААА Плюс RV”. Базовое членство гарантирует членам клуба буксировку их транспортного средства на расстояние до пяти миль от того места, где оно вышло из строя. Членский билет “ААА Plus” гарантирует членам клуба буксировку на расстояние до 100 миль от места, в котором их транспортное средство вышло из строя. Членский би- лет “ААА Plus RV” обеспечивает членам клуба буксировку на расстояние до 100 миль не только легковых автомобилей или легких грузовиков, но и имеющихся прицепных транспортных средств. Предоставление аварийных дорожных услуг является также самой крупной из существующих статей расхода клуба. Предполагается, что в следующем фи- нансовом году предоставление аварийных дорожных услуг обойдется клубу в $9,5 млн, что составляет 37% планируемого годового бюджета клуба. Майкл Декориа (Michael DeCoria), дипломированный экономист, окончивший уни- верситет Eastern Washington, недавно был принят в правление клуба в качестве исполни- тельного вице-президента. Одним из обязательств, которые взял на себя мистер Декориа, является управление службой аварийных дорожных услуг. При предварительной оценке эффективности этой службы мистер Декориа обнаружил, что издержки на оказание ава- рийных дорожных услуг возрастали значительно быстрее, чем это могло быть оправдано инфляцией и увеличением количества членов клуба. Мистер Декориа решил глубже про- анализировать способы оказания аварийных дорожных услуг, чтобы выяснить, нельзя ли более строго контролировать издержки в этой области. Аварийные дорожные услуги предоставляются членам клуба одним из четырех сле- дующих способов: собственным сервисным парком клуба ААА Washington, внешними компаниями, с которыми заключены договора, посредством взаимной компенсации ме- жду клубами-членами ассоциации и методом прямой компенсации членам клуба. Парк сервисного обслуживания транспортных средств самого клуба ААА Washington несет от- ветственность за оказание помощи по вызовам от членов клуба, которые потерпели ава- рию в деловой части города Сиэтла. Вне деловой части Сиэтла ответственность за оказа- ние помощи по вызовам от членов клуба несут коммерческие буксировочные компании, имеющие контракт с клубом ААА Washington на оказание подобных услуг. Выбор спосо- ба обслуживания осуществляется в диспетчерском центре клуба непосредственно при поступлении вызова от члена клуба. Если член клуба потерпел аварию за пределами об- ласти обслуживания клуба ААА Washington, то для получения аварийного дорожного об- служивания он может позвонить в местный клуб, также состоящий в ассоциации ААА. Входящий в состав ААА клуб оплачивает оказываемые услуги, а затем выписывает соот- ветствующий счет в адрес клуба ААА Washington, который погашается методом взаимной компенсации с помощью клиринговой службы, организованной в национальной ассо- циации. Наконец, члены клуба могут непосредственно связаться с любой буксировочной компанией по собственному выбору, оплатить предоставленные им услуги, а затем предъявить требование о компенсации в адрес клуба. Компенсация, предоставляемая клубом ААА Washington своим членам, составляет либо реальную стоимость буксировки, либо 50$, если стоимость буксировки была меньше этой суммы. После тщательного изу-
246 ГЛАВА 5 чения всех четырех способов предоставления услуг мистер Декориа пришел к заключе- нию, что клуб контролирует стоимость оказания услуг настолько строго, насколько это вообще возможно. Еще одним потенциальным источником роста издержек является возрастание часто- ты обращения членов клуба с просьбами об оказании им аварийных дорожных услуг. Ко- личество членов клуба неуклонно возрастало в течение последних нескольких лет, одна- ко рост уровня издержек на оказание подобных услуг был больше, чем это можно было бы объяснить простым увеличением числа членов клуба. Мистер Декориа решил прове- рить версию о возрастании числа вызовов службы аварийных дорожных услуг, приходя- щихся на одного члена клуба. В результате он обнаружил, что на протяжении 1990-1991 финансового года среднее число вызовов службы аварийных дорожных услуг, приходя- щееся на одного члена клуба, возросло на 3,28%, или с 0,61 до 0,63 вызовов (финансовый год клуба AAA Washington начинается с 1 июля). Озабоченный тем, что сохранение по- добной тенденции окажет негативное влияние на функционирование клуба с финансо- вой точки зрения, мистер Декориа собрал все имеющиеся данные о вызовах службы ава- рийных дорожных услуг (они представлены в табл. 5.21). Таблица 5.21. Сведения о ежемесячном количестве вызовов аварийной дорожной службы клуба AAA Washington Год Месяц Вызовы Год Месяц Вызовы 1988 Май 20002 1991 Январь 23441 Июнь 21591 Февраль 19205 Июль 22696 Март 20386 Август 21509 Апрель 19988 Сентябрь 22123 Май 19077 Октябрь 21449 Июнь 19141 Ноябрь 23475 Июль 20883 Декабрь 23529 Август 20709 1989 Январь 23327 Сентябрь 19647 Февраль 24050 Октябрь 22013 Март 24010 Ноябрь 22375 Апрель 19735 Декабрь 22727 Май 20153 1992 Январь 22367 Июнь 19512 Февраль 21155 Июль 19892 Март 21209 Август 20326 Апрель 19286 Сентябрь 19378 Май 19725 Октябрь 21263 Июнь 20276 Ноябрь 21443 Июль 20795 Декабрь 23366 Август 21126
Временные ряды и их компоненты 247 Окончание табл. 5.21 Год Месяц Вызовы Год Месяц Вызовы 1990 Январь 23836 Сентябрь 20251 Февраль 23,336 Октябрь 22069 Март 22003 Ноябрь 23268 Апрель 20155 Декабрь 26039 Май 20070 1993 Январь 26127 Июнь 19588 Февраль 20067 Июль 20804 Март 19673 Август 19644 Апрель 19142 Сентябрь 17424 Октябрь 20833 Ноябрь 22490 Декабрь 24,861 Вопросы 1. Выполните декомпозицию временного ряда данных о вызовах службы оказания ава- рийных дорожных услуг клуба ААА Washington. 2. Составьте в адрес мистера Декориа докладную записку, в которой приведите важ- нейшие итоговые сведения об изменениях характера вызовов службы аварийных до- рожных услуг, полученные в результате декомпозиционного анализа соответствую- щего временного ряда. Задание 5.5. Компания Alomega Food Stores В примере 1.1 Джулия Рас, президент компании Alomega Food Stores, собрала данные о месячных объемах продаж своей компании вместе с другими показателями, которые, как она полагала, могли влиять на объем продаж (см. пример 1.1 в главе 1). В задании 2.3 (глава 2) объясняется, как Джулия применила приложение Minitab для выполнения рас- четов по методу простой регрессии, используя ежемесячные расходы на рекламу по теле- видению как независимую переменную для предсказания месячных объемов продаж. Проанализировав результаты регрессионного анализа, который дал относительно низкое значение показателя г-квадрат (36%), она решила выполнить декомпозицию вре- менного ряда месячных объемов продаж компании по одной переменной. На рис. 5.13 показан график результатов обработки данных об объемах продаж, полученный после выполнения расчетов. Глядя на этот график, создается впечатление, что отдельные зна-
248 ГЛАВА 5 чения объемов продаж слишком разбросаны относительно трендовой линии, чтобы можно было надеяться на достаточно точные предсказания. Это общее впечатление под- тверждается приведенным на графике значением МАРЕ, равным 28. Джулия интерпрети- ровала это значение следующим образом: средняя ошибка в процентах между реальным значением и линией тренда составляет 28%, т.е. слишком велика для ее целей. Trend Analysis for Sales Linear Trend Model Yt = 350840 + 1334.67*t Time Puc. 5.13. Результаты анализа наличия тренда в данных об объемах продаж компании Alomega Food Stores (приложение Minitab) Затем Джулия решила выполнить мультипликативную декомпозицию имеющихся у нее данных. Результаты этой декомпозиции приведены на рис. 5.14. Помимо приведенного в распечатке уравнения тренда, Джулия заинтересовалась се- зонными (месячными) индексами, вычисленными программой. Она отметила, что са- мый низкий объем продаж отмечается в декабре (12 месяц, индекс = 0,49), а самый высо- кий — в январе (1 месяц, индекс = 1,74). Джулия и раньше знала о различии между объе- мами продаж в декабре и январе, однако не представляла, что оно столь значительно. Кроме того, она отметила, что значение МАРЕ упало до 12%, что существенно лучше первого варианта, когда использовалось только уравнение тренда. Наконец, она воспользовалась своей программой для вычисления прогнозов объемов продаж на следующие 12 месяцев, взяв за основу полученное уравнение тренда, модифици- рованное с учетом сезонных индексов. Джулия полагала, что вполне может использовать результаты своих расчетов для целей планирования, однако ей все же хотелось бы знать, не могут ли какие-либо другие методы прогнозирования дать лучшие результаты. Джулию также волновало, что скажет о выполненных ею расчетах исполнительный директор ком- пании, Джексон Тилсон, который не так давно на совещании выразил сомнение в целесо- образности использования компьютеров для получения прогнозов (см. пример 1.1).
Временные ряды и их компоненты 249 Time Рис. 5.14. Результаты мультипликативной декомпозиции данных об объемах продаж ком- пании Alomega Food Stores (приложение Minitab) Вопрос Как вы думаете, что мог бы сказать о выполненных Джулией прогнозах Джексон Тилсон? Применение Minitab Задание. Найдите уравнение тренда для данных из примера 5.1 о ежегодной регистрации новых пассажирских автомобилей в США с 1960 по 1992 год. Решение в Minitab 1. После того как данные о регистрации новых пассажирских автомобилей будут вве- дены в столбец С1 рабочего листа, для запуска процедуры анализа тренда выберите команду Stat^Time Series^Trend Analysis. 2. На экране раскроется диалоговое окно Trend Analysis (Анализ тренда). Выполните в нем следующее. а) в качестве значения поля Variable (Переменная) укажите Cars (Автомобили) б) переключатель Model Туре (Тип модели) установите в состояние Linear (линейный) в) установите флажок опции Generate forecasts (Генерировать прогнозы) и введи- те значение 1 в поле Number of forecasts (Количество прогнозов), чтобы сде- лать прогноз на 1993 год г) в поле Title (Заголовок) введите значение Linear Trend Equation for Car Regis- trations Time Series (Линейное уравнение тренда для временного ряда данных о регистрации пассажирских автомобилей)
250 ГЛАВА 5 д) щелкните на кнопке ОК, и на экран будет выведен график, представленный на рис. 5.3 Задание. Рассчитайте представленные в табл. 5.1 значения оценки тренда и значения данных с устраненным трендом для исходных данных о регистрации новых пассажир- ских автомобилей в США. Решение в Minitab 1. В заголовок столбца С1 введите значение Year (Год). Список значений в этом столбце можно создать автоматически, выбрав команду Calc^Make Pattern Data^Simple Set of Numbers. 2. В результате на экране раскроется диалоговое окно Simple Set of Number (Простой набор чисел). а) выполните в этом окне следующие действия: в поле Store pattern data in (Сохранить полученные данные в) введите значе- ние С1; в поле From first value (Начиная с первого значения) введите значение 1960; в поле То last value (До последнего значения) введите значение 1992; в поле In steps of (С шагом) введите значение 1. б) щелкните на кнопке ОК, и требуемый список годов будет помещен в столбец С1 в) данные о регистрации новых пассажирских автомобилей введите в столбец С2 3. Значения переменной соответственно помеченного времени t введите в столбец СЗ с помощью той же команды Simple Set of Number. 4. Оценки тренда введите в столбец С4 с помощью той же команды, которая использова- лось при анализе тренда в предыдущем задании, но с одним дополнительным этапом. 5. Выберите команду Storage, и на экране раскроется диалоговое окно Trend Analysis - Storage. а) в группе Storage установите флажки опций Fits (для линии тренда) и Residuals (для данных с исключенным трендом) б) щелкните на кнопке ОК в этом диалоговом окне, а затем в диалоговом окне Тrend Analysis. Значения оценки тренда будут помещены в столбец С4, а значе- ния ошибок (остатков) — в столбец С5 Задание. Сделайте для Перкина Кенделла, аналитика компании Outboard Marine Corporation, прогноз квартальных продаж в 1997 году, исходя из данных, приведенных в примерах 5.3 и 5.4. Решение в Minitab 1. Введите в столбец С1 сведения о годах, в столбец С2 поместите номера кварталов, а данные об объемах продаж поместите в столбец СЗ. Для расчета декомпозиционной модели выберите команду Stat^Time Series^Decomposition. 2. На экране раскроется диалоговое окно Decomposition (Декомпозиция), показанное на рис. 5.15.
Временные ряды и их компоненты 251 Рис. 5.15. Диалоговое окно Decomposition приложения Minitab а) в поле Variable (Переменная) введите значение СЗ или Sales б) поскольку данные являются квартальными, в поле Seasonal Length (Длительность сезонного цикла) введите значение 4 в) переключатель Model Туре (Тип модели) установите в положение Multiplicative (Мультипликативная), а переключатель Model Components (Компоненты мо- дели) — в положение Trend plus seasonal (Тренд плюс сезонность) г) в поле Fist obs. is in seasonal period (Сезонный период первого наблюдения) введите значение 1 д) установите флажок опции Generate forecasts и введите значение 4 в поле Num- ber of forecasts 3. Щелкните на кнопке Storage... (Сохранение), и на экране раскроется диалоговое окно Decomposition - Storage, показанное на рис. 5.16. I.J-- . игтте.... Xi Р J.rend line Р Detrended data Р .Seasonal*: Р Stas anally adpiy ted" data1 Г Forecasts Help I ; ~OK~ ~I Cancel Puc. 5.16. Диалоговое окно Decompo- sition - Storage приложения Minitab а) в группе Storage установите флажки опций Trend Line (Линия тренда), Detrended data (Данные с исключенным трендом), Seasonals (Сезонные колебания), Sea- sonally adjusted data (Данные с исключенными сезонными колебаниями) б) щелкните на кнопке ОК в этом диалоговом окне, а затем в диалоговом окне De- composition. В табл. 5.4 приведены оценки тренда из столбца С4 (помеченного Т),
252 ГЛАВА 5 данные с исключенным трендом из столбца С5 (помеченного SCI), сезонные ко- лебания из столбца С6 (помеченного 5) и данные с исключенными сезонными колебаниями из столбца С7 (помеченного ТСГ) 4. На экран будут выведены диалоговые окна и графики, представленные на рис. 5.9- 5.11. Графики можно распечатать все вместе, для чего следует выбрать команду File^Print Graph. 5. После того как графики будут распечатаны, выберите команду File^Print Session Window, и на печать будет выведен прогноз, представленный на рис. 5.9. Содержимое столбцов CI, С и / (табл. 5.4) также может быть рассчитано с помощью приложения Minitab, однако расчет этих данных будет продемонстрирован в сле- дующем разделе “Применение Excel”. Применение Excel Задание. На рис 5.6 приведены данные об изменении количества членов фонда взаимо- помощи и соответствующий график. Определите уравнение тренда для этих данных, ис- пользуя показательную модель. Решение в Excel 1. Введите в ячейку А1 значение Y, а в ячейки диапазона А2:А8 — данные о количестве членов фонда. 2. Введите в ячейку В1 значение X, а в ячейки диапазона В2:В8 — значения перемен- ной, обозначенной какХ(1,2, 3,4, 5,6, 7). 3. Введите в ячейку С1 значение log Y, а в ячейки диапазона С2:С8 поместите деся- тичные логарифмы соответствующих значений переменной Y. Для этого поместите в ячейку С2 формулу LOG10(А2) и скопируйте ее в оставшиеся ячейки диапазона. 4. Для расчета показательного тренда выберите команду Tools^ Data Analysis. 5. На экране раскроется диалоговое окно Data Analysis (Анализ данных). В списке Analysis Tools (Инструменты анализа) выберите значение Regression (Регрессия) и щелкните на кнопке ОК. Раскроется диалоговое окно Regression, показанное на рис. 5.17. иИ1И1вМВВЕВ8ДИЯИИ1 ’ I IIIII /Г g.esi&ials Riots > < '~Г S&ndaft&ed Reflate Г” lane Fft Hots t i.WortralRroswfcfry ------------ — ( '<1Г PrefcabStyPiott Puc. 5.17. Диалоговое окно Regression приложения Excel
Временные ряды и их компоненты 253 а) в поле Input Y Range (Диапазон ввода У) введите значение С1 :С8 б) в поле Input X Range (Диапазон ввода .¥) введите значение В1 :В8 в) установите флажок опции Labels (Метки) г) установите переключатель Output Option в положение New Worksheet Ply и введите в ставшее активным поле ввода значение Figure5.18, как показано на рис. 5.17 На рис. 5.18 представлены результаты выполненного приложением Excel расчета по- казательной модели тренда для данных о количестве членов фонда взаимопомощи. Соответствующее уравнение будет иметь следующий вид. log Т = 1,000692 + 0,118338г Антилогарифмы коэффициентов регрессии в этом уравнении будут равны следующему. b0 = antilog 1,000692 = 10,016 6, = antilog 0,118338 = 1,313 Таким образом, уравнение, моделирующее показательный тренд для указанных дан- ных, будет следующим. Т = (10,016)(1,313)' Jl(. Е« го* Л-fa. к«и ь* .-jsjg а аз f * т 4 г и, и о л " • о. - - в I ц if ж Г., s х , -й л Г» » _ - * - Д. -1 _ _ _ | .... ё ... ] | _ 1 ^Regression Statistics’' __.].. ___1 _ ___;___ __ д.......... > 2 ^Multiple R: 0.998442 Г" ~"T~ ]. " “"Г f’ I T“' ~ = '•TlR Square : 0.996886; ..Г......I........F ....1.......1..........F. : 1 ^Adjusted F 0.996^4":......... I.........I...........I................... W w^standardTapjsKir^^ZZZZL^ * jiObservation_7i s _ i i P 7 .....1..................j.....i......... ‘ < 8 1AN0VA __________’_____i________\_________________j В df SS i JWS______________F •gnificance F __ i . PIRegressiot 1 = 0.392106= 0.392106: 1600.788. 1.84E-07; "П " 7 Й 11!Residual.i. 5 = 0.001225i 0.000245= ....... ’ M ~WTotal.......1. 6= 0.393331i___;________i________i 1 Й 5з ===:.i ...............................................'................. J 14 в Coefficjentstarxfard Err t Stat P-vakie Lower 95%'Цррег95%хмег 95. CMpper 95.0% ш WOIntercept П 1.000692= 0.0132271 75.65363 : 7.64E-09; 0.966691 i 1.034694: 0.966691; 1.0346941 J? 16 JX Variable r 6J18338T QW^8T'4OW985r'f’84E-07[ oFl 10^ 0,'l 10735 "671259411 Ш "i » . / 13 / .* ,|Ч...е 4 ,, |.| 7r Яы»||| -ь r^JlJ 1/Jon.elS-IS , -3?a* UM'-mII Puc. 5.18. Результаты применения инструмента Regression приложения Excel к данным о количестве членов фонда взаи- мопомощи Задание. Исходя из данных о доходах компании Outboard Marine, приведенных в приме- рах 5.3 и 5.4, рассчитайте значения в столбцах С/, С (трехпериодическое скользящее среднее) и / табл. 5.4.
254 ГЛАВА 5 Решение в Excel 1. Откройте файл приложения Minitab с исходными данными для табл. 5.4 и выделите столбец С4, содержащий значения переменной Т. Затем выберите команду Edit^Copy Cells. 2. Создайте таблицу Excel, выделите в ней ячейку А1, а затем выберите команду Edit^ Paste. 3. Значения данных для переменной Т будут помещены в ячейки столбца А. Повторите эту процедуру, скопировав в ячейки столбца В1 рабочего листа Excel значения пере- менной ГС/из столбца С7 в окне приложения Minitab. 4. Чтобы создать столбец со значениями переменной CI, установите курсор в ячейку С1 и введите в нее формулу =В1/А1, после чего скопируйте эту формулу в ос- тальные ячейки столбца С. 5. Чтобы рассчитать значения переменной С посредством метода трехпериодического скользящего среднего, выберите команду Tools^Data Analysis. 6. В списке Analysis Tools раскрывшегося диалогового окна Data Analysis выберите значение Moving Average (Скользящее среднее) и щелкните на кнопке ОК. На экран будет выведено диалоговое окно Moving Average, показанное на рис. 5.19. Рис. 5.19. Диалоговое окно Moving Average приложения Excel а) в поле Input Range (Диапазон ввода) введите значение С1 :С28 б) в поле Interval (Интервал) введите значение 3 в) в поле Output Range (Диапазон вывода) введите значение D1 г) Excel ошибочно размещает первое значение скользящего среднего в ячейке D3 вместо ячейки D2, поэтому выделите первую ячейку диапазона вывода D1 и вы- берите команду Edit^ Delete д) в диалоговом окне Delete (Удаление) установите переключатель в положение Shift Cells Up (Смещение ячеек вверх) е) щелкните на кнопке ОК 7. Чтобы получить значения переменной /, установите курсор в ячейку Е2 и введите в нее формулу =C2/D2, а затем скопируйте эту формулу в остальные ячейки столбца Е. 8. Чтобы скопировать рассчитанные значения столбцов CI, С и / в рабочий лист при- ложения Minitab, поместите курсор в ячейку С1 и с помощью мыши выделите все ячейки вплоть до Е28. Затем выберите команду Edit^Copy.
Временные ряды и их компоненты 255 9. Далее откройте рабочий лист приложения Minitab, содержащий данные для табл. 5.4, и выделите строку 1 в столбце С8. Затем выберите команду Edit^Pasted Insert Cells. Все данные для табл. 5.4 готовы. Рекомендуемая литература Bell W.R., Hillmer S.C. Issues Involved with the Seasonal Adjustment of Economic Time Series. Jour- nal of Business and Economic Statistic (1984): 291—320.1 Bernstein P. Against the Gods: The Remarkable Story of Risk. New York: John Wiley & Sons, 1996. Findley D.F., Monsell B.C., Bell W.R., Otto M.C., Chen B. New Capabilities and Methods of the X- 12-ARIMA Seasonal-Adjustment Program. Journal of Business and Economic Statistic (1998): 127-152. Johnson R.A., Wichem D.W. Business Statistics: Decision Making with Data. New York: John Wiley & Sons, 1997 Makridakis S., Wheelwright S.C., Hyndman R.J. Forecasting Method and Applications, 3-rd ed. New York: John Wiley & Sons, 1998. Moore G.H., Shiskin J. Early Warning Signals for the Economy. In Statistics: A Guide to Business and Economics, eds. Tanur J.M. etal. San Francisco: Holden-Day, 1976, 81. Wichem D.W. Lagging Indicators. In Encyclopedia of Statistical Sciences, eds. Kotz S. et al., Vol.4, New York: John Wiley & Sons, 1983, 439—440. Wichem D.W. Leading Indicators. In Encyclopedia of Statistical Sciences, eds. Kotz S. et al., Vol.4, New York: John Wiley & Sons, 1983, 582—585.

/а\ ли /т а W/ w W/ М ГЛАВА F7 W MF/ W Простая линейная регрессия .Вглаве 2 рассматривалась линейная зависимость между двумя числовыми переменны- ми (корреляция). Линейной зависимости соответствует прямая линия, и ниже будет рас- смотрено построение такой прямой по заданным парам наблюдений двух переменных. Построение будет проводиться с помощью метода наименьших квадратов. В этой главе мы подробно изучим модель простой линейной регрессии. Если линейная зависимость установлена, то по величине независимой переменной можно будет предсказывать зна- чение зависимой переменной. Кратко напомним рассмотренный в главе 2 анализ зависимости между двумя пере- менными, для чего воспользуемся следующим примером. Пример 6.1 Мистер Бамп (Bump) изучает цены и объемы продажи молока, выбрав произвольным об- разом десять недель. Собранные им данные представлены в табл. 6.1. Таблица 6.1. Данные о продаже молока для примера 6.1 Номер недели Количество проданного молока У (тыс. галлонов) Цена одного галлона X (долл.) 1 10 1,30 2 6 2,00 3 5 1,70 4 12 1,50 5 10 1,60 6 15 1,20 7 5 1,60 8 12 1,40 9 17 1,00 10 20 1,10
258 ГЛАВА 6 На рис. 6.1 приведена диаграмма рассеивания для исходных данных. Диаграмма показы- вает, что имеет место обратная линейная зависимость между переменной Y (количеством гал- лонов проданного молока) и переменной X (ценой одного галлона). Можно сделать вывод, что при возрастании цены объем продаж уменьшается. У 30 - . -I 2.00 Цена Рис. 6.1. Диаграмма рассеивания для примера 6.1 Мистера Бампа интересует количественная мера обнаруженной зависимости. Для этого он вычислил выборочный коэффициент корреляции г, воспользовавшись формулой 2.9. Проделав вычисления, приведенные в табл. 6.2, он определил следующее. "2-ут-(Ет)(^г) -Q>)! -(ХГ)‘ ________10-149,3-14,4-112______ >/10 • 21,56-14,42 710-1,488-1122 -119,8 138,7 = -0,86. Значение выборочного коэффициента корреляции, равное -0,86, указывает на довольно тесную обратную зависимость между переменными Y и X, т.е. при возрастании цены одного галлона молока количество продаваемых галлонов быстро падает. Таблица 6.2. Вычисления из примера 6.1 п= 10 Y X XY X2 Y2 6 2,00 12,0 4,00 36 5 1,70 8,5 2,89 25 12 1,50 18,0 2,25 144
Простая линейная регрессия 259 hiiii п = 10 У х XY Окончание табл. 6.2 X2 У2 10 1,60 16,0 2,56 100 15 1,20 18,0 1,44 225 5 1,60 8,0 2,56 25 12 1,40 16,8 1,96 144 17 1,00 17,0 1,00 289 20 1,10 22.0 1,21 400 Сумма 112 14,40 149,3 21,56 1488 При этом естественно возникает следующий вопрос: на сколько уменьшается продажа молока при увеличении его цены? В данном случае на диаграмме рассеивания требуется про- вести прямую, проходящую достаточно близко от отмеченных точек. Тогда наклон прямой покажет, на сколько галлонов в среднем будет уменьшаться величина Упри увеличении вели- чины X на один доллар. Прямая регрессии Мистер Бамп может провести требуемую прямую, визуально сориентировав ее так, чтобы она находилась как можно ближе к отмеченным на диаграмме точкам. Однако другой че- ловек может провести подобную прямую как-то иначе. Необходим такой способ нахож- дения прямой наилучшего приближения, при использовании которого любой человек будет получать один и тот же результат для заданного набора данных. Как было отмечено в главе 2, для однозначного определения прямой наилучшего приближения чаще всего применяется критерий наименьших квадратов. Для набора пар данных X — У в качестве прямой наилучшего приближения будет выби- раться такая, для которой наименьшее значение принимает сумма квадратов расстоя- ний от точек (х,у) из заданного набора данных до этой прямой, измеренных в верти- кальном направлении (по оси У). Эта прямая называется прямой регрессии, а ее урав- нение — уравнением регрессии. Уравнение прямой приближения имеет вид У= Ьо + Ь{Х. Первый параметр, 60, называет- ся свободным членом, а второй, — угловым коэффициентом. Напомним, что угловой коэффициент показывает величину, на которую изменяется значение У при увеличении X на единицу. Нашей ближайшей целью будет определение значений Ьо и by. Метод наименьших квадратов позволяет подобрать такие значения коэффициентов bQ и by, чтобы сумма квадратов ошибок (расстояний) была наименьшей из всех возможных. 55Е = ^(У-У)2=^(У-ЙО-Й,Х)2 (6.1) С помощью несложных вычислений (см. приложение А) для нахождения значений Ьй и 6, в формуле метода наименьших квадратов могут быть получены специальные алгебраиче- ские выражения.
260 ГЛАВА 6 ' "Ех’-Е*)’ ь„ = YY - =г-ь,х <6-3) п п Как можно предположить, значение углового коэффициента Ь! связано с выборочным коэффициентом корреляции. В данном случае мы имеем следующее. (6.4) 1- Ft—=7 J(X-x) Значит, bi и г пропорциональны друг другу и имеют один и тот же знак. Разности между фактически полученными значениями К и вычисленными по уравне- нию регрессии соответствующими значениями прогнозов Y называются отклонениями. От- клонения — это расстояния по вертикали (положительные или отрицательные) от точек, от- меченных по исходным данным, до прямой регрессии. Справедливо следующее равенство. наблюдение = прогноз + отклонение или, в математических обозначениях, Y = Y+(Y-Y) (6.5) Можно сказать, что величины прогноза являются моделируемыми значениями наших данных, а отклонения показывают отличие от ожидаемой модели. Разделение на прогноз и отклонение применяется и в тех ситуациях, когда рассматривается модель, отличная от прямой линии, и мы будем использовать такой подход в следующих главах. Пример 6.2 С помощью метода наименьших квадратов вычислим оценки коэффициентов регрессии для данных мистера Бампа из примера 6.1 (см. рис. 6.1). Проведем вычисления, используя урав- нения 6.2 и 6.3, а также числовые значения из табл. 6.2. Мы имеем следующее. , 10-149,3-14,4-112 -119,2 ,,СЙ 10-21,56-14,4 8,24 112 / \144 Ьо =----(-14,541—^—= 11,2+14,54-1,44 = 32,14 10 10 Тогда уравнение прямой регрессии, определенное по методу наименьших квадратов, бу- дет иметь следующий вид. Y=bG + bxX (66) Y= 32,14- 14,54.Y Это уравнение называется уравнением регрессии. Мистер Бамп может попытаться раскрыть смысл коэффициентов из этого уравнения. Сво- бодный член Ьо — это значение Y при X, равном нулю. Формально интерпретируя уравнение, получаем, что приХ= 0 (т.е. при нулевой стоимости галлона молока) среднее количество прода- ваемых галлонов будет равно 32 140. Это не соответствует здравому смыслу, так как очевидно,
Простая линейная регрессия 261 что молока будет “продано” гораздо больше, если оно будет раздаваться бесплатно. Данная про- блема связана с прогнозом значений Y для значений X, заметно отличающихся от тех, которые представлены в выборке данных. Так, в нашей выборке нет величин X, близких к нулю. В этой ситуации, как и во многих других случаях применения регрессионного анализа, разумная ин- терпретация свободного члена уравнения регрессии не представляется возможной. В общем случае неразумно прогнозировать значения У для техХ которые лежат вне мно- жества значений переменной X, встречающихся в выборке. Функцию регрессии следует счи- тать подходящей аппроксимацией реальной ситуации только в той области, из которой взяты анализируемые данные. Экстраполяция функции вне этой области возможна только при справедливости достаточно ограничивающего предположения о том, что характер зависимо- сти Y от X при этом не изменяется.1 Угловой коэффициент bt можно интерпретировать как среднее изменение величины Y при возрастании Л' на единицу. В данном примере Y в среднем уменьшается на 14 540 (т.е. бу- дет продано на 14 540 галлонов молока меньше) при возрастании Л' на единицу (т.е. при воз- растании цены галлона на один доллар). Каждое увеличение цены на один доллар уменьшает объем продажи в среднем на 14 540 галлонов, т.е. наша выборка показывает, что увеличение цены на один цент уменьшает количество продаваемых галлонов на 145,4. Связь значений переменных Л' и Y может быть проиллюстрирована на диаграмме рассеивания путем проведения прямой, являющейся наилучшим приближением этой зависимости (рис. 6.2). Рис. 6.2. Прямая регрессии, построенная на диаграмме, пред- ставляющей данные мистера Бампа Обратите внимание на то, что вертикальные отрезки от точек данных до прямой проведе- ны пунктиром. Сумма квадратов длин отрезков, проведенных к этой прямой, должна быть меньше аналогичной суммы квадратов длин, проведенных к любой другой прямой2. Из мето- да наименьших квадратов следует, что данная прямая является наилучшим приближением для заданных 10 точек исходных данных. 1 Подобная ситуация уже имела место, когда в главе 5 обсуждалась возможность экстраполяции кривых тренда для прогноза будущих значений временных рядов. 2 Для данных мистера Бампа сумма квадратов длин равна SSE = 59,14.
262 ГЛАВА 6 Статистические методы могут использоваться при исследовании связи между двумя переменными, когда соответствующие нашим данным точки на координатной плоскости не лежат точно на некоторой прямой, как это и представлено на рис. 6.2. Мы рассматри- ваем точки на плоскости как некоторую выборку наблюдений, отражающих зависимость между значениями в генеральной совокупности переменных Х-Y. Статистическая модель простой линейной регрессии предполагает, что для каждого значения X наблюдаемое значение зависимой переменной Y является нормально распределенной случайной вели- чиной с математическим ожиданием = 0О + линейно зависящим от X. Отсюда сле- дует, что при изменении X математические ожидания возможных значений Y лежат на одной прямой. Эта прямая называется регрессионной прямой совокупности. Наблюдаемые значения Y будут несколько отличаться от этих математических ожиданий в результате влияния неучтенных факторов. Модель предполагает, что всем этим отличиям соответст- вует одно и то же стандартное отклонение о. Величина отклонения (расстояние) между значением Y и его математическим ожиданием называется ошибкой и обозначается е (греческой буквой эпсилон). В модели простой линейной регрессии зависимая величина Y является суммой ее ма- тематического ожидания и случайного отклонения е. Значения е отражают возможную вариацию величин Y, в них скрыто влияние различных ненаблюдаемых факторов. Нали- чие отклонений е — причина того, что точки, соответствующие парам значений Х-Y, не попадают в точности на одну прямую на координатной плоскости. Статистическая модель для простой линейной регрессии схематически показана на рис. 6.3. Рис. 6.3. Статистическая модель для простой линейной регрессии Статистическая модель для прямолинейной регрессии Значения отклика или зависимой переменной Y определяются значениями контроли- руемой или независимой переменной X с помощью следующего уравнения. Г= 0О + IV+ Е Здесь 0о + 01-^ равно математическому ожиданию отклика для данного X. Отклонения Е предполагаются независимыми и нормально распределенными с математическим ожиданием 0 и среднеквадратичным отклонением о. Неизвестными константами яв- ляются 0о, 01 и о.
Простая линейная регрессия 263 Построенную по выборке прямую регрессии Y= Ьо + Ь}Х можно рассматривать как оцен- ку регрессионной прямой совокупности Цр = 0О + PiX а отклонения е = Y- Y — как оценки компоненты погрешностей е. Таким образом, мы имеем следующие соответствия. Совокупность: Цр = Ро + РьУ + е Выборка: Y = Ьо + btX + е Большинство прикладных пакетов статистических и математических программ вклю- чают средства корреляционного и регрессионного анализа. Инструкции по применению Excel для выполнения расчетов в примерах 6.1 и 6.2 даны в разделе “Применение Excel” в конце этой главы. Стандартная ошибка оценки Имея прямую регрессии, мистер Бамп может теперь заинтересоваться оценкой, по- казывающей, насколько сильно точки исходных данных отклоняются от прямой регрессии. Можно выполнить оценку разброса, аналогичную стандартному отклоне- нию выборки. Этот показатель, называемый стандартной ошибкой оценки, демонст- рирует величину отклонения точек исходных данных от прямой регрессии в направ- лении оси Y. Стандартная ошибка оценки обозначается через sy.x и вычисляется по следующей формуле. Стандартная ошибка оценки измеряет степень отличия реальных значений Y от оце- ненной величины Y. Для сравнительно больших выборок следует ожидать, что око- ло 67% разностей У- У по модулю не будет превышать зу.х и около 95% модулей разно- стей будет не больше 2зу х. Стандартная ошибка оценки подобна стандартному отклонению, введенному в гла- ве 2. Ее можно использовать для оценки стандартного отклонения совокупности. Факти- чески sy.x оценивает стандартное отклонение о слагаемого ошибки е в статистической мо- дели простой линейной регрессии. Другими словами, sy.x оценивает общее стандартное отклонение о нормального распределения значений У, имеющих математические ожида- ния jXp = Ро + ₽i-V + £ Для каждого X (рис. 6.3). Малая стандартная ошибка оценки, полученная при регрессионном анализе, свидетель- ствует, что все точки наших данных находятся очень близко к прямой регрессии.’ Если стандартная ошибка оценки велика, точки данных могут значительно удаляться от прямой. Для удобства вычислений уравнение (6.7) можно привести к следующему виду. _ |£у2-л£у-6,1>у (6.8) V п-2 Если точки, соответствующие данным, лежат в точности на регрессионной прямой, то Y=Y для всех Xи sy.х- 0.
264 ГЛАВА 6 Для данных мистера Бампа стандартная ошибка оценки равна следующему. /1488-32,14-112-(-14,54) 1493 /59,14 /ттт „ „„ s = ,--------------------— ---— =.——=J7,39 =2,72 v V 8 V 8 Для величины Y, принимающей значения от 3 до 18 (рис. 6.2), значение sy.x = 2,72 до- вольно велико и указывает, что существенная часть вариации величины Y (количества проданных галлонов) не объясняется изменением величины X (цены). Это утверждение будет исследовано ниже в разделе “Коэффициент детерминации”. Прогнозирование величины Y Регрессионную прямую можно использовать для оценки величины переменной Y при данных значениях переменной X. Чтобы получить точечный прогноз, или предсказание для данного значения X, мы просто вычисляем значение найденной функции регрессии в точке X. Пример 6.3 Предположим, мистер Бамп хочет получить прогноз количества молока, которое будет про- дано при цене 1,63 доллара за галлон. Из уравнения (6.6) имеем К= 32,14- 14,54Jf Y = 32,14 - 14,54(1,63) У =8,44 или 8440 галлонов. Напомним, что данный прогноз — это значение величины Y. Поэтому интере- сующий нас прогноз будет координатой Yточки с координатой X = 1,63 на регрессионной прямой. Конечно, мистер Бамп понимает, что реальные значения величины Y, соответст- вующие рассматриваемым значениям величины X, к сожалению, не лежат в точности на регрессионной прямой. Фактически они разбросаны относительно прямой в со- ответствии с величиной sy.x. Более того, выборочная (построенная нами) регресси- онная прямая является оценкой регрессионной прямой генеральной совокупности, основанной на выборке всего лишь из 10 пар данных. Другая случайная выборка 10 пар данных даст иную выборочную прямую регрессии; это аналогично ситуации, когда различные выборки из одной и той же генеральной совокупности дают раз- личные значения выборочного среднего. Есть два источника неопределенности в точечном прогнозе, использующем уравне- ние регрессии. 1. Неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии. 2. Неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности. Интервальный прогноз значений переменной Y можно построить так, что при этом будут учтены оба источника неопределенности. Стандартная ошибка прогноза sf дает меру вариативности предсказанного значения Y около истинной величины У для данного значения X. Стандартная ошибка прогноза рав- на следующему.
Простая линейная регрессия 265 (х-х) ' £(x-x)’J (6.9) . 11Н 1 -----—: У « £(х-х)' Первое слагаемое под первым радикалом в уравнении 6.9 дает меру отклонения точек данных от выборочной прямой регрессии (первый источник неопределенности). Второе слагаемое измеряет отклонение выборочной прямой регрессии от регресси- онной прямой генеральной совокупности (второй источник неопределенности). Отме- тим, что стандартная ошибка прогноза зависит от значения X, для которого прогнозиру- ется величина У. Также заметим, что минимально, когда X = Х , поскольку тогда чис- литель в третьем слагаемом под корнем в уравнении 6.9 будет (X - Х)2 = 0 * При прочих неизменных величинах большему отличию X от X соответствует большее значение стан- дартной ошибки прогноза. Если статистическая модель простой линейной регрессии соответствует действитель- ности, границы интервала прогноза величины У равны следующему: Y±tsf, (6.10) где/ — квантиль распределения Стьюдента с п-2 степенями свободы (df=n-2.). Если выборка велика (/г >30), этот квантиль можно заменить соответствующим квантилем стандартного нормального распределения. Например, для большой выборки 95%-ный интервал прогноза задается следующими значениями. y±2sz (6.11) Пример 6.4 Графически 95%-ный интервал прогноза значений У для данных мистера Бампа представлен на рис. 6.4. Используя результаты из табл. 6.3 и уравнения 6.9, где X =1,44, найдем стандартную ошибку прогноза в точке X = 1,63. Р - о 70 кд. 1 д. О,63-W4)2 _ _ _ . , _ _ 1 sr = 2,72, И---1----------=2,72-1,069 = 2,91 Z V 10 0,824 Из примера 6.3 известно, что У=8,44 при Х= 1,63. Используя уравнение 6.10, находим 95%-ный интервал прогноза для У: Y+tsf= 8,44 ± 2,306-2,91 = 8,44 ± 6,71 или (1,73; 15,15), т.е. от 1730 до 15 150 галлонов. Здесь 2,306 = Го.огз — это нижний 2,5%-ный квантиль /-распределения с 8 степенями свободы. При выборе X—X прогнозу равен Y = У.
266 ГЛАВА 6 Выборочная Таблица 6.3. Вычисление £(л - л У для примера 6.4 1,30 0,0196 2,00 0,3136 1,70 0,0676 1,50 0,0036 1,60 0,0256 1,20 0,0576 1,60 0,0256 1,40 0,0016 1,00 0,1936 1,10 0.1156 £(Х-Х)2 =0,8240 Интервал прогноза настолько велик, что практически бесполезен для прогнозирования значений величины Y. Это связано с тем, что исходная выборка мала, а значение sf сравни- тельно велико. Степень неопределенности, представленная большим интервалом прогноза, не видна по отдельным точечным прогнозам, полученным из функции регрессии. Значитель- ным преимуществом интервальной оценки является явное отражение неопределенности, связанной с прогнозом.
Простая линейная регрессия 267 Вообще говоря, опасно использовать регрессионную функцию для предсказания зна- чений величины Y вне области имеющихся данных. Мистер Бамп вполне оправданно пытается получить прогноз для величины Y при Х= 1,63, поскольку некоторые из имею- щихся в исходных данных значений Л' близки к 1,63. С другой стороны, нельзя прогнози- ровать значение Y при X = 3,00. Среди исходных данных нет таких больших значений Л', и поэтому любой прогноз значения Y для подобного значения X очень сомнителен5. При попытке оценить количество молока, которое может быть продано по цене 3 доллара за галлон, мистер Бамп должен исходить из предположения, что при подобных значениях цены линейная модель остается верной. У него могут быть определенные причины счи- тать так, однако никаких явных свидетельств этого не существует. Завершим раздел обзором предположений, положенных в основу статистической мо- дели линейной регрессии. 1. Для заданного значения Л' генеральная совокупность значений Y имеет нормальное распределение относительно регрессионной прямой совокупности. Это условие про- демонстрировано на рис 6.3. На практике приемлемые результаты получаются и тогда, когда значения Yимеют нормальное распределение лишь приблизительно. 2. Разброс генеральной совокупности точек данных относительно регрессионной прямой совокупности остается постоянным всюду вдоль этой прямой. Иными словами, при возрастании значений X в точках данных дисперсия генеральной совокупности не увеличивается и не уменьшается. Нарушение этого предположения называется гетероскедастичностью. Пример такой ситуации и методы действий в подобных случаях будут рассматриваться в главе 8. 3. Слагаемые ошибок е независимы между собой. Это предположение определяет случайность выборки точек Х-Y. Если точки данных Х-Y записывались в течение некоторого времени, данное предположение часто нарушается. Вместо независимых данных, такие последо- вательные наблюдения будут давать серийно коррелированные значения. Методы работы в случае серийно коррелированных данных будут рассмотрены в главе 8. 4. В генеральной совокупности существует линейная зависимость междуХ и Y. По ана- логии с простой линейной регрессией может рассматриваться и нелинейная зави- симость между % и Y. Некоторые такие случаи будут обсуждаться ниже в этой главе. Разложение дисперсии Из уравнения 6.5 мы имеем следующее. Y=Y+(Y-Y) или Y=(b0 + biX) + (Y-b0-biX) / Т \ Наблюдаемое значение Y Объясненное линейной Остаток или отклонение от ли- зависимостью нейной зависимости Более того, стандартная ошибка прогноза также будет большой, поскольку значение X = X отно- сительно велико.
268 ГЛАВА 6 В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и зна- чения Y полностью вычисляются или объясняются линейной функцией от X. Отнимая Y от обеих частей предыдущего равенства, имеем следующее. y-F=(r-r)+(r-r) Несложными алгебраическими преобразованиями можно показать, что суммы квад- ратов складываются. + (6.12) ИЛИ SST = SSR + SSE, где 55Т = £(У-У)2 Здесь SS обозначает “сумма квадратов” (Sum of Squares), а Т, R, Е— соответственно “общая” (Total), “регрессионная” (Regression) и “ошибки” (Error). С этими суммами квадратов связаны следующие величины степеней свободы. dj{SST) = п - 1 dflSSR) = 1 dfiSSE) = п-2 Так же, как и суммы квадратов, степени свободы связаны следующим соотношением. п- 1 = 1+ (п -2) (6.13) Если линейной связи нет, Y не зависит от Хи дисперсия Y оценивается значением выбо- рочной дисперсии. Если, с другой стороны, связь междуХ и Y имеется, она может влиять на некоторые раз- ности значений Y. Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую ли- нейной зависимостью. Сумма квадратов ошибок, SSE, — это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью. Разложение дисперсии SST = SSR + SSE Общая изменчи- Изменчивость, Остаток, или вость У объясненная линейной необъясненная зависимостью изменчивость
Простая линейная регрессия 269 Суммы квадратов, связанные с разложением изменчивости Y, и их соответствующие величины степеней свободы могут быть размещены так, как показано в табл. 6.4, извест- ной как таблица анализа дисперсии или таблица ANOVA (ANalysis OfVAriance). Таблица 6.4. Таблица ANOVA для прямолинейной регрессии Источник Сумма квадратов Степени свободы Среднеквадратичное значение Регрессия SSR 1 MSR = SSR/1 Ошибки SSE п-2 MSE = SSE/(n - 2) Общая SST п- 1 Последний столбец таблицы ANOVA— это среднеквадратичные значения. Средне- квадратичное регрессии, MSR, — это регрессионная сумма квадратов, разделенная на их величину степеней свободы. Аналогично среднеквадратичное ошибок, MSE, — это сумма квадратов ошибок, разделенная на их величину степеней свободы. Из уравнения 6.7 имеем следующее: т.е. имеем равенство MSE квадрату стандартной ошибки оценки. Отношение среднеквад- ратичных значений будет использовано для другой цели в этой главе дальше. Пример 6.5 Мистер Бамп начал свой анализ данных с информации об объемах продаж только за 10 недель (переменная У). Если другой информации не поступит, мистер Бамп может использовать выбо- рочное среднее У=11,2 как прогноз количества продаваемого молока для каждой недели. Ошиб- ки или отклонения, связанные с этим прогнозом, равны У-У, и сумма квадратов ошибок дает нам ^(У-у) Отметим, что последнее значение, ^(у-У) , в точности равно SST, общей сумме квадратов, введенной в уравнении 6.12. Таким образом, SST измеряет отклонение значе- ния У от прогноза, использующего лишь значения У в его вычислении.6 Прогноз величины У, значения отклонения У- У и суммы квадратов SST = У (у - У V приведены в табл. 6.5.7 Таблица 6.5. Отклонения для данных мистера Бампа и значения прогноза Y Данные У Прогноз У (У) Отклонения (У-У) (У-У/ 10 11,2 -1,2 1,44 6 11,2 -5,2 27,04 Если анализ остановить на этом этапе, отклонения Y следует измерять выборочной дисперсией ^ = £(у-у)2 вместо SST = ЕИ . Выборочная дисперсия является обычной мерой из- менчивости наблюдений одной переменной. Сумма отклонений У—У всегда равна нулю, поскольку среднее?является математическим центром значений У.
270 ГЛАВА 6 Окончание табл. 6.5 Данные Y Прогноз Y (Y) Отклонения (Y-Y) (Т-У/ 5 11,2 -6,2 38,44 12 11,2 0,8 0,64 10 11,2 -1,2 1,44 15 11,2 3,8 14,44 5 11,2 -6,2 38,44 12 11,2 0,8 0,64 17 11,2 5,8 33,64 20 11,2 8,8 77.44 Сумма: 0,0 233,60 Мистер Бамп также имеет информацию о значениях переменной X (о цене одного галлона молока), соответствующих величинам У. (Напомним из примера 6.1, что г = -0,86.) Можно ожидать, что с помощью этой дополнительной переменной мы сможем объяснить часть из- менчивости (разностей) значений У, не объясненной прогнозом У. Из примера 6.2 известно, что линейный прогноз пар значений Х-Y задается уравнением У= 32,14- 14,54%. Таблица, подобная табл. 6.5, может быть построена, если мы возьмем У в качестве прогноза значений У. Результат приводится в табл. 6.6.8 Таблица 6.6. Отклонения для данных мистера Бампа при значении прогноза} X У Прогноз Y (Y), использующий уравнение Y = 32,14 - 14,54% Отклонения (Y-Y) (Y-Y)2 1,30 10 13,238 -3,238 10,48 2,00 6 3,060 2,940 8,64 1,70 5 7,422 -2,422 5,87 1,50 12 10,330 1,670 2,79 1,60 10 8,876 1,124 1,26 1,20 15 14,692 0,308 0,09 1,60 5 8,876 -3,876 15,02 1,40 12 11,784 0,216 0,05 1,00 17 17,600 -0,600 0,36 1,10 20 16,146 3.854 14,85 Сумма: 0,000 59,41 s Если свободный член включен в уравнение регрессии, сумма отклонений У IУ — УI всегда равна нулю.
Простая линейная регрессия 'll 1 Сравнение табл. 6.5 и 6.6 показывает, что использование Y в качестве прогноза значения Y приводит, вообще говоря, к меньшим отклонениям (по абсолютной величине) и существенно меньшим суммам квадратов остатков (ошибок), чем применение для прогноза значения Y. Использование соответствующих значений % уменьшает ошибку прогноза (предсказания). Таким образом, знание значений % помогает лучше объяснить разности Y. Но в какой мере может помочь знание значений А? Ответ на этот вопрос можно получить посредством раз- биения изменчивости. Используя данные из табл. 6.5,6.6 и уравнение 6.12, имеем SST = Y(Y-Y)2 = 233,60 5'5'Е = ^(У-У)2=59,41 и, следовательно, ssr = _ И*= SST ~ SSE = 233’60 -59>41=174>19 • Разбиение изменчивости является следующим. SST = SSR + SSE 233,60 = 174,19 + 59,41 Общая Объясненная Необъясненная вариация вариация вариация Для изменчивости, оставшейся после предсказания Y через значение Y, мистер Бамп по- лучил следующее значение. SSR 174,19 ----=------= 0,75 . SST 233,60 Это та часть, которая объясняется взаимосвязью значений Y и X. Доля вариации Y относи- тельно У, равная 1 - 0,75 = 0,25, осталась необъясненной. С этой точки зрения знание значе- ний соответствующей переменной X приводит к лучшему прогнозу значений У, чем прогноз, полученный из значения У, не зависящего от А'. Разбиение изменчивости для данных мистера Бампа может быть представлено в таблице анализа дисперсии ANOVA, как это показано в следующем примере. Пример 6.6 Мистер Бамп решил построить для своих данных таблицу анализа дисперсии (ANOVA), об- щий вид которой представлен в табл. 6.4, воспользовавшись результатами вычисления сумм квадратов из примера 6.5., приведенными в табл. 6.7. Разбиение изменчивости ясно показано в столбце с суммами квадратов. Обратите внима- ние на то, что с учетом погрешности округления MSE = 7,43 = (2,72)2 = s2,х. Таблица 6.7. Таблица ANOVA для данных Бампа Источник Сумма квадратов Степени свободы Среднеквадратичное значение Регрессия 174,19 1 174,19 Ошибки 59.41 8 7,43 Общая 233,60 9
272 ГЛАВА 6 Коэффициент детерминации Тождество (У-У) = (У-У) + (У-У) приводит к разбиению дисперсии, данному в уравнении 6.12. Для регрессионной прямой данных мистера Бампа и гипотетических точек данных разбиение графически представ- лено на рис. 6.5. 32.14 = Ь0 30 £ 20 о £ 10 . У- /(объясненное посредством X) }У- /(необъясненное посредством X) X 1.00 х=1.44 2.00 Цена Рис. 6.5. Объясненная и необъясненная дисперсии для данных мистера Бампа Если величина У не зависит от X, мистеру Бампу следует ожидать значения У, близкие к У, а разности У - У просто отражают случайные отклонения. Однако в действительности величина У зависит от %, что демонстрируется функцией регрессии. На рисунке взято значение X, большее X , и известно, что X и У имеют значительную отрицательную кор- реляцию (г = -0,86). Общее расстояние по вертикали равно У- У, величина У - У, следова- тельно, “объясняется” изменением %, тогда как оставшееся по вертикали расстояние У- У “не объясняется” изменениемX. Как было указано в предыдущем разделе, показатель SST измеряет общую вариацию относительно У, а ее часть, объясненная изменением %, соответствует SSR. Оставшаяся, или необъясненная вариация, соответствует SSE. Отношение объясненной вариации к общей называется выборочным коэффициентом детерминации и обозначается г2. 2 _ объясненная вариация _ SSP _ ^) _ общая вариация SST ^(у~у)2 _ / лх2 (6.14) необъясненная вариация _ SSE _ общая вариация SST
Простая линейная регрессия 273 Коэффициент детерминации измеряет долю изменчивости У, которую можно объяс- нить с помощью информации об изменчивости (разнице значений) независимой пе- ременной X. Пример 6.7 Коэффициент детерминации г2 для данных мистера Бампа был вычислен в примере 6.5, хотя там он и не был назван именно так. Значение коэффициента детерминации также можно лег- ко получить из таблицы ANOVA, представленной табл. 6.7 (пример 6.6). Напомним, что 557 = £(У-У)2 =233,60 5'Ж = ^(у-у)2=174,19 SSE = Y(y-Y)2 =59,41 и ^=12^ = 0,746. 233,60 Кроме того, г2 можно вычислить следующим образом. 59 41 г2 = 1--Д-?—= 1-0,254 = 0,746 233,60 Около 75% изменчивости количества проданных галлонов молока (У) можно объяснить разницей в цене галлона (X). Около 25% изменчивости количества проданного молока нельзя объяснить изменением цены. Эта часть изменчивости может быть объяснена влиянием фак- торов, не учтенных в проведенном регрессионном анализе (например, рекламой, возможно- стью замены продуктов, качеством молока и т.п.). В случае прямолинейной регрессии коэффициент детерминации г2 равен квадрату ко- эффициента корреляции г. коэффициент детерминации 2 (коэффициент корреляции)2 (г)2 Значит, для данных мистера Бампа, с учетом погрешности округления, 0,746 = (~0,843)2. Почему в регрессионном анализе коэффициенты гиг2 необходимо рассматривать от- дельно? Причина в том, что они несут различную информацию. Коэффициент корреляции выявляет не только силу, но и направление линейной связи. В случае данных, собранных мистером Бампом, имеет место отрицательная взаимосвязь (г = -0,86). В других случаях значение г может указывать на положительную взаимосвязь. Как будет показано в следующей главе, когда мы имеем дело с большим набором перемен- ных, иногда полезно учитывать характер взаимосвязи в некоторых парах переменных. Сле- дует отметить, что когда коэффициент корреляции возводится в квадрат, полученное зна- чение всегда будет положительным и информация о характере взаимосвязи теряется. Коэффициент детерминации г2 измеряет силу взаимосвязи между У и % иначе, чем ко- эффициент корреляции г. Значение г2 измеряет долю изменчивости У, объясненную раз-
274 ГЛАВА 6 ницей значений %. Эту полезную интерпретацию можно обобщить на взаимосвязь между Y и более чем одной переменной X. На рис. 6.6 иллюстрируется два крайних случая для значения коэффициента г2: г2 = О и г" = 1. В случае (а) изменчивость У никак не объясняется изменениями %: диаграмма рассеивания не показывает никакой линейной взаимосвязи между значениями величин % и У. В случае (б), когда коэффициент г2 = 1, изменчивость У полностью объясняется, если известны значения X: все точки данных в нашей выборке лежат на прямой регрессии. 9 9 9 ---Ц- ' - ' Ц-Y = Y обо ------------------X Г2 =1 -£(У-У)2/£(У-У)2 =1-1=0 а) линейная корреляция отсутствует г2 =1 -£(У-У)2/£(У_У)2 =1-0=1 б) четко выраженная линейная корреляция Рис. 6.6. Интерпретация крайних значений коэффициента детерминации г2 Проверка гипотез Прямая регрессии вычисляется по выборке пар значений %-У. Статистическая модель простой линейной регрессии предполагает, что линейная связь величин X и У имеет ме- сто для всех возможных пар Х-Y. Поэтому взаимосвязь величин X и У имеет вид = Ро + PiX Можем ли мы по данной выборке сделать заключение, что такое соотношение истинно для всех X и У? Рассмотрим гипотезу Но: Pi = 0, где Р] — угловой коэффициент регрессионной прямой генеральной совокупности. Заме- тим, что если эта гипотеза справедлива, в генеральной совокупности нет связи между значениями X и У. Если мы не можем опровергнуть гипотезу Нй, то, несмотря на ненуле- вое значение вычисленного по выборке углового коэффициента регрессионной пря- мой hi, мы не имеем оснований гарантированно утверждать, что значения % и У взаимо- зависимы. Иными словами, мы не можем исключить возможность того, что регрессион- ная прямая совокупности горизонтальна9. Как может оказаться, что Pi равно нулю, если Ь} отлично от нуля? Рассмотрим рис. 6.7, на котором показаны точки генеральной совокупности, из которых взята выбор- ка из пяти точек (точки данных выборки отмечены знаком х). ’ Горизонтальное положение регрессионной прямой совокупности (т.е. Pi — 07 эквивалентно выполнению утверждения: Но .’ р = 0, где р — коэффициент корреляции генеральной совокупности.
Простая линейная регрессия 275 Ь^О Выборочная регрессионная прямая —/31=0 Истинная регрессионная прямая Рис. 6.7. Генеральная совокупность и точки данных выборки Приведенная на рис. 6.7 диаграмма рассеивания позволяет предположить, что если количество точек выборки велико, то такой набор точек данных будет давать регрессион- ную прямую с нулевым наклоном. Однако при случайном выборе пяти точек они оказа- лись расположенными близко к некоторой прямой регрессии, дающей возрастание. Бы- ло бы ошибочным делать отсюда заключение, что % и Y имеют положительную линейную взаимосвязь. Однако если гипотеза Pi = 0 проверяется только на данных выборки, иссле- дователь не сможет ее отклонить. Если гипотеза Но: Pi = 0 верна, проверочная статистика t со значением t = — имеет t- распределение с количеством степеней свободы df=n-2. Здесь оценка стандартного отклонения (или стандартная ошибка) равна 5^ = syx/^^j(x -X'f . Данный результат позволяет проверять гипотезу Но: Pi = 0 так, как это показано в следующем примере. Пример 6.8 Мистер Бамп хочет проверить гипотезу Но: Р) = 0 (линейная связь отсутствует) при альтернативе Hi: Pi * 0 (имеется линейная связь с ненулевым наклоном) Он вычислил, что10 \ а/£(Х-Х)2 = 2,72/^0^24 = 3,00, '° Используемые числовые значения были вычислены в предыдущих разделах этой главы.
276 ГЛАВА 6 и рассчитал следующее отношение (значение проверочной статистики). z=A=z!^=_4;8 j. 3,00 Является ли значение t = -4,8 возможным при допущении, что гипотеза Но верна? Из таб- лиц /-распределения для п - 2 = 8 степеней свободы следует, что to, оо5 = 3,355 /о,О25 = 2,30 6 Поскольку |/| = 4,8 > 3,355, Бамп отклонил гипотезу Но на уровне значимости 1%. Он за- ключил, что регрессионная зависимость имеет место, поскольку значение / = -4,8 очень ма- ловероятно, если гипотеза Но истинна. Настолько большое значение / может появиться не чаще одного раза из 100, если линейной связи между величинами У и % нет. Для выборки очень большого объема можно отклонить гипотезу Но и заключить, что между У и К есть линейная связь даже в тех случаях, когда значение г2 мало (например, 10%). Аналогично для малых выборок и очень большого значения г2 (например, 95%) можно сделать вывод, что регрессионная зависимость имеет место. Ма- лое значение коэффициента детерминации г2 означает, что вычисленное уравнение рег- рессии не имеет большого значения для прогноза. С другой стороны, большое значе- ние г2 при очень малом объеме выборки не может удовлетворить исследователя, и потре- буются дополнительные обоснования, чтобы вычисленную функцию регрессии исполь- зовать для целей прогноза. Такова разница между статистической и практической значимостью. В то же время вся собранная информация, а также понимание сущности рассматриваемого объекта будут необходимы, чтобы определить, может ли вычисленная функция регрессии быть подходящим средством для прогноза. Еще один способ проверки гипотезы Но: Pi = 0 возможен с помощью таблицы ANOVA. При предположении, что статистическая модель линейной регрессии правильна и ну- левая гипотеза Но: Pi = 0 истинна, отношение Среднеквадратичное значение регрессии MSR F =-----------------------------------=------ Среднеквадратичное значение ошибок MSE имеет F-распределение со степенями свободы df= 1, п - 2. Если гипотеза Но истинна, ка- ждая из величин MSR и MSE будет оценкой о2, дисперсии слагаемого ошибки в в стати- стической модели прямолинейной регрессии. С другой стороны, если верна гипотеза 7/,: Pi *0, числитель в отношении/7 стремится стать большим, чем знаменатель. Боль- шое значение Fсогласуется с истинностью альтернативной гипотезы. (6.15) Для модели прямолинейной регрессии проверка гипотезы Но: Р, = 0 при альтернативе Ht: Pt / о основывается на отношении F = с df=l, п-2. При уровне значимо- MSE сти а область отклонения гипотезы: F> Fa . Как будет показано в следующей главе, F-критерий можно распространить на случай про- верки значимости регрессионной модели при более чем одной независимой переменной.
Простая линейная регрессия 277 Пример 6.9 Из табл. 6.7, которая представляет собой таблицу ANOVA для данных, собранных мистером Бампом, следует: F = "=!^ = 23,4 MSE 7,43 и для 8, = 1 и 62 = 8 степеней свободы Foos = 5,32 FOioi =я 11,26 Поскольку F = 23,4 > 11,26, гипотеза Но: 0[ = 0 отклоняется на уровне 1%. Отсюда следует, что регрессия является значимой. Нет никакого противоречия в том, что проверку с помощью F-критерия можно заменить проверкой /-критерием из примера 6.8. Фактически, с учетом ошибок округления, F= 23,4 = (-4,8)2 = г2, а также Fo,ol = 11,26 = (3,355)2 = (<0,005)2 Значит, для данного уровня значимости /-критерий отклоняет гипотезу Но: 0! = 0 тогда, когда ее отклоняет F-критерий, и наоборот. Такая взаимосвязь между /-критерием и /-'-критерием существует только для модели прямолинейной регрессии. Значение F-статистики также может быть выражено в терминах коэффициента де- терминации г2. F = r2{n'P (6.16) 1-г2 При прочих неизменных величинах, F возрастает при увеличении значения г2. При этом все большая часть вариации величины Y будет объясняться вычисленной функцией рег- рессии, а F-критерий во все возрастающей степени будет признавать регрессионную за- висимость значимой. Анализ остатков Подбор модели методом наименьших квадратов, построение интервалов прогноза и про- верка гипотез не завершают изучение регрессии. Эти этапы составляют лишь половину дела: выводы, сделанные при предположении, что рассматриваемая модель адекватна действительности. Однако в большинстве случаев вовсе не очевидно, что некоторая ча- стная модель является подходящей. Выводы могут оказаться ошибочными, если сделанные для выбранной модели пред- положения не подтверждаются данными. Важно тщательно проверить данные с целью учета возможных нарушений любых сделанных предположений. Напомним, что предпо- ложения, сделанные для модели прямолинейной регрессии, состоят в следующем. 1. Связь между переменными является линейной. 2. Ошибки являются независимыми. 3. Дисперсии ошибок равны. 4. Значения ошибки нормально распределены.
278 ГЛАВА 6 Информация о вариации, которая не может быть объяснена функцией регрессии, со- держится в остатках е = У- Y. Для того чтобы проверить соответствие предполагаемой модели, можно рассмотреть остатки, различными способами располагая соответствую- щие точки на координатной плоскости. 1. Построить гистограмму значений остатков. 2. Расположить остатки по значениям оцениваемых величин. 3. Расположить остатки по значениям объясняющих переменных. 4. Расположить остатки по времени их появления, если исходные данные хроноло- гически упорядочены. Построение гистограммы остатков позволяет проверить предположение об их нор- мальном распределении. Как правило, небольшие отклонения от кривой наилучшего приближения не противоречат заключениям, полученным с помощью тестов или интер- валов прогноза, основанных на ^-распределении. Нарушение условия нормальности обычно не так серьезно, как нарушение любого из других предположений. Если расположение соответствующих остаткам точек по оцениваемым значениям указывает, что общий вид взаимосвязи между Y и X характеризуется не прямой линией, а некоторой кривой, то можно применить подходящее случаю преобразование данных, по- зволяющее уменьшить нелинейность и получить приблизительно линейную зависимость между этими величинами. Возможные преобразования переменных рассматриваются в последующих разделах этой главы. Преобразование может также помочь стабилизировать дисперсию. На рис. 6.8 пред- ставлен график остатков, указывающий на увеличение их разброса с возрастанием зна- чений оцениваемой величины. Иными словами, разброс точек данных относительно рег- рессионной прямой будет большим для больших значений оцениваемой переменной и меньшим — для малых их значений. Отсюда следует, что в данном случае условие неиз- менности дисперсии остатков не выполняется. В подобной ситуации проведение анализа логарифма значений Y по отношению к X может дать вариацию остатков, в большей сте- пени согласующуюся с требованием постоянства дисперсии. Рис. 6.8. График остатков, демонстрирующий возрастающий разброс их значений Предположение о независимости значений остатков наиболее критично. Наличие не- которой зависимости в значениях остатков способно чрезмерно искажать заключения,
Простая линейная регрессия 279 получаемые из анализа /-критерия. Нарушения условия независимости весьма вероятны в случае временных рядов — подобные данные часто фигурируют в задачах прогноза из области бизнеса и экономики. Для остатков временнь/х рядов, т.е. остатков, полученных при использовании регрес- сионных методов для данных, упорядоченных по времени, независимость может быть проверена посредством представления этих остатков на графике по времени их появле- ния. На таком графике не должно быть систематически повторяющихся структур — на- пример, регулярное появление серии малых значений после серии больших значений. Кроме того, независимость значений остатков можно проверить, вычислив для них выборочную автокорреляцию: У ее к=\,2,...,К, <6-17) 1=1 где п — количество остатков (обычно К= п/4). Независимость имеет место в тех случаях, когда коэффициенты автокорреляции остатков равномерно малы (каждый коэффициент лежит в интервале 0 ± 2/Jn ) для всех запаздываний к. Пример 6.10 Используя значения прогноза и остатков, приведенные в табл. 6.6, мистер Бамп построил гистограмму остатков и график остатков, расположенных по значениям оцениваемой пере- менной. Результаты его работы приведены на рис. 6.9. MINITAB Untitled |Besplot«J Ви» |[/<М|«ПЛВ-linlilted [. ДЗЛ * Puc. 6.9. Графики остатков для данных мистера Бампа (прило- жение Minitab) Гистограмма центрирована относительно нулевого значения. Хотя данная гистограмма и симметрична, все же она не выглядит очень хорошо сглаженной. Однако для всего лишь
280 ГЛАВА 6 10 наблюдений гистограмму, подобную приведенной на рис. 6.9, не следует расценивать как нетипичную для нормально распределенных данных. Поэтому предположение о нормально- сти в данном случае выглядит вполне естественным. Второй график на рис. 6.9 также выглядит достаточно хорошо. Когда точки остатков рас- положены напротив оцениваемых величин, их отклонения от нуля по вертикали должны быть примерно равны для всех значений по горизонтальной оси. Иначе говоря, значения от- клонений для малых оцениваемых величин должны быть примерно равны значениям откло- нений для средних оцениваемых величин и примерно равны значениям отклонений для больших оцениваемых величин. Подобная идеальная ситуация предполагает справедливость сразу двух утверждений — взаимосвязь между % и Y является линейной и дисперсия ошибки постоянна (значения Y для различных % имеют одинаковый разброс относительно прямой дисперсии). Мистер Бамп был удовлетворен тем, что график остатков, расположенных напротив оце- ниваемых величин, не “изгибается”, как в случае, например, когда серия положительных ос- татков следует после серии отрицательных, после чего опять идет серия положительных ос- татков. В такой ситуации следует предположить наличие нелинейной взаимосвязи между значениями У иХ. Мистеру Бампу также понравилось, что этот график не характеризуется конической формой, подобно графику на рис. 6.8, что указывало бы на непостоянную (возрастающую) изменчивость в данных. В исследуемых данных величина У представляет недельные объемы продаж молока, одна- ко недели были выбраны случайно и не являются упорядоченными во времени. Следователь- но, построение графика остатков по времени или вычисление коэффициентов автокорреля- ции остатков в данном случае неуместно. Мистер Бамп был полностью удовлетворен выполненным анализом остатков и пришел к заключению, что модель прямолинейной регрессии адекватно описывает взаимосвязь между объемами продаж молока и его ценой. Результаты компьютерных расчетов Задача регрессионного анализа данных мистера Бампа (см. табл. 6.1) решалась им с по- мощью приложения Minitab (дополнительные разъяснения будут даны в разделе “Применение Minitab” в конце этой главы). Результаты вычислений представлены в лис- тинге 6.1. Листинг 6.1. Результаты вычислений, выполненных приложением Minitab для данных мистера Бампа Correlations (Pearson) Y X -.863 (1) and (12) Regression Analysis The regression equation is Sales (Y) = 32.1 - 14.5 Price (X) (5) and (2) Predictor Coef SE Coef T P Constant 32.136 (5) 4.409 7.29 0.000
Простая линейная регрессия 281 Price (X) -14.539 (2) 3.002 (3) -4.84 (4) 0.001 (7) S = 2.725 (6) R-Sq = 74.6% (8) R-Sq(adj) = 71.4% (9) Analysis of Variance Source DF SS MS F P Regression 1 174.18 174.18 23.45 (13) 0.001 Residual Error 8 59.42 (10) 7.43 (6) Total 9 233.60 (11) Ниже объясняется используемая в приложении Minitab терминология, даются необ- ходимые определения и описываются выполняемые вычисления. Все эти пояснения от- носятся к содержимому листинга 6.1. 1. Correlations — коэффициент корреляции, равный-0,863. Это выборочный коэффициент корреляции (г), определяющий взаимосвязь между переменными X и Y, или ценой и объемом продаж молока соответственно. 2. Coef — коэффициент регрессии, равный -14,54. Эта величина показывает изме- нение Y(продажи), если X (цены) изменяется на единицу (Ь^. Если цена увеличи- вается на один доллар, оценка объема продаж уменьшается на 14 540 единиц. 3. SE Coef — стандартная ошибка коэффициента регрессии, равная 3,0. Это значе- ние является стандартным отклонением выборочного распределения значения коэффициента регрессии (Z>i). , °- -I-™--,™ tax-»)’ °'™ ' 4. т — вычисленное /-значение, равное -4,84. Вычисленное /-значение используется для оценки, насколько заметно коэффициент регрессии Pi генеральной совокуп- ности отличается от нуля. s, = 3,00 А ’ 5. Constant — свободный член уравнения регрессионной прямой, равный 32,136. Это то значение, в котором регрессионная прямая пересекает ось Y(Z>0). Отсюда следует, что общее уравнение регрессии имеет следующий вид. У= 32,14- 14,54^ 6. S — стандартная ошибка оценки, равная 2,725. Она показывает, что обычно зна- чения Y отклоняются от прямой регрессии на 2,725 единиц. 5 = J = -JMSE = Т7~43 = 2,725 ух V п-2 \п-2 N 7. р— значение, равное 0,001, определяет вероятность того, что вычисленный ко- эффициент регрессии -14,54 будет получен при выполнении гипотезы Но: pt = 0.
282 ГЛАВА 6 Поскольку величинар исключительно мала, мы можем сделать заключение, что вычисленная величина углового коэффициента регрессии значима. 8. R-Sq — значение г2, равное 74,6% или 0,746. Вычисленная прямая регрессии объ- ясняет 74,6% изменчивости объема продаж. 2 SSR г =----- SST SSE SST 59,42 233,60 = 1-0,254 = 0,746 9. R-Sq(adj) — скорректированное значение г2, равное 0,714. Значение г2 коррек- тируется для соответствующих степеней свободы. 59,42/8 = ,_ Y(Y-Y]/(n-l) SST/(n-l) 233,60/9 25,956 10. SS — сумма квадратов ошибок (Residual Error), равная 59,42. Сумма квадра- тов ошибок представляет собой сумму квадратов разностей между данными зна- чениями Y и прогнозами этих величин Y. 55Е = £(г-У)2 =59,42 11. Total — общая сумма квадратов ошибок, равная 233,60. Это значение равно сумме квадратов отклонений величин Y от их среднего. SSr = 5}(Г-F)2 =233,60 12. Корреляционная матрица (Correlations). Эта матрица дает значения корреля- ций между всеми переменными в анализе. Поскольку в нашем анализе участвуют лишь две переменные, в матрице имеется только один коэффициент корреляции (-0,863). 13. F — анализ дисперсии и отношение F, равное 23,45. Значение отношения F (23,45 = 174,18/7,43) в этой таблице ANOVA проверяет нулевую гипотезу о том, что регрессионная зависимость незначима, т.е. верна гипотеза Но: Pi = 0. Боль- шое значение F позволяет отклонить эту гипотезу, предполагая значимость рег- рессии для имеющихся данных. Величина F (23,45) становится больше, когда увеличивается доля общей суммы квадратов отклонений, объясняемая регрес- сией. В этом случае табличное значение F (df= 1, а = 0,01) равно 11,26. Поэтому гипотеза о незначимости регрессии отклоняется на уровне значимости 1%, по- скольку F= 23,448 > 11,26. Преобразования переменных Хотя модель простой линейной регрессии предполагает прямолинейную зависимость между величинами YnX, в общем случае модель линейной регрессии относится к мо- делям, линейным относительно неизвестных р. До тех пор, пока функция регрессии является линейной по всем Р (например, в уравнении не участвует Р2), независимые переменные X могут входить в уравнение различным образом, и при этом стандартная методология регрессии будет по-прежнему применима. В подобных случаях регресси-
Простая линейная регрессия 283 онные модели могут быть использованы для моделирования сложных взаимосвязей между величинами У и А" (и даже несколькими переменными X) или же для моделиро- вания прямолинейной взаимосвязи между величиной У и некоторой функцией (преобразованием) от величины X. Когда диаграмма рассеивания указывает, что в данных присутствует нелинейная за- висимость между У и X, возможны два основных подхода к исследованию этих данных. Первый из них — подобрать для значений данных такую функцию регрессии, которая даст расположение точек на графике, приблизительно соответствующее имеющемуся, а затем использовать найденную взаимозависимость для составления прогноза. Второй подход предполагает преобразование переменной X в другой вид таким обра- зом, чтобы полученная в результате взаимосвязь между модифицированным X и У оказа- лась линейной. Для создания новых независимых переменных чаще всего используются четыре типа преобразований (функций) — обратная, логарифмическая, квадратный корень и квад- ратная. 4 log(X), Jx, х2 Л. Если точки этих функций расположить на графике вместе с соответствующими значе- ниями У, можно надеяться, что нелинейную взаимосвязь между У и А" удастся привести к линейной зависимости между У и одной из преобразованных переменных X. Если преоб- разование будет успешным, величину У и эту новую переменную можно будет исследо- вать с помощью модели прямолинейной регрессии, обсуждаемой в этой главе, включая вычисление коэффициента корреляции и подбор уравнения регрессии. В примере 6.11 приложение Minitab используется для построения графика зависимо- сти величин А" и У, которая, как оказывается, имеет нелинейный характер. В этом случае приложение позволяет применить любое из четырех преобразований, упоминавшихся выше. Результаты преобразований представлены на приведенных ниже графиках, где вычисленные значения расположены напротив соответствующих значений У. Пример 6.11 Гилберт Гарсиа (Gilbert Garcia) содержит сеть магазинов вычислительной техники в Чикаго, штат Иллинойс. Его интересует прогноз месячных объемов продаж в зависимости от расхо- дов на рекламу. Гилберт полагает, что если расходы на рекламу будут увеличиваться, месяч- ные объемы продаж тоже будут возрастать. Однако он также считает, что после достижения некоторого значения объемы продаж будут возрастать с меньшей скоростью. Гилберт пони- мает, что по достижении определенного уровня расходов на рекламу возникнет ситуация, когда дальнейшее значительное увеличение этих расходов даст лишь очень небольшой эф- фект в отношении роста объема продаж. Гилберт сделал выборку из накопленных компанией данных для 14 случайно вы- бранных недель. Значения этих данных показаны на рис. 6.10, а соответствующая диа- грамма рассеивания — на рис. 6.11. Гилберт отметил, что после достижения некоторого значения, при дальнейшем росте затрат на рекламу, объемы продаж действительно ока- зываются приблизительно на одном и том же уровне. Он подобрал уравнение линейной регрессии, показанное на рис. 6.12, и установил, что оно объясняет только 77,7% измен- чивости в объемах продаж.
284 ГЛАВА 6 Рис. 6.10. Данные об объемах продаж для примера 6.11 (приложение Minitab) Advertising Expenditures ($000) Рис. 6.11. Диаграмма рассеивания для данных из примера 6.11 (приложение Minitab) График остатков, расположенных напротив оцениваемых величин, демонстрирует разности между реальными данными и прогнозом (рис. 6.13). Из этого графика ясно видно, что прямоли- нейная зависимость неадекватно отображает связь между объемами продаж и расходами на рек- ламу. Для малых значений оцениваемой переменной все остатки отрицательны, для средних значений — положительны, а для больших — опять отрицательны. Иными словами, остатки не расположены случайным образом приблизительно равномерно вокруг прямой регрессии. Оче- видно, что прямая линия не соответствует реальному характеру изменения данных.
Простая линейная регрессия 285 Regression Plot Y= 0.750508+ 0.194175Х Рис. 6.12. Прямая регрессии для данных из примера 6.11 (прило- жение Minitab) Residuals Versus the Fitted Values (response is Sales) Puc. 6.13. График остатков для уравнения линейной регрессии, рас- положенных напротив оцениваемых значений (приложение Minitab)
286 ГЛАВА 6 Затем Гилберт преобразует переменную расходов на рекламу А" в logX (рис. 6.10) и анализирует график зависимости между объемами продаж и логарифмами сумм расходов на рекламу, представ- ленный на рис. 6.14. Полученная зависимость по-прежнему выглядит несколько криволинейной. 1 2 3 LOGX Рис. 6.14. Диаграмма рассеивания для объемов продаж и логариф- мов суммы расходов на рекламу (приложение Minitab) Далее Гилберт преобразует переменную расходов на рекламу А" в квадратный корень из А" (см. рис. 6.10). После построения соответствующего графика, показанного на рис. 6.15, он приходит к выводу, что и эта зависимость является нелинейной. 2 3 4 SQRTX Рис. 6.15. Диаграмма рассеивания для объемов продаж и квадрат- ных корней из сумм расходов на рекламу (приложение Minitab)
Простая линейная регрессия 287 График на рис. 6.16 демонстрирует взаимосвязь между объемами продаж и квадратом сумм расходов на рекламу. Линейная зависимость здесь также не обнаруживается. 4 -Г 3 - 2 - ф СЛ 1 - 0Чт 0 100 200 300 х*х Рис. 6.16. Диаграмма рассеивания для объемов продаж и квадрата сумм расходов на рекламу (приложение Minitab) 0.1 0.2 0.3 1/Х Рис. 6.17. Диаграмма рассеивания для объемов продаж и обратной величины сумм расходов на рекламу (приложение Minitab) Наконец, Гилберт преобразует переменную расходов на рекламуX в функцию обратного значения X (см. рис. 6.10). График этой зависимости, представленный на рис. 6.17, показывает, что анализируемые переменные связаны линейно. Дальнейшие вычисления показали, что соот- ветствующее уравнение регрессии имеет вид К = 4,29 - 12,7( 1 /X) (листинг 6.2), а значение г2 рав-
288 ГЛАВА 6 но 98,1%. Таким образом, выполненный анализ остатков доказывает, что модель, линейно свя- зывающая объемы продажи с величиной, обратной к сумме расходов на рекламу, хорошо соот- ветствует имеющимся данным. Листинг 6.2. Результаты вычислений приложения Minitab для примера 6.11 Regression Analysis: Sales versus 1/X The regression equation is Sales = 4.29 - 12.7 1/X Predictor Constant 1/X Coef 4.28587 -12.7132 SE Coef 0.07695 0.5092 T 55.69 -24.97 P 0.000 0.000 S = 0.1342 Analysis of R-Sq = Variance 98.1% R-Sq(adj) = 98.0% Source DF SS MS F P Regression 1 Residual Error 12 Total 13 11.221 0.216 11.437 11.221 623. 0.018 44 0.000 Применение в менеджменте Регрессионный анализ представляет собой статистический инструмент, наиболее часто употребляемый управляющим персоналом при необходимости оценить влияние отдель- ной независимой переменной на зависимую. Регрессионный анализ наряду с корреляци- онным анализом помогает исследователю охарактеризовать связь между переменными. Исследователь может определить как величину, так и направление взаимосвязи, сущест- вующей между переменными. В большинстве использующих регрессионный анализ задач к решению привлекаются более сложные методы многомерного регрессионного анализа (он будет обсуждаться в сле- дующей главе), поскольку большинство взаимосвязей требует изучения зависимости между зависимой переменной и более чем одной независимой переменной. Тем не менее метод простой регрессии и корреляционный анализ используются достаточно часто. Приведем несколько примеров ситуаций, требующих обращения к многомерной регрессии. • Потребление продукции. Владелец производства может попытаться предсказать, сколько пива выпивает за неделю один человек, в зависимости от значений таких переменных, как доход, возраст, образование и демографический статус. • Объем продаж. Владелец магазинов может попытаться предсказать объем продаж некоторого продукта в одном магазине при известном объеме его продаж в другом, зная разницу цен, разницу в доходах жителей прилегающих кварталов, степень доброжелательности персонала этих магазинов к покупателям, а также количество и силу конкурентов. • Цены на акции. Аналитик региональной брокерской фирмы может попытаться предсказать цену на акции нового выпуска местной фирмы на основании общего
Простая линейная регрессия 289 состояния экономики региона, уровня доходов, численности населения и престижа фирмы. • Безнадежные долги. Бухгалтер может попытаться предсказать размеры общей суммы безнадежных долгов, появление которых фирме следует предусмотреть в следующем финансовом квартале, опираясь на данные о количестве безработных, просроченных кредитах, размерах процентных ставок и ожидаемых объемах продаж. • Потребность в кадрах. Менеджер по кадрам большой производственной компании может попытаться предсказать на следующий год потребность в новых кадрах, ос- новываясь на среднем возрасте работников фирмы, размере их зарплаты по срав- нению с зарплатой на соседних предприятиях, ожидаемых новых контрактах на по- ставку продукции и наличии подобной работы на других фирмах. • Оборот торгового центра. Менеджер нового торгового центра может попытаться предсказать потребности в товарах, анализируя доход жителей окружающего рай- она, численность его населения, близость и размеры конкурирующих торговых центров. Если взаимосвязь между зависимой и независимой переменными установлена, ме- неджеры в некоторых случаях могут попытаться контролировать значения зависимой пе- ременной. Предположим, что менеджер по маркетингу определил наличие значимой по- ложительной взаимосвязи между расходами на рекламу и объемом продажи. Уравнение регрессии может быть следующим. Продажа = $43 000 + 0,3 (Расходы на рекламу) На основании этого уравнения менеджер может попытаться контролировать объем продаж посредством увеличения или уменьшения расходов на рекламу с целью достиже- ния наибольшего уровня доходов. Всякий раз, когда менеджер способен управлять зна- чением независимой переменной, появляется возможность частичного управления и за- висимой величиной. Таким образом, уравнение регрессии и коэффициент детерминации помогают менеджеру в контроле, если этот контроль того стоит. Глоссарий Коэффициент детерминации. Измеряет процент изменчивости У, которая может быть объяснена информацией об изменчивости (разностях) независимой переменной X. Прямая регрессии. Это такая прямая, которая дает наилучшее приближение к точкам данных Х-Х Она минимизирует сумму квадратов расстояний от точек данных до этой прямой, измеренных в вертикальном (по оси У) направлении. Стандартная ошибка оценивания. Измеряет величину, на которую имеющиеся значения У отличаются от их оценок У. Она равна оценке стандартного отклонения слагаемого ошибки е в модели простой линейной регрессии. Основные формулы Метод наименьших квадратов: формула углового коэффициента ь _п£ху-£х£у £(х -х)£(у-у) (6 2) ' Х(х-х)2
290 ГЛАВА 6 Метод наименьших квадратов: формула свободного члена Y Ь„=^—Ь'^Х = Y-\Х (6-3) п п Связь между угловым коэффициентом и коэффициентом корреляции (6.4) *i=JT----=ТГ J(x-x) Уравнение регрессии Y=b0 + btX (6.6) Стандартная ошибка оценивания: формула определения _ fe(y~y)2 (6.7) Syx \ п-2 Стандартная ошибка оценивания: формула для вычисления - 1^2-Ь^У~Ь^ (6.8) У п-2 Стандартная ошибка прогноза Интервал прогноза Y±tSf (6.10) 95%-ный интервал прогноза для большой выборки Y±2sf (6.11) Суммы квадратов и степени свободы разложения SST = SSR + SSE п-1 = 1 + (п-2) (6.13) Коэффициент детерминации ,, , SH’ (6.14) S(r-F)2 S(r-r)1 t-статистика для проверки гипотезы Н„: =0
Простая линейная регрессия 291 Стандартная ошибка коэффициента регрессии ^-статистика Среднеквадратичное значение регрессии MSR Г = .... =------ Среднеквадратичное значение ошибок MSE Связь между V-статистикой и коэффициентом детерминации F—TV~ Коэффициент автокорреляции остатков te,e,_k к =1,2,...,К 1=1 (6.15) (6.16) (6.17) Упражнения Примечание. В большинстве из приведенных ниже упражнений представлены данные, предназначенные для обработки с помощью процедур регрессионного анализа. Хотя в одном или двух случаях возможно, и даже полезно, выполнение необходимых вычисле- ний вручную, для читателя важно научиться использовать компьютер для решения по- добных задач. В следующей главе рассматриваются методы многомерного регрессион- ного анализа, задачи которого решать вручную практически невозможно. Для решения этих задач потребуется умение работать с программным обеспечением, выполняющим регрессионный анализ. Если у вас есть возможность работать с приложениями Minitab или Excel, инструкции по их использованию можно найти в соответствующих разделах в конце этой главы. 1. Какая из следующих ситуаций невозможна? а) Г= 499 + 0,21^и г = 0,75. б) Y= 100 + 0,9Yh г =-0,70 в) К=-20 + IA'h г = 0,40 г) У =-7 - 4%и г =-0,90 2. Миллиардные доходы компании AT&T (Американская телеграфная и телефонная компания) были оценены с использованием показателя ВНП (валовой националь- ный продукт). Соответствующее уравнение регрессии имеет вид Y = 0,078 + 0,06%, где ВНП выражен в миллиардах долларов. а) интерпретируйте значение углового коэффициента б) интерпретируйте значение свободного члена уравнения 3. Рассмотрим данные в табл. 6.8, где в столбце X приведены суммы еженедельных рас- ходов на рекламу, а в столбце Y — еженедельный объем продаж.
292 ГЛАВА 6 Таблица 6.8 У (ДОЛЛ.) X (долл.) Г (долл.) X (долл.) 1250 41 1300 46 1380 54 1400 62 1425 63 1510 61 1425 54 1575 64 1450 48 1650 71 а) существует ли значимая взаимосвязь между расходами на рекламу и объемом продаж? б) определите уравнение для расчета прогноза в) какой процент вариаций в объемах продаж объясняется уравнением прогноза? г) составьте прогноз объема продаж при расходах на рекламу, составляющих 50 долларов д) определите величину необъясненной вариации е) определите величину общей вариации 4. Сведения о времени, затраченном на обслуживание покупателей в супермаркете, и соответствующих объемах покупок приведены в табл. 6.9. Используя эти данные, от- ветьте на пп. а, б, д и е упр. 3. Вычислите точечную и 99%-ную интервальную оценку величины Y при X = 3,0. Таблица 6.9 Время обслуживания (мин.) Объем покупок (долл.) Время обслуживания (мин.) Объем покупок (Долл.) 3,6 30,6 1,8 6,2 4,1 30,5 4,3 40,1 0,8 2,4 0,2 2,0 5,7 42,2 2,6 15,5 3,4 21,8 1,3 6,5 5. Лори Франц (Lori Franz), служащей автобусного парка города Балтимора, необхо- димо определить, существует ли положительная взаимосвязь между годовыми расхо- дами на содержание автобуса и сроком его эксплуатации. Если подобная взаимо- связь будет обнаружена, Лори сможет лучше планировать размер годового бюджета автобусного парка. Она собрала данные, приведенные в табл. 6.10.
Простая линейная регрессия 293 Таблица 6.10 Автобус Расходы на содержание (долл.} Срок эксплуатации (годы) 1 859 8 2 682 5 3 471 3 4 708 9 5 1094 И 6 224 2 7 320 1 8 651 8 9 1049 12 а) постройте диаграмму рассеивания для имеющихся данных б) какой вид взаимосвязи имеет место между двумя этими переменными? в) вычислите коэффициент корреляции г) определите регрессионную прямую методом наименьших квадратов д) проверьте значимость углового коэффициента на 5%-ном уровне значимости. Является ли значимым коэффициент корреляции? Объясните полученные ре- зультаты е) спрогнозируйте стоимость годового содержания автобуса, который находится в эксплуатации уже пять лет 6. Эндрю Вазони (Andrew Vazsonyi), менеджер сети супермаркетов Spendwise, хотел бы спрогнозировать объемы продаж книг в мягких обложках за неделю, основываясь на суммарной длине книжных полок в магазине (в футах). Выборочные данные, соб- ранные Эндрю за 11 недель, представлены в табл. 6.11. Таблица 6.11 Неделя Количество проданных книг, Y Суммарная длина книжных полок (футы), X 1 275 6,8 2 142 3,3 3 168 4,1 4 197 4,2 5 215 4,8 6 188 3,9 7 241 4,9 8 295 7,7 9 125 3,1 10 266 5,9 11 200 5,0
294 ГЛАВА 6 а) постройте диаграмму рассеивания б) какой вид взаимосвязи имеет место между двумя переменными? в) вычислите коэффициент корреляции г) определите регрессионную прямую методом наименьших квадратов д) проверьте значимость углового коэффициента на 10%-ном уровне значимости. Является ли значимым коэффициент корреляции? Объясните полученные ре- зультаты е) постройте график остатков, расположенных напротив прогнозируемых вели- чин. Основываясь на этом графике, определите, соответствует ли модель про- стой линейной регрессии имеющимся данным? ж) спрогнозируйте количество книг, продаваемых за неделю при суммарной длине книжной полки в магазине, равной 4 футам 7. В табл. 6.12 приведена информация, собранная для 12 различных городов компани- ей, продающей товары по почте. Таблица 6.12 Город Количество заказов на товары (тыс.) Количество распространенных каталогов (тыс.) А 24 6 В 16 2 С 23 5 D 15 1 Е 32 10 F 25 7 G 18 15 Н 18 3 1 35 И J 34 13 К 15 2 L 32 12 а) определите, имеется ли значимая линейная взаимосвязь между этими двумя пе- ременными (проверьте при уровне значимости 0,05) б) определите прямую регрессии в) вычислите стандартную ошибку оценки г) постройте таблицу ANOVA д) какой процент изменчивости переменной количества заказов объясняется пе- ременной количества распространенных каталогов? е) проверьте, будет ли угловой коэффициент существенно отличаться от нуля (используйте уровень значимости 0,01)
Простая линейная регрессия 295 ж) проверьте значимость регрессии, используя F-статистику из таблицы ANOVA (при уровне значимости 0,01). Согласуется ли полученный результат с результа- том п. е? Должно ли быть так? з) постройте 90%-ный интервал прогноза для количества полученных заказов, ес- ли считать, что было распространено 10 000 каталогов 8. В табл. 6.13 приведены размеры банковских вкладов и начисляемых процентов за 10 лет. Размеры вкладов (тыс. долл.) Средний банковский процент 1060 4,8 940 5,1 920 5,9 1110 5,1 1590 4,8 2050 3,8 2070 3,7 2030 4,5 1780 4.9 1420 6,2 а) имеется ли значимая взаимосвязь между этими двумя переменными? б) может ли быть найдено эффективное уравнение прогноза? в) можно ли спрогнозировать объем вкладов, если банковская ставка будет рав- на 4%? г) вычислите и интерпретируйте значение г2 д) рассмотрите корреляцию и причинную связь в этом примере 9. Инвестиционная компания АВС на конкурсной основе продает акции, выпускае- мые различными фирмами, нуждающимися в дополнительном финансировании. В табл. 6.14 представлены цены компании АВС на последние 25 выпусков выставляе- мых на продажу акций, выраженные в процентах от их номинальной стоимости. В соседнем столбце для тех же акций даны цены основного конкурента компании АВС, также выраженные в процентах от номинала. Руководство компании АВС же- лает знать, использует ли этот конкурент какие-то сходные соображения при опре- делении цены на акции. Другими словами, может ли знание цен, предлагаемых ком- панией АВС, помочь в прогнозе цен, назначаемых их конкурентом? Если нет, то конкурент оценивает выпуски акций по-другому.
296 ГЛАВА 6 Выпуск Цена компании АВС Цена конкурента 1 99,035 100,104 2 104,358 105,032 3 99,435 99,517 4 96,932 95,908 5 98,904 98,835 6 101,635 101,563 7 100,001 101,237 8 98,234 99,123 9 93,849 94,803 10 99,412 100,063 11 99,949 99,564 12 104,012 103,889 13 99,473 99,348 14 100,542 99,936 15 96,842 95,834 16 99,200 99,863 17 101,614 102,010 18 99,501 99,432 19 100,898 99,965 20 97,001 96,838 21 100,025 100,804 22 103,014 104,300 23 98,702 99,010 24 101,834 100,936 25 102,903 103,834 а) в какой степени две фирмы при определении цены используют схожие сообра- жения? б) предскажите цену конкурента, если компания АВС предлагает акции по це- не 101% от номинала. Дайте точечный и интервальный прогноз в) используя результаты, полученные в п. б, определите вероятность того, что компания АВС выиграет этот конкурс (выигрывает меньшая цена)
Простая линейная регрессия 297 10. Верны ли следующие утверждения? а) большое значение г2 означает, что регрессионная зависимость значима б) очень большой размер выборки в регрессионных задачах всегда ведет к полез- ным результатам 11. Эд Богдански (Ed Bogdanski), владелец компании American Precast, был весьма удов- летворен, когда аналитик обнаружил, что имеет место положительная зависимость между общим количеством выданных разрешений на строительство и объемом ра- бот, за которые могла бы взяться его компания. Теперь он хотел бы выяснить, мож- но ли использовать информацию о размере банковской учетной ставки для прогно- зирования количества разрешений на строительство, выдаваемых за месяц. Соответ- ствующие данные, собранные за девять месяцев, представлены в табл. 6.15. Таблица 6.15 Месяц Количество разрешений на строительство, Y Банковская учетная ставка, X 1 786 10,2 2 494 12,6 3 289 13,5 4 892 9,7 5 343 10,8 6 888 9,5 7 509 10,9 8 987 9,2 9 187 14,2 а) постройте диаграмму рассеивания для этих данных б) определите функцию регрессии в) протестируйте значение коэффициента регрессии на уровне значимости 5% г) на сколько уменьшается в среднем количество разрешений на строительство при возрастании банковской ставки на 1%? д) вычислите значение коэффициента детерминации е) дайте такое объяснение, интерпретирующее полученное значение г2, которое смог бы понять Эд ж) составьте отчет, содержащий объяснения по результатам выполненного анализа 12. Рассмотрим набор из 140 наблюдений, представленный в табл. 6.16. Руководству пе- чатной компании Маршалла (Marshall Printing Company) необходимо оценить взаи- мосвязь между числом копий, выполненных офсетным способом (X), и прямыми за- тратами на оплату труда (У).
298 ГЛАВА 6 Таблица 6.16 Наблюдение У X Наблюдение Y X Наблюдение Y X D 1,о 10 48) 2,2 180 95) 2,0 330 2) 0,9 10 49) 2,4 180 96) 2,4 340 3) 0,8 10 50) 1,6 180 97) 2,2 340 4) 1,3 20 51) 1,8 190 98) 2,0 340 5) 0,9 20 52) 4,1 190 99) 2,5 350 6) 0,6 30 53) 2,0 190 100) 2,8 350 7) 1,1 30 54) 1,5 200 101) 2,3 350 8) 1,0 30 55) 2,1 200 102) 2,7 350 9) 1,4 40 56) 2,5 200 103) 2,8 360 Ю) 1,4 40 57) 1,7 220 104) 3,1 360 11) 1,2 40 58) 2,0 220 105) 2,5 370 12) 1,7 50 59) 2,3 220 106) 2,9 370 13) 0,9 50 60) 1,8 220 107) 2,6 370 14) 1,2 50 61) 1,3 230 108) 3,0 380 15) 1,3 50 62) 1,6 230 109) 3,2 380 16) 0,7 60 63) 2,8 230 110) 2,9 390 17) 1,0 60 64) 2,2 230 Ш) 2,6 390 18) 1,3 70 65) 2,6 230 112) 2,5 390 19) 1,5 70 66) 1,4 240 113) 2,7 400 20) 2,0 70 67) 1,6 240 114) 3,1 400 21) 0,8 80 68) 1,7 240 115) 2,4 400 22) 0,6 80 69) 1,5 250 116) 3,0 400 23) 1,8 80 70) 2,2 250 117) 3,4 420 24) 1,0 90 71) 2,5 250 118) 3,5 420 25) 2,0 100 72) 2,4 260 119) 3,1 420 26) 0,5 100 73) 2,0 260 120) 2,9 420 27) 1,5 100 74) 2,7 260 121) 2,8 430 28) 1,3 110 75) 2,0 270 122) 3,3 430 29) 1,7 НО 76) 2,2 270 123) 2,5 440 30) 1,2 ПО 77) 2,4 270 124) 2,8 440 31) 0,8 110 78) 1,8 280 125) 2,4 450 32) 1,0 120 79) 2,8 290 126) 2,6 450
Простая линейная регрессия 299 Окончание табл. 6.16 Наблюдение Y X Наблюдение Y X Наблюдение Y X 33) 1,8 120 80) 2,2 290 127) 3,0 450 34) 2,1 120 81) 2,4 290 128) 3,4 460 35) 1,5 130 82) 2,1 290 129) 3,0 460 36) 1,9 130 83) 1,9 290 130) 3,3 470 37) 1,7 140 84) 2,4 300 131) 3,4 470 38) 1,2 150 85) 2,5 300 132) 3,1 470 39) 1,4 150 86) 2,9 300 133) 3,6 480 40) 2,1 150 87) 2,0 300 134) 3,0 480 41) 0,9 160 88) 1,9 310 135) 2,9 480 42) 1,1 160 89) 2,5 310 136) 3,2 480 43) 1,7 160 90) 2,6 310 137) 2,6 490 44) 2,0 160 91) 3,2 320 138) 3,8 490 45) 1,6 170 92) 2,8 320 139) 3,3 490 46) 1.9 170 93) 2,4 320 140) 2,9 500 47) 1,7 170 94) 2,5 320 Выберите случайным образом 20 наблюдений. а) постройте диаграмму рассеивания б) вычислите выборочный коэффициент корреляции в) определите прямую регрессии г) проведите прямую регрессии на диаграмме рассеивания д) вычислите стандартную ошибку оценивания е) вычислите коэффициент детерминации и интерпретируйте его значение. ж) проверьте гипотезу о том, что угловой коэффициент регрессионной прямой совокупности, равен нулю з) найдите точечную и 90%-ную интервальную оценку для прямых затрат на опла- ту труда, если необходимо сделать 250 копий и) исследуйте остатки. Являются ли они такими, какими должны быть в случае со- ответствия данных модели простой линейной регрессии? Поясните свой ответ 13. Гарри Дениэлз (Harry Daniels) является инженером по контролю качества в компа- нии Specific Electric, которая производит электромоторы. На одном из этапов про- цесса производства автоматический фрезерный станок используется для изготовле- ния канавок на оси мотора. Каждая партия осей тестируется, и все изделия, размеры которых не соответствуют заданным параметрам, бракуются. Перед изготовлением каждой партии осей фрезерный станок необходимо настроить, поскольку фреза в процессе производства понемногу изнашивается. Гарри поручено составить про-
300 ГЛАВА 6 гноз, как размер партии будет влиять на количество бракованных осей — с тем, что- бы можно было выбрать оптимальный размер партии. Для этой цели Гарри собрал данные о 13 партиях изделий среднего размера, приведенные в табл. 6.17. Партия Количество бракованных изделий Размер партии 1 4 25 2 8 50 3 6 75 4 16 100 5 22 125 6 27 150 7 36 175 8 49 200 9 53 225 10 70 250 11 82 275 12 95 300 13 109 325 а) постройте диаграмму рассеивания для этих данных б) постройте линейную модель прогноза в) проверьте значимость углового коэффициента г) исследуйте остатки д) постройте нелинейную модель посредством построения модели простой линей- ной регрессии для некоторого преобразования независимой переменной е) исследуйте на значимость регрессию для преобразованной переменной ж) исследуйте остатки з) спрогнозируйте количество бракованных осей для партии размером в 300 изделий и) какую из моделей в пп. б и д следует предпочесть, по вашему мнению? к) подготовьте письменный отчет о полученных результатах 14. В табл. 6.18 представлены данные, которые были собраны при проведении исследо- ваний по оценке стоимости недвижимости. Приведенные в таблице величины — это оценка стоимости в городской книге инвентаризации, X, и рыночная цена продажи, Y, (в тыс. долл.) для и = 30 домов, проданных в течение одного года в опре- деленном районе.
Простая линейная регрессия 301 Таблица 6.18 Дом Оценка инвентаризации (тыс. долл.) Рыночная стоимость (тыс. долл.) 1 68,2 87,4 2 74,6 88,0 3 64,6 87,2 4 80,2 94,0 5 76,0 94,2 6 78,0 93,6 7 76,0 88,4 8 77,0 92,2 9 75,2 90,4 10 72,4 90,4 И 80,0 93,6 12 76,4 91,4 13 70,2 89,6 14 75,8 91,8 15 79,2 94,8 16 74,0 88,4 17 72,8 93,6 18 80,4 92,8 19 74,2 90,6 20 80,0 91,6 21 81,6 92,8 22 75,6 89,0 23 79,4 91,8 24 82,2 98,4 25 67,0 89,8 26 72,0 97,2 27 73,6 95,2 28 71,4 88,8 29 81,0 97,4 30 80,6 95,4 а) постройте диаграмму рассеивания для данных о рыночной стоимости на основе цены инвентаризации б) предполагая верной модель простой линейной регрессии, определите прямую регрессионной зависимости рыночной стоимости от цены инвентаризации
302 ГЛАВА 6 в) найдите г2 и дайте интерпретацию его значения г) является ли регрессионная зависимость значимой? Объясните свой ответ д) спрогнозируйте рыночную стоимость дома, цена инвентаризации которого рав- на 90,5 тыс. долл. Не опасно ли делать такой прогноз? е) исследуйте остатки. Можете ли вы указать некоторые отдельные наблюдения, имеющие большое влияние на расположение прямой регрессии? 15. Выплаты игрокам (X) и текущие расходы (У) на п = 26 бейсбольных команд высшей лиги в сезоне 1990-1991 года приведены в табл. 6.19 (в млн долл.). Команда Выплаты игрокам, X Текущие расходы, Y Команда Выплаты игрокам, X Текущие расходы, У 1 29,8 59,6 14 34,3 61,7 2 36,0 72,0 15 33,3 53,3 3 35,2 70,4 16 27,1 48,8 4 29,7 62,4 17 24,4 48,8 5 35,4 70,8 18 12,1 31,5 6 15,8 39,5 19 24,9 49,8 7 18,0 60,0 20 31,1 54,4 8 23,2 46,4 21 20,4 40,8 9 29,0 58,0 22 24,1 48,2 10 20,7 47,6 23 17,4 41,8 11 30,4 60,8 24 26,4 50,2 12 21,7 43,4 25 19,5 46,8 13 39,2 66,6 26 21,8 43,6 а) предполагая справедливой модель простой линейной регрессии, определите уравнение регрессионной прямой б) определите значение г2 и прокомментируйте степень линейной взаимозависи- мости в) протестируйте значимость регрессионной зависимости при уровне значимо- сти 0,10 г) можно ли как общее правило вывести утверждение, что текущие расходы при- мерно в два раза превышают выплаты игрокам? Поясните ваш ответ д) спрогнозируйте величину текущих расходов с помощью 95%-ного интервала прогноза для большой выборки, если выплаты игрокам составляют 30,5 млн долл. е) используя остатки как указатели, выделите необычные наблюдения. Что имен- но имеет место — некоторые команды характеризуются необычно низкими или необычно высокими выплатами игрокам как частью текущих расходов?
Простая линейная регрессия 303 /А\ /А\ /А\ /А\ /А\ W w MF/ w vv/ vv/ w w w w w vv/ w Задание 6.1. Компания Tiger Transport Компания Tiger Transport — это автотранспортная фирма, специализирующаяся на пере- возке домашнего имущества как локально, так и по всей стране. Основную проблему в работе компании составляет определение правильного тарифа на перевозку малых грузов на большие расстояния. Установленные расценки можно считать вполне приемлемыми, если грузовик будет заполнен полностью, поскольку они определяются с учетом расходов на оплату труда водителя, топливо, обслуживание плюс накладные расходы и прибыль. Если же грузовик недогружен, встает вопрос об определении некоторого тарифа на пере- возку того груза, которым можно было бы заполнить оставшееся в грузовике место. Что- бы спрогнозировать будущие потребности фирмы в топливе и рассчитать долгосрочный бюджет, владелец фирмы хотел бы определить стоимость перевозки дополнительного груза в не полностью загруженных грузовиках. Владелец компании понимает, что единственная добавочная статья расхода при пере- возке дополнительного груза — это лишь стоимость дополнительно расходуемого топли- ва, поскольку пробег грузовика на каждый затраченный галлон горючего снижается. Чтобы правильно учесть этот важный фактор при определении тарифа на перевозку не- больших грузов, владелец компании хотел бы знать прямые расходы, связанные со стои- мостью дополнительного топлива. Недавнему выпускнику бизнес-школы, работающему в бюро определения тарифов этой компании, была поручена работа по изучению данного вопроса. Цель этой работы — дать рекомендации руководству фирмы для принятия обоснованного решения. Он начал свое исследование с предположения, что все грузовики в фирме одинаковы, т.е. они практически идентичны по размерам, грузоподъемности и мощности двигателя. Кроме того, было сделано предположение, что в случае длительной поездки каждый во- дитель получает одни и те же командировочные. Руководитель отдела тарифов согласил- ся с тем, что эти предположения резонны. Теперь в задаче остался только один фактор, влияющий на пробег грузовика дальнего следования на один галлон топлива, — вес перевозимого им груза. В расчетном отделе компании хранятся сведения о каждой поездке, сделанной грузовиками компании за по- следние несколько лет. Эти сведения включают в себя общий вес груза, пройденное рас- стояние и количество галлонов потраченного дизельного топлива. Отношение последних двух величин дает интересующий нас показатель — количество пройденных миль на один галлон топлива для каждой поездки. Для анализа в качестве генеральной совокупности были выбраны сведения о всех поезд- ках, выполненных за последние четыре года. Всего их оказалось 5428. Поскольку сведения о поездках записаны последовательно, друг за другом, первой записи был присвоен номер поездки 1, второй — номер поездки 2 и т.д. Затем из таблицы случайных чисел были наугад выбраны 40 произвольных значений, и эти 40 случайных чисел определили случайную вы- борку из 40 поездок, которую и предполагалось исследовать. Вес груза и количество миль на один галлон топлива для поездок из этой выборки приведены в табл. 6.20.
304 ГЛАВА 6 Таблица 6.20. Вес груза (тыс. фунтов) и пробег на один галлон топлива (миль) для случайно выбранных поездок грузовиков компании Tiger Transport Вес груза Пробег на 1 галлон Вес груза Пробег на 1 галлон 60 5,3 63 5,0 55 5,0 65 4,9 80 4,0 72 4,6 72 4,2 81 4,0 75 4,5 64 5,3 63 5,1 78 4,4 48 7,2 62 4,9 79 3,9 83 3,8 82 3,8 79 4,1 72 4,4 61 4,8 58 4,9 63 5,0 60 5,1 62 4,9 74 4,5 77 4,6 80 4,3 76 4,5 53 5,9 51 5,7 61 5,5 74 4,2 80 3,5 78 4,3 68 4,1 50 6,1 76 4,5 79 4,3 75 4,4 55 4,7 На персональном компьютере выполняющего анализ работника было установлено программное обеспечение, допускающее проведение регрессионного анализа — прило- жение Minitab. Данные из табл. 6.20 были обработаны с помощью этого ПО. Полученные результаты представлены в листинге 6.3. Листинг 6.3. Результаты регрессионного анализа данных компании Tiger Transport в приложении Minitab Regression Analysis: MPG versus Weight The regression equation is MPG = 8.85 - 0.0604 Weight Predictor Coef SE Coef T P Constant 8.8484 0.3840 23.04 0.000 Weight -0.060399 0.005538 -10.91 0.000
Простая линейная регрессия 305 S = 0.3534 R-Sq = 75.8% R-Sq(adj) = 75.1% Analysis of Variance Source DF SS MS F P Regression 1 14 .853 14.853 118.93 0.000 Residual Error 38 4 .746 0.125 Total 39 19 .599 Unusual Observations Obs Weight MPG Fit SE Fit Residual St Resid 7 48.0 7.2000 5.9492 0.1270 1.2508 3.79R 40 55.0 4.7000 5.5264 0.0938 -0.8264 -2.43R Изучая результаты, приведенные в листинге 6.3, выпускник бизнес-школы пришел к заключению, что на данных выборки было построено полезное уравнение регрессии. Это заключение базируется на сравнительно большом значении г (76%), большой отрица- тельной величине / (-10,9) и значительном F (119). Исходя из результатов расчета, урав- нение регрессии имеет следующий вид. 7=8,8484-0,0604% Здесь Y измеряется в милях на один галлон, а % — в тысячах фунтов. Угловой коэффициент уравнения регрессии (-0,0604) интерпретируется следующим образом: каждые дополнительные 1000 фунтов груза уменьшают расстояние, проходимое грузовиком на одном галлоне топлива, в среднем на 0,0604миль. Компания Tiger Transport в настоящее время платит около 1,25 долл, за один галлон дизельного топлива. Таким образом, стоимость перевозки дополнительных 1000 фунтов груза на расстояние в 100 миль можно вычислить следующим образом. Из табл. 6.20 имеем, что среднее количество миль, проходимое на один галлон топли- ва, составляет 4,7 мили. Стоимость топлива на пробег в 100 миль составит _ 26,60 долл. Стоимость топлива для той же поездки, но с дополнительными 4,25 1000 фунтами груза равна д ~ 26,94 долл. Таким образом, дополнительная стоимость, затрачиваемая при перевозке добавочных 1000 фунтов груза на расстояние в 100 миль, составит 0,34 долл. Можно сделать вывод, что поставленная задача частично решена — определены рас- ходы, связанные с перевозкой дополнительного груза в незаполненном грузовике. Безус- ловно, на определение цены на перевозку малых грузов будут влиять и другие факторы. Вопрос Подготовьте для руководства компании Tiger Transport докладную записку с описани- ем результатов выполненного анализа. Включите в нее дополнительные комментарии относительно того, насколько выполненная работа поможет улучшить прогнозирование потребности в топливе и оценку прибыли от каждого грузовика.
306 ГЛАВА 6 Задание 6.2. Компания Butcher Products, Inc. Джин Батчер (Gene Butcher) — владелец и президент Butcher Products, Inc., маленькой компании, изготавливающей стекловолоконные трубки для прокладывания электриче- ских кабелей. Джин исследовала данные о количестве секций трубок, производимых в день за последние два с половиной года, и пришла к выводу о большой изменчивости этого параметра. Чтобы над лежащим образом прогнозировать выход готовой продукции, издержки производства и доходы компании, Джин нужно установить взаимосвязь между выходом готовой продукции и некоторыми другими переменными. Исходя из своего опыта работы, Джин никак не могла найти каких-либо реальных причин для подобной изменчивости в выходе готовой продукции и решила обратить внимание на погодные условия. Согласно ее предположению, температура на улице мог- ла как-то влиять на производительность труда ее работников, а значит и на выход гото- вой продукции. Из имеющихся записей Джин случайным образом выбрала несколько дней и выписа- ла сведения о количестве секций, произведенных в каждый из них. Затем она отправи- лась в местное бюро погоды и пополнила свои записи сведениями о максимальной тем- пературе, отмеченной в эти дни. Собранных данных было уже достаточно для изучения корреляции между этими двумя наборами значений, однако Джин сообразила, что объем продукции, вероятно, будет связан скорее с отклонением действительной температуры от идеальной, чем с абсолютными значениями температуры. Иначе говоря, она полагает, что именно тот день, который является слишком жарким или слишком холодным, отри- цательно скажется на производительности труда, а не тот, который имеет идеальную температуру. Поэтому она решает привести имеющиеся данные о температуре к откло- нениям от средней температуры в 65° по Фаренгейту, которую Джин считает идеальной с точки зрения достижения наивысшей производительности труда. Собранные ею данные приведены в табл. 6.21, где в столбце У представлено количество единиц произведенной продукции, в столбце %— абсолютное значение разности (отрицательные знаки опуще- ны) между наивысшей температурой дня и 65° по Фаренгейту. Таблица 6.21 Y X Y X 485 12 327 15 512 10 308 25 625 3 603 8 585 4 321 35 318 27 426 5 405 10 410 12 379 18 515 2
Простая линейная регрессия 307 Y X Y Окончание табл. 6.21 X 497 12 498 7 316 27 357 17 351 20 429 8 525 4 401 12 395 11 Регрессионный анализ собранных данных Джин выполнила с помощью приложения Minitab, установленного на ее компьютере. Результаты расчета, представленные в листинге 6.4, вызвали у Джин полное удовле- творение. Значения / велики, а это говорит о том, что оба коэффициента выборочной регрессионной прямой (552 и -8,9) значимы — для обоих коэффициентов уровень зна- чимости близок к нулю, на что указывают значения р для /-критерия. Листинг 6.4. Результаты вычислений приложения Minitab для данных, собранных Regression Analysis: Y versus X The regression equation is Y = 552 - 8 .91 X Predictor Coef SE Coef T P Constant 552.04 22.85 24.16 0.000 X -8.911 1.453 -6.13 0.000 S = 59.41 R-Sq = 64.2% R-Sq(adj) = 62.5% Analysis of Variance Source DF SS MS F P Regression 1 132758 132758 37 .62 0.000 Residual Error 21 74109 3529 Total 22 206866 Unusual Observations Obs X Y Fit SE Fit Residual St Resid 15 8. 0 603.0 480.8 14.5 122.2 2.12R 16 35. 0 321.0 240.2 34.0 80.8 1.66 X Определив значение г2, Джин была несколько разочарована тем, что оно не так вели- ко, как она рассчитывала (64,2%). Тем не менее Джин пришла к заключению, что это значение достаточно велико, чтобы начать думать о возможных способах увеличения вы- пуска продукции.
308 ГЛАВА 6 Вопросы 1. Сделайте прогноз количества секций, изготовленных за день, в который наивысшая температура равнялась 89° по Фаренгейту. 2. Сделайте прогноз количества секций, изготовленных за день, в который наивысшая температура равнялась 41° по Фаренгейту. 3. Исходя из представленных выше результатов регрессионного анализа, дайте Джин реко- мендации относительно того, как можно увеличить ежедневный выпуск продукции. 4. Как вы думаете, достаточно ли эффективен разработанный Джин способ прогноза? Задание 6.3. Компания Асе Manufacturing В компании Асе Manufacturing работает несколько тысяч человек, занятых в производст- ве корпусов, клавиатур и кабелей для малых компьютеров. Президент компании недавно заинтересовался показателями использования рабочего времени среди сотрудников ком- пании и попросил отдел кадров изучить этот вопрос. Работники этого отдела хорошо по- нимают, что применение эффективного метода прогнозирования невыходов на работу позволит значительно улучшить планирование. Билл Мак-Гоун (Bill McGone), начальник отдела кадров компании, решил проанализи- ровать несколько личных дел сотрудников, чтобы получить общее представление о постав- ленной задаче. Он случайным образом выбрал 15 папок и выписал количество пропущен- ных рабочих дней за последний год вместе с возрастом данного работника. После изучения собранных данных он пришел к выводу, что возраст может существенно влиять на количе- ство невыходов на работу. Билл решил, что если при обработке этой небольшой выборки окажется, что возраст и количество пропущенных рабочих дней существенно коррелируют между собой, то необходимо будет сделать выборку из 200 или 300 работников, что позво- лит найти достаточно точное уравнение для целей прогнозирования. В табл. 6.22 приведены данные начальной выборки. Количество дней, пропущенных в течение последнего года, обозначено через У, а возраст работника — через X. Таблица 6.22 Y X Y X 3 25 9 56 4 36 12 60 7 41 8 51 4 27 5 33 3 35 6 37 3 31 2 31 5 35 2 29 7 41
Простая линейная регрессия 309 Вопросы 1. Насколько значительна корреляция между количеством пропущенных дней и воз- растом работника? Может ли установленная корреляция быть распространена на всех работников компании? 2. Как выглядит уравнение прогноза для количества пропущенных дней в зависимости от возраста работника? 3. Какой процент изменчивости количества пропущенных дней можно объяснить, зная возраст работника? 4. Является ли значимой взаимосвязь между пропусками рабочих дней и возрастом ра- ботника? Чтобы правильно ответить на этот вопрос, воспользуйтесь необходимыми статистическими процедурами. 5. Предположим, на работу был принят новый сотрудник в возрасте 24 лет. Составьте для него прогноз количества рабочих дней, которые он пропустит в течение года. 6. Следует ли Биллу Мак-Гоуну выполнить исследование большей выборки личных дел работников компании после изучения первой выборки? 7. Эффективен ли предложенный метод прогнозирования? Задание 6.4. “Mr. Tux” Джон Мосби слышал, что регрессионный анализ часто используется для прогнозирова- ния переменных временнь/х рядов. Поскольку у него имеется персональный компьютер с установленным на нем пакетом программ регрессионного анализа, он решил попробо- вать применить этот метод. Зависимая переменная в его данных — это месячный объем доходов от проката, сведения о котором представлены в табл. 2.14 в конце главы 2. При первой попытке в качестве независимой переменной X он решает использовать последовательный номер периода. Первому значению объема доходов Y в таблице, рав- ному 16 028 долларов, соответственно присваивается значение X- 1, следующему значе- нию — Х= 2 и т.д. При выборе подобного подхода Джон исходил из того, что возрастаю- щий тренд, который, как ему известно, присутствует в данных, обычно вычисляется с использованием постоянно возрастающих значений X. После выполнения расчетов на компьютере Джон получил следующие значения. 1 = 11,01 г2 = 0,563 F= 121,14 Y =6496 + 2729,2Х Большое значение t указывает на то, что значение углового коэффициента (2729,2) явля- ется значимым; поэтому он отбрасывает нулевую гипотезу о том, что регрессионная прямая генеральной совокупности имеет нулевой наклон. Большое значение F согласуется с этим выводом (Джон вспомнил, что F=? для прямолинейной регрессии), поэтому нулевую ги- потезу о том, что регрессия в этих данных не значима, также следует отклонить. Однако Джон был разочарован сравнительно низким значением г2 (56,3%). Он наде- ялся на большую величину этого показателя, что позволило бы использовать полученное уравнение простой линейной регрессии для надежного прогнозирования объемов дохода
310 ГЛАВА 6 от проката. Джон пришел к выводу, что это малое значение вызвано значительной сезон- ностью в месячных объемах доходов его бизнеса, о чем ему было известно еще до первых попыток прогнозирования. Существенные сезонные различия вызывают появление то- чек данных, лежащих далеко от прямой регрессии, что и приводит к неудовлетворитель- ному значению коэффициента детерминации г. В полученных результатах регрессионного анализа было еще одно обстоятельство, ко- торое вызвало у Джона некоторое беспокойство. В распечатке присутствует фраза: Дарбин-Уотсон = 0,99. Джон не понял ее смысла и позвонил преподавателю, который вел у него курс статистики в колледже. Выслушав сообщение о результатах выполненного Джоном регрессионного анализа, преподаватель сказал: “Сейчас я провожу занятия с группой, но сразу могу сказать, что малая величина статистики Дарбина-Уотсона означа- ет, что нарушено одно из базовых предположений регрессионного анализа”. Вопросы 1. Прокомментируйте мнение Джона о том, что поскольку объемы месячных доходов его бизнеса характеризуются значительной сезонностью, это приводит к малому значению коэффициента детерминации г в результатах регрессионного анализа. 2. Каково ваше мнение относительно адекватности выбранного Джоном метода про- гнозирования? 3. Как именно в исходных данных Джона нарушается одно из базовых предположений регрессионного анализа? Задание 6.5. Корпорация Consumer Credit Counseling Деятельность корпорации Consumer Credit Counseling (CCC) была описана в главе 1 (задание 1.2). Мэрв Харнишфегер, исполнительный директор корпорации, пришла к заключению, что наиболее важной переменной, значение которой нужно прогнозировать, является ко- личество новых клиентов, которые обратятся в корпорацию за оставшуюся часть 1993 года. Мэрв передала Дороти Мерсер ежемесячные данные о количестве новых клиентов, обра- тившихся в корпорацию ССС за период с января 1985 года по март 1993 (см. задание 3.3). В задании 3.3 описывалось, как Дороти применила автокорреляционный анализ для исследо- вания структуры этих данных. Для составления прогноза на оставшуюся часть 1993 года она использовала методы скользящего среднего и экспоненциального сглаживания. Дороти хотелось бы знать, можно ли использовать регрессионный анализ для получения хорошей модели прогнозирования. Она спросила у Мэрв, может ли она предложить для це- лей составления прогноза какую-нибудь подходящую случаю независимую переменную. После некоторых раздумий Мэрв пришла к выводу, что с количеством новых клиентов корпорации может быть связано количество людей, получивших талоны на питание. Данные о количестве людей, получивших талоны на питание, Дороти удалось найти лишь на период с января 1989 года по декабрь 1992. Эти данные приведены в табл. 6.23.
Простая линейная регрессия 311 Таблица 6.23 Год Месяц Количество карточек Год Месяц Количество карточек 1989 Январь 24450 1991 Январь 29254 Февраль 24761 Февраль 29962 Март 25397 Март 30499 Апрель 25617 Апрель 30879 Май 25283 Май 30995 Июнь 25242 Июнь 31356 Июль 25163 Июль 30863 Август 25184 Август 31288 Сентябрь 25417 Сентябрь 31492 Октябрь 25411 Октябрь 31577 Ноябрь 25565 Ноябрь 31912 Декабрь 26543 Декабрь 32050 1990 Январь 26784 1992 Январь 32383 Февраль 27044 Февраль 32625 Март 27567 Март 33499 Апрель 28080 Апрель 34076 Май 28142 Май 34191 Июнь 28412 Июнь 33788 Июль 28161 Июль 33556 Август 27936 Август 33751 Сентябрь 28423 Сентябрь 33777 Октябрь 28366 Октябрь 33769 Ноябрь 29029 Ноябрь 34077 Декабрь 29035 Декабрь 34232 Кроме того, Мэрв были известны индексы деловой активности, вычисленные для данного региона местным Советом экономического развития. Индекс деловой активно- сти указывал на относительные изменения деловой ситуации региона в целом. Значения этого индекса приведены в табл. 6.24. 1985 1986 1987 1988 1989 1990 1991 1992 1993 Январь 110 102 108 104 107 103 114 122 125 Февраль 108 105 105 109 106 106 116 118 125 Март 105 106 105 109 109 но 118 123 130 Апрель 104 107 108 103 105 108 119 118
312 ГЛАВА 6 Окончание табл. 6.24 1985 1986 1987 1988 1989 1990 1991 1992 1993 Май 104 105 104 103 104 ПО 118 118 Июнь 102 106 108 104 103 105 120 120 Июль 103 105 105 99 103 105 120 122 Август 101 105 105 102 106 106 121 120 Сентябрь 102 103 103 101 105 107 119 122 Октябрь 102 105 105 101 106 107 121 123 Ноябрь 99 103 104 102 107 111 119 124 Декабрь 99 101 104 102 99 112 120 122 Вопросы 1. Определите, существует ли значимая взаимосвязь между количеством новых клиен- тов и числом людей, получивших талоны на питание, а также между количеством новых клиентов и индексом деловой активности. Не забывайте о возможности пре- образования данных. 2. Найдите уравнение регрессии и используйте его для прогнозирования количества новых клиентов на первые три месяца 1993 года. 3. Сравните результаты вашего прогноза с реальными наблюдениями за первые три месяца 1993 года. 4. Является ли индекс деловой активности подходящей переменной для прогнозирова- ния количества новых клиентов? 5. Поскольку данные являются временными рядами, не нарушается ли в этом случае требование независимости? 6. Допустим, было найдено подходящее уравнение регрессии. Можно ли использовать это уравнение для составления прогноза на оставшуюся часть 1993 года? Поясните ваш ответ. Применение Minitab Задание. В примере 6.2 мистеру Бампу требуется провести регрессионный анализ данных, приведенных в табл. 6.1. Решение в Minitab 1. Введите данные из табл. 6.1 в рабочий лист, поместив количество галлонов продан- ного молока в столбец С1, а его цену — в столбец С2. 2. Для запуска процедуры обработки регрессионной модели выберите команду Start ^Regression^Regression. 3. На экране раскроется диалоговое окно Regression (регрессия), представленное на рис. 6.18. а) в поле Response в качестве зависимой переменной выберите величину Sales (объемы продаж) б) в поле Predictors в качестве независимой переменной выберите величину Price (цена) в) для продолжения работы щелкните на кнопке Storage
Простая линейная регрессия 313 Рис. 6.18. Диалоговое окно Regression приложения Minitab 4. На экране раскроется диалоговое окно Regression—Storage (Регрессия-сохра- нение), показанное на рис. 6.19. Diagnostic Measures *7 Residuals Г* Standardized residuals *“ Deleted f residuals Г yi (leverages) ” Cook's distance DflTS Characteristics of Estimated Equation Г Coefficients Г X’X Inverse “ R matrix Hrlp | Puc. 6.19. Диалоговое окно Regression - Storage приложения Minitab а) чтобы сохранить значения остатков в столбце СЗ, в группе Diagnostic Measures (Диагностические значения) установите флажок опции Residuals (Остатки). б) чтобы сохранить прогнозируемые значения Y в столбце С4, в группе Character- istics of Estimated Equation (Характеристики оцениваемого уравнения) устано- вите флажок опции Fits в) щелкните на кнопке ОК, и на экран будут выведены результаты, представлен- ные в листинге 6.1. 5. Чтобы получить графики остатков, выберите команду Start^Regression^Residual plots. 6. На экране раскроется диалоговое окно Residual Plots (Графики остатков), показан- ное на рис. 6.20. а) в поле Fits введите значение FITS1 или С4 б) в поле Residuals введите значение RESI1 или СЗ в) в поле Title введите значение Residual Plots for Mr. Bump’s Data г) щелкните на кнопке OK, и на экран будут выведены графики, показанные на рис. 6.9
314 ГЛАВА 6 Рис. 6.20. Диалоговое окно Residual Plots приложения Minitab Задание. В примере 6.11 Гилберту Гарсиа необходимо получить прогноз месячных объе- мов продаж вычислительной техники исходя из расходов на рекламу. Решение в Minitab 1. Введите в рабочий лист приложения Minitab данные, представленные на рис. 6.10, поместив объемы продаж в столбец С1, суммы расходов на рекламу — в столбец С2. 2. Чтобы получить диаграмму рассеивания, выберите команду Graph^Plot. 3. На экране раскроется диалоговое окно Plot. а) в группе Graph Variables выберите значения С1, Sales (Объемы продаж), в ка- честве переменной Yи С2, Expenditures (Расходы) — в качестве переменной X б) щелкните на кнопке ОК, и на экран будет выведен график, показанный на рис. 6.11. 4. Чтобы получить модель прогноза, представленную на рис. 6.12, выберите команду Stat^Regression^Fitted Line Plot. 5. На экран будет выведено диалоговое окно Fitted Line Plot (график прямой регрессии), а) в качестве зависимой переменной (У) в поле Responce выберите значение Sales б) в качестве независимой переменной (А) в поле Predictor выберите значение Expend в) установите переключатель выбора модели в одно из возможных положений — Linear (линейная), Quadratic (квадратичная) или Cubic (кубическая). Для опреде- ленности предположим, что переключатель был установлен в положение Linear г) щелкните на кнопке ОК. На экран будет выведен график, представленный на рис. 6.12. 6. Теперь, чтобы преобразовать значения переменной X в натуральные логарифмы X, выберите команду Calc^Calculator. 7. На экран будет выведено диалоговое окно Calculator (калькулятор), показанное на рис. 6.21. а) в поле Store results in variable введите значение СЗ б) чтобы выполнить требуемое преобразование, в списке Functions (функции) вы- берите значение Natural log в) щелкните на кнопке Select (выбрать), и под ней будет выведено значение LOGE (number). Аналогичное значение появится также в поле Expression
Простая линейная регрессия 315 г) поскольку преобразуемой переменной является Expend, значения которой на- ходятся в столбце С2, в поле Expression значение number будет заменено на С2 д) щелкните на кнопке ОК, и значения натурального логарифмах появятся в столбце СЗ Рис. 6.21. Диалоговое окно Calculator приложения Minitab 8. Полностью заполненный рабочий лист приложения Minitab представлен на рис. 6.10. Применение Excel Задание. В ситуации мистера Бампа, описанной в примере 6.1, регрессионный анализ применяется, чтобы определить, можно ли использовать сведения о цене молока для прогнозирования его продаваемого количества. Решение в Excel 1. Введите недельные объемы продаж молока (см. табл. 6.1) в диапазон ячеек А1 :А10 ра- бочего листа Excel, а соответствующие цены — в диапазон ячеек В1 :В10 (рис. 6.22). 2. Для выполнения регрессионного анализа выберите команду Tools^Data Analysis (СервисФАнализ данных). 3. На экране раскроется диалоговое окно Data Analysis (Анализ данных). В списке Analysis Tools (Инструменты анализа) выберите значение Regression (Регрессия) и щелкните на кнопке ОК. На экране раскроется диалоговое окно Regression (Регрессия), показанное на рис. 6.23. а) в поле Input Y Range (Входной интервал Y) введите значение А1 :А10 б) в поле Input X Range (Входной интервал X) введите значение В1 :В10 в) установите переключатель Output options (Выходные параметры) в положение Output Range (Выходной интервал) и введите значение С1 в поле ввода справа г) щелкните на кнопке ОК, и в рабочую таблицу Excel будут помещены результаты вычислений, показанные на рис. 6.22
316 ГЛАВА 6 df -21.4625 и 1.1 -Regression jResidual ’Total i ___________________________I !X Variable! -14.5388, F •gmficance F 21.96969 42 30215 215 ......... -7.61518 •5% фпйлм ss ms________________________________ 1= 174.1752- 174.1752 : 23.44817; 0.001284! 8i 59.42476! 7.428095! : 9i 233.6!_______________________________! 10 6 5 12 10 15 б 1 3,Regression statistics 2I Multiple Rs и.8Ь348У= 1.7!R Square i 0.745613! WAdjustedR 0.7138151 1.6lStandard E 2.725453! 1.2’Obseivatio’ 10; 1.61 1.4 BANOVA - i i_________CcefficientSandard Erf, t Stat = P-vaZue Lower 95%LJpper 95% ow& ilntercept > 32.13692 4.408588! 7.289392! 8.48E-O5 ---------------- ---------- ...’а^445г,>4’84^эГ0.001294 Puc. 6.22. Результаты расчетов в приложении Excel для данных из примера 6.1 Рис. 6.23. Диалоговое окно Regression (Регрессия) приложения Excel Рекомендуемая литература Draper N., Smith Н. Applied Regression Analysis, 3rd ed. New York: John Wiley & Sons, 1998. Flaherty W.P. Using Regression Analysis to Pick the Best Targets. M&A (March—April 1991): 47-49. Frees E.E. Data analysis Using Regression Models: The Business Perspective. Upper Saddle River, NJ: Prentice Hall, 1996. Johnson R.A., Wichem D.W. Business Statistics: Decision Making with Data. New York: John Wiley & Sons, 1997. Neter J., Wasserman W., Kutner M., Nachtsheim C. Applied Linear Regression Models, 3rd ed. Homewood, IL: Richard D. Irwin, 1996.
/Л\ Лк\ /А\ /I \V/ W W М /Л\ ГЛ W W W Многомерный регрессионный анализ JJ простой линейной регрессии исследовалась взаимосвязь между независимой и зави- симой переменными. Связь между двумя переменными часто позволяет точно предска- зать значение зависимой переменной, если известно значение независимой переменной. К сожалению, многие реально возникающие задачи прогнозирования не так просты. Для точного прогнозирования зависимой переменной обычно требуется знать значения более чем одной независимой переменной. Регрессионные модели с более чем одной незави- симой переменной называются моделями многомерной регрессии. Большинство понятий, введенных для простой линейной регрессии, распространяется и на многомерную рег- рессию. Однако появляются и некоторые новые понятия, поскольку для прогноза зави- симой переменной используется более одной независимой переменной. Многомерная регрессия для прогноза зависимой переменной использует более чем одну независимую переменную. Несколько независимых переменных В качестве примера вернемся к задаче, в которой количество продаваемых галлонов мо- лока прогнозируется на основании сведений о цене одного галлона. При ее решении мистер Бамп столкнулся с проблемой — составленные им прогнозы оказались недоста- точно точными. Используя только одну независимую переменную, он смог объяснить почти 75% изменений в количестве продаваемых галлонов молока. Следовательно, 25% (1 - г2) общей изменчивости остались необъясненными. Другими словами, на основании имеющейся выборки данных мистер Бамп смог получить только 75% тех сведений, кото- рые ему необходимы для точного прогнозирования объема продаж. Для получения более точных прогнозов ему следует найти еще одну независимую переменную, что позволит объяснить большую часть общей дисперсии. Если мистеру Бампу удастся уменьшить не- объясненную изменчивость, составленные им прогнозы будут характеризоваться мень- шей неопределенностью, а значит, и большей точностью.
318 ГЛАВА 7 Необходимо отыскать еще одну независимую переменную, которая каким-то образом влияет на количество продаваемых галлонов молока. Однако эта новая независимая пе- ременная не должна быть тесно связана с уже использованной независимой переменной (т.е. ценой одного галлона молока). Если две независимые переменные тесно связаны, то они будут объяснять одну и ту же изменчивость, и поэтому добавление второй перемен- ной не позволит улучшить прогнозирование.1 В таких областях, как эконометрика и прикладная статистика, значительная часть возникающих проблем связана как раз с взаимной корреляцией между независимыми переменными. Подобное состояние обычно называют мультиколлинеарностью. Простое решение проблемы наличия двух тесно связанных независимых переменных состоит в том, чтобы не использовать их вместе. Проблема мультиколлинеарности будет рассмот- рена ниже в этой главе. Отметим признаки хорошей независимой переменной: связана с зависимой переменной; не имеет тесной связи с любой другой независимой переменной. Корреляционная матрица Мистер Бамп предположил, что улучшить прогнозирование объемов продаж молока за неделю можно было бы посредством учета затрат на рекламу. Он исследовал взаимосвязь между рекламными расходами, объемом продаж и ценой одного галлона молока с помо- щью корреляционной матрицы. Корреляционная матрица составляется из коэффициен- тов корреляции, вычисленных для каждой возможной пары переменных. Пример корреляционной матрицы приведен в табл. 7.1. В ней через г12 обозначен коэф- фициент корреляции, показывающий взаимосвязь между переменными 1 и 2. Отметим, что первый индекс (1) задает номер строки, а второй (2) — номер столбца таблицы. Такой под- ход позволяет легко проанализировать взаимозависимость, существующую между двумя любыми переменными. Безусловно, корреляция, например, между переменными 1 и 2 точ- но такая же, как и между переменными 2 и 1, а значит г12 = г21. Следовательно, для анализа достаточно рассмотреть только половину корреляционной матрицы. Кроме того, корреля- ция каждой переменной с самой собой всегда равна 1, так что и, = г22 = г33 =1. Таблица 7.1. Корреляционная матрица Переменные 1 2 3 1 Гц Г12 Г|3 2 Г2| г22 Г23 3 г31 Г32 Гзз ' Взаимосвязанные независимые переменные в значительной мере содержат одну и ту же информацию и, следовательно, не добавляют "новой” информации о поведении зависимой переменной. В идеальной ситуа- ции влияние, оказываемое отдельной независимой переменной на зависимую, должно быть совершенно неза- висимо от других переменных.
Многомерный регрессионный анализ 319 Мистер Бамп обработал собранные им данные на компьютере и в результате получил корреляционную матрицу, представленную в табл. 7.2. Таблица 7.2. Корреляционная матрица, вычисленная для данных мистера Бампа Переменные Продажа Цена Реклама 1 2 3 Продажа 1 1,00 -0,86 0,89 Цена 2 1,00 -0,65 Реклама 3 1,00 Изучение взаимосвязи между расходами на рекламу, объемом продаж и ценой галлона молока показывает, что введение новой независимой переменной должно улучшить прогнозирование. Корреляционная матрица демонстрирует, что расходы на рекламу имеют большую положительную взаимосвязь (г13 = 0,89) с зависимой переменной (объемом продаж) и среднюю отрицательную взаимосвязь (г23 = -0,65) с независимой пе- ременной (ценой). Подобная комбинация зависимостей говорит о том, что учет расходов на рекламу может объяснить часть общей дисперсии в объемах продаж, еще не объяс- ненную изменениями цены галлона. Как будет показано ниже, когда при получении оценки объемов продажи молока учитываются и цена галлона, и расходы на рекламу, значение У?2 возрастает до 93,2%. Анализ корреляционной матрицы — это важный первый шаг при решении любой за- дачи, в которой имеется несколько независимых переменных. Многомерная регрессионная модель В простой регрессии зависимая переменная обозначалась символом Y, а независимая — X. В многомерном регрессионном анализе для обозначения независимых переменных используются символы X с индексами. Зависимую переменную по-прежнему будем обо- значать через Y, а независимые переменные — черезХь Х2, ...,Хк. Если начальное множе- ство независимых переменных определено, взаимосвязь между Y и этими X может быть выражена в форме многомерной регрессионной модели. В многомерной регрессионной модели математическое ожидание зависимой величи- ны является линейной функцией всех объясняющих ее переменных. Нг= Зо + + PzA’j + ... + (7.1) Это выражение является многомерной регрессионной функцией генеральной совокупности. Так же, как и в случае простой линейной регрессии, мы не можем непосредственно рас- сматривать регрессионную функцию совокупности, поскольку наблюдаемые значения Y отклоняются от своего среднего значения. Каждая комбинация значений всех наших пе- ременных У определяет математическое ожидание для части генеральной совокупности откликов Y. Мы предполагаем, что в каждой такой части значения Y являются нормально распределенными величинами с одним и тем же стандартным отклонением ст. В случае простой линейной регрессии данные состоят из нескольких наблюдений пары переменных (Xh Y,). При многомерной регрессии данные для каждого случая включают зна-
320 ГЛАВА 7 чение зависимой переменной Y и значение каждой независимой переменной, /-е наблюде- ние у-й независимой переменной обозначается через Хи. При использовании таких обозна- чений данные для многомерной регрессии имеют вид, представленный в табл. 7.3. Удобно рассматривать данные для /-го случая в качестве /-го наблюдения. При таком соглашении п — это число наблюдений, а к — количество независимых переменных. Таблица 7.3. Общий вид данных в случае многомерной регрессии Независимые переменные Зависимая переменная Наблюдение X, x2 Xk Y 1 Хц Xi2 Xxk Yi 2 X2i x22 Xu y2 i xn xi2 xk Yi п xnl xn2 xnk Y„ Статистическая модель многомерной регрессии Зависимая переменная Y — это случайная величина, которая связана с независимыми переменными следующим соотношением. Y = Ро + РЛ + Рг-^г + • • • + РЛ + Е Здесь приняты следующие обозначения. 1. В /-м наблюдении Y=Yiw.Xi,X2,...,Xi принимают значения Xit, Ха,..., Х,к. 2. е — это компонента ошибки, соответствующая отклонению значений зависимой переменной от истинного соотношения. Это ненаблюдаемая случайная величина, в которой проявляется влияние на зависимую переменную других, неучтенных факторов. Предполагается, что ошибки независимы и имеют нормальное распре- деление с математическим ожиданием 0 и неизвестной дисперсией ст. 3. Коэффициенты регрессии р0, рь ..., р*, в совокупности определяющие функцию регрессии, неизвестны. Для заданного набора данных оценки коэффициентов регрессии можно найти с по- мощью метода наименьших квадратов. Если оценки метода наименьших квадратов обо- значить через Ьо, Ьх,..., bk, то соответствующая функция регрессии будет иметь следую- щий вид. Г = ba + biXi + Ь2Х2 + ... + ЬкХк (7.2) Остатки е = Y- Y являются оценками компоненты ошибки и подобны остаткам в слу- чае простой линейной регрессии. Между генеральной совокупностью и выборкой имеет- ся следующее соответствие: Генеральная совокупность: Y= р0 + РtXt + р2Х2 +... + РЛ + е Выборка: Y = b0 + btXi + Ь2Х2 + ... + + е
Многомерный регрессионный анализ 321 Вычисления по методу многомерного регрессионного анализа обычно проводят с по- мощью пакетов компьютерных программ, таких как Excel или Minitab. Пример 7.1 Собрав данные, приведенные в табл. 7.4, мистер Бамп проанализировал их с помощью мно- гомерной регрессионной модели, связывающей объем продаж (У) с ценой (%|) и расходами на рекламу (Х2). Y= Ро + РЛ + Рг-^2 + Е Таблица 7.4. Данные, собранные мистером Бампом (пример 7.1) Неделя Количество проданного молока (тыс. галлоноа) Y Цена одного галлона (долл.) х, Расходы на рекламу (сотни долл.) х2 1 10 1,30 9 2 6 2,00 7 3 5 1,70 5 4 12 1,50 14 5 10 1,60 15 6 15 1,20 12 7 5 1,60 6 8 12 1,40 10 9 17 1,00 15 10 20 1.10 21 Сумма 112 14,40 114 Среднее 11,2 1,44 11,4 Мистер Бамп установил, что функция регрессии имеет следующий вид. У = 16,41-8,25^+0,59^2 Оценки метода наименьших квадратов Ьо= 16,41, Ь{ =-8,25 и />2 = 0,59 минимизируют сумму квадратов ошибок SSE = ^(Y-ba- \Хп - b^i2 f = £( Y, - Y, / i i среди всех возможных значений Ьо, 6) и Ь2. В данном случае функцией наилучшего прибли- жения будет плоскость, показанная на рис. 7.1. Точки данных размещены в трехмерном ко- ординатном пространстве с осями Y, Х: иХ2. Эти точки расположены выше и ниже такой плоскости, при которой величина Y - Y / оказывается минимальной.
322 ГЛАВА 7 Рис. 7.1. Плоскость регрессии для данных мистера Бампа Найденную функцию регрессии можно использовать для прогноза объемов продаж моло- ка в следующие недели. Если цена одного галлона планируется на уровне 1,50 доллара, а рас- ходы на рекламу составят 1000 долларов в неделю, то прогнозируемый объем продаж будет равен 9935 галлонов. Это значение получено в результате следующих вычислений. У= 16,41 -8,25%! + 0,59%2 Y= 16,41 - 8,25-(1,5) + 0,59 (10) = 9,935 Интерпретация коэффициентов регрессии Рассмотрим интерпретацию коэффициентов b0, bi и Ь2 в регрессионной функции, най- денной мистером Бампом. Значение Ьо — это, как и ранее, свободный член в функции Y. Однако теперь его следует интерпретировать как значение У при %! и%2, равных нулгр. Коэффициенты Ь} и Ь2 называются частными или чистыми коэффициентами регрессии. Каждый из них измеряет среднее изменение величины Y при единичном изменении со- ответствующей независимой переменной. Однако поскольку совместное влияние всех независимых переменных на величину Y измеряется регрессионной функцией в целом, частный или чистый эффект переменной %! (или любой другой переменной %) должен измеряться отдельно от влияния других переменных. Поэтому говорят, что коэффици- ент Ь[ измеряет среднее изменение величины Y при единичном изменении переменной Xi и постоянных значениях других независимых переменных.
Многомерный регрессионный анализ 323 Частный или чистый коэффициент регрессии измеряет среднее изменение зависимой переменной при единичном изменении соответствующей независимой переменной и постоянных значениях других независимых переменных. В предыдущем примере значение Ь\ = -8,25 показывает, что каждое увеличение цены молока на 1 цент за галлон при неизменных расходах на рекламу в среднем уменьшает объем продаж молока на 82,5 галлона. Аналогично значение Ь2 = 0,59 означает, что если расходы на рекламу увеличатся на 100 долларов, а цена молока останется неизменной, то объем продаж возрастет в среднем на 590 галлонов. Пример 7.2 Чтобы проиллюстрировать чистый эффект, оказываемый каждой переменной X на значение за- висимой переменной У, рассмотрим ситуацию, при которой цена одного галлона равна 1 доллару, а расходы на рекламу составляют 1000 долларов в неделю. Тогда получим следующее. Y = 16,41-8,25^+0,59^2 = 16,41 -8,25(1,00) + 0,59(10) = 16,41-8,25 + 5,9=14,06 Прогноз указывает, что ожидается продажа 14 060 галлонов молока в неделю. Как повлияет на объем продаж возрастание цены на 1 цент, если расходы на рекламу по- прежнему будут составлять 1000 долларов? У = 16,41 -8,25(1,01) + 0,59(10) = 16,41 -8,3325 + 5,9 = 13,9775 Можно сделать вывод, что объем продаж молока уменьшится на 82,5 галлона (14,06 — 13,9775 = 0,0825). Как повлияет на объем продаж увеличение на 100 долларов расходов на рекламу в неделю, если цена галлона молока останется равной 1 доллару? У = 16,41 -8,25(1,00) + 0,59(11) = 16,41 -8,25 + 6,49 = 14,65 Можно сделать вывод, что объем продажи молока в этом случае увеличится на 590 галлонов (14,65 - 14,06 = 0,59). Статистический анализ модели многомерной регрессии Статистический анализ модели многомерной регрессии проводится аналогично анализу простой линейной регрессии. Стандартные пакеты статистических программ позволяют получить оценки по методу наименьших квадратов для параметров модели, оценки их стандартных ошибок, а также значение 1-статистики, используемой для проверки значи- мости отдельных слагаемых регрессионной модели, и величину F-статистики, служащей для проверки значимости регрессионной зависимости. Вычисление указанных значений вручную при многомерном регрессионном анализе крайне непрактично — подобные вы- числения следует проводить только с помощью компьютера. Как указывалось в главе 6, любое значение наблюдения У может быть записано в сле- дующем виде.
324 ГЛАВА 7 Наблюдение = Прогноз + Остаток или Y=Y+(Y-Y), где Y = bo + b[Xi + 62X2 + • • • + является прогнозом, вычисленным по найденному уравнению регрессии. Напомним, что У вычисляется по оценке регрессионной функции генеральной совокупности. Это значение является той частью величины Y, которая объясняется зависимостью Y от пере- менныхХ Остаток Y - У — это оценка компоненты погрешности в модели. Форма разбиения суммы квадратов и соответствующие степени свободы здесь сле- дующие: ЯМ-Яг-фЕИ (73) SST = SSR + SSE dfin-\ = к + п-к-1 Общая вариация зависимой переменной, SST, состоит из двух компонент: SSR, вариации, объясненной независимыми переменными через функцию регрессии, и SSE, необъяс- ненной вариации. Информация из уравнения 7.3 может быть размещена в таблице ана- лиза дисперсии ANOVA. Эта таблица будет рассмотрена в одном из следующих разделов. Стандартная ошибка оценки Стандартная ошибка оценки — это стандартное отклонение для значений остатков. Она измеряет рассеивание значений переменной У относительно линии функции регрессии.1 2 Стандартная ошибка оценки равна s (7.4) п-к-1 п-к-1 где SSE= £(г-^)2 MSE = SSE/{n - к - 1) количество наблюдений; количество независимых переменных в функ- ции регрессии; сумма квадратов остатков; среднее квадратов остатков. Стандартная ошибка оценки измеряет отклонение имеющихся данных (У) от их оценок (У). Для сравнительно больших выборок следует ожидать, что около 67% разностей У- У будут иметь абсолютную величину не более чем и около 95% из этих разностей по модулю не будут превосходить 2syx-s. 1 Стандартная ошибка оценки — это оценка величины О, стандартного отклонения слагаемого ошибки Е в модели многомерной регрессии.
Многомерный регрессионный анализ 325 Пример 7.3 Значения, необходимые для вычисления стандартной ошибки оценки по данным мистера Бампа, приведены в табл. 7.5. Таблица 7.5. Остатки для данных мистера Бампа по модели из примера 7.1 у X. Х2 Прогноз У (Y), по уравнению У = 16,406 - 8,248а! + 0,585А2 Остатки (У-1) (У-f)1 10 1,30 9 10,95 -0,95 0,90 6 2,00 7 4,01 1,99 3,96 5 1,70 5 5,31 -0,31 0,10 12 1,50 14 12,23 -0,23 0,05 10 1,60 15 11,99 -1,99 3,96 15 1,20 12 13,53 1,47 2,16 5 1,60 6 6,72 -1,72 2,96 12 1,40 10 10,71 1,29 1,66 17 1,00 15 16,94 0,06 0,00 20 1,10 21 19,62 0.38 0,14 Сумма 0,00 15,90 Стандартная ошибка оценки равна следующему. 15,90 10-2-1 7^27 =1,51. Для одной независимой переменной (цена галлона молока) стандартная ошибка оцен- ки равна зух = 2,72 (см. главу 6). Добавив переменную Х2 (расходы на рекламу), мистер Бамп смог уменьшить стандартную ошибку оценки почти на 50%. Разница между данными объе- мов продаж молока и значениями прогноза, полученными из уравнения регрессии, оказалась несколько меньше, чем при использовании только одной переменной. Таким образом, урав- нение с двумя независимыми переменными значительно точнее приближает имеющиеся данные Y, чем уравнение с одной переменной. Значимость регрессии Таблица анализа дисперсии ANOVA строится на разложении общей вариации Y (SST) на объясненную (SSR) и необъясненную (SSE) части (см. уравнение 7.3); общий вид ее при- веден в табл. 7.6.
326 ГЛАВА 7 Таблица 7.6. Таблица ANOVA для случая многомерной регрессии Источник Сумма квадратов Степени свободы Среднеквадратичное значение Отношение F Регрессия SSR к MSR=SSR/k MSR Ошибки SSE п-к-1 MSE = SSE/(n - к - 1) MSE Сумма SST п-1 Рассмотрим гипотезу //0: Pi = Р2 = • • • = Р* = 0. Справедливость этой гипотезы означает, что величина К не связана ни с какой из переменных X (коэффициент при каждой пере- менной Xj равен нулю). Проверка гипотезы Нй фактически является проверкой значимо- сти регрессии. Если регрессионная модель справедлива и гипотеза Но верна, отношение p MSR ~ MSE имеет F-распределение с числом степеней свободы df = к, п - к - 1. Значит, величину F можно использовать для проверки значимости регрессии. В простой линейной регрессии имеется лишь одна независимая переменная. Поэтому для нее проверка значимости регрессии, использующая величину отношения Гиз табли- цы ANOVA, эквивалентна двухстороннему /-критерию проверки гипотезы о равенстве нулю углового коэффициента. Для многомерной регрессии /-критерий (который будет кратко рассмотрен ниже) проверяет значимость каждой отдельной переменной X в функ- ции регрессии, а Г-критерий — значимость всех переменныхXвместе. В модели многомерной регрессии гипотезы Яо:₽1=р2=... = ₽* Нх: хоть один [3, 0 проверяются с помощью отношения p MSR MSE с числом степеней свободы df= к, п - к - 1. При уровне значимости а гипотеза Но от- клоняется, если E>Fa, где Fa — соответствующее уровню а значение Г-распределения с числом степеней сво- боды §1 = к, 82 = п - к - 1. Коэффициент детерминации R2 вычисляется по формуле 2_SSR , SSE £(г-к)2 (7.5) SST £(y-F)2 SSR £(г-г) и имеет такой же вид и такую же интерпретацию, как и г2 для простой линейной регрес- сии. Он представляет собой долю вариации зависимой переменной Y, которая объясня- ется взаимосвязью Ус переменными А".
Многомерный регрессионный анализ 327 Значение Я2 = 1 говорит о том, что наблюдаемые значения Y в точности соответствуют найденной функции регрессии. Вся вариация зависимой переменной объясняется рег- рессией. Значение Я2 = О указывает, что Y = У, а это означает, что SSR = 0, и никакая часть вариации величины Y не объясняется регрессией. На практике значение Я2 обычно лежит в диапазоне 0 < Я2 < 1 и интерпретируется в зависимости от его близости к 0 или 1. Величина Я=7^ (7-6) называется многомерным коэффициентом корреляции и характеризует корреляцию между зависимой переменной Y и прогнозом Y. Поскольку Y прогнозирует значение зависимой переменной, значение Я всегда неотрицательно и лежит в диапазоне 0 < Я < 1. Для многомерной регрессии F = R2 (П~А:~1>1 (7.7) 1-Я2[ к )’ поэтому, при прочих равных показателях, значимые регрессионные зависимости соот- ветствуют сравнительно большим значениям Я2. Пример 7.4 Используя общую сумму квадратов из табл. 6.7 и сумму квадратов остатков из примера 7.3, можно получить разложение суммы квадратов для данных мистера Бампа. SST=SSR + SSE Sfr-n’-Sp-n'+Sfr-fy 233,6 = 217,7+ 15,9 Отсюда, используя обе формы уравнения 7.5 для иллюстрации вычислений, получаем, что .2 _ 217,7 к —-------- 233,6 15,9 233,6 = 0,932 а многомерный коэффициент корреляции равен Я = у Я2 = д/0,932 = 0,965. В данном случае около 93% изменчивости объема продаж молока объясняется регрессией, а именно зависимостью этого объема от цены и расходов на рекламу. Корреляция между реаль- ными данными о продажах и прогнозом продаж равна примерно 0,97, что указывает на большую близость между реальными и прогнозируемыми значениями зависимой переменной. Результа- ты анализа данных мистера Бампа с этой точки зрения кратко представлены в табл. 7.7. Таблица 7.7. Сравнительные результаты анализа данных мистера Бампа Переменные, используемые для R2 2.(¥-У)г объяснения изменчивости Y Нет Цена Цена и расходы на рекламу 0,00 0,75 0,93 233,6 59,4 15,9
328 ГЛАВА 7 Отдельные независимые переменные Коэффициенты при отдельно взятой переменной А" в функции регрессии измеряют час- тичное или чистое влияние, оказываемое этой переменной X на значение переменной У. Если регрессия в целом признана значимой, то хотелось бы проверить и значимость каж- дой независимой переменной в отдельности. Проблема заключается в следующем: среди всех имеющихся переменныхХк является ли влияние данногоX, существенным или сла- гаемое с этой переменной может быть в функции регрессии опущено? На этот вопрос можно ответить после изучения соответствующего значения t. Если гипотеза Но: [3, = О справедлива, проверочная статистика t со значением t = bjl sb имеет /-распределение с числом степеней свободы df= и - к - 1. Здесь bj — это коэффициент приу-й независимой переменной в полученном методом наименьших квадратов уравнении регрессии, a sb — оценка стандартного отклоне- ния (стандартная ошибка).3 Чтобы проверить значимостьу-го слагаемого, j = 0, 1,..., к, в функции регрессии, зна- чение проверочной статистики t сравнивается с табличным значением /-распределения с п - к - 1 степенями свободы. Для уровня значимости а при выборе одной из гипотез //<>:₽; = О Н, : [3,^0 гипотеза Но отклоняется, если |/| > Здесь /^ — верхний а/2-квантиль /-распределения с df= и - к - 1 степенями свободы. Следует быть осторожным при отбрасывании независимой переменной из уравнения регрессии по результатам анализа /-критерия (если гипотеза Но: [3, = О не может быть от- клонена). Если переменные X взаимосвязаны (мультиколлинеарны), коэффициенты уравнения регрессии и соответствующие значения / могут измениться (иногда сущест- венно), если отдельное АГ будет удалено из функции регрессии. Например, переменная АГ, которая раньше была незначимой, может стать значимой. Значит, если имеется несколь- ко малых (незначимых) значений /, следует удалить лишь одну независимую переменную (имеющую наименьшее значение/), а не все их вместе. Этот процесс останавливается тогда, когда все независимые переменные будут иметь большие (значимые) значения ста- тистики / и сама регрессия также будет значимой. Прогнозирование будущих значений зависимой переменной Прогноз У* будущего значения зависимой переменной Y для новых значений перемен- ныхАГ, а именно Х1 = Х(‘, Х2 = Х2, ..., Хк = Х*к, можно получить с помощью найденной оценки функции регрессии. Оценка по методу наименьших квадратов коэффициента bj и оценка его стандартного отклонения (или стандартная ошибка Sb ) вычисляются с помощью компьютерных пакетов статистических про- грамм, таких как Minitab.
Многомерный регрессионный анализ 329 У* = Ьо + ЬХх + Ь2Х’ +... + bt х'к (7.8) При доверительном уровне 1 - а интервал прогноза для значений Y имеет следующий вид. У* ± (стандартная ошибка прогноза) Стандартная ошибка прогноза имеет сложное выражение, в котором стандартная ошиб- ка оценки sy.x-s является важным компонентом. Фактически, если л велико и все А"— не- зависимые переменные, приблизительный 100(1 - а)%-ный доверительный интервал для нового значения У можно вычислить по следующей формуле. -tal2Sy.fS, Y'-ta,2sy.x.s) (7.9) Результаты компьютерных расчетов Результаты компьютерных расчетов для задачи мистера Бампа представлены в лис- тинге 7.1. Изучение этих результатов приводит к следующим выводам. (Соответст- вующие элементы текста, к которым относятся пункты приведенных ниже пояснений, помечены полужирным.) Листинг 7.1. Результаты вычислений, выполненных приложением Minitab для данных Бампа CORRELATIONS (PEARSON) Y XI XI -0.863 Х2 0.891 -0.654 (6) REGRESSION ANALYSIS The regression equation is У = 16.4 - 8.25X1 + 0.585X2 (1) Predictor Constant XI X2 Coef 16.406 (1) -8.248 (1) 0.5851 (1) StDev 4.343 2.196 0.1337 T 3.78 -3.76 4.38 (4) (4) P 0.007 0.007 0.003 (5) (5) S = 1.507 (3) R-Sq = 93.2% (2) R-Sq(adj) = 91.2% (9) Analysis of Source Regression Error Total Variance DE SS MS 2 217.70 (7) 108. 7 15.90 (7) 2.27 9 233.60 (7) 85 F 47.92 (8) P 0.000
330 ГЛАВА 7 1. Coef — коэффициенты регрессии: -8,25 для цены галлона молока и 0,585 для расходов на рекламу. Найденное уравнение регрессии является следующим: У = 16,4-8,25*+ 0,585*2. 2. R-Sq — уравнение регрессии объясняет 93,2% вариации объема продаж. 3. S — стандартная ошибка оценки равна 1,507 галлонов. Эта величина является ме- рой отклонения полученных значений продажи от величин прогноза. 4. Т — в главе 6 была проверена гипотеза об отличии от нуля коэффициента наклона линии регрессии. В этом случае большое значение статистики / = -3,76 для значе- ния переменной цены * и малое значение р (см. п. 5) указывают, что коэффици- ент при этой переменной значимо отличается от нуля (отклоняем гипотезу Нй: Pi = 0). При наличии переменной расходов на рекламу Х2 в функции регрес- сии не может быть пропущена переменная цены. Аналогично большое значение статистики / = 4,38 для значения переменной расходов на рекламу* и ее малое значениер показывают, что коэффициент и при этой переменной значимо отли- чается от нуля (отклоняем гипотезу Нй: р2 = 0). При наличии переменной цены * в функции регрессии не может быть пропущена переменная расходов на рекламу. (Полученные значения / для 7 степеней свободы сравниваем с числом из табл. В.З в приложении В /o,oi = 2,998.) Таким образом, коэффициенты при обеих незави- симых переменных значимо отличаются от нуля. 5. Р — значение р = 0,007 равно вероятности получить значение / с абсолютной ве- личиной, не меньшей 3,76, если гипотеза Но: р] = 0 справедлива. Поскольку эта вероятность весьма мала, едва ли гипотеза Но является справедливой, и поэтому она отклоняется. Коэффициент при переменной цены значимо отличается от ну- ля. Значение р = 0,003 равно вероятности получить значение / с абсолютной вели- чиной, не меньшей 4,38, если гипотеза Но: р2 = 0 справедлива. Поскольку полу- чить такую величину / крайне маловероятно, эта гипотеза Но отклоняется. Коэф- фициент при переменной расходов на рекламу также значимо отличается от нуля. 6. CORRELATIONS — матрица корреляций; приведена в табл. 7.2. 7. SS — разложение суммы квадратов, SST = SSR + SSE (общая сумма квадратов = сумма квадратов регрессии + сумма квадратов ошибок); дано в примере 7.4. 8. F — вычисленное значение F (47,92) используется для проверки значимости рег- рессии. Большая величина F и малая соответствующая вероятность р показывают, что регрессия значима (отклоняется гипотеза /То: Pi = Рг = 0). Отношение F вы- числено следующим образом. MSR MSE 108,85 2,27 = 47,92 Полученное значение F сравниваем с числом из табл. В.5 в приложении В Fool = 9,55, нижней 1%-ной точкой ^-распределения с 2 и 7 степенями свободы. Функция регрес- сии объясняет значительную часть изменчивости объема продаж величины У. 9. R-Sq(adj) — вычисление скорректированного коэффициента детерминации проведено следующим образом. -2=1_5ЖА^-1)=1_15;90^ = SST /(п-1) 233,60/9
Многомерный регрессионный анализ 331 Фиктивные переменные Рассмотрим следующий пример. Пример 7.5 Предположим, что исследователю необходимо изучить, насколько хорошо некоторый тест спо- собностей сможет предсказать будущую производительность труда работника. Восемь женщин и семь мужчин выполнили предусмотренные тестом задания, предназначенные для оценки лов- кости рук при работе с мелкими предметами. После этого каждый из протестированных прошел месячный курс подготовки к работе сборщиком электронных плат, а затем в течение месяца вы- полнял соответствующую работу, после чего его производительность была оценена индексом, принимающим значения от 0 до 10 (значение 0 означает нулевую производительность). Собранные данные приведены в табл. 7.8. Диаграмма рассеивания для этих данных пред- ставлена на рис. 7.2. Пол работника отмечен цифрами: 0 — для женщин и 1 — для мужчин. Таблица 7.8. Данные по сборщикам электроники с фиктивной переменной Пол (пример 7.5) Работник Оценка производительности Данные теста способностей Пол Y *1 х2 1 5 60 0 (Ж) 2 4 55 0 (Ж) 3 3 35 0 (Ж) 4 10 96 0 (Ж) 5 2 35 0 (Ж) 6 7 81 0 (Ж) 7 6 65 0 (Ж) 8 9 85 0 (Ж) 9 9 99 1 (М) 10 2 43 1 (М) И 8 98 КМ) 12 6 91 1 (М) 13 7 95 1(М) 14 3 70 1(М) 15 85 1(М) Сумма 87 1093 Кр — среднее значение оценки производительности труда для женщин = 5,75 YM — среднее значение оценки производительности труда для мужчин = 5,86 Хр — среднее значение результатов теста способностей для женщин = 64 Хм — среднее значение результатов теста способностей для мужчин = 83
332 ГЛАВА 7 О — женщины и 1 — мужчины Q 1 1 О 1 О 1 1 О О О 1 О 1 I____I I I I I I I l I О 10 20 30 40 50 60 70 80 90 100 Результаты теста Рис. 7.2. Диаграмма рассеивания для данных из примера 7.5 Сразу очевидно, что взаимосвязь между результатами теста и реальной производительно- стью труда различна для двух групп работников: одна — для женщин, другая — для мужчин. Иногда требуется определить, как зависимая переменная связана с независимой, ко- гда на ситуацию дополнительно влияет некоторый качественный фактор. Эта зависи- мость отображается в создании фиктивной переменной. Существует много способов свя- зать классы качественной переменной с количественными величинами. В нашем случае для этой цели используются значения 0 и 1. Фиктивные, или индикаторные, переменные используются для определения взаимо- связи между качественными независимыми переменными и зависимой переменной. Метод использования фиктивных переменных иллюстрируется на рис. 7.3. Точки данных для женщин отмечены цифрой 0, для мужчин — 1. На диаграмме рассеивания проведены две параллельные прямые. Верхняя — это регрессионная прямая для женщин, нижняя — для мужчин.
Многомерный регрессионный анализ 333 Рис. 7.3. Регрессионные прямые, соответствующие фиктивным переменным в примере 7.5 Каждая из этих прямых получена из функции регрессии вида У = Ьо + b}Xt + Ь^ где Х[ — результаты теста; [О для женщин Х2 = ! (фиктивная переменная). [1 для мужчин Записанное одно уравнение эквивалентно следующим двум уравнениям. Y = Ьо + Ь'Х' для женщин Y = b0 + btXi + b2 = (b0 + b2) + btXi для мужчин Отметим, что Ь2 представляет влияние мужского пола на производительность труда, a bi — влияние разницы в результатах теста способностей (значение bt предполагается одинаковым для мужчин и женщин). Существенным моментом является то, что одно уравнение многомерной регрессии дает оценку двух регрессионных прямых, показанных на рис. 7.3. Верхняя прямая — это оценка взаимосвязи для женщин, а нижняя — для мужчин. Можно рассматривать^ как “переключающую” переменную, которая “включена”, когда рассматриваются данные для мужчины, и “выключена”, если данные относятся к женщине.
334 ГЛАВА 7 Пример 7.6 В листинге 7.2 приведена оценка уравнения многомерной регрессии для данных из приме- ра 7.5, полученная как результат вычислений в приложении Minitab. Это уравнение имеет следующий вид. /=-1,96 + 0,12л)-2,18.¥2 Для двух значений (0 и 1) переменной Х2, уравнение регрессии принимает следующий вид. Y = -1,96 + 0,12^ - 2,18(0) = -1,96 + 0,12^ для женщин и / = -1,96 + 0,12Л, -2,18(1) = -4,14 + 0,12^| длямужчин Эти уравнения могут быть интерпретированы таким образом. Значение коэффициента регрессии = 0,12 определяет коэффициент наклона каждой из наших прямых. Это оценка среднего приращения показателя производительности труда работника при увеличении на единицу результата теста способностей. Данное значение применимо и для работников- женщин, и для работников-мужчин. Листинг 7.2. Результаты вычислений, выполненных приложением Minitab для данных из примера 7.6 CORRELATIONS: Rating, Test, Gender Rating Test Test 0.876 Gender 0.021 0.428 REGRESSION ANALYSIS: Rating versus Test, Gender The regression equation is Rating = -1.96 + 0.120 Test - 2.18 Gender Predictor Coef SE Coef T P Constant -1.9565 0.7068 -2.77 0.017 Test 0.12041 0.01015 11.86 0.000 Gender -2.1807 0.4503 -4.84 0.000 S = 0.7863 R-Sq = 92.1% R-Sq(adj) = 90.8% Analysis of Variance Source DF SS MS F P Regression 2 86 .981 43.491 70.35 0.000 Residual Error 12 7 .419 0.618 Total 14 94 .400 Регрессионный коэффициент b2 = - 2,18 применим только для работников-мужчин. При рассмотрении результатов теста для мужчины оценка производительности труда должна быть уменьшена на 2,18 по сравнению с оценкой для женщины, если значение данных теста спо- собностей у них одинаково. Понять этот результат поможет рассмотрение средних значений переменных/ иАг1 для мужчин и женщин в отдельности. В табл. 7.8 показано, что средняя оценка производительно-
Многомерный регрессионный анализ 335 сти труда равна приблизительно 5,86 для мужчин и 5,75 для женщин. Однако средний резуль- тат теста у мужчин (83) существенно выше, чем у женщин (64). Следовательно, если два кан- дидата, мужчина и женщина, проходят тест и оба получают по 70 баллов, прогноз оценки производительности труда для женщины должен быть на 2,18 выше, чем для мужчины. Ведь мы имеем следующее. Для женщины: У = -1,96 + 0,12Xt =-1,96 + 0,12(70) = 6,44 для мужчины: У= -4,14 + 0,12^ =-4,14 + 0,12(70) = 4,26 Анализ корреляционной матрицы в листинге 7.2 дает некоторые интересные результаты. Имеется сильная линейная взаимосвязь между производительностью труда и результатами теста способностей, поскольку г12 = 0,876. Если для прогноза производительности труда ис- пользовать только результат этого теста, будет объяснено около 77% (0,8762 = 0,767) вариации оценки производительности труда. Коэффициент корреляции г13 = 0,02 показывает, что практически нет взаимосвязи между полом и производительностью. Это очевидно следует из того, что средние оценки производи- тельности для мужчин и женщин почти равны (5,86 и 5,75). На первый взгляд, может пока- заться, что информация о том, является ли кандидат мужчиной или женщиной, не имеет зна- чения. Однако значение коэффициента корреляции между индикатором пола и результатами теста г23 = 0,43 показывает, что надо различать итоги теста для мужчин и женщин. Если для прогноза производительности труда используются и результаты теста, и сведе- ния о поле работника, объясняется 92% дисперсии. Этот результат означает, что обе пере- менные вносят существенный вклад в прогноз производительности. Тест способностей объ- ясняет 77% дисперсии, а использование переменной пола добавляет к этому значению еще 15%. Найденные значения /-статистики, 11,86 и -4,84, для результатов теста и индикатора пола, соответственно, указывают, что в окончательную функцию регрессии должны быть включены обе независимые переменные. Мультиколлинеарность Во многих случаях применения методов регрессии в качестве данных просто используют- ся все доступные значения предварительно назначенных независимых переменных. В подобных ситуациях независимые переменные часто оказываются линейно зависимыми. Например, в работе оценщика цена продаваемого дома может быть связана со значения- ми таких независимых переменных, как год постройки дома, его жилая площадь, количе- ство жилых комнат и прочих помещений, общее количество продаваемых домов, индекс, учитывающий качество конструкции дома. Однако в таких случаях жилую площадь, ко- личество жилых комнат и прочих помещений следует рассматривать вместе. Если одно из этих значений возрастает, другие тоже, как правило, увеличиваются. Если линейная зависимость не точная, для оценки коэффициентов регрессии может по-прежнему применяться метод наименьших квадратов. Однако в этом случае получен- ные оценки часто характеризуются неустойчивостью (значения коэффициентов могут существенно изменяться даже при относительно небольших изменениях данных) и опре- деленной избыточностью (рассчитанные величины, как правило, оказываются больше ожидаемых). В частности, отдельные коэффициенты могут иметь неверный знак, а зна- чения /-статистики для отдельных слагаемых могут все оказаться незначимыми, в то вре- мя как F-тест демонстрирует значимость регрессии. К тому же вычисления по методу наименьших квадратов могут оказаться чувствительными к ошибкам округления.
336 ГЛАВА 7 Линейная зависимость между двумя или более независимыми переменными называется мультиколлинеарностью. Степень мультиколлинеарности измеряется факто- ром роста дисперсии ( VIF).'' Здесь Rj — это коэффициент детерминации из регрессии j-й независимой переменной по оставшимся (Л - 1) независимым переменным. Для к = 2 независимых переменных это значение равно rj — квадрату их выборочного коэффициента корреляции. Если j-я независимая переменная Xj не связана с остальными X, то R?j = 0 и VIFj = 1. Если зависимость имеет место, то VIFj> 1. Например, если Rj =0 равно 0,9, то VIFj = 1/(1 -0,9)= 10. Значение VIF, близкое к 1, говорит о том, что для этой переменной проблемы мульти- коллинеарности не существует. Оценка ее коэффициента и значение /-статистики не из- менятся значительно, если другие независимые переменные будут добавлены в уравне- ние регрессии или удалены из него. Значение VIF, гораздо большее 1, указывает, что оценка коэффициента при этой независимой переменной неустойчива. Ее величина и значение /-статистики могут сильно измениться при добавлении в уравнение регрессии или удалении из него других независимых переменных. В сущности, большая величина фактора VIF означает, что имеется избыточная информация о независимых переменных. Информация, предоставляемая переменной с большим VIF, уже присутствует в других независимых переменных. При наличии мультиколлинеарности интерпретировать влия- ние отдельной независимой переменной на зависимую гораздо сложнее. Пример 77 Стоимость выпуска газеты в значительной степени зависит от типографских расходов. Поэтому издатели газет заинтересованы в изучении факторов, определяющих сумму годовых затрат на печать газеты. В одном исследовании (см. Jonson, Wichem, 1997) для 15 городов приводятся дан- ные о годовых расходах на печать (У), тираж газеты в городе (А)), логарифм4 5 количества семей в городе (Х2) и логарифм объема розничной продажи газеты в городе (Аз). В результате примене- ния приложения Minitab для проведения регрессионного анализа этих данных с тремя незави- симыми переменными были получены результаты, приведенные в листинге 7.3. Листинг 7.3. Результаты вычислений, выполненных приложением Minitab для данных из примера 7.7, - вариант использования трех независимых переменных REGRESSION ANALYSIS: Newsprint versus Papers, LnFamily, LnRetSales The regression equation is Newsprint = -56388 + 2385 Papers + 1859 LnFamily + 3455 LnRetSales 4 Фактор роста дисперсии (VIF) получил свое название на основании того, что Sь (стандартная ошиб- ка оценки коэффициента Ьр возрастает при увеличении VIFj. 5 Для количества семей и объема розничной продажи берутся их логарифмы с целью уменьшить разброс данных и, следовательно, упростить их обработку.
Многомерный регрессионный анализ 337 Predictor Coef SE Coef T P VIF Constant -56388 13206 -4.27 0.001 Papers 2385 1410 1.69 0.119 1.7 LnFamily 1859 2346 0.79 0.445 7.4 LnRetSales 3455 2590 1.33 0.209 8.1 S = 1849 R-Sq = 83.5% R-Sq(adj) = 79.0% Analysis of Variance Source DF SS MS F P Regression 3 190239371 63413124 18 .54 0.000 Residual Error 11 37621478 3420134 Total 14 227860849 Значение статистики F и соответствующая величина вероятности р ясно указывают на зна- чимость регрессии. Статистика t для каждой независимой переменной невелика, а соответст- вующие значенияр относительно большие. Отсюда делаем вывод, что, например, переменная LnFamily (логарифм количества семей) не значима при наличии всех других независимых пе- ременных в функции регрессии. Это указывает, что слагаемое Р2Х> может быть пропущено, если другие слагаемые (31JV'! и останутся. Аналогично может быть пропущено слагаемое РзА'з, если в уравнении регрессии останутся слагаемые р и Р2%2. Значение /, связанное с тиражом газет в городе, минимально значимо, но слагаемое Р,^ также может быть пропущено, если другие не- зависимые переменные остаются в уравнении. Таким образом, регрессия значима, в то время как каждая отдельная независимая переменная не значима. Почему? Ответ нам дает столбец VIF в листинге 7.3. Поскольку VIF= для переменной Papers (тираж газет), эта переменная очень слабо связана (значение VIF близко к 1) с остальными неза- висимыми переменными, LnFamily и LnRetSales. Значение P7F=7,4 для переменной LnFamily сравнительно велико, и это указывает, что данная переменная линейно связана с ос- тальными независимыми переменными. Также величина РУ/7 =8,1 для переменной LnRet- Sales указывает, что эта переменная связана с остальными независимыми переменными. По- скольку переменная Papers слабо связана с переменными LnFamily и LnRetSales, сущест- вующая взаимосвязь между независимыми переменными определяется взаимосвязью между переменными LnFamily и LnRetSales. Действительно, выборочный коэффициент корреля- ции между переменными LnFamily и LnRetSales г = 0,93 подтверждает наличие этой связи. Переменные LnFamily и LnRetSales очень близки по своей способности объяснить ве- личину расходов на издание газеты. В уравнении регрессии нам потребуется лишь одна из этих переменных. В листинге 7.4 приводятся результаты вычислений приложения Minitab по регрессионному анализу исходных данных, из которых удалена переменная LnFamily (это переменная с наименьшим значением z-статистики). Листинг 7.4. Результаты вычислений, выполненных приложением Minitab для данных из примера 7.7, - вариант использования двух независимых переменных REGRESSION ANALYSIS: Newsprint versus Papers, LnRetSales The regression equation is Newsprint = -59766 + 2393 Papers + 5279 LnRetSales
338 ГЛАВА 7 Predictor Constant Papers LnRetSales Coef -59766 2393 5279 SE Coef 12304 1388 1171 T -4.86 1.72 4.51 P VIF 0.000 0.110 1.7 0.001 1.7 S = 1849 R-Sq = 82.5% R-Sq(adj) = 79.6% Analysis of Variance Source DF Regression 2 Residual Error 12 Total 14 SS 188090489 39770360 227860849 MS 94045244 3314197 F P 28.38 0.000 Обратите внимание на то, что значения коэффициентов при переменной Papers почти одинаковы в этих двух вариантах регрессии. Коэффициенты при LnRetSales, наоборот, заметно отличаются (3455 — для к = 3 независимых переменных и 5279 — для к = 2 независи- мых переменных). Кроме того, во втором варианте регрессии переменная LnRetSales существенно значима (/ = 4,51 с соответствующим значением р = 0,001). При наличии пере- менной Papers в модели, LnRetSales является еще одной важной переменной, объясняю- щей величину расходов на издание газеты. Значения У?2 для обеих регрессий почти одинако- вы, примерно по 0,83, стандартные ошибки оценок равны s = 1,849 и з = 1,820 соответственно. Наконец, общее значение VIF = 1,7 для обеих переменных во второй модели показывает, что мультиколлинеарность больше не создает нам проблем. Анализ остатков подтверждает, что полученная модель регрессии, связывающая переменные Papers и LnRetSales, адекватна. Что же можно сделать, если требуется оценить эффект одной, отдельно взятой неза- висимой переменной при наличии в модели мультиколлинеарности? Существует не- сколько способов работы с переменными в подобной ситуации. Правда, ни один из них не является универсальным для всех возможных случаев. • Создайте новые переменные X, которые мы обозначим как X , посредством мас- штабирования всех независимых переменных по следующей формуле. X -X X = -.... .....J----- у = 1, 2, ..., к, i = l, 2, ..., п. (7.11) Все эти новые переменные будут иметь нулевое среднее значение и одно и то же выборочное среднеквадратическое отклонение. Вычисления коэффициентов рег- рессии для этих новых независимых переменных будут менее чувствительны к ошибкам округления при наличии мультиколлинеарности. • Найдите и удалите из набора данных одну или более независимых переменных, яв- ляющихся избыточными (именно этот подход использовался в примере 7.7). • Воспользуйтесь методом оценки, отличным от метода наименьших квадратов.6 6 Альтернативные способы оценки параметров регрессии в данной книге не рассматриваются. Заинтере- сованный читатель может обратиться к изданию Draper, Smith (1998).
Многомерный регрессионный анализ 339 • Представьте зависимую переменную Y как линейную комбинацию некоррелирую- щих между собой независимых переменных X.7. • Тщательно отберите независимые переменные на начальном этапе исследования. Старайтесь сразу отказываться от переменных, “говорящих об одном и том же”. Выбор “наилучшего” уравнения регрессии Как можно получить уравнение многомерной регрессии, наилучшее для прогноза значе- ний интересующей нас переменной? Первый шаг — это определение набора возможных независимых переменных. Необходимо включить в рассмотрение все переменные, кото- рые способны улучшить точность прогноза. При выборе окончательного вида уравнения появляется дилемма обеспечения наилучшего прогноза с наименьшими затратами. Дру- гими словами, когда исследователь выбирает независимые переменные для окончатель- ного варианта уравнения регрессии, он должен учитывать два противоречащих друг другу требования. 1. Необходимо использовать в уравнении как можно больше независимых перемен- ных, содержащих новую информацию о зависимой переменной.8 2. Поскольку сбор и обработка информации о каждой новой переменной требуют дополнительных затрат, в уравнении должно быть как можно меньше перемен- ных. Обычно самое простое уравнение и есть наилучшее уравнение. Выбор наилучшего уравнения регрессии обычно предусматривает поиск компромис- са между этими двумя противоположными требованиями, и личная оценка исполнителя является необходимым элементом этого поиска. После того как составлен (по возможности) полный список потенциальных незави- симых переменных, приступаем ко второму шагу— к отбору переменных, которые могут оказаться неадекватными данному случаю. Независимая переменная может быть исклю- чена из рассмотрения, если она не имеет существенного отношения к решению постав- ленной задачи (всегда должна существовать некоторая реальная взаимосвязь между зави- симой и данной независимой переменными), если она характеризуется значительными ошибками измерения, если она дублирует другие независимые переменные (мультиколлинеарность), если имеются большие проблемы в ее измерении (точные дан- ные недоступны или обходятся очень дорого). Третий шаг состоит в сокращении списка независимых переменных, чтобы получить “наилучший” набор независимых переменных. Используемые для этой цели способы бу- дут обсуждаться в следующем разделе. Никакая из известных процедур отбора не гаран- тирует обязательного получения “наилучшего” набора независимых переменных. В дей- ствительности, зачастую единственного “лучшего” набора переменных просто не суще- ствует. К тому же различные способы отбора переменных вовсе не обязательно приводят к одному и тому же уравнению регрессии. Поэтому реально процесс отбора переменных 7 Процедуры создания линейных комбинаций некоррелирующих переменных X в данной книге также не рассматриваются. Эта техника обсуждается в издании Draper, Smith (1998). s При добавлении новой независимой переменной в уравнение многомерной регрессии значение F? либо не изменяется, либо увеличивается. Значит, важно, чтобы новая независимая переменная вносила существен- ный вклад в уравнение регрессии.
340 ГЛАВА 7 очень субъективен. Основным преимуществом автоматических процедур отбора пере- менных является то, что в результате исследователь сможет сосредоточить свое основное внимание на меньшем наборе переменных. Чтобы продемонстрировать различные способы выбора переменных, рассмотрим не- сложный пример с пятью потенциально возможными независимыми переменными. Пример 7.8 Пэм Вейганд (Pam Wiegand), менеджер отдела кадров компании Zurenko Pharmaceutical, за- интересована в получении обоснованного прогноза, сможет ли определенный кандидат стать хорошим продавцом. Для этой цели в качестве зависимой переменной (У) она выбрала дан- ные об объеме продаж за первый месяц работы и решила принять к рассмотрению следующие независимые переменные. Xi — результат теста способностей к продаже Х2 — возраст Х} — результат теста тревожности Х4 — опыт работы Х5 — средний балл школьного аттестата Пэм собрала данные, приведенные в табл. 7.9, и поставила перед исследователем задачу найти “наилучший” набор независимых переменных для составления прогноза способности кандидата стать хорошим продавцом. Таблица 7.9. Данные компании Zurenko Pharmaceutical для примера 7.8 Объем продаж за месяц (в единицах) Результат теста способностей Возраст Результат теста тревожности Опыт работы Средний балл школьного аттестата 44 10 22,1 4,9 0 2,4 47 19 22,5 3,0 1 2,6 60 27 23,1 1,5 0 2,8 71 31 24,0 0,6 3 2,7 61 64 22,6 1,8 2 2,0 60 81 21,7 3,3 1 2,5 58 42 23,8 3,2 0 2,5 56 67 22,0 2,1 0 2,3 66 48 22,4 6,0 1 2,8 61 64 22,6 1,8 1 3,4 51 57 21,1 3,8 0 3,0 47 10 22,5 4,5 1 2,7 53 48 22,2 4,5 0 2,8 74 96 24,8 0,1 3 3,8 65 75 22,6 0,9 0 3,7 33 12 20,5 4,8 0 2,1 54 47 21,9 2,3 1 1,8
Многомерный регрессионный анализ 341 Окончание табл. 7.9 Объем продаж за месяц (в единицах) Результат теста способностей Возраст Результат теста тревожности Опыт работы Средний балл школьного аттестата 39 20 20,5 3,0 2 1,5 52 73 20,8 0,3 2 1,9 30 4 20,0 2,7 0 2,2 58 9 23,3 4,4 1 2,8 59 98 21,3 3,9 1 2,9 52 27 22,9 1,4 2 3,2 56 59 22,3 2,7 1 2,4 49 23 22,6 2,7 1 2,4 63 90 22,4 2,2 2 2,6 61 34 23,8 0,7 1 3,4 39 16 20,6 3,1 1 2,3 62 32 24,4 0,6 3 4,0 78 94 25,0 4,6 5 3,6 Первый шаг анализа — это получение корреляционной матрицы с помощью компьютер- ной программы. Такая матрица даст существенную информацию о взаимосвязях между пере- менными. Изучение корреляционной матрицы, приведенной в листинге 7.5, показывает, что тест способностей к продаже (Aptitude), возраст (Аде), опыт работы (Ехр.) и средний балл ат- тестата (GPA) положительно связаны со способностями продавца и потенциально могут быть хорошими независимыми переменными. Результат теста тревожности (Anxiety) имеет не- большую отрицательную корреляцию с объемом продаж и, вероятно, не является важной не- зависимой переменной. Дальнейший анализ показывает, что средний балл и возраст, а также опыт работы и возраст имеют между собой среднюю корреляцию. Именно наличие подобной взаимозависимости является предметом анализа при отборе наилучшего множества объяс- няющих переменных. Листинг 7.5. Корреляционная матрица для данных из примера 7.8 (приложение CORRELATIONS: Sales, Aptitude, Age, Anxiety, Exp., GPA Sales Aptitude Age Anxiety Exp Aptitude 0.676 0.000 Age 0.798 0.228 0.000 0.226 Anxiety -0.296 -0.222 -0.287 0.112 0.238 0.124 Exp. 0.550 0.350 0.540 -0.279 0.002 0.058 0.002 0.136
342 ГЛАВА 7 GPA 0.622 0.318 0.695 -0.244 0.312 0.000 0.087 0.000 0.193 0.093 Cell Contents: Pearson correlation P-Value Ниже обсуждается использование двух процедур: анализ всех возможных регрессий и пошаговая регрессия. Анализ всех возможных регрессий В данной процедуре рассматриваются все возможные уравнения регрессии, включающие потенциальные независимые переменные. Исследователь начинает с уравнения, не со- держащего ни одной независимой переменной, и анализирует все их возможные комби- нации, чтобы выбрать наилучший набор независимых переменных. В этой процедуре для сравнения уравнений регрессии могут использоваться различ- ные критерии. Мы рассмотрим только метод с использованием коэффициента детерми- нации Л2, включающий четыре этапа. На первом этапе необходимо построить уравнения регрессии для данной зависимой переменной и всех возможных наборов независимых переменных. Каждая независимая переменная может присутствовать или не присутствовать в уравнении (две возможно- сти), потому всего будет 2* уравнений (где к обозначает число независимых переменных). Так, если используется восемь независимых переменных (к = 8), то потребуется рассмот- реть 2* = 256 уравнений. Второй этап процедуры — разделение уравнений на множества в соответствии с коли- чеством параметров, которые необходимо оценить. Пример 7.9 В табл. 7.10 приведены результаты оценки всех возможных уравнений регрессии для данных компании Zurenko Pharmaceutical (см. пример 7.8). Обратите внимание на то, что табл. 7.10 разделена на шесть множеств в соответствии с полученными уравнениями регрессии. Деле- ние на множества выполнено по количеству параметров, содержащихся в уравнении. Таблица 7.10. Значения нг для всех возможных вариантов уравнений регрессии по данным компании Zurenko Pharmaceutical Используемые независимые переменные Число параметров Степени свободы R2 Нет 1 29 0 2 28 0,4570 *2 2 28 0,6370 Х3 2 28 0,0880 X, 2 28 0,3020 Х5 2 28 0,3870 Х2 3 27 0,8948
Многомерный регрессионный анализ 343 Окончание табл. 7.10 Используемые независимые переменные Число параметров Степени свободы Я2 Х3,Х3 3 27 0,4790 3 27 0,5690 xltxs 3 27 0,6410 Х2, х3 3 27 0,6420 х2,х4 3 27 0,6570 Х2, х5 3 27 0,6460 х3, х4 3 27 0,3240 х3, х5 3 27 0,4090 х4,х5 3 27 0,5270 х,.х2,х3 4 26 0,8951 х„х2,х4 4 26 0,8948 Х,х2,х5 4 26 0,8953 Xi, Х3, Х4 4 26 0,5750 Х,х3<х5 4 26 0,6460 х},х4,х5 4 26 0,7010 Х2, Х3, Х4 4 26 0,6590 Х2,х3,х5 4 26 0,6500 х2,х4,х5 4 26 0,6690 Х3, Х4, Х5 4 26 0,5310 х},х2,х3,х4 5 25 0,8951 Х3, х2, х3, х5 5 25 0,8955 xltx2,x4,x5 5 25 0,8953 х3,х3,х4,х5 5 25 0,7010 x2,x3,x4,xs 5 25 0,6710 x„x2,x3,x4,xs 6 24 0,8955 Третий этап состоит в выборе наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров. Уравнение с наибольшим Л2 счи- тается наилучшим. Наилучшие уравнения из каждой группы, выделенной в табл. 7.10, приведены в табл. 7.11.
344 ГЛАВА 7 Таблица 7.11. Лучшие уравнения регрессии для данных компании Zurenko Число параметров Независимые переменные Степени свободы R2 1 Нет 29 0,0000 2 Х2 28 0,6370 3 Ал, Х2 27 0,8948 4 xb%2,x5 26 0,8953 5 Х3,Х2,Х3,Х5 25 0,8955 6 Xh х2, х3, Х4, х5 24 0,8955 На четвертом этапе осуществляется субъективный выбор — какое уравнение является наилучшим. С одной стороны, исследователю желательно иметь наибольшее из возмож- ных значений показателя Л2, а с другой, — необходимо использовать максимально про- стое уравнение регрессии. Подход, предусматривающий анализ всех возможных моделей регрессии, предполагает, что количество точек данных п превышает число параметров к. Пример 7.10 Исследователю необходимо найти такой вариант, при котором добавление дополнительных независимых переменных в задаче компании Zurenko Pharmaceutical будет нерационально, поскольку приведет лишь к незначительному возрастанию величины 7?2. Представленные в табл. 7.11 результаты ясно показывают, что добавление новых переменных после включения в уравнение результатов теста способностей (Х,) и данных о возрасте (%2) не является необхо- димым. Следовательно, окончательное уравнение регрессии имеет следующий вид. Y — + 62А^2 Это уравнение объясняет 89,48% вариации переменной Y. Процедура анализа всех возможных вариантов регрессии лучше всего объясняется в книге Драпера и Смита (1998). Вообще говоря, анализ всех возможных вариантов регрессии является неоправдан- ным. Если утверждается, что исследователь “рассмотрел все имеющиеся возможно- сти”, то это означает, что он проанализировал большое количество уравнений, кото- рые разумнее было бы исключить из рассмотрения. Затраты компьютерного времени и физические усилия, потраченные на анализ результатов компьютерных расчетов, становятся просто непомерными, как только количество независимых переменных выходит за рамки первого десятка. Желательно использовать некоторые дополни- тельные процедуры отбора, позволяющие ускорить решение данной задачи (с. 333). Пошаговая регрессия Процедура пошаговой регрессии предусматривает поэтапное добавление в уравнение от- дельных независимых переменных, по одной переменной на каждом этапе. При исполь- зовании этой процедуры компьютер позволяет обработать большое количество незави- симых переменных за одно выполнение программы.
Многомерный регрессионный анализ 345 Пошаговая регрессия наилучшим образом может быть описана посредством перечис- ления основных этапов проводимых вычислений (алгоритмом). 1. Рассматриваются все возможные простые регрессии. Независимая переменная, объяс- няющая наибольшую значимую долю вариации Y (имеет наибольшую корреляцию с за- висимой переменной), — это первая переменная, включаемая в уравнение регрессии. 2. Следующая переменная, вводимая в уравнение, — это та (из еще не включенных в уравнение), которая привносит наибольший значимый вклад в регрессионную сумму квадратов. Является ли этот вклад значимым, определяется с помощью F- теста. Значение F-статистики, которое должно быть превышено для признания значимости некоторой переменной, часто называется значением F для включения. 3. После включения дополнительной переменной в уравнение, отдельный вклад в регрессионную сумму квадратов каждой из переменных, уже включенных в уравне- ние, проверяется на значимость с помощью F-теста. Если полученное значение F- статистики окажется меньше, чем величина, называемая Fдля исключения, данная переменная исключается из уравнения регрессии. 4. Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся незначи- мыми, а все возможные удаления — значимыми. В этот момент процедура выбора заканчивается. Пошаговая регрессия позволяет включать или исключать независимые переменные из уравнения регрессии на разных этапах исследования. Независимая переменная удаляется из модели, если она перестает давать значимый вклад при добавлении новой переменной. Пользователь программы пошаговой регрессии сам указывает значения, определяющие, остается ли переменная в уравнении или удаляется. Поскольку F-статистика, используемая в пошаговой регрессии, такова, что F= ?, где t— /-статистика для проверки значимости не- зависимой переменной, Е = 4 (соответствующее |/| = 2) — это обычный выбор значения Fd/гя включения и Рдля исключения. Значение Fd.w включения, равное 4, по существу, эквива- лентно проверке на значимость независимой переменной на уровне 5%. Программа поша- говой регрессии в приложении Minitab предусматривает, что пользователь выбирает уро- вень а для включения и а для исключения переменных вместо значения F. Выбор значения а, равного 0,05, приблизительно эквивалентен использованию F= 4. Результат пошаговой процедуры — это регрессионная модель, содержащая только не- зависимые переменные с величинами t, значимыми на указанном уровне. Однако по- скольку процедура проводилась шаг за шагом, у нас нет гарантии, что в данную регрес- сию включены, к примеру, три наилучшие для составления прогноза переменные. Кроме того, метод автоматического отбора не позволяет указать на необходимость преобразова- ния переменных и исключить проблему мультиколлинеарности. Наконец, пошаговая регрессия не может создать важные переменные, не указанные пользователем. В любом случае необходимо тщательно продумать набор независимых переменных, предлагаемых для исследования с помощью программы пошаговой регрессии. Выполнение процедуры пошаговой регрессии иллюстрируется в примере 7.11. Пример 7-11 Давайте решим задачу, связанную с обработкой данных компании Zurenko Pharmaceutical, с помощью метода пошаговой регрессии.
346 ГЛАВА 7 Пэм изучила корреляционную матрицу, приведенную в листинге 7.5, и пришла к заклю- чению, что при выполнении процедуры пошагового анализа переменная возраста войдет в модель первой, поскольку она имеет наибольшую корреляцию с объемом продаж (г]3 = 0,798) и объясняет 63,7% (0,7982) вариации продаж. Она отметила для себя, что результат теста способностей, вероятно, войдет в модель вто- рым, поскольку этот показатель сильно связан с продажами (и 2 = 0,676), но не имеет тесной связи с переменной возраста (г23 = 0,228), уже включенной в модель. Пэм также решила, что другие переменные не будут, по-видимому, признаны хорошими независимыми переменными. Результат теста на тревожность не является подходящей пере- менной, поскольку он не имеет тесной связи с объемом продаж (Г| 4 = -0,296). Переменные опыта работы и среднего балла потенциально могут оказаться хорошими независимыми пе- ременными (г| 5 = 0,550) и (г, 6 = 0,622). Однако обе эти переменные совместно с переменной возраста создают проблему мультиколлинеарности (г3 5 = 0,540) и (г3>6 = 0,695). Команды, которые следует выбрать в приложении Minitab при выполнении процедуры пошаговой регрессии для этого примера, приведены в разделе “Применение Minitab” в конце данной главы. Результаты работы этого приложения приведены в листинге 7.6. Листинг 7.6. Результаты вычислений приложения Minitab при анализе данных компании Zurenko Pharmaceutical методом пошаговой регрессии STEPWISE REGRESSION: Sales versus Aptitude, Age, Anxiety, Exp., GPA Alpha-to-Enter: 0.05 Alpha-to-Remove: 0.05 Response is Sales on 5 predictors, with N = 30 Step 1 2 Constant -100.85 -86.79 Age 6.97 5.93 T-Value 7.01 10.60 P-Value 0.000 0.000 Aptitude 0.20.0 T-Value 8.13 P-Value 0.000 S 6.85 3.75 R-Sq 63.70 89.48 R-Sq (adj) 62.41 88.70 C-p 57.4 0.2 Пошаговый анализ проводится следующим образом. Этап 1. Модель после выполнения этапа 1 имеет такой вид: объем продаж = - 100,85 + 6,97 (возраст). Как и предполагала Пэм, переменная возраста вводится в модель первой и объясняет 63,7% дисперсии значений объема продаж. Поскольку значениер, равное 0,000, меньше ве- личины а = 0,05, переменная возраста добавляется в модель. Помните, что величина р — это
Многомерный регрессионный анализ 347 определяемая только случайностью вероятность получить значение статистики/, не мень- шее 7,1. По правилам, заложенным в приложение Minitab, в уравнение вводится переменная с величиной р, меньшей заданного значения а. Отметим, что t = 7,01 > 2,048, нижнего 0,025-квантиля /-распределения с 28 (п - к - 1 = 30 - 1 - 1) степенями свободы. Поэтому гипотеза Нй: =0 отклоняется при уровне значимо- сти 0,05 в пользу гипотезы Нх : Pi ± 0. Поскольку Г2 = F или 2,0482 = 4,19, значение Fдля вклю- чения, равное 4, по сути, эквивалентно проверке значимости независимой переменной на уровне 5%. В этом случае, поскольку коэффициент при переменной возраста явно значимо отличается от нуля, возраст входит в уравнение регрессии, и мы переходим ко второму этапу. Этап 2. Модель после выполнения этапа 2 имеет следующий вид. объем продаж = -86,79 + 5,93 (возраст) + 0,200 (тест способностей) Эта модель объясняет 89,48% вариации продаж. Рассмотрим нулевую и альтернативную гипотезы для определения, отличается ли значимо от нуля коэффициент регрессии при переменной результата теста способностей. Яо:₽2 = О Нх : ₽2 * 0 И вновь, значениер, равное 0,000, меньше величины а, равной 0,05, и переменная резуль- тата теста способностей добавляется в модель. Коэффициент регрессии при переменной теста значимо отличается от нуля, и вероятность того, что это происходит лишь в результате слу- чайного отклонения, почти нулевая. Данный результат означает, что результат теста способ- ностей является важной независимой переменной, если ее использовать совместно с пере- менной возраста. Критическое значение /-статистики при 27 (п - к - 1 = 30 - 2 - 1) степенях свободы рав- но 2,052.’ Вычисленное отношение /, как мы видим в распечатке результатов работы прило- жения Minitab, равно 8,13, что больше 2,052. Подход с помощью /-теста также отклоняет ну- левую гипотезу. Заметим, что величина/» для коэффициента регрессии при переменной возраста рав- на 0,000 и по-прежнему значима. Теперь переходим к этапу 3. Этап 3. Компьютер рассматривает добавление третьей независимой переменной при ус- ловии, что %, (возраст) и Х2 (тест способностей) уже присутствуют в уравнении регрессии. Никакая из оставшихся независимых переменных не будет значимой (имеющей величинур, меньшую 0,05) в комбинации с переменными Хх и Х2, поэтому данная пошаговая процедура завершается. Окончательная модель, полученная Пэм с помощью выполнения пошаговой процеду- ры, — это регрессионная модель с двумя переменными, образованная на этапе 2. Заключительные замечания относительно метода пошаговой регрессии Метод пошаговой регрессии очень прост и удобен в использовании. К несчастью, этот метод можно очень легко употребить неправильно. Зачастую, изучая модель регрессии, исследователь создает большое количество возможных независимых переменных, а затем с помощью пошаговой процедуры определяет, какие из них являются значимыми. Про- ’ Опять-таки, поскольку 2,0522 = 4,21, использование значения /"для включения, равного 4, примерно эквивалентно проверке значимости независимой переменной на уровне 0,05.
348 ГЛАВА 7 блема заключается в том, что при анализе большого количества независимых перемен- ных проводится очень много /-тестов и становится вполне возможным допустить ошибку I рода (добавить незначимую переменную). В этом случае окончательная модель будет содержать переменную, не связанную с зависимой переменной линейно и включенную в модель только по случайности. Как было отмечено выше, еще одна проблема связана с исходным выбором возмож- ных независимых переменных. Когда эти переменные отобраны, слагаемые высших по- рядков (криволинейные, нелинейные и произведения) часто пропускаются с тем, чтобы сохранить лишь переменные, удобные для исследования. Таким образом, несколько важных переменных могут быть исключены из модели изначально. Становится очевид- ным, что интуитивный выбор исследователем начального множества независимых пере- менных — весьма критический момент в получении удачной регрессионной модели. Регрессионная диагностика и анализ остатков Регрессионный анализ будет неполон, пока мы не убедимся, что выбранная модель адек- ватно представляет данные. Непременно следует проверить адекватность найденной мо- дели до того, как она станет частью методики принятия решений. Исследование остатков — это важный момент в определении адекватности модели. Несколько графиков остатков, строящихся для проверки предположений о модели рег- рессии, были предложены в главе 6. Кроме того, если модели регрессии используются с данными временных рядов (что будет обсуждаться в главе 8), важно вычислить автокор- реляции остатков для проверки условия их независимости. Выводы (и решения), сделан- ные по моделям, не соответствующим основным регрессионным предположениям, могут оказаться совершенно ошибочными. Например, можно заключить, что какие-то измене- ния независимой переменной приведут к нужным нам изменениям зависимой перемен- ной, что на самом деле окажется не так. Может быть сделан вывод, что прогноз с боль- шой надежностью (с доверительной вероятностью 0,95) будет не более, чем на 2% отли- чаться от будущего значения зависимой переменной, тогда как фактически доверитель- ная вероятность окажется намного меньше, и т.д. В этом разделе обсуждаются некоторые дополнительные способы оценки регрессион- ной модели. Эти способы направлены на выделение наблюдений, крайних в наборе или представляющих собой выбросы (т.е. наблюдений, заметно отличающихся по значению от остальных данных). Выбросы часто скрываются процессом подгонки и не могут быть дос- таточно просто определены при исследовании графика остатков. Тем не менее они могут оказывать существенное влияние на выбор подходящей регрессионной функции. Необхо- димо тщательно изучать выбросы для того, чтобы принять обоснованное решение, следует ли их оставить в наборе данных или удалить из него. И если мы их оставляем, то следует оп- ределить, как лучше поступить — или влияние выбросов на функцию регрессии должно быть уменьшено, или функция регрессии должна быть подправлена. Мера влияния i-й точки данных на положение функции регрессии измеряется значе- нием рычага h,,. Значение рычага зависит только от независимых переменных и не зави- сит от зависимой переменной Y. Для простой линейной регрессии с одной независимой переменной X мы имеем следующее.
Многомерный регрессионный анализ 349 hv — —I----------------г Для к независимых переменных выражение для /-го рычага сложнее; однако можно пока- зать, что 0 <h,,< 1 и его среднее значение равно h = (£+!)/«. Если i-я точка данных имеет большое значение рычага (Лй близко к 1), прогноз У, для этого значения X почти полностью определяется величиной У, при очень малом влиянии других данных. Точка с большим значением рычага также размещается на графике на удалении от остальныхА' (и от их комбинаций).10 Эмпирически установленное правило утверждает, что может считаться достаточно большим, если й,7 > 3(к + 1)/л. Определение выбросов или крайних значений У основывается на размерах остатков е = У — У. Большие остатки показывают, что значение У находится далеко от его прогноза У, вычисленного по уравнению регрессии. Большая величина остатка будет выделяться на гистограмме остатков как значение, удаленное от нуля (в любом направлении). На графике зависимости остатков от значений прогноза большой остаток будет выделяться как точка, удаленная вверх или вниз от горизонтальной оси. Пакеты программ, подобные приложению Minitab, отмечают флажком точки данных с крайними значениями У, вычисляя “стандартизованные” остатки и выделяя точки с большими значениями стандартизованных остатков. Один метод стандартизации основан на том, что оценки стандартных отклонений ос- татков равны -Syx's-fi Ki ’ где Sy.ys = JMSE — стандартная ошибка оценки, а — значение рычага, связанное с /- й точкой данных. Тогда стандартизованный остаток" равен следующему. Sel Ху-х’хф- Ki (7.12) Все стандартизованные остатки имеют дисперсию 1. Стандартизованный остаток счита- ется большим (а значение соответствующей зависимой переменной — крайним), если >2. Значения У, соответствующие точкам данных с большими стандартизованными остатка- ми, могут очень сильно повлиять на расположение прямой регрессии. Пример 7.12 Зарплата руководителей высшего звена (РВЗ) в США изучалась на предмет ее соотношения с зарплатой руководителей межнациональных корпораций и высших служащих вне корпора- 10 Обратное утверждение не обязательно верно. Так, удаленная от остальных X точка может не иметь большого значения рычага. " В некоторых пакетах стандартизованные остатки, которые даются уравнением 7.12, называются стьюдентизованными.
350 ГЛАВА 7 ций Америки. Кроме того, для отдельных фирм размер зарплаты РВЗ прямо или косвенно влияет на размер зарплаты менеджеров, занимающих должности ниже уровня РВЗ. Размер зарплаты РВЗ значительно изменяется от фирмы к фирме, однако изучение данных показы- вает, что этот размер может быть объяснен на основе общего объема продаж фирмы, опыта работы руководителя, уровня его образования и доли собственности в фирме. В одном иссле- довании изучались данные о 50 фирмах с целью получения модели многомерной регрессии, Связывающей значение размера зарплаты РВЗ с несколькими независимыми переменными — в частности, объемом продаж фирмы, уровнем ее доходов, возрастом руководителя, опытом его работы, профессиональными качествами, уровнем образования, а также его долей собст- венности в фирме. После удаления малозначимых независимых переменных, окончательная функция рег- рессии приобрела следующий вид: Y = 5,52 - 0,467%! + 0,263%2, где Y — логарифм заработной платы руководителя (LnComp); %| — индикаторная переменная для уровня образования (Educate); Х2 — логарифм объема продаж компании. Результаты, полученные приложением Minitab для данного регрессионного анализа, приве- дены в листинге 7.7. В нем указаны три наблюдения, которые имеют большие стандартизо- ванные остатки или большие значения рычага. Листинг 7.7. Сведения о необычных наблюдениях (приложение Minitab) UNUSUAL OBSERVATIONS Obs Educate LnComp Fit StDevFit Residual StResid 14 1,00 6,0568 7,0995 0,0949 -1,0427 -2,09R 25 0, 00 8,1342 7,9937 0,2224 0,1405 0,31X 33 0, 00 6,3969 7,3912 0,0232 -0,9943 -2,13R В этом листинге R отмечает наблюдения с большими стандартизованными остатками, а X — наблюдения, у которых значения Xимеют большое влияние на регрессию. Наблюдения 14 и 33 имеют большие стандартизованные отклонения. Найденная функция регрессии дает прогноз для (логарифма) уровня заработной платы, который слишком велик для этих двух служащих РВЗ. Изучение полных множеств данных показывает, что каждый из этих служащих имеет сравнительно большую долю в акциях своих компаний. В случае 14 эта доля составляет более 10% от стоимости акций, а в случае 33 — более 17%. Эти работники по- лучают основную часть оплаты своего труда через долгосрочные виды вознаграждения, такие как биржевые прибыли, и в меньшей степени в виде основной заработной платы и премий. Поскольку количество принадлежащих служащему акций (или их стоимость) не включено в перечень переменных функции регрессии, это значение нельзя использовать для уточнения прогноза суммы заработной платы, определяемой по показателям уровня образования слу- жащего и объема продаж компании. Хотя переменные уровня образования и (логарифма) объема продаж компании не прогнозируют суммы заработной платы для этих двух служащих так же хорошо, как и для других, нет оснований удалять их из числа рассматриваемых. Наблюдение 25 выделено, поскольку значение рычага для этой точки данных больше 3(4 + 1)/п = 3x3/50 = 0,18. Данный служащий РВЗ не имеет диплома об окончании колледжа (Educate = 0), но он работает в компании, имеющей сравнительно большой объем продаж
Многомерный регрессионный анализ 351 (LnSales =9,394). Комбинация значений (0, 9,394) находится далеко от точки \JCl,X2) и, следовательно, является выбросом среди пар значений X. Зависимая переменная, связанная с этими значениями X, будет оказывать большое влияние на определение функции регрессии. (Заметим, что стандартизованный остаток для этой точки данных невелик, а значит прогноз логарифма суммы заработной платы близок к истинному значению.) Данный служащий име- ет тридцатилетний опыт работы на занимаемой им должности, и лишь один служащий из числа рассматриваемых имеет опыт работы больше. Данное наблюдение оказывает значи- тельное влияние на конечный результат, но нет причин удалять его. Значение рычага указывает на наблюдения, которые имеют необычную независимую переменную, а стандартизованное отклонение указывает на наблюдения, имеющие не- обычное значение зависимой переменной. Обе эти величины могут быть скомбинирова- ны в одну общую меру влияния, известную как расстояние Кука. Расстояние Кука рас- считывается в большинстве статистических пакетов, но в данной книге эту величину мы обсуждать не будем.12 Предостережения при прогнозировании Прогнозирование вне допустимого множества Прогнозирование вне допустимого множества возможно, когда регрессионная модель строится на основе данных конкретной выборки, неравномерно представляющих всю генеральную совокупность. Если построенная модель применяется к другому множеству данных, выбранных из той же генеральной совокупности, то она не будет прогнозировать так хорошо, как можно было бы судить по начальному набору. Прогнозирование вне допустимого множества чаще всего имеет место при небольшом объеме выборки и большом количестве независимых переменных, включенных в модель. Некоторые практики считают, что следует использовать не менее 10 наблюдений на каж- дую независимую переменную. (Иначе говоря, если используется четыре независимые переменные, то адекватный размер выборки должен быть не меньше 40 значений.) Один из способов определить, имеет ли место выход за пределы допустимого множе- ства, заключается в вычислении функции регрессии для одной части данных с после- дующей проверкой ее на оставшихся данных. Используйте найденную функцию для прогнозирования оставшихся значений выборки и рассчитайте ошибки прогноза. Если полученные ошибки окажутся значительно больше, чем отклонения для тех значений, которые использовались при определении функции регрессии (удобнее всего для сравне- ния использовать среднеквадратичные ошибки), то имеет место выход за пределы допус- тимого множества. Полезные регрессии, большие значения F Статистически значимая регрессия не обязательно будет полезна. Для выборок сравни- тельно большого объема (у которых значение п существенно больше к, т.е. количества не- зависимых переменных) чаще всего будут получены значимые величину отношения F и малые значения Л2. Иными словами, регрессия оказывается значимой, но при этом объ- 12 Подробное обсуждение расстояния Кука содержится в книге Драпера и Смита (1998).
352 ГЛАВА 7 ясняет только малую часть вариации зависимой переменной. Согласно одному из эмпи- рических правил, чтобы регрессия представляла практическую ценность для целей про- гнозирования, необходимо, чтобы при уровне значимости 0,05 отношение F было хотя бы в четыре раза больше соответствующего критического значения.13 Критерий “в 4 раза” выбран из тех соображений, что разброс значений прогноза (по всем Л) должен быть по крайней мере в четыре раза большим, чем (средняя) ошибка прогноза, — только тогда регрессия будет иметь практическую ценность.14 Для примера рассмотрим случай с к = 3 независимыми переменными, выборкой из п = 25 наблюдений и уровнем значимости, равным 0,05. Вычисленное значение F из таб- лицы ANOVA должно превышать критическое значение А = 3,07 (табл. В.6 для 8| = к = 3, 32= п — к- 1=21 степеней свободы), чтобы регрессия признавалась значимой. (Используя уравнение 7.7, имеем, что критическое f=3,07 соответствует А2, примерно равному 30%, что совсем немного.) Поэтому правило “в 4 раза” предлагает, что вычис- ленное отношение F должно превысить 4 х 3,07 = 12,28, — только тогда регрессия может считаться полезной с практической точки зрения. Применение в менеджменте Многомерный регрессионный анализ был разработан статистиками и специалистами по математической экономике (эконометриками) для целей прогнозирования экономиче- ской активности в различных отраслях экономики. Данное направление по-прежнему остается одним из важнейших областей применения этого метода. Многие статьи и про- гнозы о будущем нашей экономики, появляющиеся в Wall Street Journal, Fortune, Business Week и других подобных изданиях, базируются на эконометрических (регрессионных) моделях. Правительство США широко использует регрессионный анализ в предсказании будущих денежных поступлений, расходов, уровня доходов, банковских ставок, уровня рождаемости, безработицы, расходов службы социальной помощи и множества других показателей. Фактически каждый департамент правительства США использует методы, описанные в этой главе. Аналогично каждая бизнес-структура применяет и, при необходимости, модифици- рует регрессионный анализ с целью прогноза будущих событий. Немногие фирмы смогут существовать в нынешней обстановке без тщательно рассчитанного прогноза завтраш- него объема продаж, расходов, потребностей в капитале и движения наличности. Хотя небольшие фирмы и фирмы с относительно простым бизнесом иногда могут руково- дствоваться сугубо интуитивными прогнозами, крупные фирмы и фирмы со сложной бизнес-структурой вынуждены прибегать к регрессионному анализу для изучения зави- симости между несколькими переменными и определения, как эти переменные способ- ны повлиять на их будущее. К сожалению, широко распространенное ошибочное мнение, что регрессионный анализ полезен лишь для прогноза будущих тенденций, отодвигает на второй план по на- стоящему важный аспект этого метода: его способность оказать существенную помощь в оценке настоящего. Поскольку уравнение регрессии предоставляет исследователю ин- ° Некоторые авторы считают, что критерий “в 4раза” является недостаточным и его следует заме- нить на критерий “в 10раз”. м Здесь предполагается, что прогноз не содержит больше никаких других погрешностей.
Многомерный регрессионный анализ 353 формацию как о силе, так и о направлении анализируемых воздействий, руководство по- лучает мощный инструмент для оценки и соответствующей корректировки текущей стратегии. Предположим, что производитель джема хочет знать, на что прежде всего следует на- править маркетинговые усилия при введении нового сорта. Регрессионный анализ спо- собен помочь определить тип основных потребителей джема. Например, компания мо- жет попытаться предсказать количество сортов джема, которое домохозяйка может при- обретать одновременно, на основании следующих независимых переменных. Количество детей, проживающих в доме Возраст детей Пол детей Признак аренды или частной собственности Время, затрачиваемое на покупки Общий доход семьи Даже при поверхностном рассмотрении примера с джемом исследователь понимает, что регрессионный анализ предоставляет большие возможности для исследования различных сегментов рынка. В действительности многие компании используют регрессию для изуче- ния сегментов рынка с целью определить, какие именно переменные реально влияют на распределение рынка, частоту покупок, наличие продукции в собственности, привержен- ность к определенному товару или торговой марке и на многие другие факторы. Ученые-аграрии используют регрессионный анализ для исследования взаимосвязи между урожайностью (т.е. количеством кукурузы, получаемым с одного гектара) и видом удобрений, количеством осадков, температурой, числом солнечных дней и зараженно- стью полей насекомыми. Современные фермы имеют мини- и микрокомпьютеры с уста- новленными пакетами прикладных программ, помогающими решать подобные задачи. Исследователи-медики используют регрессионный анализ для поиска взаимосвязи между давлением крови и независимыми переменными, такими как возраст, социальное положение, вес, курение и темп жизни. Врачи исследуют влияние коммуникабельности, количества посещений и возраста пациентов на удовлетворенность пациентов медицин- ским обслуживанием. Менеджеры по персоналу исследуют взаимосвязь уровня зарплаты работников с гео- графическим расположением компаний, уровнем безработицы в регионе, темпами роста промышленности, членством в союзах, отраслью промышленности или уровнем зарпла- ты в конкурирующих фирмах. Финансовые аналитики выясняют причины подъема цен на акции, анализируя получаемые дивиденды, доход от каждой акции, дробление акций, ожидаемую процентную ставку, объемы сбережений и уровень инфляции. Менеджеры по рекламе часто пытаются исследовать влияние на изменение мнения покупателей размеров рекламного бюджета, выбора средств информации, повторения информации, частоты рекламных акций или выбора рекламирующей персоны. Анало- гично маркетологи пытаются установить зависимость объема продаж от расходов на рек- ламу, уровня цен, маркетинговых расходов конкурентов и разовых заработков покупате- лей, а также от большого числа других переменных. Обратимся к еще одному, заключительному примеру, ярко иллюстрирующему ис- ключительную многосторонность регрессионного анализа. Аналитики, предоставляю- щие рекомендации по размещению недвижимости, обнаружили, что регрессионный ана- лиз может быть очень полезен при уточнении места расположения розничных магазинов.
354 ГЛАВА 7 Например, компания, обладающая сетью магазинов по продаже компьютерного обору- дования, может быть заинтересована в выборе города для возможного размещения но- вого магазина. Для решения этой проблемы создается регрессионная модель, прогнози- рующая объемы продаж в произвольно взятом городе. Помимо достижения главной це- ли, исследователям полезно будет обратить внимание и на те города, где созданная мо- дель прогнозирует больший объем продаж, чем реально был достигнут в компании (что может быть установлено из разных источников). Логично будет заключить, что в этих го- родах объемы продаж компьютерного оборудования потенциально могут быть больше. Таким образом, регрессионный анализ предлагает руководству мощный и гибкий ин- струмент для изучения взаимосвязи между зависимой и множеством независимых пере- менных. Основная цель использования этого метода — лучше понять настоящее, а следо- вательно, и научиться управлять происходящими событиями, а также лучше предсказы- вать будущее. Глоссарий Многомерная регрессия использует более чем одну независимую переменную для прогноза значений зависимой переменной. Мультиколлинеарность — это ситуация, при которой независимые переменные в многомерном уравнении регрессии сильно коррелируют между собой. Пошаговая регрессия — это процедура выбора “лучшей” функции регрессии посредством добавления или удаления отдельных независимых переменных на разных этапах анализа. Прогнозирование вне допустимого множества связано с добавлением новых независимых переменных в функцию регрессии. Они должны иметь значение в той же области, что и данные выборки, использованной в анализе. Стандартная ошибка оценки— это стандартное отклонение остатков. Она измеряет, насколько реальные значения (У) отличаются от их оценок (У). Фиктивные переменные используются для определения взаимосвязи между качественными независимыми переменными и зависимой переменной. Частный или чистый коэффициент регрессии измеряет среднее изменение зависимой переменной при единичном изменении соответствующей независимой переменной, если остальные независимые переменные постоянны. Основные формулы Функция многомерной регрессии генеральной совокупности рг = Р0 + РЛ + р2%2 + ... + РЛ (7.1) Оценка функции регрессии Y = Ьо + Ь\Х{ + Ь2Х2 + ... + bkXk (7.2) Разложение суммы квадратов и соответствующие степени свободы (7.3) SST = SSR + SSE dfi п —1 = к + п-к-1
Многомерный регрессионный анализ 355 Стандартная ошибка оценки |Цу~уУ _ psF~ n-k-l Уп-к-1 'MSE, F-статистика для проверки значимости регрессии MSR ~ MSE Коэффициент детерминации Ri _SSR _Y(Y-y)2 SSE_1 Е(у-у)2 SST £(y-y)2 SSR ^(y-F)2 Многомерный коэффициент корреляции r = 4r2 Связь между статистикой F и значением R2 _ R2 (п-к-1} k J t-статистика для проверки гипотезы Нй: [% = О bj t = — % Прогноз будущего значения Y"=b0 +blX( + b2X2 + ... + bkX’k (7.4) (см. определение) (7.5) (7.6) (7.7) (см. определение) (7.8) Интервал прогноза будущего значения зависимой переменной в случае большой выборки (y'-ta/2sy.x.s, Y'(7.9) Фактор роста дисперсии V1FJ=T-^2’ j = \2,...,k (7.10) 1-л, Стандартизованные значения независимых переменных Хи-Х, Хи=-,----1 1 7=1, 2, ..., k, z=l, 2, .... п. Стандартизованные остатки _ «i Syx’s ~ йи (7.П) (7.12)
356 ГЛАВА 7 Упражнения 1. Каковы характеристики хорошей независимой переменной? 2. Какие предположения связаны с моделью многомерной регрессии? 3. Что измеряет в многомерной регрессии частный или чистый коэффициент? 4. Что измеряет в многомерной регрессии стандартная ошибка оценки? 5. Пусть уравнение регрессии имеет вид Y = 7,52 + 3%, - 12,2Х2. Спрогнозируйте значе- ние Y при = 20 и Х2 = 7. 6. Объясните каждое из следующих понятий: а) корреляционная матрица; 6) R2; в) мультиколлинеарность; г) остатки; д) фиктивная переменная; е) пошаговая регрессия. 7. Большинство компьютерных решений задач многомерной регрессии начинается с построения корреляционной матрицы. Исследование этой матрицы, как правило, является первым шагом при анализе регрессионной задачи, рассматривающей более одной независимой переменной. Ответьте на следующие вопросы, касающиеся кор- реляционной матрицы, представленной в табл. 7.12. а) почему все элементы главной диагонали равны 1? б) почему часть матрицы ниже главной диагонали является пустой? в) если переменная 1 является зависимой, то какие независимые переменные имеют наиболее тесную линейную связь с переменной 1? г) какой вид взаимосвязи имеет место между переменными 1 и 4? д) можно ли по этой корреляционной матрице судить о наличии мультиколлине- арности? е) как вы считаете, какую переменную (или переменные) следует включить в наи- лучшую модель прогноза? Поясните свой ответ ж) если для представленных в корреляционной матрице данных будет выполнена процедура пошаговой регрессии, то какая независимая переменная будет вклю- чена в уравнение регрессии первой? Переменная Переменная 1 2 3 4 5 6 1 1,00 0,55 0,20 -0,51 0,79 0,70 2 1,00 0,27 0,09 0,39 0,45 3 1,00 0,04 0,17 0,21 4 1,00 -0,44 -0,14 5 1,00 0,69 6 1,00
Многомерный регрессионный анализ 357 8. Дженнифер Дал (Jennifer Dahl), главный менеджер сети магазинов “Circle О”, хотела бы составить прогноз времени, затрачиваемого персоналом на обслуживание одного покупателя. Она решила использовать такие независимые переменные, как количе- ство приобретаемых единиц товара и общая стоимость покупок, для чего собрала данные по выборке из 18 покупателей, представленные в табл. 7.13. а) определите лучшее уравнение регрессии для этих данных б) насколько в среднем увеличивается время обслуживания при приобретении од- ной дополнительной единицы товара? в) вычислите значения остатка для покупателя с номером 18 г) вычислите стандартную ошибку оценки д) интерпретируйте результаты, полученные в предыдущем пункте, в терминах ис- пользуемых в задаче зависимой и независимых переменных е) составьте прогноз времени обслуживания покупателя, приобретающего 14 единиц товара общей стоимостью 70 долларов ж) вычислите 95%-ный интервал оценки для прогноза, полученного в предыдущем пункте з) какие выводы должна сделать Дженнифер в результате проведенного исследования? Покупатель Время обслуживания (мин.} Стоимость покупок (долл.) Количество единиц товара У X. Xi 1 3,о 36 9 2 1,3 13 5 3 0,5 3 2 4 7,4 81 14 5 5,9 78 13 6 8,4 103 16 7 5,0 64 12 8 8,1 67 И 9 1,9 25 7 10 6,2 55 И 11 0,7 13 3 12 1,4 21 8 13 9,1 121 21 14 0,9 10 6 15 5,4 60 13 16 3,3 32 И 17 4,5 51 15 18 2,4 28 10
358 ГЛАВА 7 9. В табл. 7.14 представлены данные о расходах на питание, годовом доходе и размерах семьи для выборки из 10 семей. а) постройте корреляционную матрицу для трех переменных, представленных в табл. 7.14. Дайте свою интерпретацию значений отдельных коэффициентов корреляции в матрице б) постройте многомерную регрессионную модель, связывающую расходы на пи- тание с доходом и размером семьи. Интерпретируйте значения частных коэф- фициентов регрессии при переменных дохода и размера семьи. Имеют ли они определенный смысл? в) вычислите фактор роста дисперсии (V1F) для независимых переменных. Имеет ли место проблема мультиколлинеарности для представленных данных? Если да, то как можно видоизменить регрессионную модель для исключения мульти- коллинеарности? Таблица 7.14 Семья Годовые расходы на питание (сотни долл.) У Годовой доход (тыс. долл.) Xl Размер семьи х2 А 24 и 6 Б 8 3 2 В 16 4 1 Г 18 7 3 Д 24 9 5 Е 23 8 4 Ж 11 5 2 3 15 7 2 И 21 8 3 К 20 7 2 10. Объемы продажи пива в магазине Shapiro One-Stop Store исследовались в зависимо- сти от таких независимых переменных, как температура воздуха и количество людей (старше 21 года), проходивших по улице. Была сделана случайная выборка из 20 дней и зафиксированы следующие величины. У — количество упаковок из шести банок пива, проданных за день А) — наибольшая температура в этот день (по Фаренгейту) Хг — показатель подсчета количества людей, прошедших по улице за этот день Собранные данные были проанализированы с помощью метода многомерного рег- рессионного анализа. Часть полученных результатов компьютерного расчета пред- ставлена в листинге 7.8. а) проанализируйте корреляционную матрицу
Многомерный регрессионный анализ 359 б) проверьте значимость частных коэффициентов корреляции на уровне значимо- сти 0,01 в) спрогнозируйте объем продажи пива, когда максимальная температура воздуха составит 60 градусов по Фаренгейту и по улице задень пройдет 500 человек г) вычислите значение А2 и интерпретируйте его в терминах данной задачи д) вычислите стандартную ошибку оценки е) покажите, как объем продажи пива зависит от повышения дневной температу- ры на один градус ж) сделайте заключение по результатам проведенного анализа в отношении точно- сти полученного уравнения прогноза и значимости выбранных независимых переменных Листинг 7.8. Распечатка результатов вычислений в приложении Minitab CORRELATIONS (PEARSON) Y XI XI 0.827 X2 0.822 0.680 REGRESSION ANALYSIS The regression equation is Y = -26.7 + 0.782 XI + 0.068 X2 PREDICTOR COEF ST DEV T P Constant , -26.706 XI 0.78207 0.22694 Х2 0.06795 0.02026 S = R-Sq = R-Sq(adj) = ANALYSIS Of VARIANCE SOURCE DF SS MS F Regression 2 11589.035 5794.516 36.11 Error 17 2727.914 160.466 Total 19 14316.949 И. Таксомоторную компанию интересует зависимость между средним пробегом маши- ны в расчете на один галлон топлива и возрастом машины. Были взяты 12 автомашин одной марки, находящиеся в достаточно хорошем состоянии, под- держиваемом благодаря регулярному техническому обслуживанию. Поскольку води- телями в компании работают и мужчины, и женщины, предполагалось, что какая-то часть изменчивости пробега автомобиля в расчете на один галлон топлива может объясняться разной техникой вождения у мужчин и женщин. При прочих равных условиях у водителя-женщины средний пробег машины на галлон топлива будет больше, чем у мужчины. Данные были получены посредством случайного выбора 12 машин, на которых водителями работают пять женщин и семь мужчин. Значения среднего пробега на один галлон топлива были рассчитаны на основе сведений о расходе горючего после прохождения машинами расстояния в 300 миль. Собранные данные представлены в табл. 7.15.
360 ГЛАВА 7 а) постройте диаграмму рассеивания, откладывая значения У по вертикальной оси, а значения Xi — по горизонтальной. Отметьте точки, соответствующие во- дителям-мужчинам и водителям-женщинам б) рассмотрите регрессионную модель У= ₽о + + ₽2Х2 + е. Найдите оценки коэффициентов. Интерпретируйте найденное значение коэф- фициента Ь2 в) найдите величину прогноза для каждой пары значений (ХЬХ2) и разместите эти величины прогноза на координатной плоскости. Проведите прямые через точки, соответствующие водителям-мужчинам, и через точки, соответствующие водите- лям-женщинам. Запишите уравнения каждой из этих двух прямых в отдельности г) предположим, что пол водителя в исследовании не учитывается. Вычислите прямую регрессии для модели Y = Ро + ₽Л + е и изобразите регрессионную прямую на координатной плоскости. Важно ли учитывать пол в данной ситуа- ции? Поясните свой ответ Таблица 7.15 У (миль на один галлон) X) (возраст машины) Х2 (пол: 0 - мужчина, 1- женщина) 22,3 3 0 22,0 4 1 23,7 3 1 24,2 2 0 25,5 1 1 21,1 5 0 20,6 4 0 24,0 1 0 26,0 1 1 23,1 2 0 24,8 2 1 20,2 5 0 12. Менеджер по продажам фирмы Hartman Auto Suppliers, занимающейся реализацией запчастей к автомобилям, хотел бы найти модель, с помощью которой уже в мае можно было бы спрогнозировать годовой объем продаж в регионе. Если этот объем можно спрогнозировать для каждого региона, то можно будет составить прогноз продаж и для всей компании в целом. Количество пунктов розничной торговли данной компании в регионе и количество автомобилей, зарегистрированных в регионе на 1 мая, — это две независимые переменные. Данные выборки приведены в табл. 7.16.
Многомерный регрессионный анализ 361 а) проанализируйте корреляционную матрицу б) насколько велика ошибка прогноза для региона 1 ? в) спрогнозируйте годовой объем продаж для региона 12 с 2500 пунктами обслу- живания и 20,2 млн зарегистрированных автомобилей г) рассмотрите точность прогноза, сделанного в предыдущем пункте д) объясните, как была вычислена стандартная ошибка оценки е) дайте интерпретацию частных коэффициентов регрессии. Имеют ли эти коэф- фициенты некоторый разумный смысл? ж) как можно улучшить это уравнение регрессии? Таблица 7.16 Регион Гадовой объем продаж (млн долл.) Y Количество пунктов об- служивания Xi Количество зарегистрированных автомобилей х2 1 52,3 2011 24,6 2 26,0 2850 22,1 3 20,2 650 7,9 4 16,0 480 12,5 5 30,0 1694 9,0 6 46,2 2302 11,5 7 35,0 2214 20,5 8 3,5 125 4,1 9 33,1 1840 8,9 10 25,2 1233 6,1 11 38,2 1699 9,5 13. Менеджер по продажам фирмы Hartman Auto Suppliers решил включить в исследо- вание новую независимую переменную — общий доход населения в регионе (см. предыдущую задачу). Данные по этой новой переменной приведены в табл. 7.17. а) будут ли данные о доходе населения в регионе полезны при прогнозе объема продаж? б) спрогнозируйте годовой объем продаж для региона 12 с общим доходом в 40 млрд долл., используя все три независимые переменные в) рассмотрите точность прогноза, сделанного в предыдущем пункте г) какие независимые переменные вы включили бы в окончательную модель прогноза? Почему?
362 ГЛАВА 7 Таблица 7.17 Регион Общий доход населения (млрд долл.) 1 98,5 2 31,1 3 34,8 4 32,7 5 68,8 6 94,7 7 67,6 8 19,7 9 67,9 10 61,4 11 85,6 14. В компании Nelson было решено найти уравнение многомерной регрессии для прогноза количества презентаций, проводимых с целью продажи. Исследовалась группа из 14 случайно выбранных сотрудников, каждый из которых прошел тест способностей. Кроме того, в качестве показателя затраченных работником усилий было выбрано расстояние, пройденное его автомобилем в процессе охвата презента- циями определенной территории. Регрессионный анализ дал следующее уравнение. 7= 16,57 + 0,65^+20,6^ (0,05) (1,69) Величины в скобках — это стандартные ошибки частных коэффициентов регрессии. Стандартная ошибка оценки равна 3,56. Стандартное отклонение переменной объе- ма продажу = 16,57. Здесь используются следующие переменные. Y — количество презентаций (тыс.) X] — результат теста способностей Х2 — показатель затраченных усилий а) отличаются ли частные коэффициенты регрессии значимо от нуля (проверить на уровне значимости 0,01)? б) интерпретируйте частный коэффициент корреляции при показателе затрачен- ных усилий в) спрогнозируйте количество презентаций для сотрудника, имеющего результат теста способностей 75 и показатель затраченных усилий 0,5 г) вычислите сумму квадратов остатков д) вычислите общую сумму квадратов е) вычислите значение R2 и интерпретируйте его в терминах данной задачи ж) вычислите скорректированный коэффициент корреляции R2
Многомерный регрессионный анализ 363 15. Синди Лоусон (Cindy Lawson) недавно приобрела бейсбольную команду высшей лиги. Она получила множество советов, как сделать ее действительно сильной командой. Однако предварительно ей хотелось бы изучить имеющиеся данные и получить соот- ветствующий отчет. Задача состоит в применении многомерного регрессионного ана- лиза с целью определения, какая из статистик наиболее важна при подготовке дейст- вительно сильной команды (оценка выполняется по количеству побед в сезоне 1991 года). Из спортивной прессы были выбраны данные, приведенные в табл. 7.18, а затем выполнены необходимые расчеты с помощью программы пошаговой регрессии, а) оцените важность каждой использованной переменной б) какое уравнение следует использовать для прогнозирования количества побед? в) составьте для Синди Лоусон письменный отчет г) соберите последние данные из спортивной прессы. Обработайте их с помощью программы пошаговой регрессии и сравните с полученными ранее результатами Таблица 7.18 Команда Победы Y ERA Xi SO X2 BA *3 Runs X4 HR xs SB x6 Giants 75 4,03 905 0,246 649 141 95 Mets 77 3,56 1028 0,244 640 117 153 Cubs 77 4,03 927 0,253 695 159 123 Reds 74 3,83 997 0,258 689 164 124 Pirates 98 3,44 919 0,263 768 126 124 Cardinals 84 3,69 822 0,255 651 68 202 Phillies 78 3,86 988 0,241 629 111 92 Astros 65 4,00 1033 0,244 605 79 125 Dodgers 93 3,06 1028 0,253 665 108 126 Expos 71 3,64 909 0,246 579 95 221 Braves 94 3,49 969 0,258 749 141 165 Padres 84 3,57 921 0,244 636 121 101 Red Sox 84 4,01 999 0,269 731 126 59 White Sox 87 3,79 923 0,262 758 139 134 Yankees 71 4,42 936 0,256 674 147 109 Tigers 84 4,51 739 0,247 817 209 109 Orioles 67 4,59 868 0,254 686 170 50 Brewers 83 4,14 859 0,271 799 116 106 Indians 57 4,23 862 0,254 576 79 84 Blue Jays 91 3,50 971 0,257 684 133 148 Mariners 83 3,79 1003 0,255 702 126 97 Rangers 85 4,47 1022 0,270 829 177 102
364 ГЛАВА 7 Команда Победы Y ERA Xx SO X1 BA x3 Runs x4 Окончание табл. 7.18 HR X, SB X6 Athletics 84 4,57 892 0,248 760 159 151 Royals 82 3,92 1004 0,264 727 117 119 Angels 81 3,69 990 0,255 653 115 94 Twins 95 3,69 876 0,280 776 140 107 16. Мистер Хейт (Haight), брокер по торговле недвижимостью, хотел бы получить прогноз важности четырех факторов с точки зрения определения цены при каждой продаже. Он собрал данные о цене, площади, высоте над уровнем моря, общем наклоне прода- ваемого участка по отношению к горизонту, а также об оценке красоты пейзажа для 50 проведенных сделок. Собранные данные были введены в компьютер. В результате расчетов была получена корреляционная матрица, представленная в табл. 7.19. Затем мистер Хейт запустил для этих данных программу пошаговой регрессии. а) укажите переменные, которые будут введены в модель первой, второй, третьей и последней б) какие переменные будут включены в наилучшее уравнение прогноза? Таблица 7.19 Переменная Переменная Цена Площадь Высота Наклон Пейзаж Цена 1,00 0,59 0,66 0,68 0,88 Площадь 1,00 0,04 0,64 0,41 Высота 1,00 0,13 0,76 Наклон 1,00 0,63 Пейзаж 1,00 17. В табл. 7.20 приведены результаты двух предварительных экзаменовХ} иХ2, среднее значение текущих оценокХ} и результат окончательного экзаменах для 20 студентов, изучавших курс бизнес-статистики. а) вычислите уравнение многомерной линейной регрессии для прогноза результата окончательного экзамена на основе оценок двух предварительных экзаменов и те- кущего среднего балла. Является ли эта регрессия значимой? Поясните свой ответ б) спрогнозируйте результат окончательного экзамена для студента с предвари- тельными оценками 86 и 77 и средним баллом 3,4 в) вычислите значение VIF и с помощью /-статистики проверьте значимость от- дельных независимых переменных. Возникнет ли в данном случае проблема мультиколлинеарности? Поясните свой ответ г) вычислите среднее значение рычага. Имеет ли какая-то из точек данных доста- точно большое значение рычага?
Многомерный регрессионный анализ 365 д) вычислите стандартизованные отклонения. Укажите наблюдения с большими стандартизованными отклонениями. Как ваша модель в этих случаях предска- зывает значения зависимой переменной — с превышением или с недостатком? Таблица 7.20 X! х2 У 87 85 2,7 91 100 84 3,3 90 91 82 3,5 83 85 60 3,7 93 56 64 2,8 43 81 48 3,1 7,5 77 67 3,1 63 86 73 3,0 78 79 90 3,8 98 96 69 3,7 99 93 60 3,2 54 92 69 3,1 63 100 86 3,6 96 80 87 3,5 89 100 96 3,8 97 69 51 2,8 50 80 75 3,6 74 74 70 3,1 58 79 66 2,9 87 95 83 3,3 57 18. Рассмотрите данные, представленные в табл. 7.20. Найдите “наилучшую” модель регрессии, используя процедуру пошаговой регрессии и процедуру всех возможных регрессий. Сравните полученные результаты. Можно ли с помощью регрессионной модели надежно спрогнозировать результат окончательного экзамена на основе ме- нее чем трех исходных независимых переменных? 19. Еще раз обратимся к примеру 7.12. Полное множество данных, касающихся оплаты труда РВЗ, приведено в приложении Г. Используя метод пошаговой регрессии, вы- берите “наилучшую” модель с к = 3 независимыми переменными. Оцените коэффи- циенты полученной модели и интерпретируйте полученные оценки. Изучите остат- ки. Найдите и объясните все сильно влияющие наблюдения. Если у вас будет воз- можность выбора между этой моделью и моделью прогноза с к = 2 независимыми переменными, рассмотренной в примере 7.12, какую из них вы выберете? Почему?
366 ГЛАВА 7 /Ж /Ж /А\ /ж /дч /ж /ж /ач /Ж /АЧ /дч /дч /ж w/ w w w w w w/ w w/ w w w/ w Задание 7.1. Рынок облигаций15 Джуди Джонсон (Judy Johnson), вице-президент по финансам крупной инвестиционной компании на северо-западе, столкнулась с финансовой проблемой. Компании срочно требовались деньги как для выплат по краткосрочным займам, так и для продолжения строительства коксового завода. Основная задача Джуди состояла в оценке рынка 10- и 30-летних облигаций — ком- пании требовалось решить, на какую часть искомой суммы целесообразно будет выпус- тить долгосрочные облигации. Чтобы принять подобное решение, требовался надежный прогноз выплачиваемых процентных ставок на момент выпуска облигации. Джуди собрала всех сотрудников финансового отдела, чтобы обсудить проблемы рынка облигаций. Один из участников совещания, Рон Петерсон (Ron Peterson), недав- ний выпускник университета, сказал, что, по его мнению, для получения достоверного прогноза процентных ставок следует использовать многомерную регрессионную модель. Поскольку вице-президент не была в достаточной степени знакома с методом многомер- ной регрессии, она перевела обсуждение в другое русло. После часа обсуждения, не при- ведшего к принятию какого-либо решения, Джуди попросила Рона сделать соответст- вующий доклад в ее кабинете в ближайший понедельник. Рон знал, что ключевым моментом в получении хорошей модели прогноза является выбор независимых переменных, влияющих на величину процента, выплачиваемого компанией, на момент выпуска облигаций. После обсуждения этого вопроса с разными сотрудниками фирмы Рон решил исследовать следующие переменные: процентные став- ки облигаций компании, отношение доходов фирмы к ее издержкам, банковскую ставку казначейства США, срок облигации (10 или ЗОлет) и процент по предоставляемым ссу- дам на момент выпуска. Рон собрал данные за два предыдущих года по переменным, которые, как он считал, могут коррелировать с процентом по облигациям. Однако он не совсем ясно представлял себе, как именно работать с величиной процентной ставки компаний. В конце концов Рон решил включить в анализ только фирмы с аналогичными или чуть более высокими ставка- ми, чем в его компании. В результате в выборку для анализа попали данные по 93 выпускам облигаций. Беспокойство у Рона вызывало то, что процентные ставки были представлены в виде отдельных дискретных значений, и он испытывал сомнения по поводу правомочности их использования как интервальных данных. Рон позвонил профессору статистики и выяс- нил, что эту проблему можно решить посредством использования фиктивных переменных. Тогда он решил закодировать банковские ставки следующим образом. А, = 1, если процентная ставка компании равна А, в противном случае — Л-, = 0 = 1, если процентная ставка компании равна АА, в противном случае — Х2 = 0 11 Данные для этого задания были предоставлены студенткой университета Eastern Washington Дороти Мерсер (Dorothy Merser). Анализ провели студенты Так Фу (Так Fu), Рон Хенд (Ron Hand), Дороти Мерсер, Мери Доу Редмонд (Mary Lou Redmond) и Харольд Вильсон (Harold Wilson).
Многомерный регрессионный анализ 367 Если процентная ставка компании равна ВАА, то иЛ^, и%2 будут равны нулю. На сле- дующем этапе Рону предстояло выбрать программу для вычисления параметров много- мерной регрессии из компьютерной библиотеки и ввести имеющиеся данные. В полную модель для поиска уравнения были выбраны следующие данные. Переменная!: К = процентная ставка, выплачиваемая компанией на момент вы- пуска облигаций (Interest Rate) Переменная 2: Л) = 1, если процентная ставка компании равна А Переменная 3: Х2 = 1, если процентная ставка компании равна АА Переменная 4: Х3 = отношение доходов фирмы к ее издержкам (Ratio) Переменная 5: Х4 = банковская ставка казначейства США (для 10 и 30 лет) на мо- мент выпуска облигаций (Bond Rates) Переменная 6: Х5 = срок облигации (10 или ЗОлет) (Maturity) Переменная?: Х6 = процент по предоставляемым ссудам на момент выпуска (Prime) Реальные данные для этого задания приведены в приложении Б. Рон тщательно проанализировал корреляционную матрицу, приведенную в табл. 7.21. Он не был удивлен, обнаружив высокую положительную взаимосвязь между процентной ставкой, выплачиваемой компанией, и ставкой казначейства США — г = 0,883. Как и предполагалось, сравнительно высокая положительная взаимосвязь существует между зависимой переменной и процентом по ссудам (г = 0,596). Также не было неожиданно- стью, что эти две независимые переменные сильно коррелируют друг с другом (т.е., веро- ятно, имеет место мультиколлинеарность, г = 0,713). Наличие отрицательной взаимосвя- зи между зависимой переменной и сроком облигаций (10 или 30 лет), г = -0,221, — это тоже результат, вполне понятный Рону. Таблица 7.21. Корреляционная матрица для задачи изучения рынка облигаций Корреляции (Пирсона) Interest Rate A АД Ratio Bond Rates Maturity А -0,347 АА -0,173 -0,399 Ratio 0,097 0,037 0,577 Bond Rates 0,883 -0,256 0,291 0,253 Maturity -0,221 0,278 0,010 0,094 -0,477 Prime 0,596 -0,152 0,342 0,255 0,713 -0,314 Затем Рон построил регрессионную модель, содержащую все зависимые переменные. Изучение полученных величин / и соответствующих значений/? (представлены в лис- тинге 7.9) показывает, что переменная отношения доходов к затратам практически не вносит какого-либо вклада в прогноз процентной ставки на момент выпуска облигаций компании. (В листинге 7.9 R обозначает наблюдения с большими стандартизованными остатками.)
368 ГЛАВА 7 Листинг 7.9. Результаты вычисления полной регрессионной модели для задачи изучения рынка облигаций (приложение Minitab) REGRESSION ANALYIS The regression equation is Interest Rates = -1.03 - 0.829 A - 0.889 AA - 0.242 Ratio + 1.26 Bond Rates +0.0628 Maturity - 0.0031 Prime PREDICTOR COEF STDEV T P Constant -1.0263 0.6572 -1.56 0.122 A -0.8285 0.1342 -6.17 0.000 AA -0.8894 0.2248 -3.96 0.000 Ratio -0.2417 0.1135 -2.13 0.036 Rates 1.25753 0.05964 21.08 0.000 Maturity 0.062839 0.006589 9.54 0.000 Prime -0.00313 0.2720 -0.12 0.909 S = 0.5235 R-Sq = 91,1% R-Sq(adj) = 90,5% ANALYSIS OF VARIANCE SOURCE DF SS MS F P Regression 6 240.907 40.151 146.52 0.000 Error 86 23.567 0.274 Total 92 264.474 UNUSUAL OBSERVATIONS OBS A RATE FIT ST DEV FIT RESIDUAL ST RESID 64 1.00 15.5000 13.7645 0.1627 1.7355 3.49R 66 1.00 11.3000 13.4780 0.1357 -2.1780 -4.31R 67 1.00 12.3800 13.7897 0.1297 -1.4097 -2.78R 68 1.00 12.1500 13.7097 0.0947 -1.5597 -3.03R Рон сделал вывод, что отношение доходов компании к затратам не связано с иссле- дуемой зависимой переменной (г = 0,097) и что процент по предоставляемым ссудам практически коллинеарен с банковской ставкой казначейства США (г = 0,713). Поэтому он решил удалить из рассмотрения обе указанные переменные. Результаты компьютер- ных вычислений для полученной модели приведены в листинге 7.10. (В листинге 7.10 R обозначает наблюдения с большими стандартизованными остатками.) Листинг 7.10. Окончательная модель регрессии для изучения рынка облигаций (приложение Minitab) REGRESSION ANALYIS The regression equation is Interest Rates = -1.28 - 0.929 A - 1.18 AA + 1.23 Bond Rates +0.615 Maturity
Многомерный регрессионный анализ 369 PREDICTOR COEF STDEV T P Constant -1.2765 0.6554 -1.95 0.055 А -0.9293 0.1264 -7.35 0.000 АА -1.1751 0.1781 -6.60 0.000 Bond Rates 1.23308 0.05964 26.81 0.000 Maturity 0.061474 0.006649 9.25 0.000 S = 0.5310 R-Sq = 90,6% R-Sq(adj) = 90,2% ANALYSIS OF VARIANCE SOURCE DF SS MS F P Regression 4 239.665 59.916 212.53 0.000 Error 88 24.809 0.282 Total 92 264.474 UNUSUAL OBSERVATIONS OBS A RATE FIT ST DEV FIT RESIDUAL ST RESID 64 1.00 15.5000 13.6956 0.0894 1.8044 3.45R 66 1.00 11.3000 13.6462 0.0898 -2.3462 -4.48R 67 1.00 12.3800 13.6462 0.0898 -1.2662 -2.42R 68 1.00 12.1500 13.6462 0.0898 -1.4962 -2.86R Здесь величины р значимы для всех независимых переменных. Отчет, составленный Роном для Джуди, содержал следующие выводы. 1. Наилучшей моделью прогноза является Процентная ставка =-1,28 - 0,929 А - 1,18 АА + 1,23 Ставка казначейства + 0,615 Срок облигации. 2. Стандартная ошибка оценки равна 0,53. Таким образом, около 95% реально полу- чаемых значений зависимой переменной будут находиться в пределах интервала величиной 2x0,53 около значения прогноза. 3. Все коэффициенты регрессии значимы и выглядят достоверными. Рон был очень доволен проделанной им работой и рассчитывал, что Джуди также бу- дет довольна. Вопрос Как вы думаете, какие вопросы Джуди задаст Рону? Задание 7.2. Прогнозы в бейсболе (А) В феврале Джон Ханк, профессор статистики на пенсии, готовился к новому интерес- нейшему бейсбольному сезону. В последние годы знакомые игроки подшучивали над ним насчет использования знаний статистики для получения преимущества в угадыва- нии результатов. К сожалению, это не было правдой. Преподавание, исследовательская работа, публикации и участие в деятельности комитетов отнимали слишком много вре-
370 ГЛАВА 7 мени. Теперь, будучи на пенсии, он наконец получил возможность применить свои зна- ния статистики для анализа ежегодного рейтинга игроков. В его воображаемой лиге каж- дый менеджер клуба имел 260 долларов, которые он мог использовать на торгах для при- обретения 23 игроков (14 хиттеров, бьющих по мячу, и 9 питчеров, ловящих мяч). Все команды были распределены по 8 статистическим категориям в соответствии с реальны- ми статистическими данными их игроков за прошлый сезон. Профессор Ханк был заин- тересован в отборе игроков, которые хорошо выглядели бы в трех из четырех категорий для питчеров. В последние годы выбираемые им питчеры, особенно начинающие игру, постоянно оказывались предметом насмешек в лиге. Сезон 2000 года должен был стать переломным. Ханк намеревался создать модель для получения точного прогноза успеш- ной игры питчеров, начинающих матч. Тремя категориями, которые собирался исследовать профессор Ханк, были победы (WINS), среднее количество совершаемых пробежек (ERA) и число пробежек за один ин- нинг (период игры), в котором играл данный питчер (Вг/IP). Он потратил много време- ни, собирая данные статистики для всех стартующих питчеров сезона 1999 года.16 Про- фессор намеревался отыскать многомерную регрессионную модель, предоставляющую прогнозы значений для каждой из интересующих его трех категорий. Он часто повторял своим студентам, что выбор независимых переменных — это самый важный этап по- строения регрессионной модели. Ханк знал, что если ему не удастся подобрать подходя- щие независимые переменные, то он не сможет получить хорошее уравнение регрессии. После значительной подготовительной работы профессор Ханк выбрал пять потенци- альных независимых переменных, перечисленных ниже. Он также решил включать в анализ только тех питчеров, которые отыграли не менее 100 иннингов в течение сезона. Данные для 138 начинающих питчеров приведены в табл. 7.22. В ней указаны фамилии игроков, названия их команд (сокращенно), а также следующие значения. • ERA — среднее количество совершаемых пробежек, т.е. количество пробежек, при- ходящихся на одну игру (учитываются все девять иннингов). • Вг/IP— количество действий за один иннинг, т.е. количество пробежек плюс ко- личество ударов за один иннинг. • Ctl — контрольное отношение (броски/пробежки). • К/9 — сколько ударов наносит питчер за игру (учитываются все девять иннингов). • HR/9 — пробежки соперника в зону команды питчера за игру (учитываются все де- вять иннингов). • 0ZL4 — среднее количество ударов соперника. Таблица 7.22. Статистика игры для 138 начинавших игру питчеров за сезон Игрок Команда ЕМ BrIP Ctl К9 HR9 ОВА 1 Alvarez W. ТАМ 4,22 1,49 1,6 7,2 1,2 254 2 Anderson В. ARI 4,57 1,32 2,7 5,2 1,2 275 16 Статистика выступлений питчеров взята с Web-сайта федерации бейсбола, созданного Роном Шинд- лером (Ron Shandler). Адрес этого сайта: www. BaseballHQ. сот.
Многомерный регрессионный анализ 371 Продолжение табл. 7.22 Игрок Команда EHA BrlP Ctl K9 HR9 OBA 3 Appier К. OAK 5,17 1,50 1,6 5,6 1,2 274 4 Arrojo R. TAM 5,20 1,58 1,8 6,9 1,5 284 5 Ashby А. SD 3,80 1,25 2,4 5,8 1,1 253 6 Astacio Р. COL 5,04 1,44 2,8 8,1 1,5 276 7 Baldwin J. CHW 5,11 1,51 1,5 5,6 1,5 274 8 Batista M. MON 4,90 1,52 1,6 6,4 0,7 271 9 Belcher T. ANA 6,74 1,62 1,1 3,5 1,8 303 10 Benes A. ARI 4,82 1,50 1,7 6,4 1,5 272 11 Benson K. PIT 4,08 1,36 1,7 6,4 0,7 243 12 Bergman S. ATL 5,22 1,56 1,5 3,8 0,8 306 13 Blair W. DET 6,85 1,59 1,9 5,5 1,9 302 14 Bohanon B. COL 6,21 1,66 1,3 5,5 1,4 291 15 Bottenfield K. STL 3,98 1,50 1,4 5,9 1,0 262 16 Brock C. SF 5,51 1,55 1,9 6,4 1,5 286 17 Brown K. LA 3,00 1,07 3,7 7,9 0,7 222 18 Burba D. CLE 4,25 1,40 1,8 7,1 1,2 247 19 Burkett J. TEX 5,63 1,56 2,1 5,9 1,1 300 20 Byrd P. PHI 4,61 1,38 1,5 4,8 1,5 261 21 Carpenter C. TOR 4,38 1,50 2,2 6,4 1,0 288 22 Clemens R. NYY 4,62 1,47 1,8 7,8 1,0 253 23 Clements M. SD 4,50 1,53 1,6 6,7 0,9 265 24 Colon B. CLE 3,95 1,27 2,1 7,1 1,1 236 25 Cone D. NYY 3,45 1,32 2,0 8,2 1,0 225 26 Cordova F. PIT 4,44 1,40 1,7 5,5 0,9 262 27 Daal 0. ARI 3,66 1,25 1,9 6,2 0,9 231 28 Dempster R. FLA 4,71 1,63 1,4 7,7 1,3 254 29 Dreifort D. LA 4,80 1,42 1,8 7,1 1,0 254 30 Elarton S. HOU 3,48 1,24 2,8 8,8 0,6 235 31 Erickson S. BAL 4,81 1,49 1,1 4,1 1,1 235 32 Escobar K. TOR 5,69 1,63 1,6 6,7 1,0 285 33 Estes S. SF 4,92 1,58 1,4 7,0 0,9 261 34 Farnsworth K. CHC 5,05 1,48 1,3 4,8 1,9 269
372 ГЛАВА 7 Продолжение табл. 7.22 Игрок Команда ERA BrIP Ctl K9 HR9 OBA 35 Fassero J. TEX 7,21 1,86 1,4 6,6 2,0 313 36 Fernandez А. FLA 3,38 1,25 2,2 5,8 0,6 247 37 Finley С. ANA 4,43 1,37 2,1 8,4 1,0 240 38 Garcia F. SEA 4,07 1,47 1,9 7,6 0,8 259 39 Gardner M. SF 6,47 1,43 1,5 5,6 1,7 259 40 Glavine T. ATL 4,12 1,46 1,7 5,3 0,7 275 41 Gooden D. CLE 6,26 1,69 1,3 6,9 1,4 274 42 Guzman J. CIN 3,74 1,40 1,8 7,0 1,3 249 43 Halama J. SEA 4,22 1,39 1,9 5,3 1,0 270 44 Halladay R. TOR 3,92 1,58 1,0 4,9 1,1 264 45 Hampton M. HOU 2,90 1,28 1,8 6,7 0,5 228 46 Harnisch P. CIN 3,68 1,25 2,1 5,5 1,1 247 47 Hawkins L. MIN 6,67 1,71 1,7 5,3 1,5 319 48 Haynes J. OAK 6,34 1,68 1,2 5,9 1,3 276 49 Helling R. TEX 4,85 1,43 1,5 5,4 1,7 263 50 Hentgen P. TOR 4,79 1,46 1,8 5,3 1,4 279 51 Heredia J. OAK 4,81 1,31 3,4 5,3 1,0 281 52 Hermanson D. MON 4,21 1,36 2,1 6,0 0,8 263 53 Hernandez 0. NYY 4,12 1,28 1,8 6,6 1,0 230 54 Hernandez L. SF 4,65 1,52 1,9 6,5 1,0 281 55 Hershiser 0. NYM 4,58 1,41 1,2 4,5 0,7 251 56 Hill K, ANA 4,78 1,60 1,0 5,3 1,0 256 57 Hitchcock S. SD 4,12 1,35 2,6 8,5 1,3 252 58 HoltC, HOU 4,66 1,52 2,0 6,3 0,7 287 59 Hudson T. OAK 3,24 1,34 2,1 8,7 0,5 233 60 Irabu H. NYY 4,84 1,34 2,9 7,1 1,4 267 61 Jimenez J. STL 5,85 1,50 1,6 6,2 0,9 267 62 Johnson R. ARI 2,49 1,02 5,2 12,1 1,0 207 63 Johnson J. BAL 5,47 1,52 1,3 5,6 1,3 263 64 Karl S. MIL 4,79 1,60 1,1 3,4 1,0 299 65 Kile D. COL 6,62 1,76 1,1 5,5 1,6 288 66 Leiter A. NYM 4,23 1,42 1,7 6,8 0,8 252
Многомерный регрессионный анализ 373 Продолжение табл. 7.22 Игрок Команда ERA BrIP Ct/ K9 HR9 OBA 67 Lieber J. CHC 4,08 1,34 4,0 8,2 1,2 276 68 Lima J. HOU 3,58 1,22 4,3 6,8 1,1 263 69 Loaiza E. TEX 4,57 1,40 1,9 5,8 0,7 267 70 Maddux G. ATL 3,57 1,35 3,7 5,6 0,7 287 71 Martinez P. BOS 2,07 0,92 8,5 13,2 0,4 205 72 Mays J. MIN 4,37 1,44 1,7 6,1 1,3 264 73 Meadows B. FLA 5,61 1,52 1,3 3,6 1,6 292 74 Mercker K. BOS 4,81 1,64 1,3 5,6 1,1 282 75 Millwood K. ATL 2,68 1,00 3,5 8,1 0,9 201 76 Milton E. MIN 4,50 1,23 2,6 7,1 1,2 240 77 Mlicki D. DET 4,61 1,46 1,7 5,4 1,1 274 78 Moehler B. DET 5,05 1,47 1,8 4,9 1,0 286 79 Morgan M. TEX 6,24 1,66 1,3 3,9 1,6 310 80 Moyer J. SEA 3,87 1,24 2,9 5,4 0,9 261 81 Mulholland T. ATL 4,39 1,45 1,8 4,4 1,1 288 82 Mussina M. BAL 3,50 1,28 3,3 7,6 0,7 259 83 Nagy C. OLE 4,95 1,47 2,1 5,6 1,2 287 84 Navarro J. CHW 6,11 1,74 1,0 4,2 1,6 307 85 Neagle D. CIN 4,29 1,21 1,9 6,2 1,9 226 86 Nomo H. MIL 4,55 1,43 2,1 8,2 1,4 252 87 Nunez V. FLA 4,08 1,38 1,6 7,2 0,9 231 88 Ogea C. PHI 5,63 1,51 1,3 4,1 1,9 281 89 Olivares 0. OAK 4,17 1,45 1,0 3,7 0,8 266 90 Oliver D. STL 4,27 1,38 1,6 5,5 0,7 256 91 Oquist M. OAK 5,39 1,58 1,4 5,7 1,2 278 92 Ortiz R. SF 3,82 1,52 1,3 7,1 1,0 238 93 ParkC. LA 5,24 1,59 1,7 8,1 1,4 268 94 Parque J. CHW 5,14 1,67 1,4 5,8 1,2 293 95 Parris S. CIN 3,51 1,37 1,7 6,0 1,1 249 96 Pavano C. MON 5,63 1,46 2,0 6,1 0,7 278 97 Person R. PHI 4,68 1,51 1,6 8,5 1,5 243 98 Pettitte A. NYY 4,71 1,60 1,4 5,7 0,9 279
374 ГЛАВА 7 Продолжение табл. 7.22 Игрок Команда ERA BrIP Ctl K9 HR9 OBA 99 Ponson S. BAL 4,71 1,46 1,4 4,8 1,5 270 100 Portugal М. BOS 5,52 1,47 1,9 4,7 1,7 290 101 Radke В. MIN 3,75 1,30 2,8 5,0 1,2 273 102 Rapp Р. BOS 4,13 1,48 1,3 5,5 0,8 256 103 Reed R. NYM 4,59 1,41 2,2 6,3 1,4 272 104 Reynolds S. HOU 3,85 1,24 5,3 7,7 0,9 270 105 Reynoso A. ARI 4,37 1,47 1,2 4,3 1,1 267 106 Ritchie T. PIT 3,50 1,30 2,0 5,6 0,9 252 107 Rogers K. NYM 4,20 1,41 1,8 5,8 0,7 266 108 Rosado J. КС 3,85 1,29 2,0 6,1 1,0 245 109 Rueter K. SF 5,42 1,49 1,7 4,6 1,4 289 110 Rupe R. TAM 4,56 1,36 1,7 6,1 1,1 247 111 Saperhagen B. BOS 2,95 1,12 7,4 6,1 0,8 260 112 Schilling C. PHI 3,55 1,13 3,5 7,6 1,2 232 113 Schmidt J. PIT 4,20 1,43 1,7 6,3 1,0 261 114 Schourek P. PIT 5,34 1,57 1,9 7,5 1,6 280 115 Sele A. TEX 4,79 1,53 2,7 8,2 0,9 290 116 Sirotka M. CHW 4,00 1,40 2,2 5,4 1,0 279 117 Smoltz J. ATL 3,19 1,12 3,9 7,5 0,7 236 118 Snyder J. CHW 6,69 1,67 1,4 4,7 1,9 307 119 Sparks S. ANA 5,44 1,68 0,9 4,5 1,3 277 120 Stottlemyre T. ARI 4,09 1,44 1,9 6,6 1,1 264 121 Suppan J. КС 4,54 1,36 1,7 4,5 1,2 267 122 Tapani K, CHC 4,83 1,35 2,2 4,8 0,8 275 123 Thompson J. DET 5,13 1,48 1,4 5,3 1,5 268 124 Thurman M. MON 4,06 1,31 1,6 5,2 1,0 247 125 Tomko B. CIN 4,92 1,37 2,2 6,9 1,6 258 126 Trachsel S. CHC 5,57 1,41 2,3 6,5 1,4 274 127 Valdes I. LA 3,99 1,33 2,5 6,3 1,4 264 128 Vazquez J. MON 5,02 1,34 2,2 6,6 1,2 255 129 Villone R. CIN 4,24 1,32 1,3 6,1 0,5 215 130 Weaver J. DET 5,57 1,42 2,0 6,3 1,5 270 131 Wells D. TOR 4,83 1,33 2,7 6,6 1,2 267 132 Williams W. SD 4,41 1,37 1,9 5,9 1,4 260
Многомерный регрессионный анализ 375 Окончание табл. 7.22 Игрок Команда EM BrIP Ctl K9 HR9 OBA 133 Witasick J. КС 5,58 1,73 1,2 5,8 1,3 293 134 Witt B. ТАМ 5,85 1,72 1,3 6,1 1,1 288 135 Wolf R. PHI 5,57 1,59 1,7 8,6 1,5 263 136 Woodard S. MIL 4,52 1,38 3,3 5,8 1,1 288 137 Wright J. CLE 6,08 1,66 1,2 6,1 1,2 270 138 Yoshii M. NYM 4,40 1,30 1,8 5,4 1,3 248 На следующем этапе анализа была вычислена корреляционная матрица, представлен- ная в листинге 7.11. Профессор Ханк с интересом обнаружил тесную взаимосвязь между переменными ERA и Вг/IP, для которых коэффициент корреляции равен 0,819. Таким об- разом, если питчер имеет высокий показатель по одному из этих параметров, то обычно он имеет высокий показатель и по другому параметру. В листинге 7.12 приведены результаты вычислений регрессии для случая, когда для прогноза ERA используются все независимые переменные, включая и Вг/IP. Значение VIF = 8,2 для переменной Вг/IP велико и указывает, что эта переменная линейно связана с оставшимися независимыми переменными, а значит имеет место проблема мультиколлинеарности. В листинге 7.13 приведены результаты вы- числений для случая, когда переменная Br/IP выведена из модели. Величина А2 рав- на 77,4%, и уравнение выглядит подходящим. Значение статистики t для каждой независи- мой переменной велико, и соответствующие вероятности р очень малы. Значения VIF срав- нительно малы для оставшихся переменных, и значит мультиколлинеарности больше нет. I Листинг 7.11. Корреляционная матрица, полученная с помощью приложения Minitab Correlations: ERA, Br/IP, Ctl, K/9, HR/9 Br/IP ERA 0.819 0.000 Br/IP Ctl K/9 HR/9 Ctl -0.548 -0.701 0.000 0.000 K/9 -0.429 -0.416 0.573 0.000 0.000 0.000 HR/9 0.649 0.438 -0.305 -0.245 0.000 0.000 0.000 0.004 OBA 0.745 0.747 -0.329 -0.576 0.432 0.000 0.000 0.000 0.000 0.000 Cell Contents: Pearson correlation P-value
376 ГЛАВА 7 Листинг 7.12. Результаты вычислений регрессии со всеми независимыми переменными, выполненные с помощью приложения Minitab Regression Analysis: ERA versus Br/IP, Ctl, K/9, HR/9, OBA The regression equation is ERA = -3.06 + 2.56 Br/IP - 0.0610 Ctl +0.0184 K/9 + 0.899 HR/9 + 0.0114 OBA Predictor Coef SE Coef T P VIF Constant -3.0583 0.6704 -4.56 0.000 Br/IP 2.5578 0.6555 3.90 0.000 8.2 Ctl -0.06105 0.08060 -0.76 0.450 5.5 K/9 0.01837 0.04709 0.39 0.697 3.4 HR/9 0.8990 0.1225 7.34 0.000 1.3 OBA 0.011355 0.004160 2.73 0.007 6.4 S=0.4276 R-Sq= =79.8% R-Sq. (adj)=79.0% Analysis of Variance Source DE SS MS F P Regression 5 95.186 19.037 104.13 0.000 Residual Error 132 24.132 0.183 Total 137 119.317 Листинг 7.13. Итоговые результаты вычислений регрессии для прогноза ERA, полученные с помощью приложения Minitab Regression Analysis: ERA versus Br/IP, Ctl, K/9, HR/9, OBA The regression equation is ERA = -3.26 - 0.327 Ctl +0.137 K/9 + 0.902 HR/9 +0.0252 OBA Predictor Coef SE Coef T P VIF Constant -3.2624 0.7032 -4.64 0.000 Ctl -0.32655 0.04546 -7.18 0.000 1.6 K/9 0.13651 0.03795 3.60 0.000 2.0 HR/9 0.9023 0.1289 7.00 0.000 1.3 OBA 0.025224 0.002275 11.09 0.000 1.7 S=0.4499 R-Sq=77 .4% R-Sq. (adj)=76.8% Analysis of Variance Source DF SS MS F P Regression 4 92.402 23.100 114.15 0.000 Residual Error 133 26.915 0.202 Total 137 119.317 Профессор Ханк решил, что он нашел хорошую модель, и построил графики остат- ков, изображенные на рис. 7.4.
Residual Model Diagnostics Frequency Residual Puc. 7.4. Графики остатков для прогноза ERA (приложение Minitab)
378 ГЛАВА 7 Вопросы 1. Прокомментируйте статистическую модель, которую профессор Ханк получил для прогноза среднего количества совершаемых пробежек ERA. Изучите графики остат- ков, приведенные на рис. 7.4, и определите адекватность полученной модели. 2. Имеет ли место какая-либо нелинейная взаимосвязь между независимыми перемен- ными и средним количеством совершаемых пробежек? Если да, то найдите модель, использующую подходящее преобразование переменных. 3. Найдите статистическую модель для прогноза Br/IP. Задание 7.3. Прогнозы в бейсболе (Б)17 После того как профессор Ханк понял, что ему удалось найти подходящую модель для прогнозирования величин ERA и Br/IP, он решил взяться за прогноз количества побед (переменная WINS)/ Однако по мнению многих экспертов, подобные попытки обречены на провал. В комментариях, помещенных на Web-сайте федерации бейсбола, поддерживае- мом Роном Шандлером, утверждается, что не существует способа достаточно точно год за годом прогнозировать выступления питчеров (Билл Джеймс); залог успеха здесь — это найти начинающего игру питчера, на которого можно положиться. Единственная проблема заключа- ется в том, что нельзя положиться ни на кого из них (Петер Голенбок); где, кроме бейсбола, вы можете найти более странные составляющие успеха, чем в удивительном мире питчеров? (Род Битон); стартующие питчеры — это наиболее ненадежная, непредсказуемая и неприят- ная группа людей в мире с точки зрения статистики (Джон Бенсон). Профессор Ханк провел собственное исследование и нашел статистическую модель, которую вполне можно использовать. Согласно информации на Web-сайте федерации бейсбола, имеются четыре переменные, существенно влияющие на количество победных выступлений команды: нападение команды; эффективность питчеров; действия по границе площадки; оборона команды. Теперь профессор Ханк мог приступить к созданию базы данных независимых переменных. 17 Задание 7.3 основано на модели, обсуждаемой на Web-сайте Рона Шандлера Basebal 1HQ. сот. Статистика действий питчеров взята с Web-сайта Рона Шандлера BaseballHQ. сот.
Многомерный регрессионный анализ 379 Чтобы спланировать нападение команды, в качестве наиболее важной переменной он выбрал количество пробежек на всю команду RUNS19. Чтобы определить, насколько хо- роша была команда в целом, Ханк выбрал количество побед команды TmWINS. Шесть переменных, упоминавшихся в задании 7.2, были использованы для определения эффек- тивности питчеров: среднее количество совершаемых пробежек (т.е. количество пробе- жек, приходящихся на одну игру с учетом всех девяти иннингов) ERA, количество дейст- вий за один иннинг (т.е. количество пробежек плюс количество ударов за один иннинг) Вг/IP, контрольное отношение (броски/пробежки) Ctl, пробежки соперника в зону ко- манды питчера за игру (учитываются все девять иннингов) HR/9, среднее количество ударов соперника ОБА и количество ударов, выполняемых питчером за игру (учитываются все девять иннингов) К/9. Для оценки обороны команды Ханк использо- вал общее количество ошибок команды ERR. При рассмотрении действий по границе площадки он выбрал четыре переменные: количество предотвращенных пробежек ARP’, действия по границе площадки Bsupp, сейвы Sv и возможности для сейвов SvOpp. Данные для шести переменных оценки питчеров были приведены в табл. 7.22. Дан- ные для остальных переменных представлены в табл. 7.23. Вопрос По мнению многих экспертов, эта попытка профессора Ханка обречена на провал. Правы ли эти эксперты? Таблица 7.23. Статистика результатов команд для 138 начинающих игру питчеров Игрок WINS TmWINS Runs Errors ARP Bsupp Saves SvOpp 1 Alvarez W. 9 69 772 135 -17,1 0,95 45 63 2 Anderson В. 8 100 908 104 37,3 -0,14 42 65 3 Appier К. 16 87 893 122 11,4 -0,96 48 76 4 Arrojo R. 7 69 772 135 -17,1 -0,95 45 63 5 Ashby A. 14 74 710 129 -41,3 0,17 43 60 6 Astacio P. 17 72 906 118 10,7 0,66 33 51 7 Baldwin J. 12 75 777 136 21,3 0,58 39 58 8 Batista M. 8 68 718 160 -18,1 -1,08 44 66 9 Belcher T. 6 70 711 106 34,7 0,40 37 58 10 Benes A. 13 100 908 104 37,3 -0,14 42 65 11 Benson K. 11 78 775 147 23,7 -0,08 34 52 12 Bergman S. 5 103 840 111 47,5 0,18 45 63 19 Статистика данных RUNS, TmWINS, Sv и SvOpp получена из SportsTicker® и имеется на Web-caume www. sportsline. сот/baseball/mlb/stats. Статистика данных ARP и Bsupp взята из раздела Майкла Волвертона на Web-caume www. baseballprospectus. сот.
380 ГЛАВА 7 Продолжение табл. 7.23 Игрок WINS TmWINS Runs Errors ARP Bsupp Saves SvOpp 13 Blair W. 3 69 747 106 7,9 -0,66 33 44 14 Bohanon В. 12 72 906 118 10,7 0,66 33 51 15 Bottenfield К. 18 75 809 132 -44,6 -0,90 38 62 16 Brock С. 6 86 872 105 1,8 -0,38 42 67 17 Brown К. 18 77 793 137 -13,9 -0,47 37 53 18 Burba D. 15 97 1009 106 14,3 -0,90 46 70 19 Burkett J. 9 95 945 119 50,5 0,38 47 67 20 Byrd P. 15 77 841 100 11,5 0,06 32 47 21 Carpenter C 9 84 883 106 5,4 -0,09 39 60 22 Clemens R. 14 98 900 111 40,7 0,21 50 67 23 Clements M. 10 74 710 129 -41,3 0,17 43 60 24 Colon B. 18 97 1009 106 14,3 -0,90 46 70 25 Cone D. 12 98 900 111 40,7 0,21 50 67 26 Cordova F. 8 78 775 147 23,7 -0,08 34 52 27 Daal 0. 16 100 908 104 37,3 -0,14 42 65 28 Dempster R. 7 64 691 127 -71,2 -0,73 33 53 29 Dreifort D. 13 77 793 137 -13,9 -0,47 37 53 30 Elarton S. 9 97 823 106 35,4 0,38 48 63 31 Erickson S. 15 78 851 89 -16,9 0,32 33 58 32 Escobar K. 14 84 883 106 5,4 -0,09 39 60 33 Estes S. 11 86 872 105 1,8 -0,38 42 67 34 Farnsworth K. 5 67 747 139 -49,3 -0,32 32 58 35 Fassero J. 5 95 945 119 50,5 0,38 47 67 36 Fernandez A. 7 64 691 127 -71,2 -0,73 33 53 37 Finley C. 12 70 711 106 34,7 0,40 37 58 38 Garcia F. 17 79 859 113 -64,1 -0,57 40 60 39 Gardner M. 5 86 872 105 1,8 -0,38 42 67 40 Glavine T. 14 103 840 111 47,5 0,18 45 63 41 Gooden D, 3 97 1009 106 14,3 -0,90 46 70
Многомерный регрессионный анализ 381 Продолжение табл. 7.23 Игрок WINS TmWINS Runs Errors ARP Bsupp Saves SvOpp 42 Guzman J. 11 96 865 105 84,8 -0,07 55 78 43 Halama J. 11 79 859 113 -64,1 -0,57 40 60 44 Halladay R. 8 84 883 106 5,4 -0,09 39 60 45 Hampton M. 22 97 823 106 35,4 0,38 48 63 46 Harnisch P. 16 96 865 105 84,8 -0,07 55 78 47 Hawkins L. 10 63 686 92 13,2 0,12 34 52 48 Haynes J. 7 87 893 122 11,4 -0,96 48 76 49 Helling R. 13 95 945 119 50,5 0,38 47 67 50 Hentgen P. 11 84 883 106 5,4 -0,09 39 60 51 Heredia J. 13 87 893 122 11,4 -0,96 48 93 52 Hermanson D. 9 68 718 160 -18,1 -1,08 44 66 53 Hernandez 0. 17 98 900 111 40,7 0,21 50 67 54 Hernandez L. 8 86 872 105 1,8 -0,38 42 67 55 Hershiser 0. 13 97 853 68 58,8 -0,15 49 69 56 Hill K. 4 70 711 106 34,7 0,40 37 58 57 Hitchcock S. 12 74 710 129 -41,3 0,17 43 60 58 HoltC. 5 97 823 106 35,4 0,38 48 63 59 Hudson T. 11 87 893 122 11,4 -0,96 48 76 60 Irabu H. 11 98 900 111 40,7 0,21 50 67 61 Jimenez J. 5 75 809 132 -44,6 -0,90 38 62 62 Johnson R. 17 100 908 104 37,3 -0,14 42 65 63 Johnson J. 8 78 851 89 -16,9 0,32 33 58 64 Karl S. 11 74 815 127 -5,0 -0,75 40 69 65 Kile D. 8 72 906 118 10,7 0,66 33 51 66 Leiter A. 13 97 853 68 58,8 -0,15 49 69 67 Lieber J. 10 67 747 139 -49,3 -0,32 32 58 68 Lima J. 9 69 772 135 -17,1 -0,95 45 63 69 Loaiza E. 21 97 823 106 35,4 0,38 47 67 70 Maddux G. 19 103 840 111 47,5 0,18 45 63
382 ГЛАВА 7 Продолжение табл. 7.23 Игрок IV/NS TmWINS Runs Errors ARP Bsupp Saves SvOpp 71 Martinez Р. 23 94 836 127 59,9 0,75 50 76 72 Mays J. 6 63 686 92 13,2 0,12 34 52 73 Meadows В. 11 64 691 127 -71,2 -0,73 33 53 74 Mercker К. 8 94 836 127 59,9 0,75 50 76 75 Millwood К. 18 103 840 111 47,5 0,18 45 63 76 Milton Е. 7 63 686 92 13,2 0,12 34 52 77 Mlicki D. 14 69 747 106 7,9 -0,66 33 44 78 Moehler В. 10 69 747 106 7,9 -0,66 33 44 79 Morgan M. 13 95 945 119 50,5 0,38 47 67 80 Moyer J. 14 79 859 113 -64,1 -0,57 40 60 81 Mulholland T. 10 103 840 111 47,5 0,18 45 63 82 Mussina M. 18 78 851 89 -16,9 0,32 33 58 83 Nagy C. 17 97 1009 106 14,3 -0,90 46 70 84 Navarro J. 8 75 777 136 21,3 0,58 39 58 85 Neagle D. 9 96 865 105 84,8 -0,07 55 78 86 Nomo H. 12 74 815 127 -5,0 -0,75 40 69 87 Nunez V. 7 64 691 127 -71,2 -0,73 33 53 88 Ogea C. 6 TT 841 100 11,5 0,06 32 47 89 Olivares 0. 15 87 893 122 11,4 -0,96 48 76 90 Oliver D. 9 75 809 132 -44,6 -0,90 38 62 91 Oquist M. 9 87 893 122 11,4 -0,96 48 76 92 Ortiz R. 18 86 872 105 1,8 -0,38 42 67 93 Park C. 13 TT 793 137 -13,9 -0,47 37 53 94 Parque J. 9 75 777 136 21,3 0,58 39 58 95 Parris S. 11 96 865 105 84,8 -0,07 55 78 96 Pavano C. 6 68 718 160 -18,1 -1,08 44 66 97 Person R. 10 TT 841 100 11,5 0,06 32 47 98 Pettitte A. 14 98 900 111 40,7 0,21 50 67 99 Ponson S. 12 78 851 89 -16,9 0,32 33 58
Многомерный регрессионный анализ 383 Продолжение табл. 7.23 Игрок IV/NS TmWINS Runs Errors ARP Bsupp Saves SvOpp 100 Portugal М. 7 94 836 127 59,9 0,75 50 76 101 Radke В. 12 63 686 92 13,2 0,12 34 52 102 Rapp Р. 6 94 836 127 59,9 0,75 50 76 103 Reed R. 11 97 853 68 58,8 -0,15 49 69 104 Reynolds S. 16 97 823 106 35,4 0,38 48 63 105 Reynoso A. 10 100 908 104 37,3 -0,14 42 65 106 Ritchie T. 15 78 775 147 23,7 -0,08 34 52 107 Rogers K. 10 97 853 68 58,8 -0,15 49 69 108 Rosado J. 10 64 856 125 -59,6 -1,17 29 60 109 Rueter K. 15 86 872 105 1,8 -0,38 42 67 110 Rupe R. 8 69 772 135 -17,1 -0,95 45 63 111 Saperhagen B. 10 94 836 127 59,9 0,75 50 76 112 Schilling C. 15 77 841 100 11,5 0,06 32 47 113 Schmidt J. 13 78 775 147 23,7 -0,08 34 52 114 Schourek P. 4 78 775 147 23,7 -0,08 34 52 115 Sele A. 18 95 945 119 50,5 0,38 47 67 116 Sirotka M. 11 75 777 136 21,3 0,58 39 58 117 Smoltz J. 11 103 840 111 47,5 0,18 45 63 118 Snyder J. 9 75 777 136 21,3 0,58 39 58 119 Sparks S. 5 70 711 106 34,7 0,40 37 58 120 Stottlemyre T. 6 100 908 104 37,3 -0,14 42 65 121 Suppan J. 10 64 856 125 -59,6 -1,17 29 60 122 Tapani K. 6 67 747 139 -49,3 -0,32 32 58 123 Thompson J. 9 69 747 106 7,9 -0,66 33 44 124 Thurman M. 7 68 718 160 -18,1 -1,08 44 66 125 Tomko B. 5 96 865 105 84,8 -0,07 55 78 126 Trachsel S. 8 67 747 139 -49,3 -0,32 32 58 127 Valdes I. 9 77 793 137 -13,9 -0,47 37 53 128 Vazquez J. 9 68 718 160 -18,1 -1,08 44 66
384 ГЛАВА 7 Игрок Окончание табл. 7.23 WINS TmWINS Runs Errors ARP Bsupp Saves SvOpp 129 Villone R. 9 96 865 105 84,8 -0,07 55 78 130 Weaver J. 9 69 747 106 7,9 -0,66 33 44 131 Wells D. 17 84 883 106 5,4 -0,09 39 60 132 Williams W. 12 74 710 129 -41,3 0,17 43 60 133 Witasick J. 9 64 856 125 -59,6 -1,17 29 60 134 Witt B. 7 69 772 135 -17,1 -0,95 45 63 135 Wolf R. 6 77 841 100 11,5 0,06 32 48 136 Woodard S. 11 74 815 127 -5,0 -0,75 40 69 137 Wright J. 8 97 1009 106 14,3 -0,90 46 70 138 Yoshii M. 12 97 853 68 58,8 -0,15 49 69 Применение Minitab Задание. В примере 7.11 Пэм Вейганд решила применить метод пошаговой регрессии к данным компании Zurenko Pharmaceutical, чтобы получить возможность прогнозировать, кто из кандидатов сможет стать хорошим продавцом. Решение в Minitab 1. Если данные уже содержатся в некотором файле, то откройте этот файл с помощью команды File^Open Worksheet. 2. Если данные еще не содержатся в файле, введите их в рабочий лист. Для запуска процедуры пошаговой регрессии выберите команду Stat^Regression1^ Stepwise. 3. На экране появится диалоговое окно Stepwise Regression, показанное на рис. 7.5. Рис. 7.5. Диалоговое окно Stepwise Regression при- ложения Minitab
Многомерный регрессионный анализ 385 а) зависимая переменная (Response) содержится в столбце С1, озаглавленном Sales б) независимые переменные содержатся в столбцах С2-С6, озаглавленных Apti- tude, Age, Anxiety, Exp. и GPA в) чтобы ввести значение уровня значимости а, щелкните на кнопке Methods 4. На экране раскроется диалоговое окно Stepwise-Method, показанное на рис. 7.6. Рис. 7.6. Диалоговое окно Stepwise-Method прило- жения Minitab а) поскольку в расчетах используется уровень значимости 0,05, измените значения в полях Alpha to enter и Alpha to remove c 0,15 на 0,05 б) щелкните на кнопке ОК, а затем еще раз на кнопке ОК в диалоговом окне Step- wise Regression. На экран будут выведены результаты, представленные в лис- тинге 7.6 Применение Excel Задание. В примере 7.1 многомерный регрессионный анализ использовался, чтобы выяс- нить, можно ли на основе данных о цене галлона молока и сумме расходов на рекламу получить достоверный прогноз недельных объемов продажи молока (см. табл. 7.4). Решение в Excel 1. Введите названия переменных, для чего поместите значение Цена в ячейку А1, зна- чение Реклама — в ячейку В1 и значение Продажи — в ячейку С1. Затем введите цены за галлон молока в ячейки АЗ-А12, суммы расходов на рекламу в ячейки ВЗ- В12 и недельные объемы продаж молока в ячейки СЗ-С12. Значения двух незави- симых переменных за один и тот же период должны находиться в двух соседних ячейках одной и той же строки. 2. Для выполнения анализа выберите команду Tools'^Data Analysis (СервисФАнализ данных). 3. На экране раскроется диалоговое окно Data Analysis (Анализ данных). В списке Analysis Tools (Инструменты анализа) выберите значение Regression (Регрессия) и
386 ГЛАВА 7 щелкните на кнопке ОК. На экране раскроется диалоговое окно Regression (Регрессия), показанное на рис. 6.23. а) в поле Input Y Range (Входной интервал Y) введите значение АЗ:А12 б) поскольку используется метод многомерной регрессии, в поле Input X Range (Входной интервал X) введите интервал ВЗ:С12, охватывающий значения сразу двух независимых переменных — цены одного галлона молока и суммы расхо- дов на рекламу в) в поле Output Range (Выходной интервал) введите значение D1 г) щелкните на кнопке ОК, и результаты вычислений будут помещены в рабочую таблицу Excel Рекомендуемая литература Belsey D.A. Conditioning, Diagnostics, Collinearity and Weak Data in Regression. New York: John Wiley & Sons, 1991. Draper N., Smith H. Applied Regression Analysis, 3rd ed. New York: John Wiley & Sons, 1998. Frees E.E. Data Analysis Using Regression Models: The Business Perspective. Upper Saddle River, NJ: Prentice Hall, 1996. Johnson R.A., Wichem D.W. Business Statistics: Decision Making with Data. New York: John Wiley & Sons, 1997. Neter J., Wasserman W., Kutner M., Nachtsheim C. Applied Linear Regression Models, 3rd ed. Homewood, IL: Richard D. Irwin, 1996.
/AWA\/A\A rn... kWAWAWAX WWWM rJ0 F/W/WW Регрессионный анализ временнь/х рядов Во многих задачах прогнозирования в бизнесе и экономике используются данные времен- нь/х рядов. С помощью регрессионных моделей можно прогнозировать ежемесячные, еже- квартальные или ежегодные данные, используя технику, описанную в предыдущих главах. Однако поскольку в данных, собиравшихся на протяжении некоторого промежутка времени, обычно проявляется влияние тренда, сезонных изменений и другие подобные эффекты, на- блюдения для разных периодов времени оказываются связанными между собой или, говоря иначе, автокоррелируют. Таким образом, для данных временных рядов выборка, составлен- ная из серии имеющихся наблюдений, не может рассматриваться как обычная случайная вы- борка. Поэтому если стандартные методы регрессии применить к наблюдениям, следующим друг за другом на протяжении некоторого времени, при интерпретации результатов могут воз- никнуть определенные проблемы. Построение регрессионных моделей для данных времен- ных рядов должно проводиться с особой тщательностью. Данные временных рядов и проблема автокорреляции В регрессионных моделях, рассмотренных в главах 6 и 7, предполагается, что ошибки е в раз- ных наблюдениях являются независимыми (или некоррелирующими) случайными величи- нами. Это означает, что различные значения зависимой переменной У связаны с величинами независимых переменных X, но не друг с другом. Обычная интерпретация результатов регрес- сионного анализа существенно зависит от предположения независимости. В данных временных рядов условие независимости выполняется редко. Рассмотрим еже- годное значение базовой цены некоторой модели нового автомобиля. Можете ли вы вообра- зить себе неразбериху, которая будет твориться, если цена некоторой модели автомобиля в один год будет действительно совершенно независимой от ее цены в другой год? В таком мире цены будут определяться подобно значениям, взятым из таблицы случайных чисел. Инфор- мация о цене товара в один год ничего не даст вам для прогноза цены этого же товара в сле- дующем году. В реальном мире цена в текущем году связана (коррелирует) с ценой в преды- дущем году, а возможно и с ценой, имевшей место два года назад и т.д. Таким образом, цены на один и тот же товар в разные года автокоррелируют, они не являются независимыми.
388 ГЛАВА 8 Автокорреляция имеет место, когда наблюдения, следующие друг за другом на протя- жении некоторого времени, связаны друг с другом. Автокорреляция может иметь место по той причине, что влияние независимой пере- менной на зависимую растянуто по времени. Например, увеличение заработной платы может повлиять на объемы ваших покупок (или сбережений) не только в текущий пери- од, но и на протяжении некоторого последующего времени. Изменение цены может от- разиться на объемах продаж в текущий период и в будущем. Текущее трудовое соглаше- ние повлияет на цену продукции некоторое время спустя. С точки зрения прогнозирования, автокорреляция — явление не такое уж плохое. Ес- ли значения зависимой переменной Y в один период времени связаны со значениями этой же переменной Y в предыдущие периоды, то предшествующие величины Y можно использовать для прогноза последующих.1 В рамках модели регрессии наличие автокор- реляции учитывается определенной “подстройкой” стандартной регрессионной модели. Чтобы правильно учесть автокорреляцию, иногда необходимо изменить набор независи- мых переменных и/или вид функции регрессии. Однако чаще всего данные с наличием автокорреляции обрабатываются с изменением слагаемого ошибки. Обычный тип автокорреляции, часто называемый серийной корреляцией первого по- рядка, характеризуется тем, что слагаемое ошибки в текущий период прямо связано со слагаемым ошибки в предыдущий период времени. В этом случае, используя индекс t для обозначения времени, модель простой линейной регрессии можно записать в виде Y, = ро + РЛ + е, (8.1) с условием е, = ре,_, + v„ (8.2) где Е/ — величина ошибки в момент /, р — параметр (коэффициент автокорреляции с запаздыванием 1), изме- ряющий корреляцию между последовательными слагаемыми ошибки, v, — нормально распределенные независимые ошибки с математическим ожиданием 0 и дисперсией ctJ . Уравнение (8.2) говорит, что величина одного слагаемого ошибки (е,_1) непосредст- венно влияет на величину следующего (е,). Значение коэффициента автокорреляции р, где -1 < р < 1, указывает на степень серийной корреляции. Если р равно нулю, тогда се- рийной корреляции нет и слагаемые ошибок независимы (е, = v,). На рис. 8.1 демонстрируется эффект положительной серийной корреляции в модели простой линейной регрессии. Пусть истинная взаимосвязь между величинами % и Y по- казана на рисунке сплошной линией. Если первое значение переменной Y находится выше истинной прямой регрессии, то несколько последующих значений Y, скорее всего, также будут выше этой прямой по причине положительной автокорреляции (первая ошибка положительна, поэтому и вторая, скорее всего, положительна и т.д.). В конечном счете может появиться и последовательность значений Y, лежащих ниже прямой регрес- сии (за отрицательной ошибкой, вероятно, будет следовать отрицательная). Данные ока- зываются “наклоненными” относительно линии истинной взаимосвязи между величи- Эта идея будет рассмотрена еще раз в следующем разделе этой главы при обсуждении моделей авто- регрессии, и еще подробнее она изучена в главе 9.
Регрессионный анализ временных рядов 389 нами Л" и У. Однако прямая, полученная с помощью метода наименьших квадратов, по своей сути, пройдет среди точек данных, как это показано на рисунке пунктирной лини- ей. Поэтому использование пунктирной линии вместо сплошной для целей анализа или прогноза данных может привести к существенным ошибкам. Y Истинная линия регрессии --------------------------------------------------------------х Рис. 8.1. Положительная серийная корреляция и метод наименьших квадратов Из рис. 8.1 также следует, что разброс точек данных около прямой, построенной по методу наименьших квадратов, меньше, чем разброс около истинной прямой регрессии. Следовательно, стандартная ошибка оценки Sy.x будет меньше реальной изменчивости Y по отношению к истинной регрессионной прямой или, что эквивалентно, меньше сред- неквадратического отклонения о слагаемого ошибки е. Сильная автокорреляция может привести к тому, что две переменные, не связанные между собой, будут казаться связанными. Вычисления по стандартным процедурам рег- рессии, выполненные для значений подобных переменных, могут показать значимую регрессию. Однако в этом случае полученная взаимосвязь будет ложной, и изучение ос- татков обычно позволяет выявить эту проблему. Тем не менее, при некритичном исполь- зовании стандартных процедур, ложная регрессия может остаться нераспознанной, что приведет к ошибочной интерпретации полученных результатов. Пример 8.1 На рис. 8.2 представлены графики двух смоделированных на компьютере временных рядов У, и %,. Эти два ряда образованы таким образом, что первый из них (У,) не зависит от второго (X;).2 В то же время каждая последовательность наблюдений сильно автокоррелирована. 2 Первый ряд был образован с помощью выборки из 100 случайных чисел с нормальным распределением с математическим ожиданием 0 и среднеквадратическим отклонением 2, из которых далее формировались частные суммы. Например, первое наблюдение в ряду — это первый элемент выборки случайных чисел, вто- рое наблюдение — сумма первого и второго элементов выборки, третье наблюдение — сумма первого, вто- рого и третьего случайных чисел и т.д. Второй ряд был образован аналогичным образом по другой выборке из 100 случайных чисел с таким же распределением.
390 ГЛАВА 8 Функция автокорреляции первого ряда показана на рис. 8.3. Функция автокорреляции вто- рого ряда очень похожа (и здесь не приведена). Время Рис. 8.2. Графики двух временных рядов Y, (вверху) иХ, (внизу), не связанных между собой Autocorrelation Function for Yt 1.0 - 0.8 - 0.6 - 0.4 - 0.2 - 0.0 - о § g ° -0.2 - S -0.4 - < -0.6 - -0.8 - -1.0 - 5 10 15 Lag Corr T LBQ Lag Corr T LBQ Lag Corr T LBQ 1 0.98 9.76 98.20 8 0.78 2.23 668.10 15 0.55 1.28 1008.23 2 0.95 5.57 192.06 9 0.75 2.03 730.53 3 0.93 4.27 282.19 10 0.71 1.85 787.41 4 0.90 3.55 368.06 11 0.67 1.70 839.34 5 0.87 3.07 449.51 12 0.64 1.58 887.07 6 0.84 2.73 526.87 13 0.61 1.47 931.16 7 0.82 2.46 600.02 14 0.58 1.37 971.45 Рис. 8.3. Функция автокорреляции для ряда Y„ (приложение Minitab)
Регрессионный анализ временных рядов 391 Из рис. 8.2 можно заключить, что оба временных ряда изменяются сходным образом. Можно даже попытаться связать первый (верхний) ряд со вторым (нижним) с помощью мо- дели простой линейной регрессии. На рис. 8.4 приведена диаграмма рассеивания этих данных вместе с прямой, полученной методом наименьших квадратов. Часть распечатки результатов вычислений приложения Minitab также представлена на этом рисунке. Вычисленная регрес- сия, очевидно, значима для переменной А",, объясняющей около 70% изменчивости перемен- ной Y,. Однако в действительности ряд Y, получен совершенно независимо от ряда X,. Рассчи- танная регрессия — ложная. The regression equation is Yt= 23.4+1.96 Xt Predictor Coef StDev T P Constant 23.3891 0.9498 24.62 0.000 Xt 1.9645 0.1304 15.07 0.000 S=8.725 R-Sq=69.9% R-Sq(adj) = 69.5% Puc. 8.4. Результаты вычисления модели простой линейной регрес- сии для двух временных рядов Y, и X, с сильной автокорреляцией (приложение Minitab) Выявить проблемы данного регрессионного анализа позволит изучение остатков. Например, для некоторых периодов запаздывания коэффициенты автокорреляции остатков велики, что явно указывает на нарушение условия независимости ошибок. А это значит, что начальная рег- рессионная модель должна быть модифицирована. В данном случае, если модификация будет проведена правильно, ложная зависимость между величинами Y, и X, должна исчезнуть. Если модели регрессии применяются к автокоррелирующим данным (в частности, из временных рядов), изучение остатков приобретает особую важность. Если подобное изу- чение не будет выполнено, сделанные выводы могут оказаться необоснованными, и при-
392 ГЛАВА 8 чина здесь не в ошибочности самого метода наименьших квадратов. Главная ошибка за- ключается в том, что стандартная регрессионная модель применяется в ситуации, когда основные предположения регрессии не выполняются. Основные возникающие в этом случае технические проблемы могут быть сформулированы следующим образом. 1. Стандартная ошибка оценки может оказаться значительно меньше реальной из- менчивости слагаемого ошибки. 2. Обычные выводы, сделанные на основе статистик / и F, не могут здесь использо- ваться. 3. Стандартные ошибки коэффициентов регрессии меньше реальной изменчивости оценок этих коэффициентов. В результате может быть получено ложное уравне- ние регрессии. Тест Дарбина-Уотсона для серийной корреляции Один из подходов, часто используемых для выявления наличия серийной корреляции, со- стоит в применении критерия Дарбина-Уотсона.3 Этот критерий определяет, можно ли счи- тать равным нулю параметр р, присутствующий в уравнении 8.2. Рассмотрим уравнение. Е, = ре,-, + V, Мы должны выбрать одну из двух гипотез. HQ: р = О Я.:р>0 Альтернативная гипотеза имеет вид р > 0, поскольку временные ряды, используемые в экономике и бизнесе, обычно имеют положительную автокорреляцию. Если регрессионная модель не свободна от автокорреляции, остатки будут автокорре- лирующими. Поэтому в критерии Дарбина-Уотсона выводы строятся на основании ве- личин остатков, полученных при регрессионном анализе. Статистика Дарбина-Уотсона определяется следующим равенством: где e,= Y, -Y, — остаток для периода времени t; е/_| = Г-| - Г-1 — остаток для периода времени / — 1. При положительной серийной автокорреляции последовательные серийные остатки имеют тенденцию быть близкими по величине и сумма квадратов разностей в числителе статистики Дарбина-Уотсона будет сравнительно мала. Наличие малых значений у ста- тистики Дарбина-Уотсона указывает на положительную серийную корреляцию. 5 См. Durbin, Watson (1951). Этот критерий не может прямо применяться, если уравнение регрессии не содержит слагаемого-константы.
Регрессионный анализ временных рядов 393 Коэффициент автокорреляции р можно также оценить с помощью величины авто- корреляции остатков с запаздыванием, равным 1 — гх(е) (см. уравнение 6.17). С помощью несложных преобразований можно показать, что значение статистики Дарбина-Уотсона связано с величиной гх(е). Для средних и больших выборок £>1Е= 2(1 - п(е)) (8.4) Поскольку -1 <Г|(е) < 1, уравнение (8.4) показывает, что Q<DW<4. Для гх(е), близкого к нулю, статистика DM7 будет близка к 2. Положительная автокорреляция с запаздывани- ем 1 связана со значениями DW, меньшими 2, а отрицательная автокорреляция с запаз- дыванием 1 связана со значениями DW, большими 2. Полезный (но не всегда определяющий) критерий серийной корреляции основан на сравнении вычисленного значения статистики Дарбина-Уотсона с нижней (L) и верхней (U) границами. Выводы делаются на основании следующих правил. 1. Если значение статистики Дарбина-Уотсона больше верхней границы ([/), коэф- фициент автокорреляции р равен нулю (нет положительной автокорреляции). 2. Если значение статистики Дарбина-Уотсона меньше нижней границы (£), коэф- фициент автокорреляции р больше нуля (есть положительная автокорреляция). 3. Если значение статистики Дарбина-Уотсона находится между нижней и верхней границами, критерий не дает ответа (мы не знаем, имеет ли место положительная автокорреляция). Критерий Дарбина-Уотсона, определяющий наличие положительной автокорреляции. Если DW> U, то принимаем гипотезу На: р = 0. Если DW < L, то принимаем гипотезу Нх: р > 0. Если DW лежит между верхней и нижней границами (L < DW < [7), критерий не дает ответа. Значения границ LwU приведены в табл. В.6 в приложении В. Чтобы найти необходимые значения L и U, требуется знать размер выборки, уровень значимости и количество независи- мых переменных. В таблице Дарбина-Уотсона (приложение В) размер выборки указан в левом столбце, а количество независимых переменных — сверху в каждом столбце. Например, если мы используем три независимые переменные, значение следует искать в столбце для к = З.4 Как следует из уравнения (8.4), можно делать выводы о знаке и величине коэффици- ента автокорреляции остатков с запаздыванием 1 по значению статистики Дарбина- Уотсона и наоборот. Так, для ситуации, в которой критерий DW не дает ответа, значи- мость серийной корреляции может быть исследована через сравнение г,(е) с величиной + 2/у/п ,5 Если г,(е) попадает в интервал 0± ^/>/«), правомочно сделать вывод о том, что автокорреляция мала и может не учитываться. 4 Также можно проверять наличие отрицательной автокорреляции. В этом случае Нх : р <0 и значение статистики DW сравнивается с величинами 4 — L и 4 — U. Нулевая гипотеза Но : р = 0 отклоняется, если DIV > 4 — L, и принимается, если DH' < 4 — U. Критерий не дает ответа, если это значение лежит между 4- Uu4 — L. 5 Если автокорреляция не имеет места, стандартная ошибка величины гх(е) примерно равна 1 / у[п (см. обсуждение автокорреляции в главе 3 и обсуждение автокорреляции остатков в главе 6).
394 ГЛАВА 8 Пример 8.2 Предположим, что некоторому аналитику предложено заняться вопросами планирования на будущий период для компании Reynolds Metals, производителя алюминия. Руководство ком- пании поставило перед ним задачу разработать метод прогнозирования будущих объемов продаж. Компания реализует продукцию в различных регионах, и предполагается, что уро- вень чистого дохода в каждом регионе тесно связан с объемом продаж в этом регионе. В табл. 8.1 приведены объемы продаж и доход за период с 1976 по 1996 год. Кроме того, в этой таблице приведены данные, необходимые для вычисления статистики ПИ7 (см. раздел “Применение Minitab” в конце главы). Остатки получены путем сравнения точек на прямой регрессии и значений данных, как показано на рис. 8.5. Таблица 8.1. Данные об объемах продаж компании Reynolds Metals и вычисления статистики Дарбина-Уотсона Год Продажи У. Доход X, Остатки е. et ~ e,-i (е, - в,-,)2 2 et 1976 295 273,4 -76,36 — — 5 830,85 1977 400 291,3 -47,53 28,83 831,17 2 259,10 1978 390 306,9 -123,91 -76,38 5 833,90 15 353,69 1979 425 317,1 -132,32 -8,41 70,73 17 508,58 1980 547 336,1 -91,16 41,16 1 694,15 8310,15 1981 555 349,4 -139,76 -48,60 2 361,96 19 532,86 1982 620 362,9 -132,20 -7,56 57,15 17 476,84 1983 720 383,9 -121,56 10,54 113,21 14 776,83 1984 880 402,8 -41,98 79,58 6 332,98 1 762,32 1985 1050 437,0 -17,51 24,47 598,78 306,60 1986 1290 472,2 72,71 90,22 8 139,65 5 286,74 1987 1528 510,4 148,16 75,45 5 692,70 21 951,39 1988 1586 544,5 61,06 -87,10 7 586,41 3 728,32 1989 1960 588,1 249,53 188,47 35 520,94 62 265,22 1990 2118 630,4 227,54 -21,99 483,56 51 774,45 1991 2116 685,9 -10,62 -238,16 56 720,19 112,78 1992 2477 742,8 108,26 118,88 14 132,45 11 720,23 1993 3199 801,3 581,33 473,07 223 795,22 337 944,57 1994 3702 903,1 651,16 69,83 4 876,23 424 009,35 1995 3316 983,6 -77,38 -728,54 530 770,53 5 987,66 1996 2702 1076,7 -1087,54 -1010,16 1020 1182 423.23 743,25 Сумма 1926 2210 035,14 641,78
Регрессионный анализ временных рядов 395 Regression Plot Sales = -792.002 + 4.25517 Income Рис. 8.5. График регрессии для данных компании Reynolds Metals (приложение Minitab) Прежде чем использовать для прогноза прямую, полученную методом наименьших квад- ратов, аналитик решил применить критерий Дарбина-Уотсона для проверки наличия в дан- ных серийной корреляции. В табл. 8.1 в три последних столбца строки за 1977 год помещены результаты следующих вычислений. е, - е^ = -47,53 - (-76,36) = 28,83 (е, - ен1)2 = 28,832 = 831,17 е2 = (-47,53)2 = 2259,1 Статистика Дарбина-Уотсона вычисляется по следующему соотношению. E(e,'e>-i)2 ж 1=2 1926 035,14 2 210 641,78 Используя уровень значимости 0,01 для выборки с я = 21 значением и k= 1 независимой переменной, получаем следующее. L = 0,97 U= 1,16 Поскольку DW = 0,87 меньше L = 0,97, нулевая гипотеза Но: р = 0 отклоняется, и можно сделать вывод, что ошибки имеют положительную корреляцию (р > 0). Регрессионная модель должна быть преобразована, прежде чем ее можно будет использовать для прогноза.
396 ГЛАВА 8 Решение проблемы автокорреляции Если в данных временных рядов обнаружена автокорреляция, ее необходимо нейтрали- зовать или как-то учесть, прежде чем полученную функцию регрессии можно будет ис- пользовать для прогноза. Выбор подходящего метода обработки данных при наличии се- рийной корреляции зависит от того, что является ее первопричиной. Автокорреляция может появиться из-за некоторой систематической ошибки — например, пропущенной переменной. В других случаях коррелируют слагаемые ошибок в корректно определен- ной во всех остальных отношениях модели. Решение проблемы серийной автокорреляции начинается с оценки модели регрес- сии. Подходит ли ее функциональная форма? Не пропущена ли важная независимая пе- ременная? Имеются ли какие-то повторяющиеся явления, которые накладывают свой отпечаток на значения данных во времени и вызывают эффект автокорреляции ошибок? Поскольку основной причиной автокорреляции ошибок в регрессионной модели яв- ляется пропуск одной или нескольких важных переменных, наилучший подход к реше- нию проблемы — найти их. В некоторых случаях подобные действия называют процеду- рой улучшения спецификации модели. Спецификация модели включает не только выбор необходимых независимых переменных, но и введение этих переменных в функцию рег- рессии должным образом. К сожалению, модель может быть улучшена не всегда — про- пущенные переменные могут не поддаваться количественному определению или же дан- ные по ним могут быть просто недоступны. Например, можно предполагать, что величи- ны бизнес-инвестиций в будущий период связаны с мнением потенциальных инвесто- ров. Однако очень сложно измерить в числах переменную “мнение”. Тем не менее, когда это возможно, спецификация модели обязательно должна быть согласована с теоретиче- ским смыслом и интуитивным пониманием величин данных. Только после необходимого улучшения спецификации модели и выбора оптималь- ного вида уравнения можно приступать к рассмотрению вопроса о подгонке данных. Ниже будет рассмотрено несколько способов устранения влияния автокорреляции. Один из методов устранения влияния автокорреляции — добавление в функцию рег- рессии пропущенной переменной, объясняющей связь значений зависимой переменной в разные периоды времени. При другом методе устранения этого влияния используется общее понятие диффе- ренциации. В данном случае регрессионная модель определяется в терминах изменений величин. Например, в данных компании Reynolds Metals изменение объема продаж од- ного года от другого (это изменение равно 105 за период с 1976 по 1977 год) связано с со- ответствующим изменением дохода (17,9 — с 1976 по 1977 год). В этом случае можно вы- разить начальные переменные в терминах логарифмов, а в уравнении регрессии исполь- зовать изменения этих логарифмов. Данная процедура эквивалентна использованию в регрессии выраженного в процентах изменения зависимой переменной вместе с выра- женными в процентах изменениями независимых переменных. Наконец, вместо простых или первых разностей для устранения влияния автокорреляции в модели регрессии мо- жет потребоваться использовать обобщенные разности. Для устранения влияния автокорреляции также может использоваться модель авто- регрессии. При этом как независимые переменные используются значения зависимой переменной У, появившиеся на один или более периодов ранее. Для модели авторегрес- сии первого порядка единственной независимой переменной будет значение У, получен-
Регрессионный анализ временных рядов 397 ное в предыдущий период времени. Так, согласно этой модели, в данных компании Reynolds Metals для прогноза значений продаж на 1977 год будет использоваться объем продаж за 1976 год (295). Следующие примеры иллюстрируют упомянутые выше методы устранения влияния автокорреляции. Ошибка в спецификации модели (пропуск переменной) В примере 8.3 демонстрируется, как можно устранить серийную корреляцию посредст- вом добавления пропущенной переменной. Пример 8.3 Корпорации Novak необходимо разработать модель для прогноза будущих объемов продаж. Поскольку сеть магазинов корпорации охватывает весь регион, в качестве возможной незави- симой переменной был выбран чистый доход населения по региону в целом. В табл. 8.2 пред- ставлены объемы продаж корпорации за период с 1980 по 1996 год. В этой таблице также при- ведены данные о чистом доходе населения и уровне безработицы в регионе. Таблица 8.2. Данные о годовых объемах продаж корпорации Novak Строка (Row) Год (Year) Объем продаж (Sales) Чистый доход (income) Уровень безработицы (Rate) Значение Y (предыдущее) 1 1980 8,0 336,1 5,5 * 2 1981 8,2 349,4 5,5 8,0 3 1982 8,5 362,9 6,7 8,2 4 1983 9,2 383,9 5,5 8,5 5 1984 10,2 402,8 5,7 9,2 6 1985 11,4 437,0 5,2 10,2 7 1986 12,8 472,2 4,5 11,4 8 1987 13,6 510,4 3,8 12,8 9 1988 14,6 544,5 3,8 13,6 10 1989 16,4 588,1 3,6 14,6 11 1990 17,8 630,4 3,5 16,4 12 1991 18,6 685,9 4,9 17,8 13 1992 20,0 742,8 5,9 18,6 14 1993 21,9 801,3 5,6 20,0 15 1994 24,9 903,1 4,9 21,9 16 1995 27,3 983,6 5,6 24,9 17 1996 29,1 1076,7 8,5 27,3
398 ГЛАВА 8 Результаты расчетов приложения Minitab представлены в листинге 8.1. Из них следует, что значение статистики Дарбина-Уотсона равно 0,72. Из табл. В.6 приложения Б для уровня значимости 0,01, п = 17 и к = 1 получаем следующее. /. = 0,87 U= 1,10 Листинг 8.1. Результаты вычислений приложения Minitab для прогнозирования объемов продаж корпорации Novak на основании чистого дохода Regression Analisys: Sales versus Income The regress Sales = -1. ion equation 50 + 0.0292 is Income Predictor Constant Income Coef -1.5046 0.0291916 SE Coef 0.3290 0.0005129 T -4.57 56.92 P 0.000 0.000 S = 0.4767 R-Sq = 99.5% R-Sq(adj) = 99.5% Analysis of Variance Source DF Regression 1 Residual Error 15 Total 16 SS 736.15 3.41 739.56 MS 736.15 0.23 F P 3239.89 0.000 Durbin-Watson statistic = 0.72 Поскольку DW = 0,72 < L = 0,87, критерий показывает наличие серийной корреляции. Возможно, в модели пропущена важная переменная, объясняющая оставшуюся часть зави- симости между объемами продаж в разные годы. Это предположение может быть справедли- во, даже несмотря на то, что в распечатке результатов приложения Minitab указано, что пере- менная дохода объясняет 99,5% изменчивости объемов продаж. Такой важной переменной может оказаться уровень безработицы. В листинге 8.2 приве- дены результаты регрессионного анализа после добавления в модель независимой перемен- ной уровня безработицы. Листинг 8.2. Результаты вычислений приложения Minitab для прогнозирования объемов продаж корпорации Novak на основании чистого дохода населения и уровня безработицы Regression Analisys: Sales versus Income, Rate The regression equation is Sales = -0.014 + 0.0297 Income - 0.350 Rate Predictor Coef SE Coef T P Constant -0.0140 0.2498 -0.06 0.95 6 Income 0.0297492 0.0002480 119.96 0.000 Rate -0.34987 0.04656 -7.51 0.000
Регрессионный анализ временных рядов 399 S = 0.2199 R-Sq = 99 .9% R-Sq(adj) = 99.9% Analysis of Variance Source DE SS MS F P Regression 2 738.88 369.44 7637.91 0.000 Residual Error 14 0.68 0.05 Total 16 739.56 Durbin-Watson statistic = 1.98 Теперь измененная модель объясняет 99,9% изменчивости продаж. Свободный член уравнения незначим, в модели без свободного слагаемого значение статистики Дарбина- Уотсона, равное 1,98, практически не изменяется. При уровне значимости 0,01, п = 17 и к = 2 из табл. В.6 приложения Б имеем следующее. L = 0,77 £7= 1,25 Поскольку DW= 1,98 > U= 1,25, очевидно, что серийная корреляция отсутствует. Для прогноза объема продаж корпорации Novak функцию Y= -0,014 + 0,03%, -0,35Х2 можно использовать с полной уверенностью, что ошибки будут независимы/ На 1997 год эксперты прогнозируют в регионе доход населения в размере 1185 миллионов долларов и уровень безработицы в 7,8%. Тогда прогноз объема продаж будет равен У= -0,014 + 0,03(1185) - 0,35(7,8) = 32,8, т.е. 32,8 миллиона долларов. Регрессия с разностями Для того чтобы устранить серийную корреляцию для сильно автокоррелирующих данных, можно использовать разности их значений. Так, вместо записи уравнения регрессии относи- тельно переменных К vtXt, Х2,...,Хк данное уравнение может быть записано для разностей У/ = У, - У,ч и Хп = Хп - Л-1.1, Хг =-Уд - Л-1,2 и т.д. Разности следует использовать, когда значе- ние статистики Дарбина-Уотсона, вычисленное для начальных переменных, близко к нулю.’ Использование разностей в данной ситуации можно объяснить следующими аргументами. Предположим, что справедливы уравнения 8.1 и 8.2, т.е. К, = Ро + Р,Л + Е, с условием е, = ре,.] + v„ где р — коэффициент автокорреляции между последовательными ошибками, v, — случайная ошибка, v, = е„ если р = 0. 6 Обычный график остатков показывает, что выполняются все предположения регрессионной модели. 7 Вид функции автокорреляции для переменной Y и/или переменных X, подобный тому, который пред- ставлен на рис. 8.3, также указывает на то, что функция регрессии относительно разностей может по- мочь устранить (или значительно уменьшить) проблемы, создаваемые серийной корреляцией.
400 ГЛАВА 8 Модель справедлива для любого момента времени, поэтому Г-1 = Ро + 31 -Г-1 + Е/-1- Умножая обе части последнего уравнения на р и вычитая полученное равенство из урав- нения 8.1, получаем Г = Ро + ₽1-Г + £( (уравнение 8.1) рГ-i = рРо + рР |.¥,-| + рег-1 (уравнение для К,_ь умноженное на р) Г-рГ-i = Ро - РРо + (Pi-T ~ pPi-T-i) + (Е/ - pE,-i) (разность) или r, = p0(l-p) + P,r + v„ (8.5) где штрих обозначает обобщенные разности. Преобразованное уравнение 8.5 включает ошибки v„ которые представляют собой не- зависимые случайные величины с нулевым математическим ожиданием и постоянной дисперсией. Следовательно, к данной регрессионной модели можно применять обычные методы регрессии. Если корреляция между последовательными ошибками велика (р близко к 1), то обобщенные разности, по существу, равны простым или первым разностям и свободный член в модели (8.5) близок к нулю (пропадает). Использование регрессионных моделей, построенных для обобщенных разностей, часто позволяет устранить серийную корреляцию. Если серийная корреляция особенно велика, целесообразно использовать обычные разности. В примере 8.1 было показано, что может случиться, если не обратить внимание на наличие в данных автокорреляции. Пример 8.4 Фреду Гарднеру (Fred Gardner) было поручено составить прогноз объемов продаж компании Sears (в тыс. долл.) для западного региона США. В качестве независимой переменной он вы- брал величину чистого дохода населения этого региона. Кроме того, за счет связывания объ- емов продаж с уровнем доходов населения посредством логарифмической линейной модели, Фред надеялся оценить показатель эластичности объемов продаж по отношению к доходу. Показатель эластичности демонстрирует, на сколько процентов увеличивается объем продаж при увеличении чистого дохода населения на 1%. Логарифмическая линейная модель предполагает, что величина дохода связана с объемом продаж уравнением продажа = у (доход) . Взяв натуральный логарифм от обеих частей последнего уравнения, получим следующее. Ln (продажа) = Ln у + P,Ln (доход) Добавляя в последнее выражение слагаемое ошибки, описывающее влияние неучтенных пе- ременных, приходим к логарифмической линейной регрессионной модели, выраженной в виде Ln К, = Ро + P]Ln А) + Е,, (8.8)
Регрессионный анализ временных рядов 401 где Ln Y, = Ln (доход) — натуральный логарифм объема продаж, Ln А) = Ln (доход) — натуральный логарифм величины дохода населения, в, — слагаемое ошибки, Ро = Ln у — свободный член, Pi — угловой коэффициент — отношение эластичности продаж по отношению к доходу. В табл. 8.3 приведены объемы продаж компании Sears, чистый доход населения, логарифмы этих величин, а также разности логарифмов продаж и доходов за 1976—1996 гг. Таблица 8.3. Объемы продаж компании Sears, чистый доход населения США за 1976-1996 гг. и преобразованные данные для примера 8.4 Год Объем продаж (тыс. долл.) Y, Доход (млн долл.) X, Ln Y, Ln А) Разности У, X, 1976 3307 273,4 8,1038 5,6109 - - 1977 3556 291,3 8,1764 5,6744 0,0726 0,0634 1978 3601 306,9 8,1890 5,7265 0,0126 0,0522 1979 3721 317,1 8,2218 5,7592 0,0328 0,0327 1980 4036 336,1 8,3030 5,8174 0,0813 0,0582 1981 4134 349,4 8,3270 5,8552 0,0240 0,0388 1982 4268 362,9 8,3589 5,8941 0,0319 0,0379 1983 4578 383,9 8,4290 5,9504 0,0701 0,0563 1984 5093 402,8 8,5356 5,9984 0,1066 0,0481 1985 5716 437,0 8,6510 6,0799 0,1154 0,0815 1986 6357 472,2 8,7573 6,1574 0,1063 0,0775 1987 6769 510,4 8,8201 6,2352 0,0628 0,0778 1988 7296 544,5 8,8951 6,2999 0,0750 0,0647 1989 8178 588,1 9,0092 6,3769 0,1141 0,0770 1990 8844 630,4 9,0875 6,4464 0,0783 0,0695 1991 9251 685,9 9,1325 6,5307 0,0450 0,0844 1992 10006 742,8 9,2109 6,6104 0,0785 0,0797 1993 11200 801,3 9,3237 6,6862 0,1127 0,0758 1994 12500 903,1 9,4335 6,8058 0,1098 0,1196 1995 13101 983,6 9,4804 6,8912 0,0470 0,0854 1996 13640 1076,7 9,5208 6,9817 0,0403 0,0904
402 ГЛАВА 8 Часть распечатки результатов вычислений в приложении Minitab регрессионной зависи- мости переменной Ln (продажа) (Ln (Sales)) от переменной Ln (доход) (Ln (Income)) приведена в листинге 8.3. Фред обратил внимание на то, что 99,2% изменчивости логарифма продаж компании Sears в западном регионе объясняется его зависимостью от логарифма чис- того дохода населения этого региона. Регрессия высоко значима. Кроме того, эластичность дохода оценивается в Ь\ = 1,117 со стандартной ошибкой Sb) = 0,023 . Однако значение стати- стики Дарбина-Уотсона, равное 0,50, невелико и меньше L = 0,97, квантиля с уровнем значи- мости 0,01 для п = 21 и к = 1. Исходя из этого Фред сделал заключение, что корреляция между последовательными значениями ошибок положительна и велика (близка к 1). Листинг 8.3. Результаты вычисления в приложении Minitab регрессии для логарифмов объемов продаж компании Sears на основе логарифмов чистого дохода населения Regression Analisys: Ln(Sales) versus Ln(Income) The regression equation is Ln(Sales) = 1.82+ 1.12 Ln(Income) Predictor Constant Ln(Income) Coef 1.8232 1.11727 SE Coef 0.1434 0.02305 T 12.71 48.47 P 0.000 0.000 S = 0.04368 R-Sq = 99.2% R- Sqfadj ) = 99.2% Analysis of Variance Source DF Regression 1 Residual Error 19 Total 20 SS 4.4821 0.0363 4.5184 MS 0.4821 0.0019 F 2349.13 P 0.000 Durbin-Watson statistic = 0.50 Поскольку в результате анализа была обнаружена сильная серийная корреляция, Фред решил перейти к модели с разностями логарифмов продаж и доходов. Он знал, что коэффи- циент наклона в модели для разностей будет таким же, как и в начальной модели с логариф- мами. Поэтому он по-прежнему сможет непосредственно оценить показатель эластичности дохода. Свободный член регрессионной модели для разностей, видимо, оказался очень мал и поэтому был пропущен. Результаты вычислений для нового варианта модели, выполненных с помощью приложения Minitab, представлены в листинге 8.4. Листинг 8.4. Результаты вычисления в приложении Minitab регрессии для разностей логарифмов объемов продаж компании Sears на основе разностей логарифмов чистого дохода Regression Analisys: Change in Ln(Sales) versus Change in Ln(Income) The regression equation is
Регрессионный анализ временных рядов 403 Change in Ln(Sales) = 1.01 Change in Ln(Income) 20 cases used 1 cases contain missing values Predictor Noconstant Coef SE Coef T P Change in Ln(Income) S = 0.02975 1.00989 0.09304 10.85 0.000 Analysis of Variance Source DF SS MS F P Regression 1 Residual Error 19 Total 20 0.10428 0.01681 0.12109 0.10428 0.00088 117.83 0.000 Durbin-Watson statistic = 1.28 Из листинга 8.4 следует, что регрессия значима. Оценка эластичности дохода равна Ь\ = 1,010 со стандартной ошибкой sk =0,093. Оценка эластичности Ь} не изменилась значи- тельно по сравнению с первой регрессией (увеличение на 1% чистого дохода соответствует увеличению примерно на 1% годовых объемов продаж в обоих случаях), однако стандартная ошибка оценки (sk = 0,093) примерно в четыре раза больше предыдущей (= 0,023). Пре- дыдущая стандартная ошибка существенно занижает истинную стандартную ошибку по при- чине серийной корреляции. Анализируя статистику Дарбина-Уотсона для п = 20, к = 1 и уровня значимости 0,05, Фред обнаружил, что L= 1,20 < DI¥= 1,28 < U= 1,41, поэтому критерий для проверки серийной корреляции не дает требуемого ответа. Однако изучение автокорреляций остатков, представ- ленных на рис. 8.6, показывает, что они хорошо укладываются между двумя прямыми стан- дартных ошибок (пунктирные линии на рисунке) для нескольких первых значений запазды- ваний. В результате Фред пришел к выводу, что серийная корреляция устранена и он может использовать полученное уравнение для прогноза. Чтобы использовать полученный окончательный результат для целей прогнозирования, Фред записал У,’ = 1,01 А"/, где У,’ = Ln У, - Ln У,.| X, = Ln Xt - LnA'(.|. Подставляя выражения для У, и А) , после перестановки слагаемых получаем следующее. Ln У, = Ln Ум + 1,01 (Ln А) - LnX-i (8.9) Прогноз для объема продаж компании Sears на 1997 год можно получить, приняв t = 22. Ln У22= Ln Y21 + l,01(Ln Х22 — LnY2i Объем продаж на 1996 год известен: У21 = ^21 = 13,640. Доход населения за 1996 год также из- вестен и равен А”21 = 1076,7. Для вычислений Фреду также нужна величина дохода населения за 1997 год. Экономисты, знающие ситуацию в западном регионе, прогнозируют на 1997 год доход в размере 1185 миллионов долларов, поэтому Фред принимает А"22 =1185. В результате уравнение принимает следующий вид.
404 ГЛАВА 8 Ln Y22 = Ln (13 640) + l,01(Ln (1185) - Ln(1076,7)) = 9,5208 + 1,01(7,0775 + 6,9817) = 9,6176 Отсюда получаем следующее. Y22 = e9,6176 = 15 027 Прогноз Фреда для объема продаж компании Sears на 1997 год для западного региона соста- вил 15 027 тыс. долл. Помимо этого Фред может использовать уравнение (8.9) и для составле- ния прогнозов на 1998, 1999 и все последующие годы, правда, для этого ему дополнительно потребуется оценка чистого дохода населения западного региона для этих лет. 2 3 4 5 -0.26 -0.07 0.35 0.16 -1.08 -0.26 1.38 0.58 Рис. 8.6. Диаграмма автокорреляции остатков для зультаты которого представлены в листинге 8.4 (приложение Minitab) 3.37 3.48 6.85 7.61 регрессионного анализа, ре- Обобщенные разности и итерационный подход Рассмотрим еще раз регрессионную модель из уравнения 8.5. Yt = ₽о( 1 _ р) + Р1Л + V, Эта модель, включающая обобщенные разности Y, и А) (см. уравнение 8.6), специально сконструирована для исключения серийной корреляции ошибок. Кажется вполне есте- ственным использовать эту модель для прогноза, оценив ее параметры непосредственно методом наименьших квадратов. Однако нам неизвестен коэффициент автокорреля- ции р, поэтому разности Y, и Xt найти невозможно. Следовательно, с помощью данной модели и прямого применения метода наименьших квадратов значения данных мы про- гнозировать не сможем8. Можно оценить параметры преобразованной модели (уравнение 8.5) по нашим данным с помощью не- линейного метода наименьших квадратов. Однако эта тема выходит за рамки данной книги, и данная техника вычислений реализована не во всех популярных компьютерных пакетах статистических программ.
Регрессионный анализ временных рядов 405 Еще один общий подход в данной ситуации — оценить значение р, а затем подобрать другие параметры модели, используя оценку р. Для оценки р и последующей эффектив- ной оценки Pi чаще всего используется процедура, предложенная Кохрейном (Сосгапе) и Оркаттом (Orcutt). Иные подходы для оценки р и учета серийной корреляции рассмотре- ны в книге Пиндика (Pindyck) и Рубинфельда (Rubinfeld) Econometric Models and Economic Forecast. Метод Кохрейна-Оркатта является итерационным. Каждая итерация дает лучшую оценку р, чем предыдущая. На первом этапе с помощью метода наименьших квадратов оцениваются параметры простой линейной регрессии. Y, = ₽0 + ₽>%, + £, Остатки, полученные из этого уравнения, е, = Y, -Y, = Y, -fi0 - ДХ,, используются для оценки параметров модели. е, = ре, + V, (8.10) Оценка, полученная методом наименьших квадратов, п 1=2 является начальной оценкой значения р.9 Эта оценка дальше используется для нахожде- ния обобщенных разностей10. Y’ = Y, - рУ(_! х; = х,-рх,_, Для преобразованной модели }>Д0(1-р) + Дх;+Е, (8.12) проводится регрессионный анализ, дающий уточненные оценки и Д' наклона и сво- бодного члена. На этом первая итерация заканчивается. Уточненные оценки из первой итерации подставляем в начальное уравнение у, = Д* + Дх„ из которого находим новые значения остатков е‘. Новые остатки подставляем в уравне- ние 8.11, вычисляем новую оценку р и продолжаем итерации дальше. Этот процесс за- канчивается, когда очередной шаг не дает существенного изменения величины р. После завершения итераций для окончательно преобразованной модели (уравнение 8.12) можно провести стандартный регрессионный анализ и сделать выводы о связи между величинами Y и X. Найденную модель также можно использовать для про- гноза будущих значений Y по известным величинам X. 9 Для средних и больших выборок эта оценка р практически равна коэффициенту автокорреляции ос- татков с запаздыванием 1: ri(e). ™ Если оценка р близка к 1, то в начальной регрессии используются обычные разности и итерации дальше не проводятся.
406 ГЛАВА 8 Пример 8.5 Проиллюстрируем применение процедуры Кохрейна-Оркатта на данных компании Sears. Исходные данные приведены в табл. 8.3. Воспользуемся приложением Minitab для нахождения простой линейной регрессионной модели, связывающей объем продаж компании (У) и чистый доход населения региона (А). В результате расчетов получаем следующее уравнение. У, = -524 + 14%,, где 5. =0,319 И t = 44,1 г2 = 0,99 DW = 0,63 Значение статистики DW, близкое к нулю, указывает на наличие положительной автокор- реляции, поэтому мы применяем метод Кохрейна-Оркатта. Согласно результатам вычисле- ний, выполненных с помощью пакета TSP (приведены в листинге 8.5), имеем следующее:11 У, = 2340(1 - 0,936) + 10,9%,’ где S. =Г373 t = 7,96 г2 = 0,78 р = 0,936 DW = 1,08. Окончательная оценка р равна 0,936; это означает, что У,' = У, - 0,936У,.] и %,’ = %, - 0,936%,. ]. Значение статистики Дарбина-Уотсона, равное 1,08, попадает в зону “неопределенности” при уровне значимости 0,01, однако показатели автокорреляции остатков демонстрируют от- сутствие серийной корреляции. Отметим, что коэффициенты наклона двух регрессий близки по величине (14 и 10,9). Однако стандартная ошибка, связанная с 6,, во второй регрессии примерно в четыре раза больше стандартной ошибки в первом приближении (1,374 и 0,319). Следовательно, статистика t во второй регрессии значительно меньше, чем в первой, хотя по- прежнему остается значимой. Эти результаты ничему не противоречат, поскольку серийная корреляция больше не влияет на смещение оценки коэффициента регрессии, но она может сказаться на уменьшении стандартной ошибки оценок коэффициентов. Действительно, одна из причин устранения серийной корреляции состоит в стремлении избежать ошибочных вы- водов на основании завышенных значений t. Наконец, отметим, что величина р близка к 1. Поэтому обычный метод наименьших квадратов можно применить к простым разностям У, = У, - У,.! и %,’ = %, - %,.!. Исследовать эту проблему вам будет предложено в упр. 8.18. " E-Views, переработанная версия DOS-программы micro-TSP, — это популярная программа для реше- ния задач эконометрики и анализа временных рядов, в которой реализована процедура Кохрейна-Оркатта. В листинге 8.5 объемы продаж компании Sears выражены в млн долл.
Регрессионный анализ временных рядов 407 Листинг 8.5. Результаты вычислений программы TSP для данных компании Sears из EQUATION 1 ifi*iff*** FIRST-ORDER SERIAL CORRELATION OF THE ERROR COCHRANE-ORCUTT ITERATIVE TECHNIQUE MEAN OF DEPENDENT VARIABLE = 7.29225 STANDARD DEVIATION = 3.37732 DEPENDENT VARIABLE: SALES OPTIONS FOR ROUTINE 'k'k'k'k'k'k'k'k'k'k'k'k'k'k'k'k'kif'k FAIR = TRUE MAXIT = 20 METHOD = CORC PRINT RSTART TSCS = TRUE RMAX = 0.90000 RMIN = -0.90000 ' = 0 RSTEP = 0.10000 TOL = 0.0050 = FALSE UNNORM = FALSE WEIGHT = INITIAL ESTIMATE SSR = 2.2419 PARAMETER ESTIMATES: -.5243 0.1405E-01 CONVERGENCE ACHIEVED AFTER 7 ITERATIONS ITERATION RHO STD ERROR OF EQN ********* *** **************** 1 0.815355 0.248105 2 0.870710 0.244495 3 0.897917 0.242975 4 0.913437 0.242195 5 0.923445 0.241729 6 0.930504 0.241421 7 0.935808 0.241201 FINAL VALUE OF RHO = 0.935808 STANDARD ERROR OF RHO = 0.788240E-01 T-STATISTIC FOR RHO = 11.8721 STATISTICS BASED ON RHO-TRANSFORMED VARIABLES * * * * ^ SUM OF SQUARED RESIDUALS = 1.04720 STANDARD ERROR OF THE REGRESSION = 0.241201 MEAN OF DEPENDENT VARIABLE = 0.951593 STANDARD DEVIATION = 0.499369 R-SQUARED = 0.778978 ADJUSTED R-SQUARED = 0.766699 F-STATISTICS (1.18) = 63.4400 DURBIN-WATSON STATISTICS(ADJ FOR 0 GAPS) = 1.0813 NUMBER OF OBSERVATIONS = 20 ESTIMATED STANDARD VARIABLE COEFFICIENT ERROR T-STATISTICS C 2.340258 1.778342 1.315977 INCOME 0.1093294E-01 0.1372636E-02 7.964924
408 ГЛАВА 8 Модели авторегрессии Наличие автокорреляции означает, что значения зависимой переменной в один период времени линейно связаны со значениями зависимой переменной в другой период. По- этому одним из путей решения проблемы серийной корреляции является модель, где эта линейная связь записана непосредственно. В рамках регрессии это можно сделать, если зависимую переменную, взятую с запаздыванием на один или больше периодов, рас- сматривать в качестве независимой переменной. Регрессионные модели, сформулиро- ванные таким образом, называются моделями авторегрессии. Модель авторегрессии пер- вого порядка записывается в виде Г, = ₽о + ₽1Г-1 +е„ (8.13) где предполагается, что ошибки е, удовлетворяют обычным предположениям регресси- онной модели. Вычислив параметры этой модели методом наименьших квадратов, полу- чаем уравнения для прогноза. г, = г>0 + г>1Гм (8.14) В модели авторегрессии прогноз находится как функция от предыдущих значений вре- менного ряда. Модели авторегрессии — это часть множества обобщенных авторегрессионных моделей скользящего среднего (ARIMA), которые подробно обсуждаются в главе 9. Пример 8.6 Данные объемов продаж корпорации Novak из примера 8.3, приведенные в листинге 8.2, бу- дут использованы здесь, чтобы проиллюстрировать процедуру нахождения модели авторег- рессии. Обратите внимание на то, что при использовании данных с запаздыванием, как это сделано в листинге 8.2, данные за один год отсутствуют, поскольку неизвестен объем продаж корпорации за 1979 год. Поэтому размер выборки будет п = 16 вместо п = 17. Находим модель авторегрессии первого порядка, где в качестве независимой переменной взят объем продаж корпорации с запаздыванием на один год (столбец Y-Lagged). С помощью приложения Minitab вычисляются параметры модели авторегрессии для дан- ных об объемах продаж корпорации Novak. В листинге 8.6 представлены результаты прове- денных вычислений. Прогноз на 1997 год и 95%-ный доверительный интервал также указаны в этом листинге. Листинг 8.6. Результаты вычисления в приложении Minitab модели авторегрессии для данных об объемах продаж корпорации Novak Regression Analisys: Sales versus Y-Lagged The regression equation is Sales = -0. 109 + 1.09 Y -Lagged Predictor Coef SE Coef T P Constant -0.1093 0.3367 -0.32 0.750 Y-Lagged 1.09388 0.02063 53.01 0.000 S = 0.4875 R-Sq = 99.5% R-Sq(adj) = 99.5%
Регрессионный анализ временных рядов 409 Analysis of Variance Source DF SS MS F P Regression 1 667.73 667.73 2810.16 0.000 Residual Error 14 3.33 0.24 Total 15 671.05 Predicted Values for New Observations New Obs Fit SE Fit 95,0% CI 95,0% PI 1 31.722 0. .311 (31.055, 32.390) (30. 482, 32.963) Прогноз объема продаж на 1997 год составил 31,722 млн долл. Эта величина вычислена с учетом ошибок округления по следующим формулам. Y= b0 + = -0,109 + 1,094г,-! flg = -0,109 + 1,094Г18_1 = -0,109 + l,094Y17 Г18 = -0,109 + 1,094(29,1) = 31,726 В этом случае мы не можем использовать критерий Дарбина-Уотсона. Если предыдущие значения зависимой переменной включены в уравнение в качестве независимой переменной, величина статистики Дарбина-Уотсона будет “притягиваться” к 2. Вместо этого критерия для проверки наличия серийной корреляции можно использовать значение Л-статистики Дарби- на-Уотсона12. Свободный член в этой регрессии мал и не отличается значимо от нуля. Если рассмотреть модель без свободного слагаемого, найти в ней оценку коэффициента наклона прямой рег- рессии, а затем вычислить значение прогноза, то полученное значение почти не изменится. Когда регрессионный анализ применяется для данных временных рядов, остатки час- то автокорреллируют. Для описания этой ситуации иногда используется термин серийная корреляция. Поскольку при регрессионном анализе предполагается, что ошибки незави- симы, мы сталкиваемся с проблемами. Величина Я2 для регрессии с данными, имеющи- ми серийную корреляцию, будет искусственно завышена, тогда как значения стандарт- ных ошибок коэффициентов регрессии могут быть существенно занижены, а соответст- вующее значение статистики t преувеличено. Одной из возможных причин автокорреляции остатков является пропуск одной или более важных независимых переменных. Этот пропуск обычно означает, что значитель- ная часть вариации зависимой переменной остается необъясненной. Для решения этой проблемы можно попытаться найти пропущенную переменную (переменные) и вклю- чить ее (их) в модель. Другие возможные решения — рассмотреть регрессионные модели с разностями данных или модели авторегрессии. Данные временных рядов и проблема гетероскедастичности В некоторых временных рядах изменчивость данных имеет тенденцию к увеличению с течением времени. Один из примеров — временной ряд данных компании Cavanaugh, приведенный на рис. 5.1 и обсуждавшийся в примере 5.2. Изменчивость может увеличи- 12 Описание h-критерия для серийной корреляции имеется в книге Pindyck, Rubinfeld (1998).
410 ГЛАВА 8 ваться, если переменная постоянно возрастает. Изменчивость, не являющаяся постоян- ной, называется гетероскедастичностъю. В регрессионных моделях гетероскедастичность появляется в тех случаях, когда дис- персия слагаемого ошибки е не постоянна. Если изменчивость в текущие периоды вре- мени больше, чем она была в предыдущие периоды, то стандартная ошибка оценки jy.x4 меньше текущего стандартного отклонения слагаемого ошибки. Если стандартное от- клонение оценки затем используется для прогноза границ будущих значений, эти грани- цы окажутся слишком малыми при установленном уровне значимости. Иногда проблема гетероскедастичности может быть решена с помощью простых пре- образований данных. Например, в случае двух переменных для уменьшения гетероскеда- стичности можно использовать логарифмическую линейную модель (уравнение 8.8). Кроме того, если переменные выражены в долларах, устранить проблему возрастания изменчивости ошибок можно посредством преобразования текущих долларов в неиз- менные доллары (см. обсуждение дефляции цен в главе 5). Пример 8.7 Еще раз обратимся к данным компании Reynolds Metals, обсуждавшимся в примере 8.2 и приведенным в табл. 8.1. Результаты вычисления модели простой линейной регрессии объе- мов продаж компании на основе чистого дохода населения представлены на рис. 8.5. График последовательности остатков, расположенных по времени, приведен на рис. 8.7. Рис. 8.7. График остатков для регрессии объемов продаж компании Reynolds Metals на основе чистого дохода населения (приложение Minitab) Помимо положительной автокорреляции остатков (за серией отрицательных остатков следует серия положительных, см. обсуждение в примере 8.2), из рис. 8.7 также следует, что величины остатков с течением времени возрастают. Один из подходов к решению этой про-
Регрессионный анализ временных рядов 411 блемы — попытаться использовать для данных компании Reynolds Metals логарифмическую линейную модель (уравнение 8.8). Результаты вычислений этой модели представлены на рис. 8.8. Сравнивая рис. 8.8 и 8.5, можно увидеть, что остатки (отклонения от прямой регрессии) для логарифмической линей- ной регрессии более однородны по величине в изучаемый период времени, однако найденная прямая не отражает криволинейного расположения точек данных. Добавим в модель допол- нительную независимую переменную Хг = Xf =(Ln(aioia))213. В результате модель примет следующий вид. Ln (продажа) = 0О + PiLn (доход) + P2(Ln (доход))2 + е Затем вычислим ее параметры. Последовательность расположенных по времени остатков приведена на рис. 8.9, где Ln(Sales) соответствует переменной Ln (продажа), a Ln(Income) — переменной Ln (доход). Regression Plot Ln(Sales) = -4.39850 + 1.84297 Ln(lncome) Рис. 8.8. График регрессии по логарифмической линейной модели для данных компании Reynolds Metals (приложение Minitab) Остатки на рис. 8.9 имеют вид случайно распределенных около нуля с постоянной измен- чивостью. Похоже, что последняя регрессия адекватно отражает данные компании Reynolds Metals. В этой модели регрессии нет оснований сомневаться, что слагаемое ошибки удовле- творяет необходимым предположениям. 13 Регрессионная модель с независимыми переменными X, X1, называется полиномиальной моделью регрессии.
412 ГЛАВА 8 Рис. 8.9. Последовательность остатков (Residuals) для логарифмиче- ской линейной модели с квадратичным слагаемым для данных компа- нии Reynolds Metals (приложение Minitab) Использование регрессии для прогноза сезонных данных Модели разложения для временных рядов с сезонными составляющими были рассмотрены в главе 5. Ниже рассматривается регрессионная модель для данных, подверженных сезон- ным изменениям, которая тесно связана с аддитивным разложением. В этой модели сезон- ность учитывается с помощью введения в функции регрессии фиктивных переменных. Рассмотрим следующую сезонную модель с поквартальными данными и временным трендом. К, = Ро + Pit + P2S2 + P3S3 + P4S4 + е, , (8.15) где Y, - t — S2 - прогнозируемая переменная индекс, представляющий время фиктивная переменная, равная 1 для второго квартала года и 0 в противном случае S3 - фиктивная переменная, равная 1 для третьего квартала года и 0 в противном случае S4 - фиктивная переменная, равная 1 для четвертого кварта- ла и 0 в противном случае Е( - слагаемые ошибки, независимые между собой, имеющие нормальное распределение с нулевым математическим ожиданием и одинаковыми дисперсиями Ро, PlJ Рз, Рз, Р4 ~ коэффициенты, которые требуется оценить
Регрессионный анализ временных рядов 413 Обратите внимание на то, что четыре вида качественных переменных (кварталы) опи- саны только тремя фиктивными переменными. Еще один квартал (в данном случае, пер- вый) учитывается в свободном слагаемом ро- Действительно, для данных первого кварта- ла имеем S2 = 53 = S4 = 0, и математическое ожидание прогноза равно следующему. £(K,) = Po + Pit Для данных второго квартала имеем S2 = 1, S3 = S4 = 0, и математическое ожидание про- гноза равно следующему. £(Г,) = ₽о + Р1« + ₽2 = (Ро + ₽2) + ₽1Г Аналогичные ситуации будут и для третьего или четвертого квартала. В модели (8.15) разные кварталы имеют различные свободные слагаемые. Тренд и со- ставляющие сезонных изменений смоделированы в виде набора прямых линий, по одной для каждого квартала. Считается, что эти четыре линии имеют одинаковый угловой ко- эффициент, но разные свободные члены. Коэффициенты регрессии для фиктивных пе- ременных показывают изменение свободного члена по сравнению со свободным слагае- мым для первого квартала ро- Если присутствует сезонная зависимость, но нет времен- ного тренда, то в уравнении 8.15 мы будем иметь £, = 0. Пример 8.8 Джеймсу Брауну (James Brown), аналитику из компании Washington Water Power, поручили спрогнозировать потребление электроэнергии клиентами компании в третьем и четвертом кварталах 1996 года. Джеймс знал, что данные носят ярко выраженный сезонный характер, и поэтому решил использовать для построения прогноза уравнение 8.15. Он собрал все поквар- тальные данные с первого квартала 1980 года по второй квартал 1996 года. Собранные им данные о выработке электроэнергии (в млн кВт/ч) приведены в табл. 8.4. Таблица 8.4. Выработка электроэнергии компанией Washington Water Power в 1980-1996 гг. Год Квартал Выработка энергии (млн кВт/ч) Год Квартал Выработка энергии (млн кВт/ч) 1980 1 1071 1989 1 1036 2 648 2 612 3 480 3 503 4 746 4 710 1981 1 965 1990 1 952 2 661 2 628 3 501 3 534 4 768 4 733 1982 1 1065 1991 1 1085 2 667 2 692 3 486 3 568 4 780 4 783
414 ГЛАВА 8 Год Квартал Окончание табл. 8.4 Выработка энергии (млн кВт/ч) Квартал Выработка энергии (млн кВт/ч) Год 1983 1 926 1992 1 928 2 618 2 655 3 483 3 590 4 757 4 814 1984 1 1047 1993 1 1018 2 667 2 670 3 495 3 566 4 794 4 811 1985 1 1068 1994 1 962 2 625 2 647 3 499 3 630 4 850 4 803 1986 1 975 1995 1 1002 2 623 2 887 3 496 3 615 4 728 4 828 1987 1 933 1996 1 1003 2 582 2 706 3 496 4 728 1988 1 953 2 604 3 508 4 708 Джеймс ввел фиктивные переменные S2, S3 и54, соответствующие второму, третьему и четвертому кварталам. Данные для четырех кварталов 1980 года приведены в табл. 8.5 Таблица 8.5. Данные для четырех кварталов 1980 года из примера 8.8 Y, 51 1071 0 0 0 648 1 0 0 480 0 1 0 746 0 0 1
Регрессионный анализ временных рядов 415 Процедура анализа сезонных данных в приложении Minitab подробно обсуждается в разделе Применение Minitab в конце этой главы. Результаты вычислений представлены в листинге 8.7. Листинг 8.7. Результаты вычислений в приложении Minitab для данных компании Washington Water Power The regression equation is Hours = 968 + 0.938 Time - 342 2nd Qt. - 472 3rd Qt. - 230 4th Qt. Predictor Coef SE Coef T P Constant 968.39 16.88 57.38 0.000 Time 0.9383 0.3377 2.78 0.007 2nd Qt. -341.94 17.92 -19.08 0.000 3rd Qt. -471.60 18.20 -25.91 0.000 4th Qt. -230.23 18.20 -12.65 0.000 S = 52.25 R-Sq = 92.4% R -Sq(adj) = 91.9% Analysis of Variance Source DF SS MS F P Regression 4 Residual Error 61 Total 65 2012975 166526 2179502 503244 2730 184.34 0.000 Durbin-Watson statistics = 1.48 New Obs 1 Fit 559.65 SE Fit 17.39 95,0% CI (524.87, 594.43) 95,0% PI (449.54, 669.76 Values of Predictors for New Observations New Obs Time 2nd Qt. 3rd Qt. 4th Qt. 1 67.0 0 1 0 Вычисленная сезонная регрессионная модель имеет вид Y, = 968 + 0,938/ - 342.V, - 475S3 - 230S4, где S2 соответствует второму кварталу, S3 — третьему и S4 — четвертому. Джеймс отметил, что эта модель объясняет 92,4% изменчивости потребления электроэнергии клиентами компа- нии. Прогноз на третий квартал 1996 года был следующим. Третий квартал: кВт/ч (Hours) = 968 + 0,938-67 - 342-0 - 472-1 - 230-0 = 559 Прогноз на четвертый квартал был таким. Четвертый квартал: кВт/ч (Hours) = 968 + 0,938-68 - 342-0 - 472-0 - 230-1 = 802 Джеймс установил, что значения прогнозов для различных кварталов будут лежать вдоль раз- личных прямых. Для разных кварталов эти прямые имеют один и тот же угловой коэффициент (0,938), но различные свободные члены. Так, для первого квартала значения прогнозов будут ле- жать на прямой, в уравнении которой свободный член равен 968. Прогнозы на второй квартал ап- проксимируются прямой со свободным членом 968 - 342 = 626. Свободный член в уравнении пря- мой для третьего квартала равен 968- 472 = 496, а для четвертого квартала— 968- 230 = 738. Джеймс был весьма удовлетворен тем, что его модель учитывает как сезонную составляющую, так и некоторый возрастающий тренд, наблюдаемый в имеющихся данных. На протяжении любого
416 ГЛАВА 8 года прогноз потребления электроэнергии является наибольшим для первого квартала, несколько меньшим для второго, наименьшим для третьего и вторым по величине для четвертого квартала. Эконометрическое прогнозирование Когда регрессионный анализ применяется к экономическим данным, полученные зна- чения прогноза относят к экономическим прогнозам. Однако в экономической теории обычно предполагается, что рассматриваемые данные, количественным образом отра- жающие интересующие исследователя процессы, подвержены одновременному влиянию многих различных экономических факторов. Следовательно, может потребоваться смо- делировать эти влияния с помощью системы одновременных уравнений. Такой подход приводит к построению эконометрических моделей одновременных уравнений. Такие моде- ли включают отдельные уравнения, схожие с уравнениями регрессии. Однако в получен- ной системе отдельные уравнения связаны между собой, благодаря чему эта эконометри- ческая модель позволяет совместно определять множество значений зависимых переменных через величины нескольких независимых переменных. В этом и заключается отличие от обычной регрессии, в которой одно уравнение дает прогноз значения одной зависимой переменной по величинам одной или нескольких независимых. Эконометрическая модель одновременных уравнений совместно определяет значения множества зависимых переменных, которые эконометристы называют эндогенными, в терминах значений независимых переменных, называемых экзогенными. Предполагается, что значения экзогенных переменных оказывают влияние на значения эндогенных, но не наоборот. Полная модель одновременных уравнений включает столько уравнений, сколько имеется эндогенных переменных. Одновременность в эконометрических системах создает некоторые проблемы, тре- бующие специального статистического исследования. Полное исследование таких моде- лей выходит за рамки данной книги.14 Однако мы проиллюстрируем некоторые из упо- мянутых выше понятий на простом примере модели с двумя уравнениями. Экономическая теория утверждает, что в состоянии равновесия предложение некото- рого товара равно спросу на него при определенной цене. Иными словами, размер спроса, величина предложения и цена определяются одновременно. В результате исследования эластичности цены по отношению к предложению была выведена следующая модель: Q, = c/о + и,Р, + а2/, + схоГ, + е, А = Ро + 316/ + РзА + V,. где Q, — величина спроса (количество проданного товара), Pi — величина цены (вычисленная в долларах), 4 — размер дохода на душу населения, Т, — значение температуры, А — затраты на производство, е„ — независимые слагаемые ошибок, £,, v, — независимые слагаемые ошибок, некоррелирующие друг с другом. 14 Введение в теорию эконометрических моделей одновременных уравнений имеется в книге Пиндика и Рубенфельда (1998).
Регрессионный анализ временных рядов 417 Обратите внимание на то, что в этой модели переменные цены и спроса Р, и Q, присутст- вуют в обоих уравнениях. В первом уравнении количество проданного товара частично определяется его ценой, а во втором уравнении цена частично определяется количеством уже проданного товара. Цена товара и его спрос (проданное количество) — это эндоген- ные переменные, значения которых определяются в системе. Остальные переменные (доход и температура в первом уравнении и затраты на производство товара во втором) — это экзогенные переменные, значения которых определяются вне системы. При наличии адекватных оценок коэффициентов модели можно вычислить прогноз будущей величи- ны спроса (объема продаж). Разумеется, для прогноза будущего спроса необходимо знать будущие значения экзогенных переменных или иметь их оценки, полученные вне данной системы уравнений. При этом также требуется составить прогноз цены. Крупномасштабные эконометрические модели используются сегодня для моделирова- ния деятельности отдельных компаний в данной отрасли производства, а также для моде- лирования различных отраслей производства в экономике и всей экономики в целом. Эко- нометрические модели могут включать любое количество одновременных уравнений мно- гомерной регрессии. Данные модели используются для того, чтобы понять, как функцио- нирует экономика, и подготовить прогноз значений основных экономических переменных. Модели эконометрики оказывают существенную помощь в формировании политики. Применение в менеджменте Приложения, описанные в главе 5, могут быть отнесены и к этой главе. Рассматриваемые в данной главе методы позволяют исследователю определить и учесть в вычислениях на- личие серийной корреляции и, следовательно, уточнить имеющуюся модель. В конечном результате менеджеры компании и/или исследователи смогут работать со значительно большим количеством данных, зависящих от времени, сохраняя при этом уверенность, что их прогнозы будут корректны. Среди областей применения рассмотренных методов можно выделить следующие. Прогноз объема продаж Предсказание цен акций и банковского процента Прогноз цен на сырье Прогноз спроса на новую продукцию Оценка потребности в рабочей силе Изучение связи между расходами на рекламу и объемом продаж Контроль запасов Поскольку в этих ситуациях используются переменные, зависящие от времени, следу- ет ожидать наличия у них автокорреляции в той или иной степени. Модели, основанные на обсуждаемой в этой главе методологии, приведут к более точному прогнозу, чем моде- ли, использующие подходы, взятые из предыдущих глав, которые не учитывают наличия в данных автокорреляции. Глоссарий Автокорреляция (серийная корреляция). Автокорреляция имеет место, когда значения после- довательных наблюдений, следующих друг за другом во времени, связаны между собой. Модель авторегрессии. Это модель, в которой значение прогноза находится как функция от предыдущих значений временных рядов.
418 ГЛАВА 8 Основные формулы Модель простой линейной регрессии У, = Ро + М + Е, Серийная корреляция первого порядка Е, = ре,_! +v, Статистика Дарбина-Уотсона DW = ------------ Ё*? 1=2 Связь статистики Дарбина-Уотсона с остатками автокорреляции с запаздыванием 1(п велико) ZW=2(1 -r,(e)) Преобразованная модель простой линейной регрессии r, = ₽0(l-p) + M' + v, Обобщенные разности у/ = у-ргм Х^Х-рХ,^ Простые, или первые, разности y^y.-y,^ х;=х,-х,.х Логарифмическая линейная модель регрессии Ln Y, = Ро + PiLn Xt + Е( Уравнение прогноза с разностями для логарифмической линейной модели регрессии Ln Y, = Ln Y,.} + 1,01 (Ln X, - LnX,.} Модель авторегрессии для остатков е, = ре, + и, Процедура Кохрейна-Оркатта: начальная оценка р р=^— 5Х2-! 1=2 (8.1) (8.2) (8.3) (8.4) (8.5) (8.6) (8.7) (8.8) (8.9) (8.10) (8.Н) Процедура Кохрейна-Оркатта: преобразованная линейная модель }>0о(1-р) + Дх; + Е, (8.12) Модель авторегрессии первого порядка Г, = ₽о + ₽1Г/-1+Е, (8.13)
Регрессионный анализ временных рядов 419 Уравнение прогноза для модели авторегрессии первого порядка ?, = Ьй + ЪхУ,Л Сезонная модель с фиктивными переменными для поквартальных данных У, = Ро + Pit + P2S2 + P3S3 + P4S4 + Е, Стандартизованные коэффициенты ( ч _ > S X B = b — sy \ у J (8.14) (8.15) (8.16) Упражнения 1. Почему наличие серийной корреляции создает проблемы при анализе данных вре- менных рядов? 2. Что является основной причиной серийной корреляции? 3. Какое из отмеченных ранее предположений регрессии наиболее часто нарушается при анализе данных временных рядов? 4. Какая статистика чаще всего используется для обнаружения серийной корреляции? 5. Необходимо проверить наличие серийной корреляции на уровне значимости 0,01 для 32 остатков из регрессии с двумя независимыми переменными. Какое следует принять решение, если вычисленное значение статистики Дарбина-Уотсона равно 1,0? 6. Требуется проверить наличие серийной корреляции на уровне значимости 0,05 для 61 остатка из регрессии с одной независимой переменной. Какое следует принять решение, если вычисленное значение статистики Дарбина-Уотсона равно 1,6? 7. Предложите способ решения проблемы серийной корреляции. 8. Как работает модель авторегрессии? 9. Сформулируйте алгоритм, описывающий выполнение процедуры Кохрейна- Оркатта. 10. Тэмсону Расселу (Tamson Russel), экономисту, работающему в правительственном учреждении США, было поручено подготовить прогноз спроса на топливо для лег- ковых автомобилей. Сначала Тэмсон выбрал модель, в которой прогноз спроса ос- новывался на цене одного галлона бензина. Однако эта модель объясняла толь- ко 83,5% вариации продаж топлива. Тэмсон решил добавить в модель вторую пере- менную, соответствующую величине населения США. Определите, имеет ли место серийная корреляция в собранных им данных, приведенных в табл. 8.6. Таблица 8.6. Данные, собранные Тэмсоном Расселом Год Количество проданного Цена галлона бензина Население США (млн чел.) топлива (млрд галл.) Хх Х2 У 1973 78,8 0,39 211,9 1974 75,1 0,53 213,9 1975 76,4 0,57 216,0
420 ГЛАВА 8 Окончание табл. 8. В Год Количество проданного топлива (млрд галл.) Y Цена галлона бензина Xi Население США (млн чел.) х2 1976 79,7 0,59 218,0 1977 80,4 0,62 220,2 1978 81,7 0,63 222,6 1979 77,1 0,86 225,1 1980 71,9 1,19 227,7 1981 71,0 1,33 230,1 1982 70,1 1,26 232,5 1983 69,9 1,22 234,8 1984 68,7 1,21 236,3 1985 69,3 1,16 238,5 1986 71,4 0,92 240,7 1987 70,6 0,95 242,8 1988 71,7 0,95 245,1 Источник; Статистический справочник США, различные года. 11. Компании Decision Science Associates было предложено изучить возможность размеще- ния гостиницы в полумиле от плотины Большого Каньона. Марк Крейз (Mark Craze) не был удовлетворен выбранной моделью регрессии, прогнозирующей количество посети- телей Большого Каньона на основе цены бензина. Проанализировав диаграмму рассеи- вания для имеющихся данных, Марк решил ввести в модель фиктивную переменную, представляющую значительные события, проходящие в изучаемом регионе. Эта пере- менная будет иметь значение 1 при наличии такого события и 0 в остальных случаях. От- метим, что единичное значение этой переменной для 1974 года соответствует Всемирной выставке Expo 74, проходившей в Спокане, единичное значение для 1983 года соответст- вует празднованию 50-летия плотины Большого Каньона, а единичное значение для 1986 года свидетельствует о Всемирной выставке, состоявшейся в Ванкувере. Кроме того, Марк решил использовать года в качестве независимой переменной. Собранные им дан- ные приведены в табл. 8.7. Напишите за Марка отчет о проведенном исследовании, предназначенный для его начальника. Укажите, присутствует ли в данных серийная кор- реляция. Также укажите, какая, по вашему мнению, дополнительная информация могла бы помочь в принятии решения о строительстве гостиницы. Год Количество посетителей Y Время xt Цена бензина Х2 Наличие события Х3 1973 268.528 1 0,39 0 1974 468.136 2 0,53 1
Регрессионный анализ временных рядов 421 Год Количество посетителей Y Время Хг Цена бензина Хг Наличие события Х3 1975 390.129 3 0,57 0 1976 300.140 4 0,59 0 1977 271.140 5 0,62 0 1978 282.752 6 0,63 0 1979 244.006 7 0,86 0 1980 161.524 8 1,19 0 1981 277.134 9 1,31 0 1982 382.343 10 1,22 0 1983 617.737 11 1,16 1 1984 453.881 12 1,13 0 1985 471.417 13 0,86 0 1986 654.147 14 0,90 1 Источник: экскурсионное бюро плотины Большого Каньона и Статистический справочник США, 1988. 12. Джеймсу Джексону (James Jackson), аналитику компании Washington Water Power, было поручено разработать новые тарифы на электроэнергию, для чего ему предва- рительно потребовалось составить прогноз расходов населения на электроэнергию на 1996 год. Для этой цели Джеймс решил исследовать три потенциальные незави- симые переменные: потребление электроэнергии населением (кВт/ч), цена на элек- троэнергию для населения (в центах за кВт/ч) и общее количество потребителей. Он собрал данные за период с 1965 по 1995 гг., приведенные в табл. 8.8. Джеймс сделал соответствующий доклад на комиссии по тарифам штата Айдахо, где ему был задан вопрос: “Присутствует ли в собранных им данных серийная корреляция?” Дайте обоснованный ответ на этот вопрос. Таблица 8.8. Данные, собранные Джеймсом Джексоном Год Расходы на электро- энергию (млн долл.) Y Использование элек- троэнергии (кВт/ч) Xi Цена электроэнергии (в центах за кВт/ч) Х2 Количество потребителей Х3 1968 19,3 10413 1,33 139 881 1969 20,4 11 129 1,29 142 806 1970 20,9 И 361 1,25 146 616 1971 21,9 11 960 1,21 151 640 1972 23,4 12 498 1,19 157 525 1973 24,5 12 667 1,19 162 328
422 ГЛАВА 8 Окончание табл. 8.8 Год Расходы на электро- энергию (млн долл.) Y Использование элек- троэнергии (кВт/ч) Цена электроэнергии (в центах за кВт/ч) Хг Количество потребителей Хз 1974 25,8 12 857 1,21 166 588 1975 30,5 13 843 1,29 170317 1976 33,3 14 223 1,33 175 536 1977 37,2 14 427 1,42 181 553 1978 42,5 14 878 1,52 188 325 1979 48,8 15 763 1,59 194 237 1980 55,4 15 130 1,84 198 847 1981 64,3 14 697 2,17 201 465 1982 78,9 15 221 2,55 203 444 1983 86,5 14 166 2,97 205 533 1984 114,6 14 854 3,70 208 574 1985 129,7 14 997 4,10 210811 1986 126,1 13 674 4,34 212 865 1987 132,0 13 062 4,71 214 479 1988 138,1 13 284 4,82 215610 1989 141,2 13 531 4,81 217 164 1990 143,7 13 589 4,81 219 968 1991 149,2 13 800 4,84 223 364 1992 146,1 13 287 4,83 227 575 1993 153,9 13 406 4,91 233 795 1994 146,9 12 661 4,84 239 733 1995 156,8 12 434 4,98 253 364 Источник: Финансово-техническое приложение, годовой отчет компании Washington Water Power за различ- ные года. 13. Пола Реймонда (Paul Raymond), президента компании Washington Water Power, бес- покоит возможность сосредоточения контрольного пакета акций компании в одних руках и факт постоянного уменьшения количества рядовых владельцев акций начи- ная с 1983 года. Ему необходимо провести изучение данных о количестве владельцев акций, начиная с 1968 года, и получить прогноз на 1996 год. Изучению подлежат три потенциальные независимые переменные: стоимость одной акции (в целом), диви- денды на одну акцию (в целом) и отношение дохода к цене. Соответствующие дан- ные за период с 1968 по 1995 гг. приведены в табл. 8.9. а) обработайте эти данные на компьютере и найдите наилучшую модель прогноза б) имеет ли в этой модели место серийная корреляция?
Регрессионный анализ временных рядов 423 в) если серийная корреляция присутствует, подготовьте для Пола Реймонда пись- менный отчет, в котором рассмотрите различные способы решения проблемы автокорреляции и предложите ваши конкретные рекомендации Таблица 8.9. Данные, собранные Полом Реймондом Год Количество владельцев акций Y Стоимость акции Хг Дивиденды на одну акцию Хг Отношение дохода к цене Хз 1968 26 472 1,68 1,21 72 1969 28 770 1,70 1,28 73 1970 29 681 1,80 1,32 73 1971 30 481 1,86 1,36 72 1972 30 111 1,96 1,39 71 1973 31 052 2,02 1,44 71 1974 30 845 2,11 1,49 71 1975 32 012 2,42 1,53 63 1976 32 846 2,79 1,65 55 1977 32 909 2,38 1,76 74 1978 34 593 2,95 1,94 61 1979 34 359 2,78 2,08 75 1980 36 161 2,33 2,16 93 1981 38 892 3,29 2,28 69 1982 46 278 3,17 2,40 76 1983 47 672 3,02 2,48 82 1984 45 462 2,46 2,48 101 1985 45 599 3,03 2,48 82 1986 41 368 2,06 2,48 120 1987 38 686 2,31 2,48 107 1988 37 072 2,54 2,48 98 1989 36 968 2,70 2,48 92 1990 34 348 3,46 2,48 72 1991 34 058 2,68 2,48 93 1992 34 375 2,74 2,48 91 1993 33 968 2,88 2,48 86 1994 34 120 2,56 2,48 97 1995 33 138 2,82 2,48 88 Источник: Финансово-техническое приложение, годовой отчет компании Washington Water Power за различ- ные года.
424 ГЛАВА 8 14. Авиакомпания Thompson Airlines установила, что ее услугами пользуется 5% от об- щего числа пассажиров местных авиалиний США. Необходимо составить прогноз количества пассажиров этой авиакомпании на 1997 год. Исходные данные приведе- ны в табл. 8.10. а) рассчитайте регрессионную модель временного ряда, используя время в качест- ве независимой переменной и количество пассажиров в качестве зависимой б) является ли разброс значений ошибок случайным? в) преобразуйте переменную количества пассажиров так, чтобы разброс значений слагаемого ошибки был случайным г) выполните на компьютере вычисления, используя преобразованную модель д) являются ли независимыми слагаемые ошибок в модели, использованной в предыдущем пункте задания? е) какие проблемы возникают в использовании модели, когда слагаемые ошибок являются зависимыми? ж) дайте прогноз количества пассажиров авиакомпании Thompson Airlines на 1997 год Таблица 8.10. Данные о количестве пассажиров авиакомпании Thompson Airlines Год Количество пассажиров (тыс. чел.) Год Количество пассажиров (тыс. чел.) Год Количество пассажиров (тыс. чел.) 1972 22,8 1981 45,8 1990 117,2 1973 26,1 1982 48,0 1991 124,9 1974 29,4 1983 54,6 1992 136,6 1975 34,5 1984 61,9 1993 144,8 1976 37,6 1985 69,9 1994 147,9 1977 40,3 1986 79,9 1995 150,1 1978 39,5 1987 96,3 1996 151,9 1979 45,4 1988 109,3 1980 46,3 1989 116,0 15. Руководство компании Thomas Furniture пришло к заключению, что планирование производства мебели можно улучшить, если найти модель, прогнозирующую ежеквар- тальный объем продаж. Аналитик компании, мистер Эстес (Estes), решил провести ис- следование взаимосвязи между количеством выданных разрешений на постройку дома и объемом продаж мебели в округе Спрингфилд. Эстес полагал, что выдача подобного разрешения отразится на объемах продаж компании за период одного-двух кварталов. Ему также было интересно узнать, отражается ли на объемах продаж сезонность. В расчетах Эстес решил использовать следующую независимую переменную. _ (0 - для продаж в первом или втором квартале •*2 = [1 - для продаж в третьем или четвертом квартале Собранные им данные приведены в табл. 8.11.
Регрессионный анализ временных рядов 425 | Таблица 8.11. Данные об объемах продаж компании Thomas Furniture Год Квартал Объем продаж (тыс. долл.) Y Количество разрешений xt 1993 3 19 4 4 1994 1 120 35 2 80 11 3 400 И 4 200 16 1995 1 75 32 2 120 10 3 270 12 4 155 21 1996 1 120 72 2 150 31 3 660 19 4 270 14 1997 1 200 75 2 280 41 3 800 17 4 320 10 а) найдите регрессионную модель, используя количество разрешений на построй- ку дома в качестве независимой переменной б) проверьте эту модель на наличие автокорреляции в) найдите регрессионную модель, использующую переменную количества разре- шений и фиктивную переменную квартала г) является ли значимой переменная квартала в этих данных? (Проверьте при уровне значимости 0,05.) д) присутствует ли проблема автокорреляции в модели, разработанной в п. в)? Ес- ли да, как ее можно решить? е) дайте прогноз объема продаж компании Thomas Furniture на четвертый квартал 1998 года 16. Компания National Presto является производителем мелкого электрического и ку- хонного оборудования (такого, как электроплиты, обогреватели, сковородки, кон- сервные ключи и ножи, кофеварки, ломтерезки, миксеры). Ежеквартальные объемы продаж этой компании (в млн долл.) приведены в табл. 8.12. Большая часть продаж товаров National Presto приходится на рождественские дни, поэтому в данных об
426 ГЛАВА 8 объемах сбыта продукции присутствует значительный сезонный эффект. Найдите модель многомерной регрессии с использованием фиктивных переменных для про- гноза объемов продаж в третьем и четвертом кварталах 1996 года. Подготовьте пись- менный отчет о результатах выполненного исследования. ! Таблица 8.12. Данные о ежеквартальном сбыте продукции компании National Presto Год __ Квартал 1 2 3 4 1985 16,3 17,7 28,1 34,3 1986 17,3 16,7 32,2 42,3 1987 17,4 16,9 30,9 36,5 1988 17,5 16,5 28,6 45,5 1989 24,3 24,2 33,8 45,2 1990 20,6 18,7 28,1 59,6 1991 19,5 22,5 38,3 81,2 1992 24,9 17,5 26,8 59,1 1993 22,4 14,3 24,7 57,2 1994 16,2 16,5 35,5 59,8 1995 18,0 15,9 28,0 57,3 1996 17,1 17,0 Источник; The Value Line Investment Survey, New York: Value Line, 1996. 17. Данные, приведенные в табл. 8.13, демонстрируют заметную сезонную зависимость объемов продаж корпорации Dickson и всей отрасли промышленности на период за 20 кварталов. а) вычислите модель линейной регрессии, найдите остатки и расположите их на графике по времени появления. Какой можно сделать вывод на основании по- строенного графика? б) вычислите значение статистики Дарбина-Уотсона и определите, присутствует ли в данных автокорреляция в) оцените регрессионный коэффициент Pi, используя обобщенные разности (оцените коэффициент автокорреляции остатков р с запаздыванием 1) г) сравните стандартные ошибки двух оценок рь вычисленные с использованием исходных данных и обобщенных разностей. Какая оценка точнее? Поясните ваш ответ
Регрессионный анализ временных рядов 427 Таблица 8.13. Данные о ежеквартальном сбыте продукции корпорации Dickson Год Квартал Продажи компании Dickson (тыс. долл.) Y Продажи в отрасли (млн долл.) 1992 1 83,8 31,8 2 85,6 32,5 3 87,8 33,2 4 86,1 32,4 1993 1 89,6 33,8 2 91,0 34,3 3 93,9 35,3 4 94,6 35,7 1994 1 96,4 36,4 2 96,0 36,3 3 98,2 37,1 4 97,2 36,6 1995 1 100,8 37,6 2 102,6 38,3 3 105,4 39,3 4 107,9 40,2 1996 1 110,1 41,1 2 111,1 41,4 3 110,1 41,1 4 111,1 41,4 18. Вернемся к примеру 8.5. Используя данные компании Sears из табл. 8.3, приведите объемы продаж и чистый доход к простым разностям. Тем самым перейдите к зна- чениям Y,' = Yi-Y,^ и X,' = Xi-X^. Вычислите модель простой линейной регрессии для этих разностей. Сравните полученные вами результаты с результатами, получен- ными методом Кохрейна-Оркатта в примере 8.5. Следует ли ожидать, что они будут заметно отличаться? Поясните свой ответ. 19. Было проведено исследование с целью найти зависимость между объемом личных сбережений и размером личных доходов всех жителей (в млрд долл.) для периода времени с 1935 по 1954 год. Соответствующие данные приведены в табл. 8.14. а) вычислите модель простой линейной регрессии для данных из табл. 8.14, ис- пользуя размер личных доходов для прогноза личных сбережений. Далее вы- полните следующее.
428 ГЛАВА 8 i. Проверьте значимость коэффициента наклона регрессии при уровне значимо- сти а =0,01. ii. Проверьте значимость регрессии, используя F-критерий (при а = 0,01). iii. Вычислите г2 и интерпретируйте это значение. iv. Проверьте наличие автокорреляции (а = 0,05). Следует ли подправить заключе- ния, сделанные вами при выполнении пп. 7 и 2? Как полученная модель может быть улучшена? б) введите фиктивную переменную Х2 для военных лет. Пусть Х2 = 0 для мирного времени и Х2= 1 для военного времени. Будем считать военными года с 1941 по 1945. Вычислите модель многомерной линейной регрессии, использующую размер личного дохода и фиктивную переменную военного времени в качестве независимых переменных для прогноза личных сбережений. Оцените получен- ные результаты. Теперь проверьте значимость коэффициента наклона регрес- сии при уровне значимости а = 0,01 и определите, вносит ли информация о во- енном или мирном времени значимый вклад в прогноз размера личных сбере- жений при известном размере личных доходов (возьмите а = 0,01). Проверьте наличие автокорреляции. Является ли модель многомерной регрессии лучшей, чем модель простой регрессии? Дайте развернутый ответ на этот вопрос. Таблица 8.14. Сведения о годовом доходе и объемах личных сбережений граждан Год Личные сбережения Y Личный доход X Год Личные сбережения Y Личный доход X 1935 2 60 1945 30 171 1936 4 69 1946 15 179 1937 4 74 1947 7 191 1938 1 68 1948 13 210 1939 3 73 1949 9 207 1940 4 78 1950 13 279 1941 11 96 1951 18 257 1942 28 123 1952 19 273 1943 33 151 1953 20 288 1944 37 165 1954 19 290 20. Используя метод Кохрейна-Оркатта, обработайте данные компании Reynolds Metals из примера 8.2 с учетом наличия в них серийной корреляции (см. табл. 8.1). 21. С помощью метода Кохрейна-Оркатта обработайте данные корпорации Novak из примера 8.3 с учетом наличия в них серийной корреляции (см. табл. 8.2).
Регрессионный анализ временных рядов 429 /Ж /Ж /Ж /А\ /Ж /Ж /Ж /Ж /Ж /Ж /Ж /Ж /ж W/ W/ W/ VIFZ W/ W/ W/ W/ KV/ IV/ W/ W/ KV/ Задание 8.1. Компания на ваш выбор Состояние дел в компании должно проверяться ежемесячно, ежеквартально и/или еже- годно с помощью определенного набора переменных. Для каждой из переменных в этом наборе должно присутствовать несколько других переменных, влияющих на ее значение, благодаря чему в уравнении прогноза последние можно будет использовать в качестве не- зависимых переменных. В этом задании вам предлагается в учебных целях выполнить поиск и отбор важней- ших переменных, представляющих собой временные ряды данных, описывающих дея- тельность некоторой компании, которую вы должны выбрать сами. Далее необходимо исследовать структуру отобранных данных с помощью автокорреляционного анализа. Воспользуйтесь любой доступной вам компьютерной программой, позволяющей рассчи- тать уравнение регрессии, которое затем можно будет использовать для прогнозирования будущих значений исследуемых временных рядов. Вопросы 1. Выберите компанию или организацию по собственному усмотрению. Компания, ко- торая может быть местного или государственного масштаба, должна так или иначе публиковать данные о своей деятельности, среди которых будут присутствовать и значения некоторых временных рядов. Определите основные переменные, характе- ризующие деятельность выбранной вами компании, а затем выпишите их значения за несколько лет, кварталов или месяцев. 2. Вручную или с помощью некоторой компьютерной программы вычислите несколь- ко коэффициентов автокорреляции и постройте график функции автокорреляции. 3. Основываясь на характере поведения функции автокорреляции, дайте оценку пове- дения данных для каждого временного ряда. 4. Вычислите первые разности для имеющихся данных и постройте функцию автокор- реляции для этих разностей. Дайте оценку поведения данных во временном ряду первых разностей. 5. Подберите несколько потенциальных независимых переменных для выбранной ва- ми зависимой переменной. Для этой цели можно использовать как данные из отче- тов компании, так и любые другие источники информации. 6. Рассчитайте уравнение прогноза для зависимой переменной, используя одну или более независимых переменных из числа отобранных. 7. Исследуйте значения остатков в полученной модели прогноза. В частности, про- верьте наличие автокорреляции.
430 ГЛАВА 8 8. Когда найденное уравнение регрессии можно будет считать удовлетворительным, дайте прогноз значения зависимой переменной на шесть последующих периодов времени. По возможности сравните ваш прогноз с реальными данными. Задание 8.2. Индекс деловой активности для округа Спокан До 1973 года в округе Спокан, штат Вашингтон, регулярные измерения общей деловой ак- тивности не проводились. Однако все, что происходило в деловом мире округа в целом, так или иначе оказывало влияние на деятельность всех фирм, правительственных учреждений и каждого отдельного человека. Планы и стратегии, разрабатываемые для любых субъектов экономики, будут неполны без учета информации об общем состоянии экономики, частью которой этот субъект является. Знание индекса деловой активности для округа Спокан могло бы оказать существенную помощь в формировании стратегии и принятии концепту- альных решений как в частных, так и в общественных организациях округа. Индекс деловой активности — это индикатор относительных изменений общих усло- вий для бизнеса в соответствующем регионе. На национальном уровне объем валового национального продукта и индекс промышленного производства являются отличными индикаторами состояния всей экономики страны в целом. Каждое из этих значений вы- числяется на основании многих тысяч отдельных элементов данных. Сбор этих данных, их обработка и проведение соответствующих расчетов — процедура весьма дорогостоя- щая и длительная. Для отдельного же региона — такого как округ Спокан — можно про- вести подобное мероприятие с меньшими затратами денег и времени и получить при этом важные и вполне достоверные результаты. Для вычисления индекса деловой активности обычно используется метод многомер- ной регрессии. Существует три важных вопроса, на которые нужно дать ответ при вычис- лении этого показателя. • какие компоненты учитываются в индексе? • будут ли эти компоненты адекватно представлять изменения в общей бизнес- ситуации? • с каким весом следует учитывать каждую из этих компонент? Ответы на указанные выше вопросы можно получить с помощью регрессионного анализа. Доктор Шик Чун Янг (Shik Chun Young), профессор экономики университета Eastern Washington, предпринял попытку определить индекс деловой активности округа Спокан, причем в качестве зависимой переменной он выбрал личный доход граждан. Для мас- штабов отдельного округа уровень личного дохода считается наилучшим показателем ме- стной бизнес-ситуации. Личный доход измеряется как величина общего дохода, полу- ченного семьей, до уплаты персональных налогов. Поскольку всякая продуктивная дея- тельность обычно вознаграждается в денежной форме, личный доход действительно
Регрессионный анализ временных рядов 431 можно использовать как эффективный показатель общей экономической ситуации. То- гда зачем определять какой-либо другой индекс, если размер личного дохода может слу- жить хорошим индикатором общей деловой активности? К сожалению, данные о личном доходе населения округов публикуются министерством торговли США ежегодно с 16- месячным опозданием. Следовательно, эта информация мало помогает в краткосрочном планировании. Задача доктора Янга — отыскать оперативно вычисляемый индекс дело- вой активности. Значения независимых переменных были взяты из ежемесячно публикуемых локаль- ных данных. В настоящее время доступны около 50 рядов значений различных перемен- ных — от уровня занятости, банковской активности, объема сделок в сфере недвижимо- сти и до потребления электроэнергии. Если в регрессионный анализ включить все дос- тупные ряды значений, придется выполнить много лишней работы. Не вызывает сомне- ния, что лишь небольшая часть из этих переменных будет статистически значима. Следовательно, предварительно необходимо изучить взаимосвязь между значениями личного дохода и возможными независимыми переменными, что позволит выяснить, ка- кие из них следует включить в искомое уравнение регрессии. Доктор Янг, хорошо знаю- щий экономику округа Спокан, отобрал следующие 10 переменных: A'j — общий уровень занятости; Хг — уровень занятости в производстве; А'з — уровень занятости в строительстве; X, — уровень занятости в оптовой и розничной торговле; Х5 — уровень занятости в службе сервиса; Л'в — суммы, выданные банками; %7 — размер вкладов до востребования в банках; Xs — количество выданных разрешений на строительство; Х9 — объем продаж в сфере недвижимости; о — общее потребление электроэнергии. Первый шаг анализа заключался в исследовании модели £(У) = ₽о + + М2 + ... + РкЛю, где Y — личный доход, Ро — свободный член Y, Рь р2,..., Рю — коэффициенты при соответствующих независимых пере- менных. Когда указанная выше модель была приведена в соответствие с имеющимися данны- ми, скорректированное значение R 2 оказалось равным 0,96. Это означает, что выбран- ные 10 независимых переменных объясняют 96% изменчивости значений зависимой пе- ременной, т.е. личного дохода. Однако анализ других статистических показателей най- денной регрессии указал на наличие проблем. Во-первых, из выбранных 10 переменных лишь три имеют величину /-статистики, значимую на уровне 0,05. К ним относятся об- щий уровень занятости, уровень занятости в службе сервиса и суммы, выданные банка- ми. Во-вторых, корреляционная матрица показывает высокий уровень взаимозависимо- сти некоторых независимых переменных, т.е. указывает на наличие мультиколлинеарно-
432 ГЛАВА 8 сти.15 Например, переменные общего уровня занятости и сумм, выданных банками, име- ют коэффициент корреляции 0,88; переменные потребления электроэнергии и размера вкладов до востребования в банках имеют коэффициент корреляции 0,76; переменные количества выданных разрешений на строительство и объемов продаж в сфере недвижи- мости имеют коэффициент корреляции 0,68. В-третьих, при проверке на наличие авто- корреляции значение статистики Дарбина-Уотсона оказалось равным 0,91, из чего следу- ет, что последовательные значения зависимой переменной имеют положительную корре- ляцию между собой. Конечно, автокорреляция в данных временных рядов — это обыч- ное дело, поскольку наблюдения во временных рядах всегда связаны друг с другом. Одним из основных предположений регрессии является то, что значения зависимой переменной случайны. Поэтому доктор Янг решил начать с устранения проблемы авто- корреляции. Чтобы минимизировать взаимозависимость наблюдений в каждом из вре- менных рядов, он вычислил их первые разности или изменения. Теперь 10 независимых переменных были представлены не абсолютными значениями в данный период, а разно- стями значений между периодами. При этом фактически получился новый набор пере- менных, для которых в дальнейшем мы будем использовать следующие обозначения: ДЛ-! — изменение общего уровня занятости; — изменение уровня занятости в производстве; ДХз — изменение уровня занятости в строительстве; — изменение уровня занятости в оптовой и розничной торговле; ДХ5 — изменение уровня занятости в службе сервиса; AX6 — изменение сумм, выданных банками; ДХ7 — изменение размера вкладов до востребования в банках; ДА"8 — изменение количества выданных разрешений на строительство; ДХ9 — изменение объема продаж в сфере недвижимости; АХ)о — изменение общего потребления электроэнергии. В результате регрессионная модель приняла вид £(ДУ) = Ро + Р1ДЛ4 + Р2ДХ2 + ... + РюДА’ю, где ДУ — изменение личного дохода, Ро — свободный член ДУ, Рь Рз, •••, Рю — коэффициенты при соответствующих независимых пере- менных. Регрессия, основанная на этой модели, дала значение статистики Дарбина-Уотсона, равное 1,71. Это говорит о том, что автокорреляция практически отсутствует. На следующем этапе необходимо было определить, какие из 10 независимых пере- менных вносят наиболее значимый вклад в прогноз значений зависимой переменной. Чтобы составить наилучшее уравнение, доктор Янг рассмотрел модели регрессии, в ко- торых зависимая переменная ДУ выражалась через различные комбинации из 10 независимых переменных. Использовались следующие критерии отбора: достаточно большое значение скорректированного R 2 ; 15 В некоторых ситуациях корреляция между двумя временными рядами переменных может возникать вследствие автокорреляции в каждом из этих временных рядов (см. пример 8.1).
Регрессионный анализ временных рядов 433 небольшие коэффициенты корреляции между независимыми переменными; значимость (на уровне 0,05) коэффициентов при каждой из независимых переменных. После тщательного изучения полученных результатов доктор Янг обнаружил, что пере- численным выше критериям наилучшим образом удовлетворяет уравнение, содержащее в качестве независимых переменных ДЛ"4, АУ5 и A¥10. Однако Янг посчитал, что вместе с ком- мерческим и промышленным потреблением показатель общего потребления электроэнер- гии включает и сведения о потреблении электроэнергии населением, которое не имеет за- метной связи с уровнем деловой активности в регионе. Чтобы проверить это предположе- ние, он разделил общее потребление электроэнергии на четыре переменные: ДУц — изменения в потреблении электроэнергии населением; ЛА'н — изменения в коммерческом потреблении электроэнергии; ДУв — изменения в промышленном потреблении электроэнергии; ДХи — изменения в коммерческом и промышленном потреблении электроэнергии. Новые четыре переменные в комбинации с переменными АХ, и ЛХ5 использовались для записи четырех новых уравнений регрессии, приведенных в табл. 8.15. Таблица 8.15. Переменные регрессии, использованные доктором Янгом при составлении уравнений Уравнение Независимые переменные Зависимые переменные А ДХ4,ДХ5,ДХП ду Б дх4, дх5, дх12 ДУ В дх4, дх5, дх13 ДУ Г дх4, дх5, дх14 ДУ Дальнейший статистический анализ показал, что в табл. 8.15 уравнение Г является наи- лучшим. Сравнение с предыдущим уравнением, содержащим независимые перемен- ные ДХ4, ДХ5 и ДХ10, показало, что статистическая достоверность меньше только у уравне- ния А. Это подтверждало предположение доктора Янга о том, что переменные объема ком- мерческого и промышленного потребления дают лучший прогноз, чем переменная объема общего потребления электроэнергии, включающего и его потребление населением. Таким образом, в качестве окончательного уравнения регрессии было выбрано урав- нение Г, имеющее следующий вид. Д?=-1,86+ 17,1 ДХ4 +23,01 ДХ5 +0,007ДХ14 (4,07) (5,61) (0,002) я =15 F = 26,26 DW=\,T1 R2 =о,835 Числа в скобках под коэффициентами регрессии — это стандартные ошибки оценок коэф- фициентов. Значения / для этих коэффициентов равны 4,20, 4,10 и 3,50 для ДХ4, ДХ5 и ЛХ14. Значение R 2 показывает, что почти 84% дисперсии изменения личного дохода объясняет- ся значениями трех независимых переменных. Величина статистики Дарбина-Уотсона DW показывает, что автокорреляции здесь нет. Также из матрицы коэффициентов корреляции (табл. 8.16) следует, что три независимые переменные слабо зависимы между собой.
434 ГЛАВА 8 Таблица 8.16. Матрица коэффициентов ко эРеляЧии дх4 ДХ5 дх14 дх4 1,00 0,45 0,11 дх5 0,45 1,00 0,12 ДЛ)4 0,11 0,12 1,00 При построении уравнения для вычисления индекса принимается, что независимые переменные в окончательном варианте уравнения регрессии будут компонентами индек- са. Весовые коэффициенты компонентов определяются по вычисленным коэффициен- там регрессии. (Напомним, что коэффициенты регрессии показывают среднее измене- ние зависимой переменной при увеличении соответствующей независимой переменной на единицу.) Однако в нашем уравнении регрессии переменные измеряются в различных единицах (например, ДУ — в тыс. долл., a ДХ|4 — в тыс. кВт/ч). Поэтому предварительно коэффициенты регрессии следовало преобразовать в относительные величины. Это пре- образование выполняется посредством вычисления стандартизованных или В- коэффициентов. В = Ь — (8.17) где Ь — коэффициент регрессии независимой переменной sx — стандартное отклонение независимой переменной sy — стандартное отклонение зависимой переменной Значения всех этих статистик обычно вычисляются в статистических компьютерных программах. В частности, значения стандартизованных коэффициентов для трех исполь- зуемых нами независимых переменных равны следующему. В4 = 0,4959 В5 = 0,4833 В14 = 0.3019 Всего = 1,2811 Поскольку сумма весовых коэффициентов в индексе должна равняться единице, стандартизованные коэффициенты нормализуются так, как показано в табл. 8.17. Таблица 8.17. Стандартизованные коэффициенты Компоненты Весовые коэффициенты ДХ4 0 4959 ——— = 0,3871 1,2811 дх5 0,4833 — = 0,3772 1,2811
Регрессионный анализ временных рядов 435 Компоненты Окончание табл. 8.17 Весовые коэффициенты ДХ14 0,3019 — = 0,2357 1,2811 Всего = 1,000 После того как были определены компоненты и их относительные весовые коэффи- циенты, для вычисления индекса оставалось выполнить следующие действия. Этап 1. Вычислить процентные изменения каждой компоненты за базовый период. Этап 2. Умножить процентные изменения на соответствующие весовые коэффициенты. Этап 3. Сложить процентные изменения с весовыми коэффициентами, полученными на этапе 2. На рис. 8.10 приведены значения индекса деловой активности для округа Спокан вместе с величиной валового национального продукта США в неизменных долларах (1967 = 100%). Рис. 8.10. Индекс деловой активности округа Спокан и валовой на- циональный продукт США в неизменных долларах (1967 = 100%) Вопросы 1. Почему доктор Янг начал с решения проблемы автокорреляции? 2. Как вы считаете, может, было бы лучше сначала устранить мультиколлинеарность, а лишь затем решать проблему автокорреляции?
436 ГЛАВА 8 3. Как малый размер выборки влияет на результаты анализа? 4. Может ли регрессия, выведенная доя разностей, быть получена непосредственно из начальных данных? 5. Существует ли в данном случае возможность использования данных с некоторым запаздыванием? 6. Какие выводы могут быть сделаны из сравнения индекса деловой активности для округа Спокан и ВНП США? Задание 8.3. Выручка ресторана16 Джим Прайс (Jim Price) во время учебы в университете Маркетта подрабатывал в не- большом ресторане, расположенном неподалеку. Однажды менеджер ресторана попро- сила Джима подготовить отчет для ее офиса. Она сказала, что ее очень интересует про- гноз недельной выручки ресторана, и спросила, сможет ли Джим ей помочь. Поскольку Джим только что прослушал курс статистики, он ответил, что с удовольствием проверит свои знания. Джим попросил менеджера ресторана предоставить ему все имеющиеся записи о до- ходах, которые она сможет найти. На это менеджер ответила, что уже несколько лет каж- дый понедельник утром в ресторане суммировались данные о выручке за прошедшую не- делю. Джим начал свой анализ с того, что выбрал все еженедельные данные о выручке ресторана от недели, заканчивающейся 1 января 1981 года, до недели, заканчивающейся 29 декабря 1982 года, — всего 104 наблюдения. Средняя выручка ресторана за 104 недели составила 4862 доллара. На рис. 8.11 приве- ден график изменения недельной выручки с течением времени. На графике видно, что объемы выручки очень изменчивы; они изменяются от 1870 до 7548 долларов с очень не- большим трендом. Поскольку Джим только что прослушал курс регрессионного анализа, он решил взять недельную выручку в качестве зависимой переменной и попытаться об- наружить связь с некоторыми независимыми переменными. Джим рассмотрел три независимые переменные. Первая из них — время. Вторая — фиктивная переменная, показывающая, были ли в эту неделю занятия в университете Маркетта (0 — занятий не было, 1 — занятия были). Изучение данных, приведенных на рис. 8.11, показало, что недельная выручка ресторана резко уменьшалась, когда занятия в университете Маркетта не проводились — во время рождественских праздников, а также весенних и летних каникул. Это не было неожиданностью для Джима, поскольку ресто- ран расположен возле студенческого городка университета и абсолютное большинство посетителей ресторана были обитателями этого городка. Третья переменная, которую проанализировал Джим, — это недельная выручка с запаздыванием 1 (за прошлую неде- лю), поскольку график на рис. 8.11 демонстрирует, что объемы выручки за две последо- вательные недели часто очень близки. 16 Данные для задания 8.3 были предоставлены Франком Г. Форетом (Frank G. Forst), университет Мар- кетта, Милуоки, штат Висконсин.
Регрессионный анализ временных рядов 437 Рис. 8.11. Выручка ресторана за период с января 1981 года по декабрь 1982 года Джим вычислил коэффициенты корреляции между тремя потенциальными незави- симыми переменными и одной зависимой переменной — недельной выручкой. Результа- ты приведены в корреляционной матрице, представленной в табл. 8.18. Как Джим и ожи- дал, тренд в недельной выручке практически отсутствует, что подтверждается коэффици- ентом корреляции 0,049. Однако с выручкой сильно коррелирует фиктивная переменная, для которой г = 0,772. Другими словами, наличие или отсутствие занятий в университете Маркетта имеет большое значение для прогноза выручки ресторана. Недельная выручка в текущую неделю имеет среднюю по величине корреляцию г = 0,580 с выручкой за пре- дыдущую неделю. Джим также отметил, что средняя корреляция с г = 0,490 существует и между фиктивной переменной и выручкой за прошлую неделю. Таблица 8.18. Корреляционная матрица для данных о выручке ресторана Выручка Время Фиктивная переменная Выручка за прошлую неделю Выручка 1,000 0,049 0,772 0,580 Время 1,000 -0,048 0,120 Фиктивная переменная 1,000 0,490 Выручка за прошлую 1,000 неделю Джим проанализировал несколько регрессионных моделей. Результаты его исследований различных моделей приведены в табл. 8.19. Поскольку объемы выручки практически не име- ют тренда, независимая переменная Время добавляет очень мало информации для прогноза зависимой переменной. Отметим, что модель 4 имеет лишь чуть большее значение У?2, чем мо-
438 ГЛАВА 8 дель 2, и ошибки этих двух моделей показывают наличие автокорреляции. Модели 3 и 5 име- ют одну и ту же величину А2, модель 7 имеет чуть большее значение А2, чем модель 6. С другой стороны, наличие независимой переменной Выручка за прошлую неделю практически не улучшает качества прогноза в любых регрессионных моделях. Наконец, модель 6 имеет боль- шее значение А2, чем модель 2, и при этом в ней отсутствует автокорреляция. Таблица 8.19. Регрессионные модели для прогнозирования выручки ресторана Модель Независимые переменные А2 Статистика Дарбина-Уотсона Значимость авто- корреляции на уровне 0,05 Наличие коллинеарности 1 Время 0,0024 0,81 да нет 2 Фиктивная пере- менная 0,5960 1,30 да нет 3 Выручка за про- шлую неделю 0,3364 1,89 нет нет 4 Время и фиктивная переменная 0,6030 1,32 да очень малое 5 Время и выручка за прошлую неделю 0,3360 1,89 нет малое 6 Фиктивная пере- менная и выручка за прошлую неделю 0,6490 1,74 нет малое 7 Время, фиктивная переменная и вы- ручка за прошлую неделю 0,6510 1,73 нет среднее Для прогноза недельной выручки ресторана Джим решил выбрать модель 6, и при этом он руководствовался следующим. 1. Модель 6 имеет второе по величине значение А2 , лишь на 0,002 меньшее, чем в модели 7. 2. Все параметры модели 6 значимо отличаются от нуля при уровне значимости 0,01. 3. Автокорреляция в модели 6 практически отсутствует. 4. Модель 6 проще модели 7 и не имеет столь значительной мультиколлинеарности. Окончательное уравнение регрессии, полученное Джимом, имеет следующий вид. Г = 2614,3 + 1610,7(Фиктивная переменная) + 0,2605(Выручка за прошлую неделю) Для данной модели А2 = 0,649, и это означает, что 64,9% вариации недельной выручки ресторана объясняется наличием или отсутствием занятий в университете Маркетта и размером выручки за предыдущую неделю. Из регрессионного уравнения следует, что недельная выручка в среднем на 1611 долларов выше для тех недель, когда в университете проводятся занятия, при равных объемах выручки за предыдущие недели. Джим был доволен свой работой, но хотел бы знать, имеются ли более эффективные моде- ли прогноза выручки ресторана. Для этого он записался на курс лекций по прогнозированию.
Регрессионный анализ временных рядов 439 Вопросы 1. Правильно ли Джим использовал фиктивную переменную? 2. Правильно ли то, что Джим выбрал выручку за прошлую неделю в качестве незави- симой переменной? 3. Согласны ли вы с выводами Джима? 4. Может ли другой вид модели прогноза оказаться более эффективным для прогнози- рования недельной выручки этого ресторана? Задание 8.4. “Mr. Tux” Джон Мосби рассчитал модель простой регрессии, используя время в качестве независимой переменной, и получил для этой модели неудовлетворительное значение г = 0,563 (см. за- дание 6.4 в главе 6). Поскольку Джон знал, что в его данных присутствует значительная се- зонная составляющая, он решил использовать многомерную сезонную модель регрессии. Для учета сезонного эффекта Джон создал одиннадцать фиктивных переменных. По- скольку данные по его компании собирались ежемесячно, он присваивал переменной 51 значение 1, если данные относились к январю, и значение 0 в противном случае. Анало- гичным образом Джон поступил с данными за каждый другой месяц, закончив перемен- ной 511, которая равнялась 1 для ноября и 0 в противном случае. Джон пересмотрел модель, теперь используя в ней двенадцать независимых переменных: одну для времени (Time) и еще одиннадцать переменных, отражающих ежемесячный эффект сезонности. Результаты его расчетов в приложении Minitab приведены в листинге 8.8. Листинг 8.8. Результаты вычислений в приложении Minitab для данных мистера Мосби REGRESSION ANALYSIS The regression equation is Sales = -35023 + 2752 Time - 48459 SI - 29808 S2 + 21681 S3 + 119019 S4 + 139212 S5 + 57713 S6 + 21689 S7 + 74014 S8 + 7872 S9 - 9009 S10 - 25050 Sil PREDICTOR COEF STDEV T P Constant -35023 15441 -2.27 0.026 Time 2752 141.0 19.52 0.000 SI -48459 19059 -2.54 0.013 S2 -29808 19048 -1.56 0.121 S3 21681 19039 1.14 0.258 S4 119019 19030 6.25 0.000 S5 139212 19022 7.32 0.000 S6 57713 19015 3.04 0.003 S7 21689 19009 1.14 0.257
440 ГЛАВА 8 S8 74014 19005 3.89 0.000 S9 7872 19001 0.41 0.680 S10 -9009 18998 -0.47 0.637 S11 -25050 18997 -1.32. 0.191 S=37992 R-Sq = 87.7% R-Sq(adj) = 85.9% ANALYSIS OF VARIANCE SOURCE DF SS MS F p Regression 12 8.55392E+11 71282630871 49.38 0.000 Error 83 1.19804E+11 1443416727 Total 95 9.75195E+11 Джон вручную посчитал значение МАРЕ для последних 12 месяцев и получил резуль- тат 21,25%. Этот результат не принес ему удовлетворения и не дал полной уверенности, что его регрессионная модель хороша. Новая модель объясняла 87,7% дисперсии пере- менной продаж, однако значение МАРЕ, превышающее 20%, выглядело слишком боль- шим. Поэтому Джон исследовал автокорреляции остатков модели в приложении Minitab, — результаты анализа показаны на рис. 8.12. Autocorrelation Function tor Residuals 1.0 0.8 0.6 0.4 0.2 0.0 о S 8-0.2 2-0.4 <-0.6 -0.8 -1.0 4 14 24 Lag Corr T LBQ Lag Corr T LBQ Lag Corr T LBQ 1 0.26 2.55 6.71 9 0.03 0.27 29.04 17 -0.04 -0.30 59.92 2 -0.04 -0.07 6.87 10 0.05 0.40 29.32 18 -0.15 -1.01 62.64 3 -0.09 -0.84 7.72 11 0.23 1.79 35.14 19 -0.14 -0.91 64.91 4 -0.00 -0.28 7.81 12 0.44 3.38 57.14 20 0.05 0.32 65.20 5 -0.27 -2.40 15.18 13 0.04 0.28 57.33 21 -0.01 -0.04 65.21 6 -0.24 -2.07 21.27 14 -0.06 -0.41 57.75 22 -0.02 -0.15 65.27 7 -0.26 -2.12 28.01 15 -0.13 -0.88 59.68 23 0.21 1.38 70.89 8 0.07 0.39 28.91 16 -0.01 -0.04 59.69 24 0.08 0.51 71.71 Рис. 8.12. Функция автокорреляции для остатков многомерной сезонной модели регрессии, построенной Джоном Мосби (приложение Minitab) Автокорреляции остатков имеют заметный выброс для запаздывания 12. Неудовле- творенный результатами применения многомерной сезонной регрессионной модели, Джон решил для прогноза ежемесячных объемов продаж использовать модель авторег- рессии (данные по компании “Мг. Тих” приведены в конце главы 2).
Регрессионный анализ временных рядов 441 Поскольку Джон уже знал, что в его данных присутствует значительная сезонная со- ставляющая, он решил смоделировать ее. Для этого он воспользовался моделью авторег- рессии со значениями К, взятыми с запаздыванием на 12 месяцев (Y-lagged). В результате Джон уже не мог использовать данные за первые 12 месяцев из имеющихся 96 значений, поэтому дальше он имел дело с выборкой из 84 значений данных. Результаты вычисле- ний в приложении Minitab приведены в листинге 8.9. Листинг 8.9. Результаты вычислений в приложении Minitab сезонной модели авторегрессии для данных компании “Mr. Tux” The regression equation is Sales,= 24786 + 1.07 Y-lagged 84 cases used 12 cases contain missing values Predictor Coef SE Coef T P Constant 24786 5322 Y-lagged 1.06807 0.03803 S = 30785 R-Sq = 90.6% R- Analysis of Variance 4.66 0.000 28.08 0.000 Sq(adj) = 90,5% Source DF SS MS F P Regression Residual Error Total Durbin-Watson 1 7.47470E+11 82 77712386803 83 8.25183E+11 statistic = 1.83 7.47470E+11 788.71 0.000 947712034 Вопрос Напишите вместо Джона Мосби письменный отчет с подробным анализом результа- тов двух его попыток найти сезонную регрессионную модель для данных компании “Mr. Tux”. Укажите, какая из двух моделей лучше. Отчет обязательно должен включать оценку полученной модели и корректности даваемого прогноза, а также описание всех других возможных проблем, например, автокорреляции. Задание 8.5. Корпорация Consumer Credit Counseling Функционирование корпорации Consumer Credit Counseling было описано в главах 1 (задание 1.2) и 3 (задание 3.3). Исполнительный директор корпорации ССС, Мэрв Харнишфегер, пришла к заклю- чению, что наиболее важной переменной, значение которой необходимо прогнозиро- вать, является количество новых клиентов, которые обратятся в корпорацию за остав-
442 ГЛАВА 8 шуюся часть 1993 . Мэрв предоставила Дороти Мерсер ежемесячные данные о количест- ве новых клиентов, обратившихся в корпорацию ССС за период с января 1985 г. по март 1993 г. (см. задание 3.3). В задании 3.3 описывается, как Дороти использовала автокорре- ляционный анализ для исследования структуры этих данных. В задании 6.5 для получе- ния прогноза на оставшуюся часть 1993 года она попыталась построить регрессионную модель, используя как независимые переменные количество людей, получивших талоны на бесплатное питание, и индекс деловой активности. Дороти не была удовлетворена полученной регрессионной моделью. Поэтому она ре- шила воспользоваться методом многомерной регрессии и попросила Мэрв подумать о том, какие еще переменные могут быть связаны с количеством новых клиентов, обра- щающихся в корпорацию за помощью. Мэрв посоветовала Дороти попробовать как до- полнительные переменные сведения о количестве зарегистрированных случаев банкрот- ства и количестве выданных разрешений на строительство. Данные о количестве случаев банкротства с января 1986 по декабрь 1992 года приве- дены в табл. 8.20, а о количестве выданных за этот же период разрешений на строитель- ство — в табл. 8.21. Таблица 8.20. Количество зарегистрированных случаев банкротства за период с января 1986 г. по декабрь 1992 г. 1986 160 170 140 173 162 160 150 145 134 155 145 152 1987 171 206 173 195 165 177 168 165 131 169 166 157 1988 174 162 196 178 169 170 143 177 192 195 164 146 1989 180 149 200 165 168 177 143 180 169 170 160 161 1990 172 146 185 143 156 173 140 160 131 169 152 135 1991 136 167 179 181 166 151 165 129 132 162 140 140 1992 130 165 172 145 129 166 146 143 127 186 157 94 Таблица 8.21. Количество разрешений на строительство, выданных за период с января 1986 г. по декабрь 1992 г. 1986 49 60 149 214 191 193 161 174 168 203 111 64 1987 44 76 137 145 150 168 168 170 158 146 104 48 1988 32 32 127 149 128 178 132 164 152 92 121 77 1989 61 48 108 161 200 204 164 175 200 171 153 79 1990 111 92 166 189 245 261 207 238 198 247 164 108 1991 67 118 205 253 296 300 284 282 282 261 237 130 1992 133 210 298 334 312 333 311 327 352 387 243 140 Дороти рассчитала многомерную регрессионную модель, использующую в качестве независимых переменных количество людей, получивших талоны на питание, индекс де- ловой активности, число зарегистрированных случаев банкротства и количество выдан-
Регрессионный анализ временных рядов 443 ных разрешений на строительство. Также она рассмотрела модель, основанную на пред- положении, что используемые данные характеризуются сильной сезонностью. Обратившись к специальной литературе, Дороти выяснила, что при рассмотрении данных временных рядов наличие в них серийной корреляции часто вызывает серьезные проблемы. Она обеспокоилась, что некоторые из построенных ею моделей предсказания количества новых клиентов корпорации подвержены подобным проблемам. Для провер- ки этого предположения необходимо было либо выполнить декомпозицию данных вре- менных рядов, используемых при построении таких моделей, либо использовать в расче- тах модель авторегрессии. Вопросы 1. Проанализируйте значимость переменных в регрессионной модели Дороти. Разрабо- тайте собственную регрессионную модель (при необходимости включите в нее фик- тивные переменные для учета сезонной составляющей) и используйте ее для прогно- зирования количества новых клиентов, которые обратятся в корпорацию ССС за пер- вые три месяца 1993 года. Сравните свой прогноз с реальными наблюдениями. 2. Вычислите параметры модели авторегрессии и дайте прогноз количества новых кли- ентов на первые три месяца 1993 года. Какая из моделей (многомерной регрессии или авторегрессии), по вашему мнению, будет лучшей для прогноза количества но- вых клиентов корпорации на конец 1993 года? Подготовьте письменный отчет о ре- зультатах проверки наличия в используемых данных серийной корреляции и приве- дите в нем найденную вами модель, наиболее подходящую для прогноза количества новых клиентов корпорации ССС на оставшуюся часть 1993 года. Задание 8.6. Клуб ААА Washington17 Общий обзор деятельности клуба ААА Washington был представлен в задании 5.4, в кото- ром требовалось выполнить разложение временного ряда данных об экстренных вызовах дорожной службы клуба за последние пять лет. По мнению Майкла Декориа, исполни- тельного вице-президента клуба, результаты разложения исходного временного ряда де- монстрируют, что количество экстренных вызовов дорожной службы характеризуется определенной цикличностью. Майкл хотел бы предсказывать эффект цикличности в ра- боте экстренной дорожной службы и на будущие года. В другом исследовании, также проведенном клубом, было обнаружено еще несколько факторов, влияющих на количество экстренных вызовов дорожной службы. Среди этих факторов — средняя дневная температура и суточное количество осадков. В этом исследо- вании было показано, что число экстренных вызовов увеличивается при возрастании коли- чества осадков и при снижении средней температуры. В клубе также считают, что общее количество вызовов экстренной дорожной службы зависит и от количества членов клуба. „Изучение этого случая было предоставлено Стивом Брайтоном, бывшим студентом университета Истерн Вашингтон.
444 ГЛАВА 8 Майкл заметил, что циклический тренд временного ряда характеризуется некоторой задержкой по отношению к общему циклу экономики. Он предположил, что подходя- щим мерилом для общего состояния экономики штата Вашингтон будет уровень безра- ботицы в этом штате. Данные о среднемесячной температуре, ежемесячном объеме осад- ков и ежемесячном уровне безработицы в штате Вашингтон приведены в табл. 8.22. При обсуждении проблемы с руководителем центра приема экстренных вызовов дорожной службы клуба дополнительно выяснились следующие обстоятельства. Производители ав- томобилей проектируют машины так, чтобы оптимальный режим их работы достигался при 65° по Фаренгейту. Количество вызовов дорожной службы возрастает более резко при снижении температуры на несколько градусов от 30°, чем при аналогичном сниже- нии температуры от 60°. Это говорит о том, что влияние температуры на количество вы- зовов экстренной дорожной службы характеризуется нелинейной зависимостью. Таблица 8.22. Данные, собранные для клуба ААА Вашингтон Год Месяц Количество вызовов Уровень без- работицы Температура Осадки Количество членов 1987 июнь — 6,9940 — — — июль — 6,8137 — — — август — 6,3648 — — — сентябрь — 6,5435 — — — октябрь — 6,7826 — — — ноябрь — 6,9225 — — — декабрь — 7,1560 — — — 1988 январь — 7,9143 — — — февраль — 7,7576 — — — март — 7,0641 — — — апрель — 6,0977 — — — май 20 002 5,7867 55,1 3,75 — июнь 21 591 5,7592 59,0 1,95 — июль 22 696 5,5718 63,8 0,89 — август 21 509 5,2939 63,8 0,51 384 746 сентябрь 22 123 5,4709 59,1 2,31 388 652 октябрь 21 449 5,5049 54,6 3,12 392 241 ноябрь 23 475 5,8630 45,4 8,42 393 115 декабрь 23 529 6,1349 41,0 4,44 392 631 1989 январь 23 327 7,5474 40,3 4,30 396 975 февраль 24 050 7,8157 34,3 3,18 395 186 март 24 010 7,8157 34,3 3,18 395 186
Регрессионный анализ временных рядов 445 Год Месяц Количество вызовов Уровень без- работицы Температура Осадки Количество членов апрель 19 735 6,2637 52,5 2,39 397 674 май 20 153 5,8332 55,3 2,83 399 348 июнь 19512 5,8077 62,4 1,30 401 949 июль 19 892 5,6713 62,9 0,83 404 866 август 20 326 5,4977 63,5 1,53 405 341 сентябрь 19 378 5,2989 60,9 0,32 407 479 октябрь 21 263 5,6028 51,9 3,44 405 430 ноябрь 21 443 5,9143 46,2 7,24 412 134 декабрь 23 366 5,0000 41,8 4,72 415 342 1990 январь 23 836 6,1917 41,8 9,55 416 255 февраль 23 336 6,3775 38,9 5,73 423 001 март 22 003 5,7234 46,3 3,40 428 559 апрель 20 155 4,7792 51,7 2,91 431 429 май 20 070 4,5715 54,9 2,15 434 675 июнь 19 588 4,3899 59,8 3,55 435 864 июль 20 804 4,2559 66,7 0,59 437 969 август 19 644 3,9359 66,4 1,33 440 565 сентябрь 17 424 3,9048 61,9 0,24 441 936 октябрь 20 833 4,4294 50,4 1,17 448 595 ноябрь 22 490 5,1523 45,8 10,66 446 291 декабрь 24 861 5,5102 33,9 7,93 446 455 1991 январь 23 441 6,8901 37,9 4,40 445 392 февраль 19 205 7,0308 46,9 5,42 445 787 март 20 386 6,7186 43,4 4,35 445 746 апрель 19 988 6,1280 49,1 5,69 446 430 май 19 077 5,8146 54,3 2,12 450 001 июнь 19 141 5,9480 58,2 1,61 452 303 июль 20 883 5,9026 65,4 0,51 456 551 август 20 709 5,7227 66,0 2,80 455 747 сентябрь 19 647 5,6877 60,9 0,20 456 764 октябрь 22 013 6,2922 51,0 1,70 462 340 ноябрь 22 375 7,0615 46,2 6,50 460 492 декабрь 22 727 7,4370 42,4 3,45 465 361
446 ГЛАВА 8 Год Месяц Количество вызовов Уровень без- работицы Температура Осадки Количество членов 1992 январь 22 367 8,4513 43,0 7,26 465 492 февраль 21 155 8,7699 46,0 3,59 466 775 март 21 209 8,0728 48,9 1,47 467 168 апрель 19 286 7,2392 52,7 4,35 464 575 май 19 725 7,0461 58,3 0,60 459 019 июнь 20 276 7,0478 63,6 1,84 463 665 июль 20 795 7,1080 64,9 1,41 463 775 август 21 126 6,7824 65,0 1,01 466 230 сентябрь 20 251 6,7691 58,4 2,16 — октябрь 22 069 7,5896 53,2 2,55 — ноябрь 23 268 7,9908 44,8 6,23 — декабрь 26 039 8,2460 37,8 4,38 — 1993 январь 26 127 9,5301 34,9 4,08 — февраль 20 067 9,2790 — — — март 19 673 8,6802 — — — апрель 19 142 7,7815 — — — май — 7,4338 — — — июнь — 7,3701 — — — июль — 7,2442 — — — - Данные недоступны Вопросы 1. Вычислите параметры линейной регрессии, включающей температуру, количество осадков, уровень безработицы в качестве независимых переменных и количество срочных вызовов дорожной службы — в качестве зависимой. Проверьте полученную модель на наличие серийной корреляции. 2. Проведите экспоненциальное преобразование с тем, чтобы значение температуры ока- зывало экспоненциальный эффект на количество вызовов. Помните, что шкала темпера- туры является относительной и выбор нулевой отметки на ней произволен. Нуль граду- сов по шкале Цельсия — это температура замерзания воды, тогда как по шкале Фарен- гейта — это самая низкая температура, которую сам Фаренгейт когда-либо наблюдал (на 32° ниже температуры замерзания воды). Если автомобили наилучшим образом приспо- соблены для работы при 65° по Фаренгейту, то каждый градус выше или ниже этой вели- чины ухудшает устойчивость системы машины. Чтобы произвести экспоненциальное преобразование данных о температуре с учетом указанного эффекта, сначала отнимите 65° от значения среднемесячной температуры. Это позволит условно “переместить” нуль на относительной шкале в точку 65° по Фаренгейту.
Регрессионный анализ временных рядов 447 3. Проведите вычисления для второй и третьей моделей регрессии с одними и теми же независимыми переменными, но с предварительно преобразованными данными о температуре и уровне безработицы. Чтобы учесть нелинейность влияния температу- ры, используйте экспоненциально преобразованные данные о средней температуре, вычисленные на предыдущем этапе. В качестве независимой переменной уровня безработицы во второй модели возьмите данные об уровне безработицы с учетом за- держки их влияния на три месяца относительно текущего времени, а в третьей моде- ли — с запаздыванием на 11 месяцев. 4. Проанализируйте результаты выполнения этапов 2 и 3. Какая из регрессий дает лучший прогноз? Совпадают ли знаки у коэффициентов при независимых перемен- ных с теми, которые вы ожидали получить? Отличаются ли значимо от нуля коэф- фициенты при независимых переменных? 5. Присутствует ли в данных серийная корреляция? Если какой-то коэффициент не отличается значимо от нуля, рассмотрите вариант регрессии без этой независимой переменной. Поэкспериментируйте с различными основаниями при экспоненци- альном преобразовании данных о температуре. 6. Подготовьте письменный отчет о проделанной работе и укажите ту регрессионную модель, которую вы считаете наилучшей для прогнозирования цикличности вызовов экстренной дорожной службы. Для подтверждения своих выводов попробуйте ис- пользовать имеющуюся информацию о той части изменений в количестве экстрен- ных вызовов, которая в разложении временного ряда представлена как случайная составляющая. Задание 8.7. Компания Alomega Food Stores В примере 1.1 Джулия Рас, президент компании Alomega Food Stores, собрала данные о месячных объемах продаж своей компании вместе с несколькими другими показателями, которые, как она полагала, способны оказывать влияние на объем продаж. Ее действия по построению модели прогноза с использованием приложения Minitab подробно описа- ны в заданиях в конце глав 2, 3 и 5. В целях улучшения качества прогноза она обратилась к методу многомерной регрессии. Анализируя результаты разложения данных, Джулия заметила, что они включают значительную сезонную составляющую (см. задание 5.5). Полагая, что объемы продаж в компании зависят от суммы затрат на рекламу в газетах и по телевидению (см. зада- ние 2.3), она решила рассчитать регрессию, связывающую объемы продаж с затратами на рекламу в газетах {Papers) и по телевидению (TV) и 11 фиктивными переменными (Duml—Dumll) со значениями 0 и 1, выбрав базовым месяцем для учета эффекта сезон- ности декабрь. Часть распечатки результатов соответствующих вычислений в приложе- нии Minitab приведена в листинге 8.10.
448 ГЛАВА 8 Листинг 8.10. Распечатка результатов вычислений в приложении Minitab параметров модели регрессии для объема продаж компании Alomega The regression equation is Sales = 184393 + 0.363 Paper + 0.315 TV + 200847 Duml + 55491 Dum2 + 199556 Dum3 + 100151 Dum4 + 190293 Dum5 + 135441 Dum6 + 156609 Dum7 + 51586 Dum8 + 183619 Dum9 + 109096 DumlO + 96206 Dumll Predictor Coef SE Coef T P VIF Constant Paper 184393 0.36319 23402 0.06854 7.86 5.30 0.000 0.000 2.1 TV 0.31530 0.03638 8.67 0.000 1.6 Duml 200847 39151 5.13 0.000 2.7 Dum2 55491 32399 1.71 0.096 1.8 Dum3 199556 34147 5.84 0.000 2.0 Dum4 100151 32388 3.09 0.004 1.8 Dum5 190293 32822 5.80 0.000 1.9 Dum6 135441 32581 4.16 0.000 1.9 Dum7 156609 32699 4.79 0.000 1.9 Dum8 51586 32420 1.59 0.121 1.8 Dum9 183619 36522 5.03 0.000 2.3 DumlO 109096 32439 3.36 0.002 1.8 Dumll 96206 32417 2.97 0.005 1.8 S = 45801 R-Sq = 90.8% R-Sq(adj) = 87. .3% Durbin-Watson statistic =2.27 Джулию вполне устроило значение/?2, равное примерно91%, и значимое улучшение величины г2 в модели регрессии, содержащей независимую переменную TV (сравните с результатами в задании 2.3). Более того, значения фактора роста дисперсии (VIF) каждой из независимых переменных малы и величина статистики Дарбина-Уотсона близка к 2. Джулия понимала, что прежде чем результаты вычислений можно будет принять как удовлетворительные, следует изучить величины остатков. Поэтому, перед тем как пред- ложить найденную модель регрессии для прогнозирования, она решила провести соот- ветствующее исследование. Джулию устраивал тот факт, что значения независимых переменных расходов на рек- ламу в газетах {Papers) и по телевидению (TV) контролируются компанией. По этой при- чине значения указанных переменных могли быть выбраны до вычисления прогноза объема будущих продаж. Джулия была уже почти готова встретиться со своим оппонентом, Джексоном Тилсо- ном, но ей необходимо было выполнить еще несколько завершающих операций. Вопросы 1. Джулия собрала данные о значениях и других переменных, которые не были вклю- чены в модель многомерной регрессии. Следует ли все же включить в модель какую- то из этих переменных? Другими словами, может ли Джулия быть уверена, что она выбрала “правильное” множество независимых переменных?
Регрессионный анализ временных рядов 449 2. Полагая, что в найденную Джулией модель прогноза не требуется включать какие-то другие независимые переменные, можно ли считать эту модель удовлетворительной? Как можно было бы наилучшим образом “преподнести” найденную модель руково- дству компании (и Джексону Тилсону)? 3. Как модель Джулии можно использовать для определения необходимых будущих расходов на рекламу в газетах и по телевидению? 4. При каких условиях от Джулии может потребоваться перепроверить найденную модель регрессии или, возможно, поискать другой метод прогнозирования объема продаж? Применение Minitab Задание. В примере 8.8 Джеймс Браун пытается спрогнозировать потребление электроэнергии клиентами компании Washington Water Power в третьем и четвертом кварталах 1996 г. Решение в Minitab 1. Введите значения объемов выработки электроэнергии из табл. 8.4 в столбец С1 (переменная Hours). Введите номер интервала времени (1, 2, 3,..., 66) в столбец С2 (переменная Time). Значения фиктивных переменных, приведенные в табл. 8.5, введите в столбцы СЗ—С5. 2. Для вычисления параметров модели регрессии с учетом сезонной составляющей вы- берите команду Stat^Regression^Regression. 3. На экране раскроется диалоговое окно Regression, подобное показанному на рис. 6.18. а) в поле Response (Зависимая переменная) введите значение Hours б) в поле Predictor (Независимая переменная) введите значение Time-4th Qt в) щелкните на кнопке Options, и на экране раскроется диалоговое окно Regression-Options, показанное на рис. 8.13 Рис. 8.13. Диалоговое окно Regression-Options прило- жения Minitab 4. В диалоговом окне Regression-Options выполните следующие действия, а) установите флажок опции Darbin-Watson statistics
450 ГЛАВА 8 б) в поле Prediction intervals for new observations введите новые данные для третьего квартала 1996 года: 67 0 1 0 в) щелкните на кнопке ОК, а затем еще раз на кнопке ОК в диалоговом окне Regression. На экран будет выведено окно с результатами расчетов, представ- ленными в листинге 8.7 Заметим, что в примере 8.4 Фред Гарднер получил регрессионную модель, проходя- щую через начало координат (в уравнении для Yсвободный член равен нулю). Чтобы получить модель такого вида, сбросьте флажок опции Fits intercept в диалоговом ок- не Regression-Options, показанном на рис. 8.13. Применение Excel Задание. В примере 8.6 была получена модель авторегрессии первого порядка для данных об объемах продаж корпорации Novak. Решение в Excel 1. Откройте в приложении Minitab файл, содержащий данные, представленные в табл. 8.2. Выделите на рабочем листе столбец Sales и выберите команду Edit^Copy Cells. Переключитесь в окно приложения Excel и на рабочем листе выделите ячейку АЗ, а затем выберите команду Edit^ Paste (ПравкаФВставить). В столбце А рабочего листа появятся данные об объемах продаж. Введите в ячей- ку А1 название столбца Sales, и окно Excel примет вид, показанный на рис. 8.14, но без переменной Lagged. Рис. 8.14. Рабочий лист Excel после ввода данных с запаздыванием на один период
Регрессионный анализ временных рядов 451 2. Чтобы сопоставить переменную Sales с ее собственными значениями с запаздыва- нием на один период, выделите с помощью мыши ячейки АЗ-А19 и выберите ко- манду Edit^Copy. Выделите ячейку В4 и выберите команду Edit^Paste. Получен- ный результат показан на рис. 8.14. 3. Чтобы получить параметры модели авторегрессии, выберите команду Tools (CepBHC^Data Analysis (Анализ данных). На экране раскроется диалоговое окно Data Analysis. В списке Analysis Tools (Инструменты анализа) выберите значение Regressions (Регрессия). На экране раскроется диалоговое окно Regressions, пока- занное на рис. 6.23. а) в поле Input Y Range (Входной интервал Y) введите значение А4:А19 б) в поле Input X Range (Входной интервал X) введите значение В4:В19 в) установите флажок опции New Worksheet Ply (Новый рабочий лист) и введите в соседнее поле значение Sheet2 г) щелкните на кнопке ОК, и в окне Excel появится результат, показанный на рис. 8.15 "[j'Mk.iu’uM I Xi cl I щН !• . — - . р J19 ^Г~ *_______ И А В С О Е. F Ш SUMMARY OUTPUT, > s . -;Z.|g|Xt G H S^Recression Statistics Multiple R: R Square ; Adjusted F Standard E Observation 0.997518 0.995043 0.994689 0.487455 ....."16 ANOVA и 14 W: iej ш _______________df Regression Residuali J. Total i 14 15 SS MS__________________________ 667.7278^ 667.7278: 2810.158: 1.54E-17 3.3265711 0.237612! I 671.0544' ~ !~ F •qnificance F I__________Coefficientdandard Err, t Stat , P-value Tower 95% Upper 95%iower 95.0#pper 95.0% * Intercept : -0.10934 0.336733: -0.3247 , 0.750211, -0.83156 i 0.6128851 -0.8315610.612885 ^^'rjabje'7,~Yo^876' 0.0206^^53.01092^ 1.54Е-17^1'О4^18^ Т138133Г 1.649618Г1"138133 ill Start | U Playa-I J0h3 ||.-y Mtcro.olt Excel * 521PM Puc. 8.15. Результаты расчета модели авторегрессии в приложении Excel Рекомендуемая литература Cochrane D., Orcutt G.N. Application of Least Squares to Relationships Containing Autocorrelated Error Terms. Journal of American Statistical Association 44 (1949): 32—61. Durbin J., Watson G.S. Testing for Serial Correlation in Least Squares Regression IL Biometrica 38 (1951): 159-178.
452 ГЛАВА 8 Johnson J. Econometric Methods, 3rd ed. New York: McGraw-Hill, 1984. King J.L., Bester D.A. Comporation of MultivariateForecasting Procedures for Economic Time Series. International Journal of Forecasting 1 (1) (1985): 5—24. Neter J., Kutner M., Nachtsheim C., Wasserman W. Applied Linear Statistical Models, 4th ed. Homewood, IL: Richard D.Irwin, Inc., 1996. Pindyck R.S., Rubinfeld D.L. Econometric Models and Economic Forecasts, 4th ed. New York: McGraw-Hill, 1998. Young R.M. Forecasting with an Econometric Model: The Issue of Judgemental Adjustment. Journal of Forecasting 1 (2) (1982): 189-204.
/А\ /Д\ Л W W/ W/ М ГЛАрА Г/ W W W Метод Бокса-Дженкинса (ARIMA) Ранее уже рассматривались некоторые приближения для анализа и прогнозирования временнь/х рядов. В главе 4 мы ознакомились с механизмом сглаживания (усреднения) временных рядов, с помощью которого и выполнялось их прогнозирование. В главе 5 описывалась декомпозиция временных рядов на трендовую, сезонную и нерегулярную компоненты, а прогнозы выполнялись посредством экстраполяции оценки тренда и се- зонности. В главе 8 рассматривалась регрессионная модель для данных временных рядов. Прогнозы значений зависимой переменной Y, основанные на этих моделях, обычно тре- буют предварительного прогнозирования будущих значений независимой переменной X. В этой главе обсуждается класс моделей, позволяющих получать точные прогнозы на основе описания временной структуры данных. Модели смешанного авторегрессионного скользящего среднего (AutoRegressive Integrated Moving Average, ARIMA) относятся к классу линейных моделей, которые могут хорошо описывать как стационарные, так и не- стационарные временные ряды. Напомним, что в стационарных временных рядах значения данных изменяются в ту или иную сторону относительно некоторого фиксиро- ванного уровня, а в нестационарных рядах не существует постоянного среднего уровня значений. Те авторегрессионные модели, которые обсуждались в главе 8, в действитель- ности представляют собой специальное подмножество класса моделей ARIMA, предна- значенное для описания стационарных временных рядов. В моделях ARIMA независимые переменные не используются. Точнее говоря, для прогнозирования в них используется информация, содержащаяся в самих исходных ря- дах. Например, модель ARIMA для месячных объемов продаж выявляет временную структуру в уже имеющихся данных о продажах, которая затем используется для прогно- зирования объемов продаж на следующие месяцы. Модели ARIMA опираются, в основном, на автокорреляционную структуру данных. Наибольший вклад в методологию выявления, уточнения и проверки подходящих слу- чаю моделей ARIMA внесли работы двух статистиков, Г.Е.П. Бокса (G.E.P. Box) и Г.М. Дженкинса (G.M. Jenkins). По этой причине построение моделей ARIMA и прогно- зирование на их основе часто называется методом Бокса-Дженкинса.
454 ГЛАВА 9 Рис. 9.1. Блок-схема стратегии выбора модели по методу Бокса- Дженкинса' Метод Бокса-Дженкинса Методология прогнозирования Бокса-Дженкинса от- личается от большинства методов, поскольку в ней не предполагается какой-либо особенной структуры в данных временных рядов, для которых делается прогноз. В ней используется итеративный подход к определению допустимой модели среди общего класса моделей. Потом выбранная модель сопос- тавляется с историческими данными, чтобы прове- рить, точно ли она описывает ряды. Модель счита- ется приемлемой, если остатки, в основном, малы, распределены случайно и, в общем, не содержат полезной информации. Если заданная модель не удовлетворительна, процесс повторяется, но уже с использованием новой, улучшенной модели. По- добная итеративная процедура повторяется до тех пор, пока не будет найдена удовлетворительная мо- дель. С этого момента найденная модель может ис- пользоваться для целей прогнозирования. На рис. 9.1 иллюстрируется стратегия выбора модели по методу Бокса-Дженкинса. Выбор исходной модели ARIMA основывается на изучении графиков временных рядов (с целью выяснить основной характер их поведения) и ис- следовании коэффициентов автокорреляции для нескольких интервалов запаздывания во времени. В частности, сопоставляются между собой структура выборочных коэффициентов автокорреляции, рас- считанных для временных рядов, и известная автокорреляционная структура, связанная с конкретной моделью ARIMA. Такое сопоставление делается как для коэффициентов автокорреляции, так и для коэффициентов частной автокорреляции2. Теоретические значения коэффициентов автокорреляции для наиболее общих моделей ARIMA показа- ны на рис. 9.2-9.4. Смысл графиков, приведенных на этих рисунках, станет понятен из дальнейшего обсуждения в этой главе. Методология Бокса-Дженкинса основывается на наборе процедур определения, кор- рекции и проверки моделей ARIMA для данных временных рядов. Прогноз следует непосредственно из формы скорректированной модели. ' Источник: Box G.P., Jenkins G.M., Reinsei G.C. The Forecasting and Control (3rd ed.), Upper Saddle River, New Jersey: Prentice-Hall, 1994, c. 17. Печатается с разрешения авторов. Частная автокорреляция за промежуток времени к — это корреляция между К, и Y,-t, т.е. отклик для периодов t и t — k после устранения влияния промежуточных значений У,~), У,-2, ..., Уг-*+). Частные автокор- реляции выведены и подробно обсуждаются в работах Ньюболда (Newbold) и Боса (Bos) (1994), а также Бокса (Box), Дженкинса (Jenkins) и Рейнсела (Reinsei) (1994).
Метод Бокса-Дженкинса (ARIMA) 455 AR(2): Уг-фо + Фт^-! +Ф2^-2 + ег AR(1): Yt-ф0 + Фт^м +ef а) Частные автокорреляции Г О к -1.. -11 -1 Г) Рис. 9.2. Автокорреляционные и частные автокорреляционные коэффициенты моделей AR( 1) и AR(2)
456 ГЛАВА 9 Автокорреляция Частные автокорреляции Из1от-^з+ri :(|.)VIAi Z-J32ot- Чз1от-1з + г1=^ :(g)VIAi -1 б) в) О О 1 1 Г О к к г) Рис. 9.3. Автокорреляционные и частные автокорреляционные коэффициенты моделей МА(1) и МА(2)
Метод Бокса-Дженкинса (ARIMA) 457 ARMA(1,1): Yf = фо+ <|>i Vf.-i + £f -
458 ГЛАВА 9 При выборе модели следует помнить, что автокорреляции, вычисленные из данных, не будут в точности совпадать ни с каким набором теоретических функций автокорреля- ции, связанных с моделью ARIMA. Автокорреляции, вычисленные из данных, подвер- жены вариациям выборки. Поэтому следует стремиться адекватно сопоставить с моделью ARIMA большую часть данных временнь/х рядов. Если исходный выбор был не вполне правильным, неадекватность проявится при анализе остатков (проверка модели) и ис- ходная модель потребует модификации. С приобретением опыта задача итеративного выбора модели станет проще. Авторегрессионные модели Авторегрессионная модель первого порядка была введена в главе 8. Авторегрессионная модель порядкар имеет вид: Е = Фо + Ф1E-i + Ф2Е-2 + -...+ ФрЕ-р + (9.1) где Е — отклик (зависимая переменная) в момент времени t, E-ь Е-2, • , Yt-p — отклик при значениях интервалов времени t - 1, t - 2,..., t - р соответственно, фо, фи Фг, фр — оцениваемые коэффициенты’, е, — ошибка, описывающая влияния переменных, которые не учитываются в модели. Предположения относительно слагаемого ошибки те же, что и для стандартной регресси- онной модели. Модель в уравнении 9.1 имеет вид регрессионной модели с использованием в качестве независимой переменной запаздывающих значений зависимой переменной, откуда и происходит ее название — авторегрессивная модель. Авторегрессионные модели приме- нимы для стационарных временных рядов, а коэффициент ф0 зависит от постоянного уровня ряда. Если данные изменяются в окрестности нуля или выражаются как отклоне- ние от среднего значения Y, - Y, коэффициент ф0 не нужен. Уравнения модели AR первого порядка (модель AR(1)) и модели AR второго порядка (модель AR(2)) показаны на рис. 9.2. На рис. 9.2, а и б иллюстрируется поведение теоре- тических функций автокорреляции и функций частной автокорреляции для модели AR(1). Обратите внимание на различие в поведении функций автокорреляции и функций частной автокорреляции. Автокорреляционные коэффициенты постепенно убывают до нуля, тогда как частные автокорреляционные коэффициенты после первого промежутка времени обращаются в нуль. Рис. 9.2, виг демонстрируют автокорреляции для модели AR(2). И вновь автокорреляционные коэффициенты плавно убывают до нуля, в то время как частные автокорреляционные коэффициенты после второго промежутка времени обращаются в нуль. Подобный тип графиков в целом сохранится для любой модели AR(p). Опять-таки, необходимо помнить о том, что набор автокорреляционных функций будет отличаться от этих теоретических функций вследствие вариаций выборки. Коэффициент фо связан со средним |1 соотношением фо = |1(1 — ф1 -фг - ... - фр).
Метод Бокса-Дженкинса (ARIMA) 459 Пример 9.1 Продемонстрируем прогнозирование с помощью модели AR(2), воспользовавшись набором данных из 75 значений, представленным в табл. 9.5. Для построения прогноза будут взяты только последние пять наблюдений, приведенные в табл. 9.1. Таблица 9.1. Прогноз с использованием авторегрессионной модели AR(2) Период Время t Значения У. Прогнозы У, Остатки е. 1-5 71 90 76,4 13,6 1-4 72 78 67,5 10,5 1-3 73 87 74,0 13,0 t-2 74 99 69,1 29,9 1-1 75 72 62,7 9,3 t 76 77,2 Для обработки данных выбираем модель AR(2) и вычисляем в приложении Minitab оцен- ки с помощью метода наименьших квадратов: 4 =115,2 , 41 =-0,535 и 4 = 0,0055 . Пусть в момент времени t - 1 = 75 необходимо получить прогноз наблюдений на следующий период t = 76. Поскольку оптимальной величиной ошибки является та, среднее значение которой равняется 0, прогноз на период t = 76 будет следующим. ^,= 00+01^+02^2 У76 =115,2-0,535У„+0,0055У74 У76 = 115,2 - 0,535(72) + 0,0055(99) = 77,2 Для авторегрессионных моделей прогнозы зависят от значений данных, наблюдаемых в преды- дущие промежутки времени. Для моделей AR(2) прогнозы последующих значений зависят от на- блюдений в течение двух предыдущих периодов времени. Для моделей AR(3) прогнозы последую- щих значений зависят от наблюдений в течение трех предыдущих периодов времени и т.д. Модели со скользящим средним Модель со скользящим средним порядка q задается следующим уравнением. У, = |1 + е, - (П|е,_, - (02е,-2 - ... - , (9.2) где У, — отклик (зависимая переменная) в момент времени t ц — постоянное среднее процесса (Bi, со2, — оцениваемые коэффициенты е, — ошибки в предыдущие периоды времени, которые в момент t включены в отклик У, Уравнение 9.2 похоже на уравнение 9.1, за исключением того, что зависимая пере- менная У, зависит от предыдущих значений ошибок, вместо самой переменной. Модели со скользящим средним (МА) дают прогноз значения функции У„ основываясь на ли-
460 ГЛАВА 9 нейной комбинации ограниченного числа прошлых ошибок, тогда как авторегрессион- ные модели (AR) дают прогноз У, на основании линейной функции аппроксимации огра- ниченного числа прошлых значений У,. Использование термина скользящее среднее для модели в уравнении 9.2 является исто- рическим, и его нельзя путать с процедурой скользящего среднего, обсуждавшейся в гла- ве 4. Здесь выражение скользящее среднее относится к тому факту, что отклонение откли- ка от его среднего, У, - ц, является линейной комбинацией текущих и прошлых ошибок, а так как время движется вперед, то ошибки, включенные в эту линейную комбинацию, также будут смещаться вперед. У, - ц = е, - сй!e,_i - w2ez-2 - • • • - ^,-ч J’i+l ~ И = Е<+1 — 6)iEz — W2E/-1 — ... — Весовые коэффициенты ей], щ2, • не обязательно в сумме дают 1 и могут быть поло- жительными или отрицательными, несмотря на то что каждому из них предшествует знак минус в описании модели. На рис. 9.3 показано уравнение модели со скользящим средним порядка 1 (модель МА(1)) и модели со скользящим средним порядка 2 (модель МА(2)). Для получения модели МА(<?) необходимо последовательно добавлять ошибки в качестве слагаемых, а величина q — это ко- личество прошлых ошибок, которые были включены в прогноз последующих наблюдений. На рис. 9.3, а и б иллюстрируется также поведение теоретических коэффициентов автокорре- ляции и частной автокорреляции для модели МА(1). Обратите внимание на тот примечатель- ный факт, что функции автокорреляции и частной автокорреляции моделей AR и МА ведут себя совершенно по-разному. Автокорреляционные коэффициенты для модели МА(1) обра- щаются в нуль сразу после запаздывания в один период, в то время как частные автокорреля- ционные коэффициенты приближаются к нулю постепенно. Соответственно, в модели МА(2) автокорреляционные коэффициенты равны нулю после запаздывания в два периода, тогда как частные автокорреляционные коэффициенты плавно приближаются к нулю (рис. 9.3, в и г). И вновь следует упомянуть, что выборочные автокорреляционные функции будут отли- чаться от этих теоретических функций вследствие вариаций выборки. Пример 9.2 Продемонстрируем прогнозирование с помощью модели МА(2), воспользовавшись набором данных из 75 значений, представленным в табл. 9.5. Для построения прогноза будут взяты только последние пять наблюдений, приведенные в табл. 9.2. Таблица 9.2. Прогноз с использованием модели скользящего среднего МА(2) Период Время t Значения Yt Прогнозы Y, Остатки е. 1-5 71 90 76,1 13,9 Г-4 72 78 69,1 8,9 Г-3 73 87 75,3 11,7 Г-2 74 99 72,0 27,0 Г- 1 75 72 64,3 7,7 t 76 80,6
Метод Бокса-Дженкинса (ARIMA) 461 Для обработки данных выбираем модель МА(2) и вычисляем в приложении Minitab оцен- ки с помощью метода наименьших квадратов4 5: ц = 75,4, ц =0,5667 и <п2 = -0,3560. Снова предположим, что в момент времени / - 1 = 75 необходимо получить прогноз наблюдений на следующий период t = 76. Поскольку для момента времени / - 1 оптимальной величиной ошибки является та, среднее значение которой равняется 0, и наилучшие оценки значений ошибок в текущий и предыдущий периоды времени — это соответствующие остатки, то прогноз на период t = 76 будет следующим. ^76 = Н ~ ®1^75 ~ ^*2^74 У76 = 75,4 - 0,5667 (7,7) + 0,3560(27) = 80,6 Обратите внимание на то, что в вычислении прогноза для периода 76 два остатка е75 и е74 заменяют ошибки е75 и е74. При вычислении прогнозов с помощью моделей скользящего среднего, ошибки, соответствующие прошедшим периодам времени, заменяются остатками для этих периодов времени. Количество остатков, включенных в прогноз последующих на- блюдений, равно порядку модели скользящего среднего. Модели с авторегрессией и скользящим средним Можно скомбинировать авторегрессионную модель и модель со скользящим средним, что в итоге дает “смешанную” модель — авторегрессия-скользящее-среднее. При описа- нии такой модели удобно использовать обозначение ARMA(p, q), гдер — это порядок ав- торегрессионной части модели, a q — порядок части скользящего среднего. Модель ARMA(p, q) имеет общий вид Y, = Фо + 0!Г/-1 + 02^-2 + ... + фрК,-/, + Е, - С01Е,-1 - (02е,_2 - ... - . (9.3) Модели ARMA(p, q) могут описывать широкий спектр поведений стационарных вре- менных рядов’. Модель ARMA(p, q) делает прогноз, который зависит как от текущего и прошлого значений отклика Y, так и от текущих и прошлых значений величины ошибки (остатка) е,. На рис. 9.4 приводится уравнение модели ARMA(1,1) и возможное поведение теоре- тических функций автокорреляции и частной автокорреляции. В этом случае коэффици- енты как автокорреляции, так и частной автокорреляции постепенно затухают, не обры- ваясь на определенном шаге. 4 Оценки коэффициентов методом наименьших квадратов в моделях скользящего среднего или моделях, включающих в себя слагаемые скользящего среднего, должны осуществляться посредством многократного применения нелинейного алгоритма метода наименьших квадратов. Начиная со стартового значения нели- нейный алгоритм метода наименьших квадратов генерирует улучшенные оценки коэффициентов с меньшей суммой квадратичных ошибок. Оценки непрерывно улучшаются до тех пор, пока сумма квадратичных оши- бок не перестанет существенно уменьшаться. Несмотря на то что авторегрессионные модели могут кор- ректироваться с помощью стандартных программ, включающих в себя возможность регрессионного анали- за, оценка коэффициентов с помощью метода наименьших квадратов в авторегрессионных моделях чаще всего осуществляется с использованием нелинейной процедуры метода наименьших квадратов. 5 Заметим, что при q = 0 модель ARMA(p, 0) упрощается до обычной авторегрессионной модели поряд- ка р. Точно так же при р = 0 модель ARMA(0, q) переходит в стандартную модель скользящего среднего по- рядка q.
462 ГЛАВА 9 Резюме Схема поведения коэффициентов автокорреляции и частной автокорреляции для про- цессов, описываемых моделью “авторегрессия-скользящее-среднее”, в общем виде по- дытоживается в табл. 9.3. Таблица 9.3. Поведение коэффициентов автокорреляции и частной автокорреляции в моделях авторегрессии и скользящего среднего Модель Автокорреляции Частные автокорреляции МА(^) AR(p) ARMA(p, q} Обрывается на шаге q Затухает Затухает Обрывается на шаге р Затухает Затухает Количество авторегрессионных членов и членов скользящего среднего (порядковр и </) в модели ARMA определяется структурой выборочных функций автокорреляции и частной автокорреляции, а также значениями критериев выбора, которые обсуждаются далее в этой главе. На практике значенияpnq редко превышают 2. Реализация стратегии разработки модели Как показано на рис. 9.1, в подходе Бокса-Дженкинса используется итеративная страте- гия разработки модели, в которой последовательно выполняется выбор исходной модели (определение модели), оценка ее коэффициентов (оценка параметров) и анализ остатков (проверка модели). Если необходимо, исходная модель модифицируется и указанный процесс повторяется до тех пор, пока остатки не укажут на отсутствие необходимости дальнейшей модификации. С этого момента модель может использоваться для целей прогнозирования. Ниже каждый из этапов стратегии разработки модели рассматривается более детально. Этап 1. Определение модели 1. На этапе определения модели следует выяснить, является ли ряд стационарным, т.е. изменяются ли значения временного ряда в окрестности некоторого фиксиро- ванного уровня. Для этого полезно посмотреть на график временного ряда и гра- фик выборочной автокорреляционной функции. Временнь/е ряды являются не- стационарными, если в значениях ряда со временем проявляется рост или спад, а график функции выборочной автокорреляции демонстрирует отсутствие быст- рого исчезновения значимых коэффициентов. На рис. 8.2 представлен график не- стационарного временного ряда, а рис. 8.3 демонстрирует типичную для неста- ционарных рядов структуру выборочных коэффициентов автокорреляции. Часто нестационарные ряды можно преобразовать в стационарные путем взятия разно- сти. Иначе говоря, исходный ряд заменяется рядом разностей. В этом случае модель ARMA определяется для ряда разностей. В сущности, в этом случае аналитик моделирует поведение изменений значений вместо поведения их уровня.
Метод Бокса-Дженкинса (ARIMA) 463 Предположим, что исходный ряд У„ в основном, возрастает со временем, но его пер- вые разности ДУ, = У, - У,1 изменяются в окрестностях некоторого фиксированного уров- ня. Для моделей постоянных разностей вполне приемлемой является модель ARMA по- рядка, скажем, р = 1 и q = 1. В этом случае уравнение модели будет иметь вид:6 ДУ, = ф|ДУ,-1 + Е, - <0,Е,—j или (У, - У,-,) = ф,(У,_, - У,_2) + Е, - СО|Е,_|. В некоторых случаях, для того чтобы получить стационарные данные, необходимо бу- дет найти разности разностей. Процедура взятия разности выполняется дважды, и в итоге данные получаются стационарными. Д2У, = Д(ДУ,) = Д(У,_, - У,_2) = У, - 2У,_, + У,_2 В принципе, взятие разностей может проводиться до тех пор, пока график данных не пока- жет, что ряд изменяется в окрестности некоторого фиксированного уровня, а выборочные автокорреляции довольно быстро обрываются. Число повторений взятия разности, необхо- димых для получения стационарного поведения данных, обозначается буквой d. Модели для нестационарных временных рядов называются авторегрессионными ин- тегральными моделями со скользящим средним и обозначаются ARIMA(p, q, d).7 Здесь параметр р соответствует порядку авторегрессионной части модели, параметр d опреде- ляет разностный порядок, а параметру указывает порядок компоненты скользящего среднего. Если исходный ряд является стационарным, то d = 0 и модель ARIMA упроща- ется до модели ARMA. Поэтому начиная с этого момента запись (р, d, q) будет приме- няться для обозначения моделей как стационарных (d = 0), так и нестационарных (d > 0) временных рядов. Несмотря на то что в моделях ARIMA фигурируют разности, из подобранной модели всегда может быть сделан прогноз непосредственно для исходных временных рядов. 2. После того как будет получен стационарный ряд, аналитику необходимо опреде- лить общие характеристики модели, которую предполагается использовать. На этом шаге выполняется сравнение коэффициентов автокорреляции и частной ав- токорреляции, рассчитанных для данных, с теоретическими значениями для различных моделей ARIMA. Чтобы облегчить выбор подходящих моделей, на рис. 9.2-9.4 были приведены теоретические значений коэффициентов корреляции для наиболее распро- страненных типов моделей. Каждая модель ARIMA имеет собственный характерный набор коэффициентов авто- корреляции и частной автокорреляции, и аналитик должен уметь сопоставлять выбороч- ные значения с теоретическими. При определении подходящей модели ARIMA на основе структуры выборочных функций автокорреляции и частной автокорреляции может иметь место некоторая неод- нозначность. Поэтому начальный выбор модели должен рассматриваться как пробный. Анализ адекватности выбранной модели выполняется на 2 и 3 шагах. В случае ее неадек- 6 Если модель ARIMA подбирается для разностного ряда, постоянный член фо может оказаться ненуж- ным. 7 Термин “интегральный ” означает, что для получения исходного ряда разности необходимо просуммиро- вать (или интегрировать).
464 ГЛАВА 9 ватности можно попытаться применить иную модель. С накоплением собственного практического опыта аналитику будет проще подобрать адекватную модель. Следует помнить, что если выборочные автокорреляции экспоненциально стремятся к нулю, а частные автокорреляции быстро отсекаются, то в модели должны присутство- вать авторегрессионные слагаемые. Если выборочные автокорреляции быстро отсекают- ся, а частные автокорреляции плавно стремятся к нулю, то в модели должны присутство- вать слагаемые скользящего среднего. Если же оба графика, как выборочной автокорре- ляции, так и частной автокорреляции, плавно стремятся к нулю, то это указывает на не- обходимость включить в модель слагаемые обоих типов— как регрессионные, так и скользящего среднего. Порядок составляющих МА и AR можно определить, сосчитав количество значимых слагаемых в выборочных автокорреляциях и частных автокорреля- циях. Для того чтобы сделать вывод о значимости коэффициентов корреляции обоих ти- пов, их значение обычно сравнивают с величиной ± 2/V« , где п — количество наблюде- ний в исследуемом временном ряду. Такое ограничение оправдывается в тех случаях, когда п достаточно велико. При равных условиях всегда следует отдавать предпочтение более простым моделям. Это правило известно как принцип экономии. Имея ограниченное количество данных, отно- сительно просто найти модель с большим числом параметров, которая будет хорошо их ап- проксимировать. Однако прогноз на основе такой модели будет, вероятнее всего, плохим вследствие большого разброса значений данных, вызванного наличием случайных ошибок в моделировании. Поэтому нашей главной целью является построение наиболее простой модели, что позволит адекватно отразить основные особенности имеющихся данных. Принцип экономии состоит в предпочтении простой модели более сложной. Этап 2. Оценка модели 1. После того как пробная модель будет выбрана, необходимо выполнить оценку ее параметров. В моделях ARIMA значения параметров подбираются путем минимизации суммы квадратов ошибок подгоночных параметров. В общем случае для реализации этой проце- дуры должен применяться нелинейный метод наименьших квадратов. Нелинейный ме- тод наименьших квадратов — это алгоритм нахождения минимума функции суммы квад- ратичных ошибок. После завершения процедуры минимизации ошибок и определения стандартной ошибки, величина t вводится и интерпретируется обычным образом. Пара- метры, которые в модели оказывают существенное влияние на ее поведение, оставляют- ся, а те, которые будут несущественны, — отбрасываются. Например, пусть модель ARIMA( 1,0,1) сопоставляется с рядом, содержащим 100 наблюдений, и эмпирическое уравнение имеет вид: у= 33,4 +0,251^-0,5Е,_, (7,02) (0,17) (0,21)’ где числа в скобках под коэффициентами подгонки равны их стандартным ошибкам. Так как отношение t для коэффициента при авторегрессионном члене будет t = 0,25/0,17 = 1,47
Метод Бокса-Дженкинса (ARIMA) 465 (при р = 0,14), гипотеза Но: ф[ = 0 пригодна и это слагаемое можно удалить из модели. Тогда к данным применяется модель ARIMA(0,0,1), т.е. МА(1). 2. Дополнительно вычисляются остаточная среднеквадратическая ошибка s2 и оценка изменений ошибки £,. Остаточная среднеквадратическая ошибка определяется как8 , (9.4) 5 = —---= —--------, n-r n-r где e, = Y, - Yt — остаток в момент времени t; п — количество остатков; г — общее число оцениваемых параметров. Остаточная среднеквадратическая ошибка применяется для сравнения и оценки различ- ных моделей. Кроме того, она используется для определения граничной ошибки прогно- зирования. Этап 3. Проверка модели Прежде чем можно будет приступить к прогнозированию, модель должна пройти про- верку на адекватность. В целом модель является адекватной, если полученные остатки нельзя использовать для дальнейшего уточнения прогнозов. Иначе говоря, остатки должны быть случайными. 1. Большинство графиков остатков, применяемых в регрессионном анализе, можно также использовать и для анализа остатков в модели ARIMA. Особенно полезны- ми являются гистограмма остатков и график их нормального распределения (для проверки нормальности), а также график их временной последовательности (для проверки разброса значений). 2. Отдельные остаточные автокорреляции rt(e) должны быть малыми и должны на- ходиться в окрестности нуля внутри диапазона ± 2/V« . Значительная остаточная автокорреляция при малых или сезонных периодах запаздыва- ния означает, что выбранная модель не является адекватной и необходимо подобрать другую модель или модифицировать имеющуюся. 3. Поведение функции остаточной автокорреляции в целом должно соответствовать автокорреляциям, полученным для набора случайных ошибок. Общая проверка адекватности модели проводится с помощь теста “хи-квадрат” (/2), ко- торый базируется на g-статистике Льюинга-Бокса. Этот тест оценивает общие размеры остаточных коэффициентов автокорреляции. Тестовая g-статистика имеет вид s * s Квадратный корень из s2, s = ys2 , является аналогом стандартной ошибки оценки (см. уравне- ние 7.4).
466 ГЛАВА 9 е.=»(»+2Ё^ (9'5) t=i п-к и приблизительно распределена как ^-случайное распределение с п - г степенями свобо- ды, где г — это общее число подгоночных параметров модели ARIMA. В уравнении 9.5 г£е) — остаточные автокорреляции на интервале к; п — количество остатков; т — количество временных интервалов, включаемых в проверку. Если величинар, связанная с g-статистикой, мала (скажем, р < 0,05), то рассматри- ваемая модель неадекватна. Аналитику следует подобрать новую или модифицировать имеющуюся модель и продолжать анализ до тех пор, пока не будет найдена модель, удов- летворяющая всем требованиям. Важную роль в достижении успеха при построении модели играет личная оценка ана- литика. Если две простые конкурирующие модели способны адекватно описывать дан- ные, то проблему выбора можно решить только исходя из природы тех данных, для кото- рых делается прогноз. В некоторых случаях также допустимо проигнорировать несколько больших остатков, если их появление можно объяснить случайными обстоятельствами, а в целом, для остальных наблюдений, модель будет вполне адекватной. Этап 4. Прогнозирование на основе выбранной модели 1. Когда адекватная модель найдена, можно делать прогнозы на один или несколько периодов вперед. На основе прогнозов также можно построить интервалы предсказания. В общем случае (для заданного доверительного уровня), чем больший период прогнозируется, тем шире будет интервал предсказания. Это вполне понятно, поскольку очевидно, что прогноз на более удаленный период времени будет менее точен, чем, скажем, прогноз следующего наблюдения. Расчет прогнозов и интервалов предсказания — занятие малоинтересное, поэтому его лучше доверить компьютерам. Прикладные программы, работающие с моде- лями ARIMA, способны по требованию аналитика выдать результаты вычисления про- гнозов и интервалов предсказания. 2. Как только станут доступны новые данные наблюдений, ту же модель ARIMA мож- но применить для модифицированного прогноза, с иным началом отсчета времени. 3. Если характер поведения ряда меняется, новые данные могут послужить для пе- реоценки параметров модели или, если в этом есть необходимость, для разработ- ки совершенно новой модели. Хорошей идеей является постоянный мониторинг ошибки прогнозирования. Если ам- плитуда ошибки значительно возрастает со временем, то может потребоваться пересмотр используемой модели. При этом выполняется очередная итерация в стратегии разработ- ки модели. Это замечание будет справедливо и в том случае, когда последние ошибки по- стоянно больше (недооценка) или меньше (переоценка) нуля.
Метод Бокса-Дженкинса (ARIMA) 467 Пример 9.3 Компания Cameron Consulting специализируется на обслуживании портфеля ценных бумаг. Перед аналитиком компании, Линн Стивенс (Lynn Stephens), была поставлена задача разра- ботки более четкой методики прогнозирования индекса Доу-Джонса. В недавнем прошлом Линн посещала семинар по методологии Бокса-Дженкинса и решила попробовать применить этот подход к прогнозированию индекса перевозок. В табл. 9.4 представлены последние 65 ежедневных средних заключительных значений индекса перевозок для летних месяцев. Таблица 9.4. Ежедневные заключительные средние значения индекса перевозок Период Индекс Период Индекс Период Индекс 1 222,34 23 233,05 45 253,41 2 222,24 24 235,00 46 252,04 3 221,17 25 236,17 47 248,78 4 218,88 26 238,31 48 247,76 5 220,05 27 241,14 49 249,27 6 219,61 28 241,48 50 247,95 7 216,40 29 246,74 51 251,41 8 217,33 30 248,73 52 254,67 9 219,69 31 248,83 53 258,62 10 219,32 32 248,78 54 259,25 11 218,25 33 249,61 55 261,49 12 220,30 34 249,90 56 264,95 13 222,54 35 246,45 57 268,21 14 223,56 36 247,57 58 272,16 15 223,07 37 247,76 59 272,79 16 225,36 38 247,81 60 275,03 17 227,60 39 250,68 61 278,49 18 226,82 40 251,80 62 281,75 19 229,69 41 251,07 63 285,70 20 229,30 42 248,05 64 286,33 21 228,96 43 249,76 65 288,57 22 229,99 44 251,66 Линн начала анализ с рассмотрения графика исходных данных, показанного на рис. 9.5. В ряду явственно присутствовал возрастающий тренд. Следующим ее шагом в определении пробной модели было рассмотрение выборочной функции автокорреляции данных, показан- ной на рис. 9.6. Линн отметила, что первые несколько коэффициентов автокорреляции по- стоянно имеют большое значение и стремятся к нулю весьма медленно. Она поняла, что ее
468 ГЛАВА 9 первоначальные выводы о наличии тренда были верными и что исходный временной ряд яв- ляется нестационарным, т.е. его значения нельзя считать изменяющимися относительно не- которого фиксированного уровня. Daily Closing Averages of the Transportation Index Puc. 9.5. График значений ежедневного заключительного среднего индекса Доу-Джонса для перевозок (приложение Minitab) Autocorrelation Pattern for Transportation Index Puc. 9.6. Выборочная автокорреляционная функция для индекса перевозок (приложение Minitab) Линн решила вычислить разности данных с целью проверить, позволит ли это устранить тренд и получить стационарный ряд. На графике разностных данных (он не показан) все из- менения происходят в окрестности определенного фиксированного уровня. Оказалось, что выборочным средним для разностей является значение 1,035. Выборочные автокорреляции для разностей показаны на рис. 9.7, а выборочные частные автокорреляции — на рис. 9.8.
Метод Бокса-Дженкинса (ARIMA) 469 Autocorrelation Pattern for Transportation Index Differenced 6 11 Puc. 9.7. Выборочная автокорреляционная функция для первых разностей индекса перевозок (приложение Minitab) Partial Autocorrelations for Transportation Data Differenced Puc. 9.8. Выборочная частная автокорреляционная функция для первых разностей индекса перевозок (приложение Minitab) Линн была в недоумении. Сравнение коэффициентов автокорреляции с их предельной ошибкой показало, что существенной была только автокорреляция на первом временном ин- тервале. Аналогично для коэффициентов частной автокорреляции существенным был только интервал 1. Коэффициенты автокорреляции отсекались после первого интервала, указывая на поведение, характерное для модели МА(1). И в то же время коэффициенты частной авто- корреляции также отсекались после этого же интервала, указывая на поведение, характерное уже для модели AR(1). Обе выборки не проявляли плавного убывания значений коэффициентов. В результате Линн решила применить к индексу перевозок обе модели — ARIMA(1,1,O) и ARIMA(O,1,1). Кроме того, она решила включить в каждую модель постоянное слагаемое, чтобы учесть тот факт, что изменения в ряду разностей проявляются в окрестности уровня, находящегося вы- ше нуля. Если индекс перевозок обозначить как У„ то разностный ряд будет ДУ, = У, - У,.] и модель, построенная Линн, будет иметь следующий вид. ARIMA( 1,1,0): ДУ, = ф0 +ф, ДУ,_, + е, ARIMA(0,l,l): ДУ, = р. + Е, - (»!£,_!
470 ГЛАВА 9 Распечатка результатов расчета в приложении Minitab для модели Линн представлена в листинге 9.1. Остаточные автокорреляции для применяемой модели ARIMA( 1,1,0) показаны на рис. 9.9. Листинг 9.1. Распечатка приложения Minitab для моделей ARIMA(1,1,0) и ARIMA(0,1.1), описывающих индекс перевозок ARIMA(1,1,0): Model for Transportation Index Final Estimates of Parameters Type Coef SE Coef T P AR 1 0.2844 0.1221 2.33 0.023 Constant 0.7408 0.2351 3.15 0.003 Differencing: 1 regular difference Number of observations: Original series 65, after differencing 64 Residuals: SS = 219.223 (backforecasts excluded) MS = 3.536 DF = 62 Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 11.8 29.1 37.1 48.1 DF 10 22 34 46 P-Value 0.297 0.141 0.328 0.389 Forecasts from period 65 95 Percent Limits Period Forecast Lower Upper Actual 66 289.948 286.262 293.634 ARIMA(0,l,l) Model for Transportation Index Final Estimates of Parameters Type Coef SE Coef T P MA 1 -0.2913 0.1226 -2.38 0.021 Constant 1.0381 0.3035 3.42 0.001 Differencing: 1 regular difference Number of observations: Original series 65, after differencing 64 Residuals: SS = 219.347 (backforecasts excluded) MS =3.538 DF = 62 Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 11.6 32.0 41.0 51.4 DF 10 22 34 46 P-Value 0.310 0.077 0.189 0.270 Forecasts from period 65 95 Percent Limits Period Forecast Lower Upper Actual 66 290.053 286.366 293.740
Метод Бокса-Дженкинса (ARIMA) 471 Lag Corr Т LBQ Lag Corr т LBQ Lag Corr T LBQ 1 -0.00 -0.02 0.00 8 -0.06 -0.45 8.24 15 -0.09 -0.58 12.71 2 -0.05 -0.44 0.21 9 -0.16 -1.12 10.09 16 -0.17 -1.18 15.28 3 0.13 1.01 1.32 10 0.12 0.85 11.21 4 0.19 1.52 3.94 11 -0.09 -0.61 11.82 5 0.05 0.41 4.15 12 0.01 0.04 11.80 6 -0.07 -0.53 4.50 13 -0.02 -0.17 11.88 7 0.22 1.62 7.94 14 0.05 0.37 12.11 Рис. 9.9. Остаточные автокорреляции: модель ARIMA( 1,1,0), описывающая ин- декс перевозок (приложение Minitab) Обе модели одинаково хорошо описывают данные. Среднеквадратический остаток (MS) будет таким. ARIMA(1,1,O): ? = 3,536 ARIMA(O,1,1): s2 = 3,538 Линн также отметила, что константа, оцененная в модели ARIMA(O,1,1), равна ft =1,038 , т.е. фактически равна выборочному среднему разностей. На рис. 9.9 можно видеть, что для модели ARIMA( 1,1,0) нет существенных остаточных коэф- фициентов автокорреляции. Хотя остаточная автокорреляционная функция для модели ARIMA(0,l,l) здесь не показана, результат для нее такой же. ^„-статистика Льюинга-Бокса, рас- считанная для групп интервалов т = 12, 24,36 и 48, не существенна, на что указывает большая ве- личина р для обеих моделей. Поэтому Линн решает, что обе модели адекватны. Кроме того, про- гнозы на один период вперед, сделанные с помощью этих двух моделей, почти совпадают. Разрешая возникшую дилемму, Линн отдала предпочтение модели ARIMA(l,l,0), осно- вываясь на ее незначительном преимуществе в точности. Результаты проверки этой модели для периода 66 будут таковы: Y, - Г,.! = фо + Ф1(К,-1 - К,-2) + £, или К^Км + фо + ф^Км-ад + Е,, так что при ф0 =0,741 и ф, =0,284 уравнение прогноза примет следующий вид. ?бб = К65 + 0,741 + 0,284(К65 - К64) = 288,57 + 0,741 + 0,284(288,57 - 286,33) = 289,947
472 ГЛАВА 9 Прогноз согласуется с результатами, представленными в листинге 9.1. Интервал предсказа- ния реального значения на период 66, рассчитанный с помощью приложения Minitab, со- ставляет (286,3; 293,6). Пример 9.4 Аналитик компании Atron, Джим Уайт (Jim White), подготовил временной ряд данных для процесса, который необходимо было спрогнозировать. Собранные им данные представлены в табл. 9.5, а соответствующий график показан на рис. 9.10. Джим полагал, что метод Бокса- Дженкинса будет наиболее подходящим для обработки собранных им данных. Таблица 9.5. Данные по процессу, интересующему компанию Atron (читать по 60,0 99,0 75,0 79,5 61,5 88,5 72,0 90,0 81,0 25,5 78,0 64,5 81,0 51,0 66,0 78,0 72,0 93,0 66,0 99,0 76,5 85,5 73,5 87,0 78,0 75,0 97,5 72,0 84,0 58,5 66,0 99,0 61,5 57,0 60,0 78,0 57,0 90,0 73,5 72,0 78,0 88,5 97,5 63,0 84,0 60,0 103,5 57,0 76,5 61,5 66,0 73,5 78,0 60,0 84,0 82,5 96,0 84,0 78,0 66,0 81,0 72,0 72,0 79,5 66,0 49,5 97,5 87,0 67,8 76,5 72,0 87,0 78,0 64,5 73,5 Рис. 9.10. График данных по процессу, интересующему компанию Atron (приложение Minitab)
Метод Бокса-Дженкинса (ARIMA) 473 Джим начал поиск пробной модели с анализа графика данных и графика функции выбо- рочной автокорреляции, показанного на рис. 9.11. Исходный временной ряд данных характе- ризуется вариацией значений в окрестности фиксированного уровня, приблизительно рав- ного 80, а значения коэффициентов автокорреляции быстро убывают до нуля. Исходя из этого, Джим пришел к заключению, что данный временной ряд является стационарным. Sample Autocorrelations for Atron Readings о re <u о 1.0 0.8 0.6 0.4 0.2 0.0 о-0.2 2-0.4 <-0.6 -0.8 -1.0 2 7 12 Lag Corr T LBQ 1 -0.53 -4.58 21.80 2 0.28 1.95 28.07 3 -0.04 -0.25 28.19 Puc. 9.11. Выборочная автокорреляционная функция для данных компании Atron (приложение Minitab) Первый выборочный коэффициент автокорреляции (-0,53) существенно отличается от нуля для уровня 5%, поскольку находится вне диапазона 0±2—1= = 0± 2-4= = 0± 2(0,115)=0±0,23 . •Jn V75 Автокорреляция для запаздывания в 2 периода ближе к пороговому значению для уровня 5% и противоположна по знаку автокорреляции г} на интервале 1. Остальные автокорреляции малы и находятся в рамках установленных предельных ошибок. Можно предположить, что подобная структура коэффициентов автокорреляции соответствует либо модели AR(1) (см. рис. 9.2, б), либо, что также допустимо, модели МА(2), если считать, что автокорреляции от- секаются (неотличимы от нуля) уже после второго интервала. В результате Джим решил до- полнительно проанализировать график функции выборочной частной автокорреляции, пока- занный на рис. 9.12. Джим отметил, что первый коэффициент частной автокорреляции (-0,53) значительно отличается от нуля, но ни один из остальных коэффициентов частной автокорреляции не приближается к уровню значащего значения.’ В результате Джим пришел к заключению, что поведение функций выборочной автокорреляции и выборочной частной автокорреляции со- ответствует модели AR(1) (или, что то же самое, ARIMA(l,0,0)), однако чтобы полностью ис- Значение первого коэффициента частной автокорреляции равно значению первого коэффициента ав- токорреляции (оба равны -0,53). Это характерно для авторегрессионных процессов первого порядка.
474 ГЛАВА 9 ключить риск, он решил смоделировать данные также с помощью модели, МА(2) (или ARIMA(0,0,2)). Если обе модели окажутся адекватными, он сможет выбрать лучшую модель, исходя из принципа экономии. Lag РАС Т 1 -0.53 -4.58 2 0.00 0.03 3 0.15 1.34 Рис. 9.12. Выборочная частная автокорреляционная функция для данных компа- нии Atron (приложение Minitab) В листинге 9.2 приведены результаты применения приложения Minitab для моделирова- ния данных о процессе, интересующем компанию Atron, с помощью моделей AR(1) и МА(2). Постоянное слагаемое включено в обе модели, чтобы учесть тот факт, что данные изменяют- ся в окрестности уровня, отличного от нуля.10 Листинг 9.2. Распечатка приложения Minitab для моделей МА(2) и AR(1); данные компании Atron ARXMA(0,0,2) Model: Atron readings Final Estimates of Parameters Туре Coef SE Coef T P МА 1 0.5667 0.1107 5.12 0.000 МА 2 -0.3560 0.1146 -3.11 0.003 Constant 75.410 1.061 71.08 0.000 Mean 75.410 1.061 Number of observations: 75 Residuals: SS = 9724.97 (backforecasts excluded) MS = 135.07 DF = 72 '° Если бы данные выражались как отклонение от выборочного среднего, то в обеих моделях постоянное слагаемое было бы ненужным.
Метод Бокса-Дженкинса (ARIMA) 475 Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 7.0 23.8 31.8 46 . 9 DF 9 21 33 45 Р-Value 0.638 0.305 0.526 0.394 Forecasts from period 75 95 Percent Limits Period Forecast Lower Upper Actual 76 80.648 57.864 103.431 77 78.169 51.982 104.356 78 75.410 47.996 102.825 ARXMA(1,0,0) Model: Atron readings Final Estimates of Parameters Type Coef SE Coef T P AR 1 -0.5379 0.0986 -5.46 0.000 Constant 115.842 1.356 85.44 0.000 Mean 75.3269 0.8817 Number of observations: : 75 Residuals: SS = 10065.2 (backforecasts excluded) MS =137.9 DF = 73 Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 9.3 29.9 37.3 58.3 DF 10 22 34 46 P-Value 0.503 0.121 0.3.19 0.105 Forecasts from period 75 95 Percent Limits Period Forecast Lower Upper Actual 76 77.116 54.097 100.136 77 74.364 48.227 100.502 78 75.845 48.872 102.817 Обе модели показали хорошее соответствие данным. Оцененные коэффициенты значи- тельно отличаются от нуля. Среднеквадратические ошибки сходны. МА(2): ?= 135,1 AR(1): ?= 137,9 Прогнозы на один и два периода вперед для двух этих моделей отличаются в некоторых дета- лях, однако прогнозы на три периода вперед (период 78) весьма близки. При фиксированном источнике для предсказаний, прогнозы для стационарных процессов становятся, в конечном счете, равны предполагаемому среднему уровню. В рассматриваемом случае предполагаемый средний уровень приблизительно равен р = 75 для обеих моделей. ^„-статистика Льюинга-Бокса (модифицированная статистика Бокса-Пирса) незначи- тельна для коэффициентов корреляции на интервалах т = 12, 24, 36 и 48 для обеих моделей. Остаточная автокорреляционная функция для модели AR(1) показана на рис. 9.13. Отдельные
476 ГЛАВА 9 остаточные коэффициенты автокорреляции малы и находятся в рамках их предельных оши- бок. Остаточная автокорреляционная функция для модели МА(2) аналогична. Не вызывает сомнений тот факт, что ошибки случайны в обеих этих моделях. Residual Autocorrelations: ARIMA (1,0,0) о re о> 1.0 0.8 0.6 0.4 0.2 0.0 о-0.2 2-0.4 <-0.6 -0.8 -1.0 2 7 12 17 Lag Corr Т LBQ Lag Con- т LBQ Lag Con- T LBQ 1 0.01 0.10 0.01 8 0.10 0.78 7.88 15 0.13 1.02 12.52 2 0.09 0.75 0.61 9 -0.02 -0.17 7.93 16 -0.11 -0.85 13.75 3 0.15 1.31 2.47 10 -0.09 -0.69 8.61 17 -0.16 -1.21 16.31 4 0.09 0.77 3.14 11 0.01 0.11 8.62 18 -0.02 -0.17 16.36 5 0.16 1.37 5.36 12 -0.09 -0.68 9.31 6 -0.04 -0.29 5.47 13 0.02 0.18 9.35 7 0.14 1.11 7.07 14 -0.13 -0.98 10.85 Рис. 9.13. Автокорреляционная функция остатков модели AR(1) (приложение Minitab) Поскольку модель AR(1) имеет два параметра (включая постоянное слагаемое), а модель МА(2) — три (включая постоянное слагаемое), Джим, в соответствии с принципом экономии, для прогноза будущих значений данных решил воспользоваться более простой моделью AR( 1). Уравнение прогноза AR(1) будет иметь вид" Y, = 115,842 + (-0,538)К,_! = 115,842 - 0,538Ги, так что для периода 76 У76= 115,842-0,538К75= 115,842 - 0,538(72) = 77,11 . Помимо этого, прогноз на два периода вперед будет следующим. У77 = 115,842 - 0,538К76 = 115,842 - 0,538(77,11) = 74,36 Джим был доволен тем, что эти результаты согласуются с результатами в распечатке прило- жения Minitab. Пример 9.5 Джим Уайт был удовлетворен результатами своего анализа временного ряда данных, приве- денных в табл. 9.5. Теперь он решил воспользоваться методом Бокса-Дженкинса для прогно- " Член ошибки Е, отбрасывается, поскольку для прогноза f, наилучшим приближением будет равное нулю.
Метод Бокса-Дженкинса (ARIMA) 477 зирования ошибок (отклонения от намеченных цифр), обнаруживаемых при контроле каче- ства производственного процесса, находящегося под его управлением. Соответствующие данные приведены в табл. 9.6, а график этого временного ряда ошибок показан на рис. 9.14. Таблица 9.6. Ошибки, обнаруженные при контроле качества в компании Atron (читать по столбцам) -0,23 -0,20 -1,93 -0,97 0,10 0,63 -0,21 1,87 0,83 -0,62 0,48 0,91 -0,97 -0,33 2,27 -0,83 -0,36 0,46 0,91 -0,62 -0,03 0,48 2,12 -1,13 0,74 1,31 0,61 -2,11 2,22 -0,16 0,86 -1,38 0,70 0,80 1,34 -1,28 -0,04 0,69 -1,95 -1,83 0 0,90 -0,24 2,61 0,31 -0,63 1,79 0,34 0,59 1,13 0,08 -0,37 0,60 0,71 -0,87 -1,30 0,40 0,15 -0,84 1,45 1,48 -1,19 -0,02 -0,11 -1,95 -0,28 0,98 0,46 1,27 -0,51 -0,79 -1,51 -0,54 -0,80 -0,41 1,86 0,90 0,89 -0,76 0,49 0,07 -1,56 1,07 1,58 1,54 0,09 2,18 0,20 -0,38 -0,96 Джим начал процесс определения модели с изучения графика временного ряда ошибок, а также проверки функций автокорреляции и частной автокорреляции, показанных на рис. 9.15 и 9.16. Графики временного ряда и автокорреляционных функций указывают на стационарность данного ряда. Поскольку имеется только один значимый коэффициент авто- корреляции (для интервала 1, значение -0,50), а все остальные коэффициенты малы и нахо- дятся в рамках принятого диапазона незначимости, можно считать, что выборочные коэффи- циенты автокорреляции отсекаются уже после первого интервала. График частной автокор- реляции начинается со значимого значения для интервала 1, причем первые три коэффици- ента выборочной частной автокорреляции отрицательны и плавно затухают возле нуля. Можно сделать вывод, что поведение выборочных коэффициентов автокорреляции и частной автокорреляции весьма сходно с теоретическими показателями для процесса МА(1) (или ARIMA(0,0,l)), представленными на рис. 9.3, а. Джим пришел к заключению, что исследуе- мый им временной ряд можно описать с помощью модели МА(1).
478 ГЛАВА 9 Errors (deviations from target) for Atron Quality Control Puc. 9.14. Ошибки (отклонения от намеченных цифр), обнаружен- ные при контроле качества в компании Atron (приложение Minitab) Autocorrelation 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 Autocorrelation Pattern for Atron Quality Control 2 12 22 Lag Corr т LBQ 1 -0.50 -4.70 22.86 2 0.09 0.69 23.59 3 -0.06 -0.43 23.89 Puc. 9.15. Функция выборочной автокорреляции для данных контроля качества компании Atron (приложение Minitab)
Метод Бокса-Дженкинса (ARIMA) 479 Partial Autocorrelation Pattern for Atron Quality Control re 0.6 S 0.4 5-0.4 s -0.6 re-0.8 °--1.0 2 12 22 Lag РАС T 1 -0.50 -4.70 2 -0.21 -1.98 3 -0.15 -1.39 4 -0.01 -0.11 Puc. 9.16. Функция выборочной частной автокорреляции для данных контроля ка- чества компании Atron (приложение Minitab) Для моделирования данных согласно модели МА(1) Джим использовал приложение Minitab. Результаты расчетов приведены в листинге 9.3. Листинг 9.3. Распечатка приложения Minitab для модели МА(1); данные контроля качества компании Atron ARXMA.(0,0,1) Model: Atron Quality Control Final Estimates of Parameters Type Coef SE Coef T P MA 1 0.5875 0.0864 6.80 0.000 Constant 0.15129 0.04022 3.76 0.000 Mean 0.15129 0.04022 Number of observations: 90 Residuals: SS = 74.4933 (backforecasts excluded) MS = 0.8465 DF = 88 Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 9.1 10.8 17.3 31.5 DF 10 22 34 46 P-Value 0.524 0.977 0.992 0.950 Forecasts from period 90 95 Percent Limits
480 ГЛАВА 9 Period Forecast Lower 91 0.43350 -1.37018 92 0.15129 -1.94064 Upper 2.23719 2.24322 Actual Параметры в модели MA(1) оцениваются как |1 = 0,1513 и =0,5875 . Каждый из них существенно отличается от нуля. Функция остаточной автокорреляции показана на рис. 9.17, а %2-статистика Льюинга-Бокса (модифицированная статистика Бокса-Пирса) указывает на случайность ошибок. Residual Autocorrelations: ARIMA (0,0,1) о re <u о 1.0 - 0.8 - 0.6 - 0.4 - 0.2 - 0.0 - о-0.2 - 2 -0.4 - <-0.6 - -0.8 - -1.0 - 2 12 22 g Corr т LBQ Lag Corr T LBQ Lag Corr T LBQ 1 -0.05 -0.47 0.23 9 -0.17 -1.55 6.47 17 0.01 0.05 9.94 2 0.08 0.72 0.78 10 0.02 0.14 6.50 18 -0.04 -0.35 10.13 3 0.00 0.04 0.78 11 0.15 1.31 8.74 19 -0.05 -0.45 10.44 4 0.06 0.60 1.17 12 0.06 0.49 9.08 20 -0.00 -0.03 10.44 5 -0.03 -0.28 1.25 13 0.02 0.20 9.14 21 -0.04 -0.35 10.63 6 -0.11 -1.05 2.50 14 0.08 0.66 9.76 22 0.00 0.02 10.63 7 0.10 0.94 3.52 15 0.02 0.14 9.79 8 -0.02 -0.16 3.55 16 -0.04 -0.32 9.94 Рис. 9.17. Автокорреляционная функция для остатков модели МА(1) (приложение Minitab) Уравнение прогноза по модели МА(1) будет следующим. i;=ji-&,£,_!= 0,1513-0,5875е,_, , гдев,_| оценивается с помощью соответствующего остатка е,ч. Для прогноза ошибки (отклонения от намеченных цифр) на период 91 нужен остаток для периода 90, е90 = -0,4804. Джим вычислил следующее. У91 = 0,1513 - 0,5875(-0,4804) = 0,4335 Прогноз Джима относительно ошибки контроля качества в период 92 является просто пред- полагаемым средним ряда, так как, в начале прогноза t = 90, наилучшей оценкой порядка ошибки в период 91, в91, является нуль. Таким образом, У92 = 0,1513 - 0,5875(0) = 0,1513.
Метод Бокса-Дженкинса (ARIMA) 481 Джим был рад увидеть, что вычисленный им прогноз согласуется с прогнозом, рассчитанным в приложении Minitab. Пример 9.6 Аналитик компании Atron, Джим Уайт, был удовлетворен результатами прогнозирования ошибок при контроле качества. К этим данным он применил метод Бокса-Дженкинса, о чем подробно рассказывалось в примере 9.5. На одной из конференций Джим встретился со сво- им старым другом Эдом Джонсом (Ed Jones) и рассказал ему о достигнутом успехе. В своей работе Эду приходилось сталкиваться с аналогичными трудностями, и поэтому он также ре- шил попробовать применить метод Бокса-Дженкинса. Данные, с которыми работал Эд, при- ведены в табл. 9.7, а график этого временного ряда представлен на рис. 9.18. Таблица 9.7. Ошибки контроля качества, рассматриваемые Эдом Джонсом (читать 0,77 1,04 -2,46 -0,73 -0,23 0,33 1,02 -0,37 0,10 1,05 2,15 -2,03 0,80 -1,47 -0,66 2,50 -2,54 0,49 -0,89 0,25 1,36 -0,23 0,50 -0,53 -0,63 0,48 0,49 0,07 -0,20 0,91 2,05 -0,87 1,92 -0,70 -0,21 -1,46 0,61 1,00 -0,27 0,24 -1,13 0,20 2,16 0,39 0,05 -2,85 0,98 0,04 -0,07 0,85 -2,67 0,78 1,91 0,89 1,55 -2,71 0,80 0,43 0,37 0,40 -1,30 0,86 -0,32 -0,75 1,82 -0,88 1,72 -0,48 -1,24 0,81 -0,07 0,15 -0,13 -0,62 0,28 -1,47 -1,15 -2,26 -0,54 1,06 Общий вид графиков исходного временного ряда и функции выборочной автокорреляции (рис. 9.19) наводит на мысль о том, что исходный ряд ошибок контроля качества является стационарным. Значения ошибок колеблются около фиксированного уровня — нуля, а авто- корреляции быстро и плавно затухают.
482 ГЛАВА 9 Errors for Ed Jones' Quality Control Puc. 9.18. Ошибки (отклонения от намеченных цифр) контроля ка- чества, рассматриваемые Эдом Джонсом (приложение Minitab) Autocorrelation Pattern for Jones' Quality Control Errors Puc. 9.19. Выборочные автокорреляции для данных контроля качества, рассмат- риваемых Эдом Джонсом (приложение Minitab) Эд отметил, что два первых коэффициента автокорреляции существенно отличны от нуля и, что, наверное, более важно, коэффициенты автокорреляции для первых нескольких ин- тервалов затухают подобно тому, как это определено в теоретическом описании процессов типа AR(1) (см. рис. 9.2, а). Эд также проанализировал график функции выборочной частной
Метод Бокса-Дженкинса (ARIMA) 483 автокорреляции, представленный на рис. 9.20. Как он и предполагал, все коэффициенты ча- стной автокорреляции, кроме первого, практически незначимы12. В совокупности структура функций выборочной автокорреляции и выборочной частной автокорреляции точно соответ- ствовала процессам типа AR(1). Поэтому Эд решил, что данные ряда ошибок (отклонений от намеченных цифр) можно адекватно смоделировать как процесс AR(1) или же ARIMA(l,0,0). Partial Autocorrelations for Ed Jones' Quality Control c 1.0 ° 0.8 « 0.6 2 0.4 k. _ Л «-0^8 “-1.0 Lag РАС T Lag РАС T 1 0.49 4.41 4 0.01 0.10 2 0.14 1.21 5 -0.27 -2.45 3 -0.03 -0.26 Puc. 9.20. Выборочные частные автокорреляции для данных контроля качества, рассматриваемых Эдом Джонсом (приложение Minitab) В листинге 9.4 приведены результаты первых попыток Эда по применению методологии Бокса-Дженкинса, рассчитанные в приложении Minitab. Поскольку выборочное среднее ряда ошибок чрезвычайно мало (порядка нуля) по сравнению со стандартным отклонением, Эд не включил в модель постоянный член. Листинг 9.4. Распечатка приложения Minitab для модели AR(1); данные контроля качества, рассматриваемые Эдом Джонсом ARIMA(1,0,0) Model: Ed Jones* Quality Control Errors Final Estimates of Parameters Type Coef SE Coef AR 1 0.5008 0.0980 T 5.11 P 0.000 Number of observations: 80 Residuals: SS = 86.8808 (backforecasts excluded) MS = 1.0998 DF = 79 12 Эд посчитал, что значительный коэффициент частной автокорреляции на интервале 5 появился в ре- зультате ошибки выборки в наблюдениях, поскольку он не смог найти осмысленного объяснения того, почему ошибки контроля качества должны коррелировать между собой с запаздыванием в пять периодов.
484 ГЛАВА 9 Modified Box-Pierce Lag 12 Chi-Square 10.7 DF 11 P-Value 0.468 (Ljung-Box) 24 19.5 23 0.669 Chi-Square statistic 36 48 36.2 44.2 35 47 0.410 0.591 Forecasts Period 81 82 from period 80 95 Percent Forecast Lower 0.53088 -1.52498 0.26588 -2.03340 Limits Upper 2.58673 2.56515 Actual Параметр модели AR(1) оценивается как ф, = 0,501 и значительно отличается от нуля (/ = 5,11). Остаточная среднеквадратическая ошибка s2 = 1,0998. График остатков (не приво- дится), /-статистика Льюинга-Бокса и график функции остаточной автокорреляции (рис. 9.21) позволяют предположить, что найденная модель адекватна. Нет никаких причин сомневаться в соблюдении основного требования к значениям ошибок. Lag Corr T LBQ Lag Corr T LBQ Lag Corr T LBQ 1 -0.07 -0.62 0.40 8 -0.10 -0.85 9.66 15 -0.03 -0.23 11.86 2 0.11 1.01 1.48 9 0.01 0.11 9.68 16 -0.18 -1.42 15.15 3 0.00 0.02 1.48 10 -0.04 -0.31 9.81 17 0.05 0.37 15.38 4 0.18 1.57 4.22 11 0.04 0.36 10.00 18 -0.08 -0.59 15.99 5 -0.19 -1.60 7.31 12 -0.09 -0.69 10.71 19 -0.03 -0.21 16.08 6 7 -0.04 -0.32 -0.12 -0.97 7.44 8.68 13 14 0.10 0.03 0.80 0.23 11.69 11.77 20 -0.07 -0.54 16.62 Рис. 9.21. Автокорреляционная функция остатков для модели AR(1) (приложение Minitab) Уравнение прогноза имеет следующий вид. Г, = 0,501 У,ч Таким образом, прогнозы на периоды 81 и 82 будут следующими. У81 = 0,501У80 = 0,501(1,06) = 0,531 У82 = 0,501Г8| = 0,501(0,531) = 0,266
Метод Бокса-Дженкинса (ARIMA) 485 Прогнозы, полученные Эдом, находятся в согласии с прогнозами на один и два периода впе- ред, рассчитанными в приложении Minitab. В результате, поскольку это был его первый опыт применения метода Бокса-Дженкинса, у Эда появилась идея опробовать чуть более сложную модель, чтобы получить результаты, ко- торые подтверждали бы его выбор в пользу модели AR(1). Он решил использовать для анали- за ошибок контроля качества дополнительный параметр и опробовать модель ARMA(1,1) (или ARIMA(1,O,1)). Эд обосновал это решение тем, что если выбранная им прежде модель верна, то дополнительный параметр скользящего среднего в новой модели будет давать очень незначительный вклад. Результаты моделирования в приложении Minitab исходного ряда данных на основе моде- ли ARIMA(1,0,1) приведены в листинге 9.5. Эд был удовлетворен, увидев, что параметр МА(1) не слишком отличается от нуля (t = 1,04), а это означает, что в модели он не нужен. Конечно, поскольку это более общая модель, нежели модель AR(1), ее адекватность представления данных, по меньшей мере, такая же, что подтверждается значением s2 = 1,0958 и случайным поведением остатков. Листинг 9.5. Распечатка приложения Minitab для модели ARIMA(1,0,1); данные контроля качества, рассматриваемые Эдом Джонсом ARIMA(1,0,1) Model: Ed Jones' Quality Control Errors Final Estimates of Parameters Type Coef SE Coef AR 1 0.6671 0.1628 MA 1 0.2204 0.2121 T 4.10 1.04 P 0.000 0.302 Number of observations: 80 Residuals: SS = 85.4710 (backforecasts excluded) MS = 1.0958 DF = 78 Modified Box-Pierce Lag 12 Chi-Square 8.8 DF 10 P-Value 0.547 (Ljung-Box) 24 17.5 22 0.737 Chi-Square statistic 36 48 32.2 38.7 34 46 0.555 0.770 Forecasts Period 81 82 from period 80 95 Percent Forecast Lower 0.52814 -1.52399 0.35230 -1.89526 Limits Upper 2.58027 2.59985 Actual Пример 9.7 Перед аналитиком компании ISC, Джил Блейк (Jill Blake), была поставлена задача составить прогноз заключительных цен на акции компании. Стоимость акций постоянно менялась, то возрастая, то убывая, и руководству нужны были какие-нибудь перспективные оценки для обсуждения этого вопроса на совете директоров. Данные о стоимости акций компании ISC приведены в табл. 9.8, а соответствующий график показан на рис. 9.22.
486 ГЛАВА 9 Таблица 9.8. Заключительные цены на акции компании ISC (читать по столбцам) 235 200 250 270 275 320 290 225 240 205 115 220 125 275 265 355 400 295 225 245 190 275 250 285 170 320 185 355 250 175 275 370 280 310 270 205 255 370 220 225 295 285 250 320 340 240 250 290 215 190 355 300 225 260 250 175 225 270 190 300 285 285 180 295 195 Рис. 9.22. Заключительные цены на акции компании ISC (приложе- ние Minitab) Из графика курса акций следует, что данный ряд является стационарным, поскольку зна- чения ряда колеблются около фиксированного уровня, равного (приблизительно) 250. Джил решила, что поставленной задаче в наибольшей степени соответствует метод Бокса- Дженкинса, и поэтому начала работу с того, что рассчитала в приложении Minitab функции выборочной автокорреляции и выборочной частной автокорреляции для имеющегося вре- менного ряда курса акций. Результаты этих расчетов приведены на рис. 9.23 и 9.24.
Метод Бокса-Дженкинса (ARIMA) 487 Autocorrelation Pattern for ISC Closing Stock Prices Puc. 9.23. График выборочной автокорреляции для курса акций компании ISC (приложение Minitab) Partial Autocorrelation Pattern for ISC Closing Stock Prices Puc. 9.24. График выборочной частной автокорреляции для курса акций компании ISC (приложение Minitab) Джил обратила внимание на то, что коэффициенты выборочной автокорреляции меняют знак и убывают до нуля на нескольких первых интервалах. Выборочные частные автокорре- ляции ведут себя подобным образом, но в них присутствует полное (до нуля) отсечение после интервала 2. Джил была знакома с теоретической структурой коэффициентов автокорреля- ции и частной автокорреляции в процессах AR(2) (см. рис. 9.2, г) и решила сопоставить дан- ные имеющейся выборки с одной из этих структур. По результатам анализа она выбрала мо- дель AR(2) (или же ARIMA(2,0,0)). Для оценки параметров выбранной модели Джил использовала приложение Minitab. Что- бы учесть ненулевой уровень колебания данных, в уравнение был включен постоянный член. Результаты расчетов показаны в листинге 9.6. . Листинг 9.6. Распечатка приложения Minitab для модели ARIMA(2,0,0); данные о курсе акций компании ISC ARIMA(2,0,0) Model: ISC Closing Stock Prices Final Estimates of Parameters
488 ГЛАВА 9 Туре Coef SE Coef T P AR 1 -0.3243 0.1246 -2.60 0.012 AR 2 0.2192 0.1251 1.75 0.085 Constant 284.903 6.573 43.34 0.000 Mean 257.828 5.949 Number of observations: 65 Residuals: SS = 174093 (backforecasts excluded) MS = 2808 DF = 62 Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 6.3 13.3 18.2 29.1 DF 9 21 33 45 P-Value Forecasts 0.707 0 from period 95 .899 0 65 Percent .983 0.969 Limits Period 66 67 Forecast 287.446 234.450 Lower 183.565 125.244 Upper Actual 391.328 343.656 Значение параметров оценивается как ф0 = 284,9, ф,=-0,324 и ф2= 0,219. Оценка ко- эффициента ф2 незначительна (/= 1,75) при 5%-ном уровне значимости, но при 10%-ном уровне ею пренебречь уже нельзя. Джил решила сохранить этот параметр в модели. Остаточ- ный средний квадрат ошибки s2 = 2808, а коэффициенты остаточной автокорреляции, график которых показан на рис. 9.25, хорошо укладываются в пределы двух стандартных ошибок. К тому же значения ^„-статистик Льюинга-Бокса для т= 12, 24, 36 и 48 малы. В результате Джил пришла к заключению, что данная модель является адекватной. Она применила найденную модель для получения прогноза на периоды 66 и 67, как пока- зано ниже. Из исходной точки прогнозирования t = 65, прогноз на период 66 дается уравнением ^=ф0 + ф^.1 + ф2^2 , поэтому Г66 = 284,9 + (-0,324)У65 + 0,219У64 = 284,9-0,324(195)+ 0,219(300) = 287,4. Аналогичным образом Г67 = 284,9+ (-0,324)К66 +0,219 Г65 = 284,9 - 0,324(287,4) + 0,219(195) = 234,5. Результаты согласуются с теми, которые были рассчитаны приложением Minitab (листинг 9.6). Для стационарных рядов 95%-ные пределы предсказания будут приблизительно таковы Y ±25, (9.6) где t — это прогноз, а 5 — квадратный корень из среднеквадратической ошибки. Например, 95%-ные пределы предсказания для периода 66 составят
Метод Бокса-Дженкинса (ARIMA) 489 287,4 ± 2-72808 = 287,4 ± 106 (181,4; 393,4). Этот интервал близок к тому 95%-ному интервалу, который приложение Minitab рассчитало для периода 66 (см. листинг 9.6). Lag Corr Т LBQ Lag Corr T LBQ Lag Corr T LBQ 1 0.01 0.08 0.01 8 -0.11 -0.85 3.36 15 0.07 0.49 7.68 2 -0.01 -0.08 0.01 9 -0.02 -0.18 3.40 16 0.16 1.14 9.82 3 -0.00 -0.04 0.02 10 0.10 0.77 4.20 4 -0.06 -0.49 0.27 11 0.12 0.95 5.45 5-0.16 -1.29 2.15 12 -0.10 -0.78 6.33 6 -0.05 -0.39 2.33 13 0.07 0.54 6.77 7 0.04 0.32 2.46 14 0.08 0.58 7.29 Рис. 9.25. Автокорреляционная функция для остатков модели AR(2) (приложение Minitab) Заключение В практике применения моделей ARIMA достигаемые результаты ухудшаются при попыт- ках включения AR- и MA-параметров с целью “учета всех вариантов”, демонстрируемых функциями выборочной автокорреляции и выборочной частной автокорреляции. Иначе говоря, в неясных ситуациях лучше начинать с наименьшего числа возможных параметров. Необходимость добавления новых параметров проявится на этапе изучения функции оста- точной автокорреляции и остаточной частной автокорреляции. Если в коэффициентах ос- таточной автокорреляции и остаточной частной автокорреляции наблюдается поведение, типичное для MA-процессов, то следует добавить MA-параметры, а затем дополнительно уточнить пересмотренную модель. Если в коэффициентах остаточной автокорреляции и остаточной частной автокорреляции наблюдается поведение, типичное для AR-процессов, то следует добавить AR-параметры и дополнительно уточнить пересмотренную модель. В моделях ARIMA применение метода наименьших квадратов для оценки параметров авторегрессии и скользящего среднего обычно дает хорошие результаты. Если в модели используется больше параметров, чем действительно необходимо, это приводит к “компромиссам” среди параметров и общей нестабильности модели. Нестабильная мо- дель, в свою очередь, часто порождает некачественные прогнозы.
490 ГЛАВА 9 Подводя итог, можно сказать, что правильная стратегия состоит в том, чтобы начи- нать работу с минимального количества обоснованно отобранных параметров и добав- лять их в модель лишь по мере необходимости. С другой стороны, если некоторые пара- метры в подогнанной модели ARIMA окажутся незначительными (по отношению к f), их следует удалять по одному и каждый раз заново уточнять модель. Иногда из-за высокой взаимной корреляции некоторый параметр, который ранее давал малый эффект, после очередного удаления может оказаться существенно значимым. Критерии выбора модели Модели ARIMA устанавливаются (выбираются) посредством анализа графика исследуемого ряда и сравнения структуры его функций выборочной автокорреляции и частной автокорре- ляции с известной теоретической структурой процессов ARIMA. Однако в этой процедуре присутствует определенная доля субъективизма и вполне возможно, что две (или более) моде- ли будут достаточно точно отвечать имеющейся структуре функций выборочной автокорреля- ции и частной автокорреляции. Более того, после оценки и проверки может оказаться, что обе модели вполне адекватно описывают данные. Если модели содержат одинаковое число пара- метров, то обычно предпочтение следует отдать модели с наименьшей среднеквадратической ошибкой s2 (как в примере 9.3.) Если модели содержат различное число параметров, то по принципу экономии рекомендуется более простая модель. Однако модели с большим числом параметров могут иметь существенно меньшую среднеквадратическую ошибку. Исходя из сказанного, было разработано несколько подходов к выбору модели, учи- тывающих как качество подгонки модели, так и число ее параметров. Информационный критерий Акаике (Akaike)13, или AIC, позволяет выбрать наилучшую модель из группы моделей-претендентов. Согласно этому критерию, выбирается модель, которая миними- зирует выражение А/С = 1по2+—г, (9.7) п где In — натуральный логарифм; о2 — остаточная сумма квадратов, деленная на количество наблюдений; п — количество наблюдений (остатков); г — общее количество слагаемых (включая постоянное слагаемое) в модели ARIMA. Согласно Байесовскому информационному критерию, разработанному Шварцем14 (Schwarz), или BIC, отбирается та модель, которая минимизирует следующее выражение. В/С = Ind2+ —г (9.8) п Второе слагаемое в формулах критериев AIC и BIC — это “штрафной фактор”, учиты- вающий включение в модель дополнительных параметров. Критерий BIC накладывает ” См. Akaike Н. “A New Look at the Statistical Model Identification”. IEEE Transactions Automatic Control AC-19(1974): 716-723. 14 Schwarz G. “Estimating the Dimension of a Model. ” Annals of Statistics 6 (1978): 461—464.
Метод Бокса-Дженкинса (ARIMA) 491 большее ограничение на количество параметров в сравнении с критерием AIC. Поэтому минимизация критерия BIC при выборе модели всегда даст количество параметров, не превышающее количество, устанавливаемое согласно критерию AIC. Часто оба критерия дают один и тот же результат. Критерии AIC и BIC следует рассматривать как дополнительные процедуры, призван- ные помочь при окончательном выборе модели. Они не способны полностью заменить внимательное изучение поведения выборочных коэффициентов автокорреляции и част- ной автокорреляции. Пример 9.8 В примере 9.4 Джим Уайт обнаружил, что сразу две модели ARIMA дают вполне адекватное описа- ние данных по процессу, интересующему компанию Atron. Первая — это модель AR( 1) с г = 2 под- гоночными параметрами (включая постоянный член) и а2 = 10065/75 = 134,2. Второй была мо- дель МА(2) с количеством параметров г = 3 (включая постоянный член) и о2 =9725/75 = 129,7. Джим рассчитал для обеих моделей критерии AIC и BIC, как показано ниже. AR(1): А1С = 1п(134,2)+-^-(2)= 4,8993 + 0,0533 = 4,9526 BIC = In (134,2)+^^(2) = 4,8993 + 0,1151 = 5,0144 МА(2): AIC = ln(l 29,7) + ^(з) = 4,8652 + 0,0800 = 4,9452 BIC = 1п(129,7)+^^(з)= 4,8652 + 0,1727 = 5,0379 Критерии AIC и BIC показали противоречивые результаты. Критерий AIC меньше для моде- ли МА(2), в то время как критерий BIC меньше для модели AR(1). Джим знал о том, что крите- рий BIC никогда не выбирает модели с большим числом параметров, чем критерий AIC, по при- чине своего увеличенного штрафа. Поэтому он был удовлетворен тем, что его собственный вы- бор модели AR(1), основанный на принципе экономии, подтвердился критерием BIC. Модели для сезонных данных Сезонные данные обладают отчетливой структурой, которая повторяется каждый год. Например, месячный объем продаж компании Cavanaugh (см. рис. 5.1) всегда выше поздней осенью (в октябре и ноябре). В месячных данных с годичной сезонной структурой значения для одних и тех же меся- цев в разные годы должны коррелировать между собой, т.е. январь одного года должен быть похож на январь следующего, февраль одного года — на февраль следующего и т.д. Следо- вательно, связаны между собой (коррелировать) должны не только отдельные наблюдения в течение одного и того же года, но и наблюдения с периодом, кратным целому году. Если длительность сезонного периода обозначить S, то для месячных данных с годовой структу- рой 5= 12, а для квартальных данных с такой же структурой 5 = 4. Коэффициенты автокор- реляции и частной автокорреляции подобных данных будут отличны от нуля при неболь- ших интервалах запаздывания (внутригодовые взаимосвязи) и при интервалах, кратных пе- риоду сезонности S (междугодовые взаимосвязи). Интерпретация коэффициентов автокор-
492 ГЛАВА 9 реляции и частной автокорреляции при сезонных интервалах будет такой же, как и для ко- эффициентов автокорреляции и частной автокорреляции при малых интервалах. Сезонные модели ARIMA включают в себя обычные авторегрессионные члены и чле- ны скользящего среднего, отвечающие за корреляции при низких интервалах, а также ав- торегрессионые члены и члены скользящего среднего, отвечающие за автокорреляции и частные автокорреляции при сезонных интервалах. В случае нестационарных сезонных рядов для достижения полноты описания часто необходимо дополнительно учесть в мо- дели сезонные разности. В следующих примерах иллюстрируется процесс разработки сезонных моделей ARIMA. К ним применима та же стратегия, что и к несезонным моделям. После получе- ния адекватной модели, на ее основе строится требуемый прогноз. Пример 9.9 Кейти Фишер (Kathy Fisher), аналитик компании Keytron, несет ответственность за прогно- зирование объемов продаж. Кейти удалось собрать данные об объемах продаж за 115 месяцев. Эти данные, охватывающие период с января 1987 г. по август 1996 г., представлены в табл. 9.9. Таблица 9.9. Ежемесячные объемы продаж компании Keytron (читать по столбцам) 1736,8 1627,6 1895,4 1768,0 2202,2 1708,2 2288,0 1297,4 1575,6 1822,6 1840,8 2449,2 806,0 2275,0 559,0 1682,2 2054,0 1804,4 2090,4 2028,0 2581,8 1455,6 1710,8 1544,4 2007,2 2184,0 2236,0 2540,2 1526,2 1853,8 600,6 2067,0 2267,2 2028,0 2519,4 1419,6 1788,8 1604,2 2048,8 1705,6 2100,8 2267,2 1484,6 1822,4 1796,6 2314,0 962,0 2327,0 2615,6 1651,0 1838,2 1822,6 2072,2 1929,2 2225,6 2163,2 1661,4 1635,4 1835,6 1952,6 2202,2 2321,8 899,6 1851,2 618,8 1944,8 2134,6 1903,2 2275,0 2210,0 1617,2 1593,8 2009,8 1799,2 2337,4 2171,0 2376,4 1614,6 1898,0 2116,4 756,6 2022,8 2431,0 2259,4 1757,6 1911,0 1994,2 1890,2 2225,6 2165,8 2584,4 1302,6 1695,0 1895,4 2256,8 2441,4 780,0 572,0 1757,6 1947,4 2111,2 2113,8 2056,6 1458,6 1944,8 1770,6 2080,0 2035,8 2340,0 1567,8 2108,6 626,6 2191,8 2152,8 2033,2 Кейти внимательно изучила временной ряд, график которого показан на рис. 9.26, и об- наружила в нем, наряду с возрастающим трендом, отчетливо проявляющуюся сезонную структуру. Она пришла к заключению, что данный ряд является нестационарным, и поэтому решила применить к нему сезонную модель ARIMA.
Метод Бокса-Дженкинса (ARIMA) 493 Sales of the Keytron Corporation Puc. 9.26. График объемов продаж компании Keytron (приложение Minitab) Autocorrelation Function for Sales 1.0 <-0.6 -0.8 -1.0 Lag Corr т LBQ Lag Corr T LBQ Lag Corr T LBQ 1 0.43 4.63 21.96 11 0.33 2.71 58.20 21 0.11 0.62 159.39 2 0.15 1.41 24.78 12 0.79 6.08 140.12 22 0.03 0.15 159.49 3 0.24 2.14 31.58 13 0.32 1.94 153.99 23 0.23 1.30 167.04 4 0.13 1.11 33.58 14 0.07 0.39 154.59 24 0.64 3.59 226.75 5 0.04 0.36 33.79 15 0.13 0.74 156.77 25 0.24 1.22 235.23 6 0.06 0.53 34.26 16 0.04 0.23 156.99 26 0.00 0.00 235.23 7 0.03 0.24 34.36 17 -0.03 -0.18 157.12 27 0.05 0.26 235.62 8 0.14 1.16 36.69 18 -0.01 -0.07 157.14 28 -0.03 -0.13 235.72 9 0.21 1.80 42.44 19 -0.05 -0.29 157.48 10 0.11 0.87 43.88 20 0.04 0.24 157.73 Puc. 9.27. Функция выборочной автокорреляции для данных об объемах продаж компании Keytron (приложение Minitab)
494 ГЛАВА 9 Определение модели данных Кейти начала с изучения функции выборочной автокорреля- ции, график которой приведен на рис. 9.27. Она обнаружила, что коэффициенты автокорреля- ции при малых интервалах практически отсекаются уже после интервала 1, хотя присутствует и незначительный всплеск на интервале 3. Кейти также отметила, что коэффициенты автокорре- ляции на интервалах сезонности, т.е. 12,24 и 36 (последний не показан), значительны, но быст- ро затухают. Это указывает на нестационарность ряда и подтверждает результаты исследования Кейти графика исходного временного ряда. Прежде чем продолжить поиск адекватной модели, она решила вычислить разностный ряд в соответствии с сезонной структурой, чтобы проверить, не удастся ли ей преобразовать исходный ряд данных в стационарный. Сезонная разность для периода .8'= 12 определяется следующим образом. Д12У,= У,-У,_12 Первой сезонной разностью, вычисляемой для данных продаж компании Keytron, будет следующая. У,з - У1 = 1757,6 - 1736,8 = 20,8 На рис. 9.28 представлен график вычисленного Кейти ряда сезонных разностей. Months Рис. 9.28. Сезонные разности для данных об объемах продаж компа- нии Keytron (приложение Minitab) На рис. 9.29 и 9.30 приведены соответственно функции выборочной автокорреляции и выборочной частной автокорреляции для разностного ряда. Из рис. 9.28 следует, что сезон- ные разностные данные вполне можно считать стационарными, причем они колеблются око- ло значения порядка 100. Коэффициенты автокорреляции имеют один значительный пик при интервале 12 (отсеченный), а коэффициенты выборочной частичной автокорреляции имеют значительные пики при интервалах 12 и 24, которые постепенно уменьшаются (затухают). Подобное поведение указывает на элемент МА(1) при интервале 12.
Метод Бокса-Дженкинса (ARIMA) 495 Lag Corr 1 0.08 2 0.16 3 0.21 4 0.13 5 0.02 6 0.12 7 0.16 8 0.06 9 0.07 T LBQ 0.84 0.72 1.66 3.61 2.03 8.24 1.21 10.03 0.17 10.07 1.09 11.60 1.44 14.37 0.59 14.85 0.67 15.48 Lag Corr 10 0.03 11 0.02 T LBQ 0.26 15.58 0.21 15.65 12-0.38 -3.40 32.80 13-0.01 -0.07 32.81 14-0.11 -0.90 34.33 15-0.16 -1.28 37.45 16-0.15 -1.16 40.13 17 0.00 0.01 40.13 18-0.16 -1.26 43.45 Lag Corr T LBQ 19-0.14-1.11 46.14 20-0.18 -1.36 50.31 21 -0.17 -1.29 54.27 22 -0.07 -0.50 54.90 23 -0.12 -0.85 56.74 24-0.11 -0.79 58.38 25-0.11 -0.81 60.14 Puc. 9.29. График выборочной автокорреляции сезонных разностей данных об объ- емах продаж компании Keytron (приложение Minitab) Partial Autocorrelation Function for Diff 12Sales Lag РАС Т Lag РАС Т 1 0.08 0.84 8 0.03 0.34 2 0.16 1.61 9 0.01 0.08 3 0.19 1.91 10 -0.06 -0.58 4 0.09 0.87 11 -0.02 -0.25 5 -0.05 -0.54 12 -0.44 -4.43 6 0.05 0.53 13-0.02-0.23 7 0.13 1.27 14 -0.04 -0.37 Lag РАС T Lag РАС T 15 -0.04 -0.37 22 0.09 0.91 16-0.09 -0.93 23 0.02 0.25 17 0.05 0.49 24 -0.25 -2.53 18 -0.04 -0.37 25-0.06 -0.65 19 0.01 0.13 20 -0.11 -1.15 21 -0.04 -0.38 Puc. 9.30. График выборочной частной автокорреляции сезонных разностей дан- ных об объемах продаж компании Keytron (приложение Minitab)
496 ГЛАВА 9 Кейти выбрала для своих данных модель вида ARIMA(0,0,0)(0,l,l)12. Подобная запись подразумевает следующее. р = 0 обычные авторегрессионные слагаемые d - 0 обычные разности q = 0 обычные слагаемые скользящего среднего Р = 0 сезонные авторегрессионные слагаемые D = 1 сезонные разности на интервале 5=12 Q = 1 слагаемые сезонного скользящего среднего Поскольку сезонный разностный ряд изменяется около ненулевого уровня, в уравнение пришлось добавить постоянное слагаемое. Окончательная модель имеет следующий вид: Yt- r/_12 = ti + E,-Q1E,_i2, (9.9) где ц — средний уровень сезонного разностного процесса, а величина Q, — это сезонный па- раметр скользящего среднего. Для оценки параметров модели, вычисления функции автокорреляции остатков и по- строения прогнозов Кейти использовала приложение Minitab. Результаты расчетов приведе- ны в листинге 9.7. График функции автокорреляции остатков представлен на рис. 9.31, а прогноз на следующие 12 месяцев продолжает график объемов продаж компании, показан- ный на рис. 9.32. Листинг 9.7. Распечатка приложения Minitab для модели ARIMA(0,0,0)(0,1 данные о объемах продаж компании Keytron ARIMA.(0,0,0)(0,1,1) Model: Keytron Corporation Sales Final Estimates of Parameters Type Coef SE Coef T P SMA 12 0.8180 0.0881 9.28 0.000 Constant 85.457 2.910 29.36 0.000 Differencing: 0 regular, 1 seasonal of order 12 Number of observations: Original series 115, after differencing 103 Residuals: SS = 1172652 (backforecasts excluded) MS = 11610 DF = 101 Modified Box-Pierce Lag 12 Chi-Square 12.5 DF 10 P-Value 0.250 (Ljung-Box) 24 27.1 22 0.209 Chi-Square statistic 36 48 34.6 46.4 34 46 0.439 0.456 Forecasts Period 116 117 from period 115 95 Percent Forecast Lower 2419.69 2208.46 2504.31 2293.07 Limits Upper 2630.93 2715.54 Actual
Метод Бокса-Дженкинса (ARIMA) 497 Рис. 9.31. Автокорреляционная функция остатков модели ARIMA(O,O,O)(O,l,l)n (приложение Minitab) Time Series Plot for Sales (with forecasts and their 95% confidence limits) Puc. 9.32. Объемы продаж компании Keytron и прогнозы объемов про- даж на следующие 12 месяцев (приложение Minitab) Кейти была удовлетворена тем, что ее первоначальная модель так хорошо описывает структуру данных. %2-статистика Льюинга-Бокса для групп интервалов т = 12, 24, 36 и 48 не существенна, что показывает большое значение р. Автокорреляции остатков все одинаково малы без какой-либо видимой структуры. Теперь Кейти необходимо было сверить результаты расчетов прогнозов по своей модели с теми результатами, которые были получены в прило- жении Minitab.
498 ГЛАВА 9 Оцененными значениями параметров были Д = 85,457 и Q, =0,818. Исходя из значений этих величин, уравнение 9.9, разрешаемое относительно У„ будет иметь следующий вид. Y, = У,_|2 + 85,457 + Е, - 0,81 8е,_12 Прогнозируя продажи на период 116, Кейти приравняла t = 116 и отметила, что для периодов, на которые делается прогноз, лучшим предполагаемым значением Ене (ошибка на следующий период) будет нуль. Таким образом, уравнением прогноза будет Упб = У|04 + 85,457 — 0,818&Ю4, где 6104 — это остаток (оценка ошибки) для периода 104. У116 = 2275 + 85,457 - 0,818(-72,418) = 2419,7 Аналогичным образом Tii7 = Tio5+ 85,457-0,818е1О5 У117 = 2581,8 + 85,457 - 0,818(119,214) = 2504,3 . Прогнозы, сделанные Кейти, хорошо согласуются с прогнозами, полученными в прило- жении Minitab. Она смогла убедиться, что правильно понимает, как использовать скорректи- рованную модель для построения прогнозов. Кейти была удовлетворена прогнозами продаж на следующие 12 месяцев, приведенными на рис. 9.32. Прогнозы полностью соответствуют поведению ряда. Она полагала, что ей удалось правильно описать сезонную структуру и рост объемов продаж в компании будет отмечен очень скоро. Пример 9.10 В примере 3.5 описывалось, как Перкин Кенделл, аналитик компании Outboard Marine, приме- нил автокорреляционный анализ для проверки квартальных данных на сезонность. Теперь он решил спрогнозировать объемы продаж компании на 1997 год с помощью метода Бокса- Дженкинса. График исходных данных приведен на рис. 3.14. Этот временной ряд совершенно очевидно демонстрирует сезонное поведение с, возможно, небольшим возрастающим трендом. Перкин начал анализ с рассмотрения выборочных коэффициентов автокорреляции ис- ходного ряда и вычисления его различных разностей. Друг Перкина, специалист по методо- логии Бокса-Дженкинса, подсказал ему, что именно так следует поступать в тех случаях, ко- гда велика вероятность нестационарности исходного ряда. Как только опытным путем будет найдена самая простая модель, достаточно согласующаяся со структурой коэффициентов ав- токорреляции, ее выбор следует подтвердить проверкой поведения функции выборочной ча- стной автокорреляции. Перкин рассчитал в приложении Minitab автокорреляционные функ- ции для следующих рядов: У,— ДУ,= У,-У^ — Д4У,= У,-У^~ ДД,У, = Д(Д4У,) = Д(У, - У-4) = = У(-У,_, -Ум + У,_5 — исходный ряд продаж; ряд первых (обычных) разностей; ряд сезонных разностей порядка 5=4; ряд, состоящий из сезонных разностей, взятых из обычных разностей. В некоторых случаях, для того чтобы результирующий ряд стал стационарным, потребует- ся взять одну сезонную и одну обычную разность. Функции выборочной автокорреляции для исходного ряда, для ряда сезонных разностей и для ряда с одной обычной и одной сезонной разностью показаны на рис. 9.33-9.35.
Метод Бокса-Дженкинса (ARIMA) 499 Lag Corr T LBQ 1 0.39 2.83 8.50 2 0.15 0.97 9.83 3 0.29 1.82 14.77 4 0.74 4.34 47.11 5 0.15 0.67 48.47 6 -0.15 -0.67 49.90 7 -0.05 -0.21 50.04 Lag Corr T LBQ 8 0.35 1.51 57.72 9 -0.18 -0.76 59.90 10 -0.43 -1.80 72.53 11 -0.32 -1.23 79.33 12 0.09 0.35 79.91 13 -0.35 -1.34 88.90 Puc. 9.33. Функция выборочной автокорреляции для исходного ряда данных об объ- емах продаж компании Outboard Marine (приложение Minitab) Autocorrelation Function for Diff4Sales Lag Corr T LBQ 1 0.77 5.32 30.13 2 0.69 3.25 55.21 3 0.51 2.01 69.35 4 0.30 1.10 74.36 5 0.15 0.54 75.66 6 -0.08 -0.26 75.98 7 -0.17 -0.60 77.70 Lag Corr T LBQ 8 -0.33 -1.16 84.36 9 -0.34-1.14 91.40 10 -0.39 -1.29 101.13 11 -0.41 -1.30 111.90 12 -0.39 -1.19 121.90 Puc. 9.34. Функция выборочной автокорреляции для ряда сезонных разностей дан- ных об объемах продаж компании Outboard Marine (приложение Minitab)
500 ГЛАВА 9 Autocorrelation Function for Diff 1 Diff4Sales 1 234567 89 10 11 Lag Corr T LBQ Lag Corr T LBQ 1 -0.35 -2.38 6.03 8 -0.40 -2.14 25.86 2 0.25 1.53 9.20 9 0.13 0.63 26.84 3 0.11 0.62 9.79 10 -0.13 -0.62 27.84 4 -0.09 -0.55 10.26 11 -0.05 -0.26 28.02 5 0.16 0.91 11.63 6 -0.25 -1.44 15.22 7 0.15 0.80 16.47 Puc. 9.35. Функция выборочной автокорреляции для ряда обычных и сезонных разно- стей данных об объемах продаж компании Outboard Marine (приложение Minitab) Функция автокорреляции для исходного ряда данных имеет значительные пики на интер- валах 1 и 4. Тем не менее в целом коэффициенты автокорреляции для сезонных интервалов 4, 8 и 12 плавно уменьшаются, стремясь к нулю. Вероятнее всего, это указывает на нестацио- нарность ряда и необходимость вычисления для него сезонных разностей. И действительно, попытка Перкина применить к исходным данным модель ARIMA с постоянным слагаемым, одним слагаемым обычного скользящего среднего и одним сезонным авторегресионным слагаемым оказалась неудачной. После оценки этой модели выяснилось, что сезонный авто- регрессионный параметр близок к единице (это указывает на необходимость вычисления се- зонных разностей), а остаточные автокорреляции оказались большей частью велики и не от- вечали распределению для случайных ошибок. Далее Перкин обратился к автокорреляцион- ной функции ряда сезонных разностей, показанной на рис. 9.34. Коэффициенты автокорреляции для данных сезонных разностей велики на малых интер- валах и весьма медленно принимают форму волнообразной структуры. Перкин решил, что исследуемый ряд, видимо, все еще не стационарен и для достижения стационарности потре- буется вычислить обычную разность, в дополнение к сезонной. Он воспользовался приложе- нием Minitab, чтобы получить выборочные коэффициенты автокорреляции для первой раз- ности и сезонной разности объемов продаж компании (рис. 9.35). Изучая коэффициенты автокорреляции, представленные на рис. 9.35, Перкин выделил на гра- фике только два существенных значения — на интервалах 1 и 8. Кроме того, он отметил, что авто- корреляции на первых двух интервалах противоположны по знаку. Перкин пришел к выводу, что в этом случае приемлемой будет модель ARIMA с обычным авторегрессионным слагаемым и, воз- можно, слагаемым сезонного скользящего среднего на интервале 8. Прежде чем принять оконча- тельное решение, Перкин сделал попытку подтвердить свой выбор, дополнительно проанализиро- вав коэффициенты частной автокорреляции для ряда первых и сезонных разностей.
Метод Бокса-Дженкинса (ARIMA) 501 График функции выборочной частной автокорреляции для ряда первых и сезонных разно- стей исходных данных показан на рис. 9.36. В целом коэффициенты частной автокорреляции выглядят отсеченными после первого же интервала, что согласуется с поведением процессов схемы AR(1), выбранной Перкином после изучения коэффициентов автокорреляции. Кроме того, на графике отмечен значительный коэффициент частной автокорреляции на интервале 8. Partial Autocorrelation Function for Diff 1 Diff4Sales 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 1 23456789 10 11 Lag РАС T 1 -0.35-2.38 2 0.15 1.00 3 0.27 1.83 4 -0.03-0.18 5 0.04 0.25 6 -0.24-1.64 7 -0.02-0.14 Lag РАС T 8 -0.38 -2.58 9 -0.04 -0.30 10 0.01 0.09 11 0.12 0.86 Puc. 9.36. Функция выборочной частной автокорреляции для ряда обычных и се- зонных разностей данных об объемах продаж компании Outboard Marine (приложение Minitab) Перкин не был уверен в том, как именно следует поступить с сезонным параметром, по- этому он решил оставить его простым и применить модель ARIMA(l,l,0)(0,l,0). Эта модель предполагает одну обычную и одну сезонную разность, обычное авторегрессионное слагае- мое, но не предполагает сезонных авторегрессионных коэффициентов или сезонных коэф- фициентов скользящего среднего. График ряда вычисленных разностей показывает, что он изменяется в окрестности нуля, поэтому постоянное слагаемое в модель не включено. Пер- кин полагал, что если все же есть необходимость учитывать сезонные параметры, то это обя- зательно проявится в функции автокорреляции остатков для выбранной им модели. Распечатка результатов расчетов для модели ARIMA( 1,1,0)(0,1,0) показана в верхней части листинга 9.8, а функция автокорреляции остатков для этой модели приведена в верхней части рис. 9.37. Модель кажется довольно хорошо соответствующей поведению данных при вычис- ленном коэффициенте модели AR(1) =-0,352 и среднеквадратической ошибке остатков №= 1040,7. Однако функция автокорреляции остатков имеет значительный пик на интерва- ле 8, а статистика Льюинга-Бокса для первых т= 12 интервалов оказалась равна g12 = 19,7 при значении/?, равном 0,05. Последнее указывает, что, как группа, первые 12 коэффициентов автокорреляции остатков превышают предел, который можно было бы ожидать для случайных ошибок.
502 ГЛАВА 9 Листинг 9.8. Распечатка приложения Minitab для моделей ARIMA(1,1.0)(0.1.0) (вверху) и ARIMA(1,1,0)(0.1,2) (внизу) для ряда обычных и сезонных разностей данных об объемах продаж компании Outboard Marine) ARIMA(1,1,0)(0,1,0) Model: Outboard Marine Sales Final Estimates of Parameters Type Coef SE Coef T P AR 1 -0.3520 0.1384 -2.54 0.014 Differencing: 1 regular, 1 seasonal of order 4 Number of observations: Original series 52, after differencing 47 Residuals: SS = 47898.3 (backforecasts excluded) MS = 1041.3 DF = 46 Modified Box- Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 19.7 23.7 32.1 J? DF 11 23 35 * P-Value 0.050 0.420 0.608 * ARIMA(1,1,0)(0,1,2) Model: Outboard Marine Sales Final Estimates of Parameters P Type Coef SE Coef T AR 1 -0.3511 0.1423 -2.47 0.018 SMA 4 0.2382 0.1339 1.78 0.082 SMA 8 0.6730 0.1403 . 4.80 0.000 Differencing: 1 regular, 1 seasonal of order 4 Number of observations: Original series 52, after differencing 47 Residuals: SS = 31518.1 (backforecasts excluded) MS = 716.3 DF = 44 Modified Box-Pierce (Ljung-Box) Lag 12 24 Chi-Square 8.4 10.7 DF - 9 21 P-Value 0.493 0.969 Forecasts from period 52 95 Percent Period Forecast Lower 53 169.386 116.917 54 230.533 167.987 Chi-Square statistic 36 48 22.0 * 33 * 0.927 * Limits Upper Actual 221.854 293.080
Метод Бокса-Дженкинса (ARIMA) 503 Residual Autocorrelations: ARIMA(1, 1, 0)(0,1,0) 1 23456789 10 11 Lag Corr T LBQ 1 0.05 0.37 0.15 2 0.22 1.52 2.68 3 0.19 1.26 4.63 4-0.02-0.11 4.65 5 0.07 0.42 4.89 6-0.21 -1.30 7.30 7 -0.07 -0.43 7.59 Lag Corr T LBQ 8 -0.39-2.38 16.73 9 -0.04-0.24 16.85 10-0.13-0.69 17.85 11-0.13-0.69 18.92 Residual Autocorrelations: ARIMA(1,1,0)(0,1,2) Lag Corr T LBQ 1 -0.01 -0.09 0.01 2 0.09 0.59 0.39 3 0.20 1.39 2.57 4 -0.03 -0.20 2.62 5 0.09 0.56 3.02 6-0.20-1.33 5.37 7-0.15-0.96 6.72 Lag Corr T LBQ 8 -0.04 -0.26 6.83 9 -0.06 -0.37 7.05 10 -0.08-0.49 7.45 11 -0.04-0.27 7.58 Puc. 9.37. Функции автокорреляции остатков для моделей ARIМА( 1,1,ОДО, 1,0) (вверху) и ARIMA(l,l,0)(0,l,2) (внизу) для ряда обычных и сезонных разностей данных об объемах продаж компании Outboard Marine (приложение Minitab)
504 ГЛАВА 9 Перкин решил модифицировать свою исходную модель и включить в нее слагаемое сколь- зящего среднего, соответствующее сезонным интервалам 4 и 8. Кажется очевидным предпо- ложение о том, что необходимым является только слагаемое на интервале 8; однако прило- жение Minitab требует включения в модель всех сезонных параметров AR или МА, кратных сезонному интервалу, вплоть до наибольшего требуемого. В данном случае используется се- зонный интервал 5 = 4 и необходим параметр скользящего среднего на интервале 2x4 = 8. Для подгонки модели ARIMA(l,l,0)(0,l,2) к имеющимся данным Перкин вновь восполь- зовался приложением Minitab'5. Распечатка результатов расчета приведена в листинге 9.8 (внизу), а график автокорреляции остатков показан на рис. 9.37 (внизу). Перкин был доволен полученными результатами. Среднеквадратическая ошибка остатков снизилась до № = 716,5, а коэффициенты автокорреляции остатков, оцененные по отдельным значениям и %2- статистике Льюинга-Бокса, демонстрировали случайное поведение ошибок. Графики остат- ков (не показаны) говорят о том, что исходные предположения об остальных слагаемых оши- бок вполне приемлемы. Чтобы приобрести дополнительный опыт в применении методологии Бокса-Дженкинса, Перкин решил проверить значения прогнозов на следующие два квартала, приведенные в распечатке приложения Minitab. При использовании оценок параметров вместо реальных значений, результирующая модель примет следующий вид. W, = -0,351 + е, - 0,239е,_4 - 0,672е,_8, где величина W^^Y^Y.-Y^-Y^+Y,^ является разностным рядом. В начальной точке прогнозирования, t - 1, уравнение прогноза, записанное в терминах Y, примет вид Y, = У,_, + Y,_4 - У,_5 ~ 0,351 (Гх_, - Y„2 - Y,.s+ Y^) - 0,239e,_4 - 0,672e,_8, где e,_4 и e,_8 — это остатки (оцененные ошибки) для периодов t - 4 и t - 8. Прогноз продаж на период 53 составит следующее. У53 = У52 + К,9 - Г48 - 0,351 (У52 - У5| - У48 + У47) - 0,239е49 - 0,672е45 У53 = 281,4 + 232,1 -338,2-0,351(281,4-291,0-338,2 + 329,6)- - 0,239(—1,726) - 0,672( 18,898) = = 169,4 Прогноз продаж на период 54 будет таким. У54 = У53 + У50 - У49 - 0,351 (У53 - У52 - У49 + У48) - О,239е5о - 0,672е46 У54 = 169,4 + 285,16- 232,1 -0,351(169,4- 281,4 -232,1 +338,2)- - 0,239(-37,040) - 0,672(4,781) = = 230,6 Перкин был удовлетворен тем, что полученный им прогноз совпадает с прогнозом, вычис- ленным приложением Minitab. Прогноз на следующие четыре квартала представлен на рис. 9.38, и можно утверждать, что расчетные значения выглядят вполне обоснованными, по- скольку структура прогноза очень похожа на временную структуру реальных наблюдений. Перкин пришел к заключению, что предпринятая им попытка прогнозирования оказалась удачной, и решил порекомендовать метод Бокса-Дженкинса своим коллегам. 15 Команды приложения Minitab, необходимые для обработки модели ARJMA(l,l,0)(0,l,2), будут обсуж- даться в разделе "Применение Minitab ” в конце этой главы.
Метод Бокса-Дженкинса (ARIMA) 505 Time Series Plot for Sales (with forecast and their 95% confidence limits) Puc. 9.38. Прогноз на следующие четыре квартала по модели ARIMA(l,l,0)(0,l,2) для данных об объемах продаж компании Outboard Marine (приложение Minitab) Простое экспоненциальное сглаживание и модель ARIMA В отдельных моделях ARIMA делаются такие же прогнозы, или почти такие же, как и при использовании сглаживающих методов, обсуждаемых в главе 4. Для иллюстрации этого утверждения рассмотрим модель ARIMA(0,1,1). Г, - Г,_, = е, - со,е,_г (9.10) Предположим, что начальной точкой прогнозирования является t и необходим прогноз для У,+1. Заменим в уравнении 9.10 индекс t на t+ 1, и тогда решение для К,+| дается сле- дующим уравнением. Г,+1 = Y, + е,+1 - (0,е, Поскольку в момент времени t наилучшим предположением о величине е,+1 является нуль и е, оценивается с помощью остатка е, - Y, - У,, то уравнение прогноза будет следующим. YM = Y- ^(Y, -?,) = (!- <о,)Г, + со.У, (9.11) Пусть а= 1 — СО], тогда уравнение 9.11 будет идентично уравнению 4.13 для метода про- стого экспоненциального сглаживания. Y^aY' + d-ajY, Прогнозирование с помощью простого экспоненциального сглаживания эквивалент- но генерированию прогноза на основе модели ARIMA(0,l,l) с параметром ro^l-a.
506 ГЛАВА 9 Следует отметить, что модель ARIMA(0,l,l) описывает нестационарный процесс. Обыч- ное экспоненциальное сглаживание будет хорошо работать для тех рядов, которые мож- но адекватно описывать с помощью модели ARIMA(0,l,l). И наоборот, для тех времен- нь/х рядов, которые не описываются адекватно этой моделью, прогноз, построенный с помощью экспоненциального сглаживания, не может быть достаточно хорош. Для простого экспоненциального сглаживания параметр а ограничивается интерва- лом 0 < а < 1. Параметр скользящего среднего <Л| в модели ARIMA(0,l,l) ограничивается промежутком -1 < CB| < 1, так что, строго говоря, эти два метода прогнозирования экви- валентны только при позитивных значениях параметров а и И]. Преимущества и недостатки моделей ARIMA Подход Бокса-Дженкинса к анализу временнь/х рядов является весьма мощным инстру- ментом для построения точных прогнозов с малой дальностью прогнозирования. Модели ARIMA достаточно гибкие и могут описывать широкий спектр характеристик временных рядов, встречающихся на практике. Формальная процедура проверки модели на адекват- ность проста и доступна. Кроме того, прогнозы и интервалы предсказания следуют непо- средственно из подобранной модели. Однако использование моделей ARIMA имеет и несколько недостатков. 1. Необходимо относительно большое количество исходных данных. Следует пони- мать, что если данные периодичны со, скажем, сезонным периодом 5= 12, то на- блюдения за один полный год будут составлять фактически одно сезонное значе- ние данных (один взгляд на сезонную структуру), а не двенадцать значений. Во- обще говоря, при использовании модели ARIMA для несезонных данных необхо- димо около 40 или более наблюдений. При построении модели ARIMA для сезонных данных нужны наблюдения приблизительно за 6-10 лет, в зависимости от величины периода сезонности. 2. Не существует простого способа корректировки параметров моделей ARIMA, та- кого как в некоторых сглаживающих методах, когда задействуются новые данные. Модель приходится периодически полностью перестраивать, а иногда требуется выбрать совершенно новую модель. 3. Построение удовлетворительной модели ARIMA зачастую требует больших затрат времени и ресурсов. Для моделей ARIMA расходы на построение модели, время выполнения вычислений и объемы необходимых баз данных могут оказаться су- щественно выше, чем для более традиционных методов прогнозирования, таких как сглаживание. Применение в менеджменте Согласно Бернштейну (Bernstein, 1996), прогнозирование является одной из важнейших составляющих менеджмента, которая оказывает значительную помощь в процессе при- нятия решений. Фактически любое важное управленческое решение в определенной сте- пени зависит от прогнозов. Накопление запасов связано с прогнозами ожидаемого спро-
Метод Бокса-Дженкинса (ARIMA) 507 са; производственный отдел должен планировать потребности в рабочей силе и сырье на следующий месяц или два; финансовый отдел должен производить краткосрочное фи- нансирование на следующий квартал; отдел кадров должен предвидеть необходимость приема или увольнения служащих. Список разнообразных применений прогнозирования может быть очень длинным. Управленцы прекрасно осведомлены о необходимости прогнозирования. Несомнен- но, много времени уделяется изучению существующих тенденций в экономике и полити- ке, а также тому, как грядущие события могут повлиять на востребованность предлагае- мой продукции и/или обслуживания. Старшие должностные лица заинтересованы в ко- личественном прогнозе для сравнения его со своим собственным мнением. Интерес к прогнозированию особо обостряется в тех случаях, когда происходят события, способ- ные оказать серьезное влияние на уровень спроса. Недостатком методов количествен- ного прогноза является их зависимость от данных прошлых наблюдений. По этой при- чине они, естественно, менее эффективны в предсказании неожиданных перемен, при- водящих к резкому повышению или падению спроса. Зачастую менеджерам необходимо сделать краткосрочный прогноз для большого чис- ла наименований продукции. Типичным примером является ситуация, когда перед ме- неджером стоит задача наладить производство на основе прогнозирования спроса на не- сколько сотен наименований продуктов, образующих одну линию. В данном случае наи- более оправданно использование методов сглаживания. Главным преимуществом методов экспоненциального сглаживания является их низ- кая стоимость и простота. Они не дают такой точности, как сложные методы, например ARIMA. Но при построении прогнозов для тысяч наименований продуктов, методы сглаживания зачастую являются единственным разумным подходом. Прогнозы перспектив, основанные на временных рядах, опираются на предположе- ние о том, что развитие будущих событий будет подобно прошлому, а структура прошлых событий поддается адекватному описанию. Методика временных рядов является одной из наиболее часто применяемых для прогнозирования переменных, с постоянной и ста- бильной структурой изменений. Методология Бокса-Дженкинса является очень мощным инструментом точного крат- косрочного прогнозирования. Менеджеры должны учитывать, что создание удовлетвори- тельной модели ARIMA по методике Бокса-Дженкинса требует довольно большого ко- личества исторических данных и значительных затрат времени аналитика. Практических применений методики Бокса-Дженкинса очень много. Модели ARIMA реально применялись для следующих целей: • оценка изменений в структуре цен в телефонной индустрии США; • изучение взаимосвязи между концентрацией аммония, скоростью течения и тем- пературой воды в реках; • прогнозирование годовых объемов запасов; • прогнозирование количества действующих нефтяных скважин; • анализ количества построенных частных жилищных единиц; • анализ ежедневных наблюдений процентного роста количества единиц продавае- мого товара; • анализ конкуренции между авиа- и железнодорожными перевозками;
508 ГЛАВА 9 • прогнозирование уровня занятости; • анализ большого числа временных рядов энергопотребления для коммунальных предприятий; • анализ эффектов стимулирования продаж потребительских продуктов; • прогнозирование различных категорий гарантий качества продукции. Глоссарий Методология Бокса-Дженкинса опирается на ряд процедур идентификации, корректировки и проверки моделей ARIMA с целью анализа данных временных рядов. Прогноз вытекает непосредственно из подобранной модели. Принцип экономии утверждает, что при наличии выбора простая модель всегда предпочтительнее более сложной. Основные формулы Модель ARIMA: авторегрессионная модель порядка р Y, = Фо + ф| Г,-1 + Ф2К,-2 + • • • + ФД,-/- + е, (9.1) Модель ARIMA: модель со скользящим средним порядка q Y, = и + е, - ohE,., - (О2е,_2 -... - со?е,_, (9.2) Модель ARIMA: модель ARMA(p, q) Y, = фо + Ф1 Y,_t + ф^-г + ... + фрУ,_р + Е, - - tOjE,^ - ... - в)9ем (9.3) Остаточная среднеквадратическая ошибка п-r п-г 0-статистика Лъюинга-Бокса (модифицированная Бокса-Пирса) Й,п=п(п + 2)£-^ (9-5) Приблизительный интервал прогнозирования для стационарного ряда Y+2s (9.6) Информационный критерий Акаике (AIC) AIC = \пд2+—г (9.7) п Байесовский информационный критерий <В1С> (Шварц) В1С = \пЬ2+—г (9.8) п Сезонная модель со скользящим средним (месячные данные) Г,-У/_12 = ц + е/-£21е,_12 (9.9)
Метод Бокса-Дженкинса (ARIMA) 509 Модель ARIMA(0,1,1) Y, - Г,_, = г, - ohE,., (9.10) Уравнение прогноза модели ARIMA(0,1,1) в форме экспоненциального сглаживания YM = Y,~ со,(Г, - Y) = (1 - <o,)yz + <^Y, (9.11) Упражнения 1. Выполните следующее. а) для выборки из 100 наблюдений случайных данных рассчитайте 95%-ный дове- рительный интервал для коэффициента автокорреляции с произвольным пе- риодом запаздывания. б) если все коэффициенты автокорреляции попадают внутрь 95%-ного довери- тельного интервала и в них не наблюдается определенной структуры, то что в таком случае можно сказать о процессе? в) если три первых коэффициента автокорреляции положительны, существенно отличны от нуля и в совокупности все значения коэффициентов плавно убыва- ют к нулю, то какие выводы можно сделать о процессе? г) наблюдается квартальный процесс. Если коэффициенты автокорреляции г4, г8 и г12 значительно больше нуля, то что можно сказать о процессе в целом? 2. Допустим, к данным наблюдений применяется следующая модель временного ряда и адекватность ее доказана. Y, = 35 + Е, + 0,25е,_] - 0,30ё,_2 Первыми четырьмя наблюдениями являются У] = 32,5; У2 = 36,6; Y3 = 33,3 и К, = 31,9. Полагая Y\ = 35 и £] = 0, постройте прогноз для периодов 5, 6 и 7, приняв за началь- ную точку прогнозирования период 4. 3. Следующая модель временного ряда была подогнана и проверена. У(=50 + 0,45Ум + £, Предполагается, что в момент t = 60 наблюдение Y^ = 57. а) постройте прогноз на периоды 61,62 и 63, начиная с момента 60 б) пусть наблюдение У6, равно 59. Скорректируйте прогнозы для периодов 62 и 63 в) допустим, оценка дисперсии члена ошибки равна s2 = 3,2. Рассчитайте 95%-ный интервал предсказания для прогноза на период 61 4. Добавьте недостающую информацию в табл. 9.10, указав, когда коэффициенты ав- токорреляции и частной автокорреляции в этих моделях затухают или отсекаются. Таблица 9.10. Характеристики основных типов моделей Модель Автокорреляции Частные автокорреляции "мА AR ARMA 5. Даны графики функций выборочной автокорреляции и выборочной частной авто- корреляции, приведенные на рис. 9.39. Ориентировочно укажите модель ARIMA, соответствующую каждой паре графиков.
510 ГЛАВА 9 Автокорреляция 0,0 Частные автокорреляции 1,0 0,0 -1,0 1,0 0,0 Интервалы времени Интервалы времени -1,0 Автокорреляция Интервалы времени а) Частные автокорреляции 1,0- Интервалы времени б) Автокорреляция Частные автокорреляции Интервалы времени Интервалы времени -1,0 в) Рис. 9.39. Функции выборочной автокорреляции и выборочной частной автокорре- ляции для упр. 5
Метод Бокса-Дженкинса (ARIMA) 511 6. Модель ARIMA( 1,1,0) (модель AR(1) для первых разностей) была подобрана для временного ряда из и = 52 наблюдений. Первые 12 коэффициентов остаточной авто- корреляции для этой модели показаны на рис. 9.40. В модели присутствует постоян- ный член. Lag Corr Т LBQ 1 -0.21 -1.51 2.40 2 -0.53 -3.65 18.07 3 0.20 1.12 20.37 4 0.28 1.50 24.77 5 -0.23 -1.20 27.91 6 -0.08 -0.41 28.31 7 0.23 1.16 31.59 Lag Corr T LBQ 8 0.04 0.22 31.72 9 -0.18 -0.86 33.72 10 -0.23 -1.10 37.11 11 0.25 1.19 41.40 12 0.20 0.94 44.30 Рис. 9.40. Автокорреляции остатков для модели ARIMA(1,1,O) (приложение Minitab) а) определите, адекватна ли модель, построив свои выводы на изучении функции остаточной автокорреляции. Поясните, почему “да” или почему “нет” б) если модель не адекватна, укажите действия, которые необходимо предпринять для получения адекватной модели 7. Компания Chips Bakery столкнулась с определенными трудностями при прогнозиро- вании спроса на выпускаемые ею крекеры. Данные о недельном спросе на эту про- дукцию, коэффициенты автокорреляции для исходных данных и двух вариантов разностей этого временного ряда представлены в табл. 9.11—9.14. Таблица 9.11. Недельный спрос на крекеры компании Chips Bakery (тыс. уп.) Неделя Спрос Неделя Спрос Неделя Спрос Неделя Спрос 1 22,46 14 30,21 27 39,29 40 47,31 2 20,27 15 30,09 28 39,61 41 50,08 3 20,97 16 33,04 29 41,02 42 50,25 4 23,68 17 31,21 30 42,52 43 49,00
512 ГЛАВА 9 Окончание табл. 9.11 Неделя Спрос Неделя Спрос Неделя Спрос Неделя Спрос 5 23,25 18 32,44 31 40,83 44 49,97 6 23,48 19 34,73 32 42,15 45 52,52 7 24,81 20 34,92 33 43,91 46 53,39 8 25,44 21 33,37 34 45,67 47 52,37 9 24,88 22 36,91 35 44,53 48 54,06 10 27,38 23 37,75 36 45,23 49 54,88 11 27,74 24 35,46 37 46,35 50 54,82 12 28,96 25 38,48 38 46,28 51 56,23 13 28,48 26 37,72 39 46,70 52 57,54 Таблица 9.12. Выборочные коэффициенты автокорреляции для данных Интервал Автокорреляции Интервал Автокорреляции 1 0,94 7 0,59 2 0,88 8 0,53 3 0,82 9 0,48 4 0,77 10 0,43 5 0,71 11 0,38 6 0,65 12 0,32 "Таблица 9.13. Коэффициенты автокорреляции для ряда первых разностей Интервал Автокорреляции Интервал Автокорреляции 1 -0,40 7 0,20 2 -0,29 8 -0,03 3 0,17 9 -0,03 4 0,21 10 -0,23 5 -0,22 11 0,21 6 -0,05 12 0,14 Таблица 9.14. Коэффициенты автокорреляции для ряда вторых разностей Интервал Автокорреляции Интервал Автокорреляции 1 -0,53 7 0,16 2 -0,10 8 -0,05 3 0,11 9 0,06
Метод Бокса-Дженкинса (ARIMA) 513 Окончание табл. 9.14 Интервал Автокорреляции Интервал Автокорреляции 4 0,18 10 -0,23 5 -0,20 И 0,16 6 -0,04 12 0,13 а) постройте и изучите графики коэффициентов автокорреляции, а затем предло- жите экспериментальную модель для этих данных. Поясните, почему была вы- брана именно такая модель. {Замечание: не следует вычислять больше разно- стей, чем это действительно необходимо. Разности более высоких порядков нужны только в тех случаях, когда на первых интервалах запаздывания ампли- туда выборочных коэффициентов автокорреляции возрастает.) б) воспользуйтесь какой-либо компьютерной программой, позволяющей работать с моделью ARIMA, для уточнения и проверки выбранной модели описания данных о спросе на крекеры в) запишите уравнение прогноза спроса на крекеры для периода 53 г) вновь воспользуйтесь компьютерной программой и рассчитайте прогноз спроса на крекеры на следующие четыре периода, начиная с периода 52. Укажите гра- ницы 95%-ного доверительного интервала 8. В табл. 9.15 приведены данные 126 наблюдений. Воспользуйтесь какой-либо ком- пьютерной программой, позволяющей работать с моделью ARIMA, для построения графика исходных данных и расчета функций выборочной автокорреляции и выбо- рочной частной автокорреляции. По полученным результатам подберите соответст- вующую случаю модель ARIMA и подготовьте прогноз на следующие три периода, начиная с/ = 126. Таблица 9.15. Исходные данные для упр. t Y, 1 Y, t Y, t Y, t У, 1 60,9 31 51,6 61 48,9 91 57,6 121 56,2 2 64,2 32 46,9 62 46,2 92 51,6 122 52,2 3 64,2 33 51,6 63 50,9 93 56,2 123 50,2 4 59,6 34 57,6 64 57,6 94 52,2 124 56,9 5 62,2 35 60,2 65 54,9 95 50,2 125 56,9 6 60,9 36 64,2 66 51,6 96 56,9 126 50,2 7 54,2 37 62,2 67 50,2 97 56,9 8 56,9 38 53,6 68 50,9 98 50,2 9 58,2 39 50,9 69 56,9 99 54,2 10 56,2 40 54,2 70 50,2 100 58,2 11 60,9 41 56,2 71 54,2 101 56,9 12 56,9 42 59,6 72 58,2 102 55,6 13 55,6 43 66,2 73 56,9 103 64,2
514 ГЛАВА 9 Окончание табл. 9.15 t У, t у, t У, t у, t у. 14 52,2 44 57,6 74 55,6 104 58,2 15 58,2 45 48,9 75 64,2 105 52,9 16 62,9 46 50,9 76 58,2 106 56,9 17 57,6 47 60,2 77 52,9 107 51,6 18 58,9 48 64,2 78 56,9 108 48,2 19 59,6 49 56,9 79 51,6 109 47,6 20 55,6 50 56,9 80 48,2 ПО 50,2 21 60,2 51 63,6 81 47,6 111 58,2 22 62,2 52 58,2 82 50,2 112 65,6 23 58,2 53 56,9 83 58,2 ИЗ 53,6 24 51,6 54 58,9 84 65,6 114 55,6 25 50,9 55 58,2 85 53,6 115 61,6 26 59,6 56 60,9 86 55,6 116 57,6 27 54,2 57 51,6 87 61,6 117 56,2 28 50,9 58 54,9 88 57,6 118 60,9 29 52,2 59 66,2 89 56,2 119 57,6 30 57,6 60 57,6 90 60,9 120 51,6 9. В табл. 9.16 приведены данные 80 наблюдений. Воспользуйтесь какой-либо компьютер- ной программой, позволяющей работать с моделью ARIMA, для построения графика ис- ходных данных и расчета функций выборочной автокорреляции и выборочной частной автокорреляции. По полученным результатам подберите соответствующую случаю мо- дель ARIMA и подготовьте прогноз на следующие три периода, начиная с t = 80. Таблица 9.16. Исходные данные для упр. 9 t у. / У, / У, / у, 1 61 21 50 41 59 61 57 2 50 22 69 42 49 62 56 3 62 23 53 43 64 63 53 4 47 24 57 44 55 64 55 5 64 25 52 45 48 65 55 6 40 26 66 46 61 66 66 7 76 27 47 47 47 67 49 8 38 28 67 48 58 68 57 9 75 29 51 49 46 69 50
Метод Бокса-Дженкинса (ARIMA) 515 Окончание табл. А16 t Y, / Y, / Y, t Y, 10 41 30 57 50 58 70 68 и 74 31 55 51 57 71 42 12 47 32 64 52 52 72 77 13 72 33 48 53 62 73 30 14 47 34 65 54 46 74 88 15 62 35 52 55 72 75 37 16 57 36 65 56 37 76 88 17 56 37 47 57 71 77 32 18 53 38 68 58 33 78 90 19 58 39 48 59 71 79 31 20 61 40 61 60 47 80 85 10. В табл. 9.17 содержатся данные 80 наблюдений. Воспользуйтесь какой-либо компьютер- ной программой, позволяющей работать с моделью ARIMA, для построения графика исходных данных и расчета функций выборочной автокорреляции и выборочной част- ной автокорреляции. По полученным результатам подберите соответствующую случаю модель ARIMA и подготовьте прогноз на следующие три периода, начиная с t = 80. Таблица 9.17. Исходные данные для упр. 10 Y, / Y, / Y, / Y, t 1 91,5 21 181,5 41 125,1 61 155,6 2 93,0 22 183,0 42 119,0 62 169,3 3 106,8 23 167,8 43 117,4 63 173,8 4 109,8 24 143,3 44 115,9 64 170,8 5 114,4 25 132,7 45 94,5 65 158,6 6 106,8 26 134,2 46 90,0 66 151,0 7 105,2 27 134,2 47 135,7 67 151,0 8 115,9 28 126,6 48 114,4 68 158,6 9 123,5 29 122,0 49 106,8 69 169,3 10 131,2 30 131,2 50 91,5 70 199,8 11 138,8 31 151,0 51 96,1 71 222,7 12 140,3 32 161,7 52 106,8 72 233,3 13 120,5 33 163,2 53 108,3 73 250,1 14 125,1 34 163,2 54 93,0 74 271,4 15 134,2 35 152,5 55 93,0 75 273,0
516 ГЛАВА 9 t у. t У, t у, Окончание t • табл. 9.17 У, 16 138,8 36 131,2 56 120,5 76 273,0 17 152,5 37 122,0 57 131,2 77 269,9 18 164,7 38 126,6 58 129,6 78 260,8 19 161,7 39 129,6 59 143,3 79 260,8 20 163,2 40 125,1 60 151,0 80 266,9 11. В табл. 9.18 приведены данные 96 ежемесячных наблюдений. Воспользуйтесь ка- кой-либо компьютерной программой, позволяющей работать с моделью ARIMA, для построения графика исходных данных и расчета функций выборочной автокор- реляции и выборочной частной автокорреляции. По полученным результатам под- берите соответствующую случаю модель ARIMA и подготовьте прогноз на следую- щие 12 периодов, начиная с t = 96. Таблица 9.18. Исходные данные для упр. 11 У, / У, t У, t У, / 1 97575 26 106650 51 149850 76 166950 2 97755 27 122550 52 149850 77 181500 3 105825 28 124650 53 160350 78 173925 4 104700 29 128925 54 161325 79 174450 5 110700 30 126038 55 153225 80 149475 6 108060 31 129300 56 159375 81 180300 7 111825 32 127050 57 149325 82 177975 8 114525 33 125025 58 157200 83 174525 9 108375 34 129675 59 163350 84 220650 10 117900 35 134250 60 190650 85 152625 И 117600 36 161475 61 141600 86 143100 12 142800 37 115350 62 136725 87 164925 13 109500 38 111750 63 158625 88 167175 14 103995 39 134025 64 163050 89 181725 15 119250 40 134325 65 173925 90 174150 16 121200 41 140175 66 165900 91 174675 17 123900 42 144300 67 226650 92 179700 18 124350 43 143475 68 175060 93 180525 19 125775 44 143700 69 164700 94 178200 20 126900 45 140325 70 167625 95 174750
Метод Бокса-Дженкинса (ARIMA) 517 Окончание табл. 9.18 / Y, / к / Y, t Y, 21 121650 46 144375 71 171225 96 220875 22 126600 47 149175 72 203550 23 124350 48 182400 73 152400 24 152400 49 132900 74 142875 25 108150 50 133950 75 164700 12. В табл. 9.19 приведены данные о недельном курсе акций компании IBM. а) воспользуйтесь какой-либо компьютерной программой, позволяющей работать с моделью ARIMA, для построения графика данных, а также расчета функций выбо- рочной автокорреляции и выборочной частной автокорреляции. На основе полу- ченных результатов выберите исходную модель ARIMA, подходящую для этого ряда б) является ли ряд данных компании IBM стационарным? Что можно предложить для исправления ситуации, если этот ряд нестационарен? в) подберите для данного ряда модель ARIMA. Объясните полученные результаты. Случайны ли последовательные изменения? г) выполните проверку выбранной модели с целью определения ее адекватности д) когда удовлетворительная модель будет найдена, сделайте с ее помощью про- гноз курса акций компании IBM на первую неделю января следующего года. Как этот прогноз будет отличаться от наивного прогноза, согласно которому прогнозируемый курс на первую неделю января равен курсу за последнюю не- делю декабря (текущему курсу)? Таблица 9.19. Еженедельный курс акций компании IBM Дата Курс Дата Курс Дата Курс январь 6 267 май 5 261 сентябрь 1 292 13 267 12 265 8 299 20 268 19 261 15 294 27 264 26 261 22 284 февраль 3 263 июнь 2 257 29 277 10 260 9 268 октябрь 6 279 17 256 16 270 13 287 24 256 23 266 20 276 март 2 252 30 259 27 273 10 245 июль 7 258 ноябрь 3 270 17 243 14 259 10 264 24 240 21 268 17 261 31 238 28 276 24 268
518 ГЛАВА 9 Окончание табл. 9.19 Дата Курс Дата Курс Дата Курс апрель 7 241 август 4 285 декабрь 1 270 14 244 11 288 8 276 21 254 18 295 15 274 28 262 25 297 22 284 29 304 13. Данные в табл. 9.20 представляют собой конечные котировки акций компании DEF за период 150 дней. Рассчитайте подходящую модель ARIMA и постройте прогноз курса акций на пять дней вперед, начиная с / = 145. Сравните свой прогноз с дейст- вительными значениями, используя показатель МАРЕ. Какова точность получен- ного прогноза? Таблица 9.20. Конечные котировки акций компании DEF Период Курс Период Курс Период Курс 1 136,0 51 140,8 101 136,0 2 132,8 52 135,2 102 137,6 3 130,4 53 133,6 103 131,2 4 128,8 54 134,4 104 136,0 5 136,8 55 134,4 105 136,0 6 135,2 56 137,6 106 133,6 7 134,4 57 134,4 107 129,6 8 139,2 58 140,8 108 132,8 9 136,8 59 137,6 109 135,2 10 136,0 60 132,8 110 132,0 11 133,6 61 136,8 111 132,8 12 139,2 62 135,2 112 132,8 13 137,6 63 132,8 113 136,0 14 139,2 64 144,0 114 136,8 15 139,2 65 137,6 115 136,8 16 136,0 66 138,4 116 133,6 17 138,4 67 136,0 117 134,4 18 137,6 68 135,2 118 130,4 19 139,2 69 138,4 119 132,8
Метод Бокса-Дженкинса (ARIMA) 519 Период Курс Период Окончание табл. 9.20 Курс Период Курс 20 134,4 70 134,4 120 134,4 21 136,8 71 138,4 121 135,2 22 139,2 72 139,2 122 136,8 23 139,2 73 141,6 123 134,4 24 140,0 74 134,4 124 136,0 25 139,2 75 135,2 125 137,6 26 140,8 76 136,0 126 138,4 27 139,2 77 135,2 127 137,6 28 138,4 78 136,0 128 138,4 29 136,0 79 132,8 129 137,6 30 142,4 80 133,6 130 137,6 31 140,0 81 134,4 131 140,0 32 144,8 82 133,6 132 135,2 33 140,0 83 131,2 133 135,2 34 139,2 84 132,0 134 135,2 35 139,2 85 131,2 135 136,0 36 136,8 86 132,8 136 132,0 37 140,8 87 132,0 137 133,6 38 141,6 88 133,6 138 134,4 39 139,2 89 131,2 139 133,6 40 142,4 90 131,2 140 133,6 41 140,8 91 129,6 141 132,8 42 140,0 92 131,2 142 132,0 43 132,0 93 130,4 143 136,0 44 142,4 94 131,2 144 133,6 45 138,4 95 136,0 145 133,6 46 138,4 96 135,2 146 135,2 47 136,8 97 136,8 147 139,2 48 139,2 98 136,8 148 136,8 49 135,2 99 133,6 149 136,0 50 138,4 100 135,2 150 134,4
520 ГЛАВА 9 14. В табл. 9.21 представлены еженедельные данные о количестве дорожных происше- ствий в округе Гавана за период 1996—1997 гг. Рассчитайте приемлемую модель ARIMA и дайте с ее помощью прогноз на 91-ю неделю. Прокомментируйте достиг- нутую точность прогнозирования. Таблица 9.21. Еженедельное количество дорожных происшествий в округе Гавана Период Значение Период Значение Период Значение 1 101 31 16 61 79 2 84 32 17 62 53 3 54 33 21 63 40 4 39 34 28 64 27 5 26 35 30 65 31 6 40 36 51 66 56 7 99 37 62 67 78 8 148 38 57 68 114 9 147 39 46 69 140 10 134 40 40 70 112 11 106 41 32 71 82 12 83 42 23 72 80 13 76 43 20 73 70 14 63 44 18 74 55 15 57 45 24 75 37 16 37 46 33 76 23 17 32 47 52 77 20 18 22 48 66 78 39 19 20 49 78 79 71 20 23 50 83 80 ПО 21 30 51 87 81 112 22 50 52 64 82 93 23 61 53 44 83 75 24 59 54 24 84 60 25 64 55 29 85 63 26 58 56 73 86 46
Метод Бокса-Дженкинса (ARIMA) 521 Окончание табл. 9.21 Период Значение Период Значение Период Значение 27 44 57 138 87 32 28 26 58 154 88 23 29 24 59 119 89 53 30 18 60 102 90 90 15. В табл. 9.22 приведены данные о 120 среднемесячных значениях стоимости кукуру- зы (центов за бушель) в г. Омаха, шт. Небраска. Подберите для этих данных прием- лемую модель ARIMA. Подготовьте прогноз цен на кукурузу на следующие 12 месяцев. Прокомментируйте схему поведения полученных прогнозов. Таблица 9.22. Среднемесячные цены на кукурузу в г. Омаха, шт. Небраска Период Цена Период Цена Период Цена 1 125 41 206 81 282 2 126 42 252 82 250 3 126 43 215 83 231 4 129 44 238 84 247 5 132 45 249 85 252 6 136 46 250 86 250 7 139 47 250 87 253 8 137 48 275 88 255 9 155 49 292 89 236 10 144 50 304 90 221 И 142 51 301 91 204 12 153 52 265 92 187 13 159 53 271 93 187 14 160 54 289 94 182 15 156 55 319 95 210 16 153 56 377 96 221 17 151 57 350 97 222 18 158 58 378 98 236 19 150 59 358 99 256
522 ГЛАВА 9 Окончание табл. 9.22 Период Цена Период Цена Период Цена 20 129 60 359 100 253 21 117 61 333 101 250 22 112 62 310 102 232 23 109 63 293 103 221 24 126 64 285 104 214 25 123 65 284 105 221 26 121 66 283 106 225 27 123 67 291 107 224 28 125 68 312 108 228 29 128 69 288 109 233 30 128 70 280 ПО 239 31 130 71 255 111 251 32 129 72 258 112 261 33 139 73 266 113 268 34 131 74 271 114 304 35 131 75 272 115 285 36 166 76 265 116 274 37 159 77 281 117 281 38 163 78 294 118 259 39 158 79 300 119 270 40 165 80 284 120 251 16. Используя методологию Бокса-Дженкинса, постройте модель и подготовьте про- гноз месячных объемов продаж для компании Cavanaugh, взяв исходные данные из табл. 5.14 в главе 5. {Подсказка', перед моделированием этих данных проанализируй- те целесообразность их логарифмического преобразования.) 17. С помощью методологии Бокса-Дженкинса постройте модель и подготовьте про- гноз квартальных объемов продаж для компании Disney, взяв исходные данные из табл. 5.11в главе 5. {Подсказка', перед моделированием этих данных проанализируй- те целесообразность их логарифмического преобразования.) 18. Используя методологию Бокса-Дженкинса, постройте модель и подготовьте про- гноз месячных объемов продаж бензина для компании Yukong Oil, взяв исходные данные из табл. 5.12 в главе 5.
Метод Бокса-Дженкинса (ARIMA) 523 /ач /дч /л /ач /ж лл /дч /ач /вч /ач /ж /м /лч W/ W \1F/ W W/ W W W W W W W/ W Задание 9.1. Выручка ресторана Описание ситуации и исходные данные для этого задания были приведены в главе 8 (задание 8.3). Джим Прайс уже завершил изучение курса прогнозирования и решил применить только что освоенную им методологию Бокса-Дженкинса к анализу данных о доходах ресторана, в котором он подрабатывал во время учебы. Первоначально собранные им еженедельные данные, приведенные в табл. 9.23, охватывают период с 4 января 1981 года по 26 декабря 1982 года. В табл. 9.24 показана новая подборка данных, охватывающая пе- риод от 2 января 1983 года до 30 октября 1983 года. Таблица 9.23. Исходные данные о еженедельных доходах ресторана Дата Доход Дата Доход Дата Доход 04.01.81 1688 06.09.81 5739 09.05.82 5837 11.01.81 2514 13.09.81 5560 16.05.82 7162 18.01.81 5843 20.09.81 5335 23.05.82 4997 25.01.81 4912 27.09.81 5305 30.05.82 4063 01.02.81 5133 04.10.81 5364 06.06.82 3942 08.02.81 4563 11.10.81 5511 13.06.82 4011 15.02.81 5416 18.10.81 5698 20.06.82 3999 22.02.81 6416 25.10.81 5382 27.06.82 4794 01.03.81 5879 01.11.81 5629 04.07.82 4956 08.03.81 3460 08.11.81 5617 11.07.82 3885 15.03.81 4517 15.11.81 5742 18.07.82 4209 22.03.81 5188 22.11.81 3747 25.07.82 3614 19.03.81 5944 29.11.81 4159 01.08.82 3722 05.04.81 5842 06.12.81 4853 08.08.82 4307 12.04.81 6589 13.12.81 5607 15.08.82 3322 19.04.81 5447 20.12.81 3946 22.08.82 5962 26.04.81 7548 27.12.81 1919 29.08.82 6784 03.05.81 6403 03.01.82 1898 05.09.82 6069 10.05.81 4103 10.01.82 1870 12.09.82 5897
524 ГЛАВА 9 Окончание табл. 9.23 Дата Доход Дата Доход Дата Доход 17.05.81 6594 17.01.82 3962 19.09.82 5916 24.05.81 5742 24.01.82 5973 26.09.82 4998 31.05.81 3714 31.01.82 5009 03.10.82 5111 07.06.81 3399 07.02.82 5328 10.10.82 5612 14.06.81 3376 14.02.82 5014 17.10.82 5906 21.06.81 3627 21.02.82 4986 24.10.82 6010 28.06.81 4201 28.02.82 5213 31.10.82 5937 05.07.81 3515 07.03.82 4807 07.11.82 6004 12.07.81 3645 14.03.82 3964 14.11.82 5959 19.07.81 3416 21.03.82 5201 21.11.82 4223 26.07.81 3565 28.03.82 4863 28.11.82 4679 02.08.81 2428 04.04.82 5019 05.12.82 5307 09.08.81 3292 11.04.82 4868 12.12.82 6101 16.08.81 3460 18.04.82 5777 19.12.82 6896 23.08.81 6212 25.04.82 6543 26.12.82 2214 30.08.81 6057 02.05.82 6352 Таблица 9.24. Новые данные о еженедельных доходах ресторана Дата Доход Дата Доход Дата Доход 02.01.83 2431 17.04.83 6357 31.07.83 3558 09.01.83 2796 24.04.83 7273 07.08.83 3791 16.01.83 4432 01.05.83 8678 14.08.83 3946 23.01.83 5714 08.05.83 7418 21.08.83 3054 30.01.83 5324 15.05.83 10388 28.08.83 6893 06.02.83 5011 22.05.83 4940 04.09.83 8037 13.02.83 5336 29.05.83 4195 11.09.83 6884 20.02.83 4999 05.06.83 3895 18.09.83 7143 27.02.83 5340 12.06.83 3762 25.09.83 8318 06.03.83 5009 19.06.83 3739 02.10.83 6871 13.03.83 5590 26.06.83 3975 09.10.83 6514 20.03.83 3308 03.07.83 4634 16.10.83 6656
Метод Бокса-Дженкинса (ARIMA) 525 Окончание табл. 9.24 Дата Доход Дата Доход Дата Доход 27.03.83 6558 1ы0.07.83 4891 23.10.83 6484 03.04.83 4991 17.07.83 3463 30.10.83 6125 10.04.83 6952 24.07.83 3536 Вопросы 1. Какая модель Бокса-Дженкинса будет наиболее подходящей для имеющихся исход- ных данных? 2. Каков будет прогноз на первые четыре недели января 1983 года? 3. Насколько этот прогноз соответствует реальным доходам? 4. Насколько модель Бокса-Дженкинса согласуется с регрессивными моделями, рас- смотренными в главе 8? 5. Можно ли будет использовать ту же модель Бокса-Дженкинса, если новые данные объединить со старыми? Задание 9.2. “Mr. Tux” Джон Мосби решил попробовать применить методологию Бокса-Дженкинса для прогно- зирования ежемесячных доходов своей компании. Безусловно, он понимал, что эта про- цедура намного сложнее, чем те простые методы, которые он уже опробовал, но он также знал и то, что, используя этот прогрессивный метод, можно достичь большей точности прогнозирования. К тому же у него имелось компьютерное приложение Minitab, позво- ляющее работать с моделями ARIMA. А поскольку свои исходные данные Джон уже ввел и сохранил в виде файла на жестком диске компьютера, он решил предпринять подобную попытку. Джон решил использовать весь набор имеющихся у него данных, включающий значе- ния за 96 месяцев. Он знал, что модели ARIMA позволяют учитывать сезонную структуру временного ряда, равно как и корреляцию между месяцами. Для имеющихся данных Джон вычислил функцию выборочной автокорреляции, гра- фик которой приведен в задании 3.2 на рис. 3.25, и установил, что в его данных присутст- вует заметный тренд (т.е. ряд является нестационарным). Тогда он рассчитал функцию автокорреляции для разностей исходных данных, график которой представлен на рис. 3.26. На этом графике Джон сразу же обратил внимание на значительные пики на интервалах 12 и 24, указывающие на присутствие в данных сезонности, для устранения которой, возможно, дополнительно потребуется перейти к сезонным разностям. Функ- ция выборочной автокорреляции после нахождения обычных (первых) и сезонных раз- ностей представлена на рис. 9.41. Функция выборочной частной автокорреляции для этих же разностных данных показана на рис. 9.42.
526 ГЛАВА 9 Lag Corr Т LBQ Lag Corr T LBQ 1 -0.43 -3.96 16.28 8 0.05 0.39 26.85 2-0.12 -0.93 17.52 9 -0.01 -0.05 26.85 3 0.18 1.36 20.29 10 0.03 0.23 26.95 4 -0.01 -0.10 20.31 11 -0.01 -0.04 26.96 5 -0.22 -1.68 24.84 12 -0.04 -0.27 27.09 6 0.13 0.92 26.30 13 0.02 0.18 27.16 7 -0.05 -0.38 26.57 14 -0.03 -0.18 27.22 Lag Corr T LBQ 15 -0.08 -0.58 27.91 16 0.03 0.20 28.00 17 0.18 1.31 31.62 18 -0.15 -1.03 34.01 19 -0.06 -0.41 34.39 20 0.17 1.14 37.46 Рис. 9.41. Функция автокорреляции ряда обычных и сезонных разностей для дан- ных о доходах компании “Mr. Тих” (приложение Minitab) Lag РАС Т 1 -0.43-3.96 2 -0.38 -3.47 3 -0.09 -0.78 4 0.01 0.12 5 -0.23-2.12 6 -0.16-1.49 7 -0.24-2.17 Lag РАС Т 8 -0.06 -0.56 9 -0.04 -0.39 10 -0.01 -0.10 11 -0.01 -0.09 12 -0.09-0.83 13 -0.02-0.19 14 -0.05 -0.47 Lag РАС Т 15 -0.14 -1.32 16 -0.19 -1.74 17 0.09 0.81 18 0.03 0.30 19 -0.14 -1.29 20 -0.08 -0.68 Рис. 9.42. Функция частной автокорреляции ряда обычных и сезонных разностей для данных о доходах компании “Mr. Тих” (приложение Minitab)
Метод Бокса-Дженкинса (ARIMA) 527 Вопросы 1. Поясните потенциальные проблемы (если таковые имеют место), представив свой ответ в виде подробных разъяснений сущности методологии Бокса-Дженкинса бан- киру Джона Мосби и остальным членам руководства высшего звена его компании. 2. Проанализируйте графики автокорреляции (рис. 9.41) и частной автокорреляции (рис. 9.42) и укажите, какие обычные (несезонные) слагаемые Джон мог бы вклю- чить в модель ARIMA для своих исходных данных? Какие сезонные слагаемые мож- но было бы включить в эту модель? 3. Воспользуйтесь какой-либо компьютерной программой, позволяющей работать с моделью ARIMA, для подбора и проверки модели ARIMA, учитывающей все осо- бенности данных об объемах доходов компании “Mr. Tux”. С помощью этой модели дайте прогноз доходов компании на следующие 12 месяцев. Задание 9.3. Корпорация Consumer Credit Counseling Деятельность корпорации Consumer Credit Counseling (ССС) была описана в главах 1, (задание 1.2) и 3 (задание 3.3). Исполнительный директор корпорации ССС, Мэрв Харнишфегер, пришла к заклю- чению, что наиболее важной переменной, значение которой необходимо прогнозиро- вать, является количество новых клиентов, которые обратятся в корпорацию за остав- шуюся часть 1993 года. Мэрв предоставила Дороти Мерсер ежемесячные данные о коли- честве новых клиентов, обратившихся в корпорацию ССС за период с января 1985 г. по март 1993 г. (см. задание 3.3). Дороти была весьма довольна своими прогнозами, сделанными до настоящего мо- мента. Однако считать их полностью удовлетворительными все же нельзя. Несомненно, Дороти была бы удивлена, если бы узнала, что существуют и более мощные инструмен- ты, широко используемые в прогнозировании, — методология Бокса-Дженкинса и моде- ли ARIMA. Дороти никогда не слышала об этой методологии, однако она наверняка за- хотела бы попробовать ее применить к имеющимся данным. Вопросы 1. Подготовьте для Дороти Мерсер докладную записку с изложением основных кон- цепций методологии Бокса-Дженкинса. 2. С помощью методологии Бокса-Дженкинса разработайте модель ARIMA для имею- щихся данных и предоставьте прогноз ежемесячного количества новых клиентов корпорации ССС на оставшуюся часть 1993 года. 3. Подготовьте для Дороти Мерсер еще одну докладную записку, в которой обобщите результаты выполненного анализа.
528 ГЛАВА 9 Задание 9.4. Компания Lydia Е. Pinkham Medicine16 17 Компания Lydia Е. Pinkham Medicine — это семейный концерн, основная прибыль кото- рого поступала от продажи лекарственной растительной смеси Lydia Pinkham Vegetable Compound. Возможно, нынешние студенты могли бы использовать небольшое количест- во этой смеси для снятия стресса; но, к сожалению, этот препарат больше не продается. Смесь позиционировалась на рынке как продукт для женщин, а на этикетке был изобра- жен портрет самой Лидии Пинкхэм (Lydia Pinkham). В рекламе продукта использовался следующий лозунг: “... пишите свободно и искренне миссис Пинкхэм в Линн, штат Массачусетс, и вы получите от нее консультацию, которую она совершенно бесплатно предоставляет всем женщинам. Эти советы помогут вернуть яркий солнечный свет в ва- ши дома, если в них поселились нервозность и раздражительность.” Иначе говоря, ком- пания гарантирует, что ее женщины-сотрудницы ответят на каждое присланное письмо. И женщины действительно писали миссис Пинкхэм. Все их заявления, по сути, своди- лись к одному: “Без нее (растительной смеси Лидии Пинкхэм) я бы уже давно умерла или, что еще хуже, стала бы душевнобольной... Перепробовав множество средств, я со- вершенно отчаялась; я уже не верила, что что-либо сможет мне помочь. Но, благодаря Вашему препарату, сейчас я чувствую себя совершенно здоровой и окрепшей — фактиче- ски, совершенно другим человеком.” Этот отрывок приводится в исходном виде, именно так, как он был написан автором письма. Уникальные особенности компании состоят в том, что у нее имелся лишь один доми- нирующий продукт, определявший львиную долю ее прибылей, отсутствовали собствен- ные торговые агенты, а значительная часть доходов инвестировалась в рекламу. Именно доступность сведений как о доходах, так и расходах на рекламу послужила основной при- чиной, по которой Комитет по ценообразованию Национального управления экономи- ческих исследований США рекомендовал в 1943 году воспользоваться данными о дея- тельности этой компании для проведения тщательных статистических исследований. Эти исследования не прекращались на протяжении нескольких лет.” Для изучения данных аналитики использовали каузальные модели, в которые входили данные по рекламе и не- которые другие экономические переменные (подобные рассмотренным в главе 8). Тем не менее несколько исследователей предположили, что подход Бокса-Дженкинса, опираю- щийся только на данные по продажам, дал бы близкий или даже лучший прогноз по сравнению с каузальным подходом18. Данные по продажам этой компании были интерес- ны для изучения по двум причинам. м Данные для этого задания были предоставлены д-р Сьюзан Уайт (Susan С. White), университет Northwestern, штат Луизиана. Более подробные сведения можно найти в работе Susan С. White, "Predicting Time Series with Neural Networks versus Statistical Models: The Lydia Pinkham Data, ” Proceedings of the 24th Annual Conference of the Decision Sciences Institute, Southwest Region, 1993, c. 108—110. 17 Cm. Palda, 1964). ,s Cm. Kyle, 1978).
Метод Бокса-Дженкинса (ARIMA) 529 1. Сам продукт был неизменен на протяжении всего периода, за который выбира- лись данные, т.е. в этом ряду нет изменений, связанных с изменением характери- стик продукции. 2. В систему сбыта продукции не вносилось никаких изменений на протяжении всего периода, за который выбирались данные, и соотношение между доходами компании и ее расходами на рекламу было в той или иной степени постоянным. Поэтому в данных нет изменений, вызванных расширением рекламной кампании или другими маркетинговыми мероприятиями. Как правило, в исходных данных для большинства компаний нет подобной “чистоты” в отношении изменения характеристик продукции и маркетинговой политики. Таким образом, нашей задачей будет поиск такой модели Бокса-Дженкинса (ARIMA), которая наилучшим образом моделирует данные компании Lydia Е. Pinkham Medicine. Модель должна быть построена на основании данных за период 1907—1948 гг. и проверена с помощью данных за 1949-1960 гг., приведенных в табл. 9.25. Таблица 9.25. Годовые объемы продаж продукции компании Lydia Е. Pinkham Medicine (тыс. текущих долл.) Год Продажи Год Продажи Год Продажи 1907 1016 1925 3438 1943 2602 1908 921 1926 2917 1944 2518 1909 934 1927 2359 1945 2637 1910 976 1928 2240 1946 2177 1911 930 1929 2196 1947 1920 1912 1052 1930 2111 1948 1910 1913 1184 1931 1806 1949 1984 1914 1089 1932 1644 1950 1787 1915 1087 1933 1814 1951 1689 1916 1154 1934 1770 1952 1866 1917 1330 1935 1518 1953 1896 1918 1980 1936 1103 1954 1684 1919 2223 1937 1266 1955 1633 1920 2203 1938 1473 1956 1657 1921 2514 1939 1423 1957 1569 1922 2726 1940 1767 1958 1390 1923 3185 1941 2161 1959 1397 1924 3352 1942 2336 1960 1289
530 ГЛАВА 9 Определение модели Для изучения данных с 1907 по 1948 год была использована компьютерная программа, позволяющая проводить моделирование ARIMA; данные с 1949 по 1960 год использова- лись для проверки возможности прогнозирования с помощью выбранной модели. При предварительной проверке предполагалось, что данные стационарны (т.е. тренд в них от- сутствует), поэтому вычисление разностей не выполнялось. После изучения функций ав- токорреляции и частной автокорреляции стало ясно, что наиболее подходящей для этих данных будет модель типа AR. (Коэффициенты автокорреляции (столбец ACF) и частной автокорреляции (столбец PACF) для 10 интервалов запаздывания приведены в табл. 9.26.) Похоже, что поведение функций автокорреляции и частной автокорреляции наиболее соответствует процессу вида AR(2). Для того чтобы проверить порядок р ком- поненты AR, был использован информационный критерий Акаике (критерий AIC, см. уравнение 9.7) для авторегрессионных моделей порядков р = 1, 2 и 3. Критерий AIC ука- зал на целесообразность выбора модели AR(2) для моделирования данных компании Ly- dia Е. Pinkham Medicine. Таблица 9.26. Коэффициенты автокорреляции и частной автокорреляции для 10 интервалов запаздывания Запаздывание ACF PACF 1 0,915 0,915 2 0,765 -0,440 3 0,597 -0,061 4 0,424 -0,124 5 0,243 -0,168 6 0,059 -0,141 7 -0,099 0,024 8 -0,240 -0,170 9 -0,356 -0,036 10 -0,440 -0,040 Оценка модели и проверка ее адекватности Для оценки параметров модели AR(2) (включая постоянное слагаемое) с привлечением данных за 1907-1948 гг. использовалась специализированная компьютерная программа. Результирующая модель имела следующий вид. Y, =178,6+1,4231^ - 0,521У;_2 + е, (0,137) (0,136) Здесь числа в скобках под авторегрессионными коэффициентами — это оценка их стан- дартного отклонения. Каждый авторегрессионный коэффициент существенно отличает- ся от нуля для любого допустимого уровня значимости. Остаточные коэффициенты ав-
Метод Бокса-Дженкинса (ARIMA) 531 токорреляции малы, и каждый из них находится в рамках 95%-ного интервала своей пре- дельной ошибки. Для групп интервалов т=12, 24 и 36 %2-статистика Льюинга-Бокса для р дала, соответственно, значения 0,63, 0,21 и 0,64. Модель AR(2) продемонстрировала полную адекватность для описания имеющихся данных. Прогноз на основе выбранной модели Последним этапом анализа модели AR(2) для анализируемых данных будет серия про- гнозов значений на один шаг вперед для каждого года, с 1949 по 1960 год. (Иначе говоря, данные вплоть до 1958 года используются для прогнозирования показателя на 1959 год). Используемое уравнение прогноза имеет вид Y, = 178,6 + 1,4237,., - 0,5217,-2 Прогноз на один шаг вперед и соответствующая ошибка прогноза приведены в табл. 9.27. Таблица 9.27. Прогноз и ошибка прогноза для 1949-1960 гг. Год Действительное значение Прогноз Ошибка прогноза 1949 1984 1896,4 87,6 1950 1787 2006,7 -219,7 1951 1689 1687,8 1,2 1952 1866 1651,0 215,0 1953 1896 1953,9 -57,9 1954 1684 1904,4 -220,4 1955 1633 1587,1 45,9 1956 1657 1625,0 32,0 1957 1569 1685,7 -116,7 1958 1390 1548,0 -158,0 1959 1387 1339,1 -47,9 1960 1289 1442,3 -153,3 В дополнение к прогнозу на один шаг вперед, можно вычислить еще несколько пока- зателей точности прогнозирования. Средняя абсолютная ошибка прогноза, выраженная в процентах (МАРЕ), при использовании модели AR(2) составляет 6,9%, а среднее абсо- лютное отклонение (MAD) — 113 (тыс. текущих долл.). Эти расчеты хорошо согласуются с характеристиками точности, полученными другими исследователями из каузальных моделей. Итоги и заключения К данным компании Lydia Е. Pinkham Medicine за период с 1949 по 1948 год была приме- нена экономная (с наименьшим числом параметров) модель AR(2). Эта модель дает дос- таточно точный прогноз на один шаг вперед для данных за 1949—1960 гг.
532 ГЛАВА 9 Вопросы 1. После завершения описанного выше анализа стал известен объем продаж компании в 1961 году: 1426 тыс. долл. Каким, согласно модели, будет прогноз на 1961 год? Как изменятся значения МАРЕ и MAD, если в набор тестовых данных добавить и этот год? 2. В данных компании Lydia Е. Pinkham Medicine имеется несколько признаков неста- ционарности. Например, выборочные автокорреляции имеют тенденцию к (устойчивому) увеличению на нескольких интервалах. Рассчитайте временной ряд разностей данных и постройте его график. Воспользовавшись приложением Minitab или любой другой аналогичной программой, примените к данным с 1907 по 1948 год модель вида ARIMA(l,l,0). Подготовьте прогнозы на один шаг вперед для 1949— 1960 гг. Какая модель, AR(2) или ARIMA(l,l,0), будет лучше моделировать данные компании Lydia Е. Pinkham Medicine? 3. Данные компании Lydia Е. Pinkham Medicine интересны своей уникальной (неизменной) природой товара и условиями маркетинга для всего представленного 54-летнего периода. Какие, по вашему мнению, факторы могли бы повлиять на дан- ные о ежегодных продажах автомобилей и меди в течение этого же периода? Более полно о компании Lydia Е. Pinkham Medicine и самой Лидии Пинкхэм можно уз- нать в издании Sarah Stage. Female Complaints: Lydia Pinkham and Business of Women’s Medicine, New York: Norton, 1979. Задание 9.5. Радиостанция студенческого городка Работа радиостанции студенческого городка финансируется, в основном, за счет ежеме- сячных отчислений от налога с оборота. Налоговые поступления формируют приблизи- тельно 44% бюджета всего нецелевого фонда. Для студенческого городка весьма важным моментом является возможность прогнозирования величины ежемесячных налоговых отчислений, поступающих от штата Техас. Суть проблемы в том, что на текущий счет всегда помещается сумма, равная сумме ожидаемых расходов. Дополнительные суммы могут быть размещены только на счетах с меньшей суммой процентов по вкладу. Чарльзу Лемору (Charles Lemore), аналитику студенческого городка, поручили разра- ботать модель для прогнозирования ежемесячных налоговых отчислений. Чарльз недав- но прослушал курс прогнозирования в местном университете и решил воспользоваться методологией Бокса-Дженкинса. Он начал с изучения характеристик самих данных и функций их выборочной автокорреляции и выборочной частной автокорреляции. Суммы ежемесячных налоговых отчислений (тыс. долл.) за период с января 1991 по ноябрь 1999 года приведены в табл. 9.28. График временного ряда сумм отчислений пока- зан на рис. 9.43.
Метод Бокса-Дженкинса (ARIMA) 533 Таблица 9.28. Налоговые отчисления в фонд студенческого городка за 1991-1999 гг. 1991 1992 1993 1994 1995 1996 1997 1998 1999 январь 382 468 544 691 675 663 646 715 839 февраль 872 895 1005 1125 1139 1174 1219 1487 1459 март 408 457 543 531 684 714 680 763 828 апрель 443 568 568 576 564 698 628 793 862 май 679 685 785 868 851 842 943 955 1147 июнь 406 492 596 541 595 675 756 780 840 июль 409 465 488 571 641 665 649 777 814 август 662 713 799 876 902 948 951 1052 1064 сентябрь 388 518 518 579 596 670 742 775 766 октябрь 570 572 644 801 735 753 814 957 997 ноябрь 879 891 968 960 1014 1073 1100 1117 1187 декабрь 417 519 544 546 652 676 759 757 Sales Tax Revenues Jan. 1991-Nov. 1999 1,500 - “1-------1---------1---------i----------Г" 20 40 60 80 100 Months Puc. 9.43. График налоговых отчислений в фонд студенческого городка (приложение Minitab) В графиках основного ряда, а также функций выборочной автокорреляции и выборочной частной автокорреляции, показанных на рис. 9.44 и 9.45, явно наблюдается наличие сильной сезонной компоненты. Высокие коэффициенты автокорреляции на интервалах запаздыва- ния, кратных трем, указывают на то, что, наряду с годовой структурой, имеет место и внутри- годовая квартальная структура (муниципальные платежи второго месяца каждого квартала относительно велики). К тому же ряд содержит очевидный возрастающий тренд.
534 ГЛАВА 9 Autocorrelation Function for Revenues 1.0 - 0.8 - 0.6 - 0.4 - 0.2 - 0.0 - о -0.2 - 2 -0.4 - < -0.6 - -0.8 - -1.0 - w ф 5 15 25 Lag Corr Т LBQ 1 0.07 0.68 0.47 2 0.05 0.54 0.77 3 0.78 7.99 68.69 4 0.07 0.48 69.23 5 0.03 0.19 69.32 6 0.69 4.79 124.80 7 -0.02 -0.13 124.86 8 0.07 0.39 125.38 9 0.69 4.01 182.81 Lag Corr T LBQ 10 -0.04 -0.22 183.03 11 0.01 0.04 183.04 12 0.77 3.88 255.10 13 -0.03 -0.12 255.19 14 -0.03 -0.13 255.29 15 0.60 2.68 300.77 16 -0.02 -0.10 300.85 17 -0.07 -0.31 301.56 18 0.52 2.16 336.40 Lag Corr T LBQ 19 -0.11 -0.44 337.98 20 -0.03 -0.14 338.14 21 0.53 2.12 375.81 22 -0.13 -0.49 378.02 23 -0.08 -0.29 378.81 24 0.57 2.20 424.75 25 -0.11 -0.41 426.51 26 -0.12 -0.43 428.48 Puc. 9.44. Функция выборочной автокорреляции данных о налоговых отчислениях в фонд студенческого городка (приложение Minitab) Partial Autocorrelation Function for Revenues Lag РАС T 1 0.07 0.68 2 0.05 0.50 3 0.78 8.04 4 -0.00 -0.02 5 -0.04 -0.38 6 0.22 2.32 7 -0.26 -2.65 Lag РАС T 8 0.18 1.84 9 0.28 2.88 10 -0.08 -0.81 11 -0.12 -1.28 12 0.40 4.10 13 -0.04 -0.44 14-0.19-1.96 Lag РАС T 15 -0.29 -2.96 16 0.07 0.75 17 -0.13-1.35 18 -0.08 -0.85 19 0.07 0.68 20 0.09 0.95 21 0.03 0.30 Lag РАС T 22 -0.02 -0.18 23 0.07 0.75 24 0.02 0.24 25 -0.08 -0.82 26 -0.06 -0.66 Puc. 9.45. Функция выборочной частной автокорреляции данных о налоговых от- числениях в фонд студенческого городка (приложение Minitab)
Метод Бокса-Дженкинса (ARIMA) 535 Чарльз решил рассчитать разности для ряда налоговых отчислений по отношению к сезонному периоду 5=12. Функция выборочной автокорреляции для сезонно- разностного ряда показана на рис. 9.46. График самого сезонно-разностного ряда (не по- казан) демонстрирует изменения значений в окрестности постоянного уровня, равного приблизительно 50. Lag Corr т LBQ Lag Corr т LBQ Lag Corr T LBQ 1 -0.04 -0.43 0.19 9 0.14 1.25 10.77 17 0.08 0.64 25.51 2 -0.02 -0.24 0.25 10 -0.11 -0.96 12.04 18 -0.08 -0.63 26.25 3 0.09 0.90 1.10 11 0.01 0.07 12.05 19 -0.01 -0.06 26.26 4 -0.09 -0.88 1.96 12 -0.30 -2.60 21.76 20 0.03 0.21 26.34 5 0.15 1.47 4.38 13 0.03 0.28 21.88 21 -0.14 -1.11 28.72 6 0.07 0.64 4.87 14 0.15 1.20 24.30 22 0.12 0.92 30.45 7 8 -0.10 0.16 -0.92 1.50 5.90 8.72 15 16 -0.06 0.00 -0.52 0.01 24.77 24.77 23 0.02 0.18 30.52 Рис. 9.46. Функция выборочной автокорреляции сезонных разностей данных о на- логовых отчислениях в фонд студенческого городка (приложение Minitab) Чарльз намеревался подобрать и проверить модель ARIMA для ряда данных о налого- вых отчислениях. После того как адекватная модель будет найдена, он также хотел бы сделать прогноз отчислений на следующие 12 месяцев. Вопросы 1. С помощью методологии Бокса-Дженкинса разработайте модель ARIMA для про- гнозирования налоговых отчислений в фонд студенческого городка. 2. Исходя из выбранной модели, сделайте прогноз налоговых отчислений на следую- щие 12 месяцев. Дополните график налоговых отчислений прогнозируемыми значе- ниями. Удовлетворительна ли общая структура полученных прогнозов? 3. Подготовьте письменный отчет, обобщающий результаты проведенных исследований.
536 ГЛАВА 9 Задание 9.6. Отделение Air Finance компании UPS Отделение Air Finance является одним из подразделений, входящих в состав корпорации United Parcel Service Finance, дочерней компании корпорации United Parcel Service (UPS). Отделение Air Finance отвечает за полное финансовое обслуживание компании в целом в вопросах приобретения акций авиационных компаний. Кроме того, это отделе- ние проводит финансирование независимых внешних организаций при покупках авиа- ционной техники как отдельные внешние операции. Исторически сегмент финансовых операций отделения Air Finance, не относящихся к деятельности UPS, обеспечивал более быстрый оборот средств и больший доход, чем традиционная сфера услуг компании UPS. Но в то же время это и более капиталоемкая область. Прогнозирование финансирования для отличного от UPS сегмента общего поля дея- тельности отделения Air Finance прежде было весьма субъективным и не отличалось та- кой же надежностью, как прогнозирование для других сегментов. В табл. 9.29 представ- лены собранные за 10 лет данные о финансовых потребностях отличного от UPS сегмен- та рынка отделения Air Finance. Эти данные (в млн долл.) взяты из отчетов руководства отделения за период с января 1989 по декабрь 1998 года и являются цифрами на конец соответствующего месяца. Таблица 9.29. Финансирование внешнего сегмента рынка отделения Air Finance 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 январь 16,2 20,1 20,0 20,2 21,0 21,2 21,8 20,7 22,9 25,6 февраль 16,7 21,6 20,4 21,1 21,7 22,5 21,9 22,0 23,8 26,5 март 18,7 21,6 20,9 21,5 22,2 22,7 23,1 22,5 24,8 27,2 апрель 18,8 21,9 21,6 22,2 23,1 23,6 23,2 23,6 25,4 27,9 май 20,6 23,4 23,2 23,4 24,8 25,1 24,2 25,2 27,0 29,4 июнь 22,5 25,9 25,6 25,7 26,6 27,6 27,2 27,6 29,9 31,8 июль 23,3 26,0 26,6 26,3 27,4 28,2 28,0 28,2 31,2 32,7 август 23,8 26,2 26,3 26,2 27,1 27,7 27,6 28,0 30,7 32,4 сентябрь 22,3 24,7 23,7 23,6 25,3 25,7 25,2 26,3 28,9 30,4 октябрь 22,3 23,5 22,2 22,8 23,6 24,3 24,1 25,9 28,3 29,5 ноябрь 22,1 23,4 22,7 22,8 23,5 23,7 23,6 25,9 28,0 29,3 декабрь 23,6 23,9 23,6 23,3 24,7 24,9 24,1 27,1 29,1 30,3 Для данных, приведенных в табл. 9.29, построен график, изображенный на рис. 9.47. Временной ряд финансирования внешнего сегмента рынка имеет ярко выраженную се- зонную компоненту, наряду с общим возрастающим трендом. Функции выборочной ав- токорреляции и выборочной частной автокорреляции приведены на рис. 9.48 и 9.49.
Метод Бокса-Дженкинса (ARIMA) 537 Air Finance Non-UPS Funding Requirements Months Puc. 9.47. Финансирование внешнего сегмента рынка отделения Air Finance (приложение Minitab) о £ о 1.0 - 0.8 - 0.6 - 0.4 - 0.2 - 0.0 - о-0.2 - S -0.4 - < -0.6 - -0.8 - -1.0 - Autocorrelation Function for Funding 10 20 30 Lag Corr T LBQ Lag Corr T LBQ Lag Corr T LBQ 1 0.84 9.17 86.30 11 0.55 2.77 269.23 21 0.11 0.47 390.51 2 0.65 4.62 139.31 12 0.65 3.10 326.37 22 0.23 0.97 398.68 3 0.47 2.86 167.12 13 0.51 2.27 362.20 23 0.35 1.45 417.59 4 0.31 1.76 179.24 14 0.36 1.51 379.66 24 0.46 1.85 449.55 5 0.17 0.93 182.80 15 0.19 0.80 384.81 25 0.34 1.34 467.41 6 0.12 0.66 184.64 16 0.05 0.21 385.19 26 0.20 0.78 473.83 7 0.12 0.65 186.47 17 -0.07 -0.29 385.90 27 0.06 0.23 474.41 8 0.21 1.14 192.15 18-0.10 -0.42 387.38 28 -0.06 -0.22 474.91 9 0.31 1.67 204.69 19-0.09 -0.38 388.58 29-0.16 -0.60 478.86 10 0.43 2.27 229.15 20 0.01 0.03 388.59 30 -0.18 -0.67 483.88 Рис. 9.48. Функция выборочной автокорреляции для данных о финансировании внешнего сегмента рынка отделения Air Finance (приложение Minitab)
538 ГЛАВА 9 1.0 0.8 0.6 0.4 - 0.2 - 0.0 - -0.2 - -0.4 - -0.6 - -0.8 - -1.0 - Partial Autocorrelation Function for Funding 30 Lag РАС Т Lag РАС т Lag РАС т 1 0.84 9.17 11 0.21 2.27 21 0.07 0.75 2 -0.16 -1.76 12 0.19 2.10 22 -0.00 -0.01 3 -0.10 -1.11 13 -0.64 -7.04 23 0.11 1.23 4 -0.05 -0.58 14 0.05 0.52 24 0.01 0.07 5 -0.07 -0.72 15 -0.05 -0.59 25 -0.23 -2.54 6 0.20 2.19 16 0.04 0.45 26 0.01 0.12 7 0.06 0.70 17 -0.01 -0.11 27 0.04 0.46 8 0.28 3.04 18 0.03 0.28 28 0.04 0.44 9 0.07 0.80 19 0.01 0.09 29 -0.00 -0.05 10 0.18 1.92 20 0.06 0.62 30 -0.02 -0.21 Puc. 9.49. Функция выборочной частной автокорреляции для данных о финансиро- вании внешнего сегмента рынка отделения Air Finance (приложение Minitab) Прогноз будущих финансовых потребностей внешнего сегмента рынка отделения Air Finance должен быть построен на основе модели ARIMA, подобранной согласно методо- логии Бокса-Дженкинса. Вследствие нестационарного характера исходного временного ряда, предварительно следует изучить функции автокорреляции и частной автокорреляции для различных раз- ностей исходных значений ряда. На рис. 9.50 показана функция автокорреляции для первой обычной разности и первой разности ряда порядка S = 12. Иначе говоря, эта функция автокорреляции вычислена для разностей следующего вида. W, = ДД12Г, = Д(Г, - Г,_12) = Y, - Г,_, - Г,_12 + Г,_13 На рис. 9.50 видно, что коэффициенты выборочной автокорреляции имеют самый значительный пик при интервале 12. А это означает, что для ряда И) (процесс с обычной и сезонной разностями) необходимо использовать модель ARIMA, включающую член скользящего среднего на интервале 12. Следовательно, модель ARIMA(0,l,0)(0,l,l)l2 бу- дет, вероятно, подходящим начальным выбором для выполнения анализа данных о фи- нансировании внешнего сегмента.
Метод Бокса-Дженкинса (ARIMA) 539 Autocorrelation Function for Diff 1 Diff 12Fund Lag Corr Т LBQ Lag Corr т LBQ Lag Corr T LBQ 1 -0.25 -2.58 6.84 10 0.05 0.47 18.97 19 -0.15 -1.14 57.28 2 0.02 0.15 6.87 11 0.12 1.09 20.77 20 0.00 0.03 57.28 3 0.05 0.49 7.15 12 -0.45 -4.02 46.05 21 0.01 0.07 57.29 4 -0.00 -0.04 7.15 13 0.24 1.90 53.47 22 -0.04 -0.30 57.52 5 -0.14 -1.35 9.34 14 -0.04 -0.31 56.68 23 -0.01 -0.04 57.52 6 -0.03 -0.25 9.42 15 -0.01 -0.07 53.69 24 0.05 0.39 57.90 7 0.28 2.67 18.52 16 -0.00 -0.00 53.69 25 -0.22 -1.63 64.87 8 -0.02 -0.16 18.55 17 0.04 0.27 53.86 26 0.18 1.29 69.51 9 0.03 0.24 18.64 18 0.05 0.39 54.21 Puc. 9.50. Функция выборочной автокорреляции ряда обычных и сезонных разно- стей исходных данных о финансировании внешнего сегмента рынка отделения Air Finance (приложение Minitab) Вопросы 1. Воспользуйтесь приложением Minitab или любой другой аналогичной программой, чтобы подобрать модель вида ARIMA(0,l,0)(0,l,l)|2 для данных, представленных в табл. 9.29. Как вы считаете, должен ли в модели присутствовать постоянный член? Поясните свой ответ. 2. Адекватна ли исходным данным модель, предложенная в предыдущем вопросе? Проанализируйте ее на основании графика остатков, графика функции остаточной автокорреляции и ^-статистики Льюинга-Бокса. Если выбранная модель окажется неадекватной, откорректируйте ее и заново просчитайте — и так до тех пор, пока не будут получены удовлетворительные результаты. 3. На основе модели, полученной в предыдущем пункте, подготовьте прогноз потреб- ности в финансировании внешнего сектора на следующие 12 месяцев. 4. Составьте письменный отчет, обобщающий результаты выполненного исследования. К отчету приложите график исходного ряда, дополненный данными прогноза. Применение Minitab Задание. В примере 9.10 Перкину Кенделлу, аналитику компании Outboard Marine, необ- ходимо подготовить прогноз объемов продаж на 1997 год.
540 ГЛАВА 9 Решение в Minitab 1. Если исходные данные уже записаны в некотором файле, откройте его, выбрав ко- манду File^Open Worksheet. Если данные еще не записывались в файл, введите их в рабочий лист приложения Minitab. 2. Для того чтобы вычислить функцию автокорреляции для переменной объема про- даж компании, выберите команду Stat^Time Series^Autocorrelation. 3. На экране раскроется диалоговое окно Autocorrelation Function, показанное на рис. 3.28. а) в поле списка переменных дважды щелкните на имени переменной Sales, и ее название будет помещено в поле ввода Series б) щелкните на кнопке ОК, и на экран будет выведен график функции автокорре- ляции, показанный на рис. 9.33 4. Для вычисления сезонных разностей данных выберите команду Stat^Time Se- ries^Differences. 5. На экране раскроется диалоговое окно Differences, показанное на рис. 3.29. а) в поле списка переменных дважды щелкните на имени переменной Sales, и ее название будет помещено в поле ввода Series б) с помощью клавиши <ТАВ> переведите курсор в поле ввода Store differences in и введите в него значение С2 в) аналогичным образом введите в строку Lag (Интервал) значение 4. Щелкните на кнопке ОК, и в столбец 2, начиная со строки 5, будут помещены значения четвертой разности исходных данных 6. Обозначьте колонку С2 как содержащую переменную Diff4Sales. Чтобы вычислить функцию автокорреляции для этой переменной, повторите пп. 2—3, поместив в поле ввода Series ее имя Diff4Sales. 7. Для вычисления первых разностей для переменной Diff4Sales следует повторить п. 5, сохраняя полученные разности в колонке СЗ, и поместить в поле Lag значение 1. 8. Обозначьте колонку СЗ как содержащую переменную Diff 1 Diff4Sales. Чтобы вычис- лить функцию автокорреляции для этой переменной, повторите пп. 2-3, на этот раз поместив в поле ввода Series ее имя Diff 1 Diff4Sales. 9. Для того чтобы вычислить функцию частной автокорреляции для переменной Diff1Diff4Sales, выберите команду Stat^Time Series^Partial Autocorrelation. 10. На экране раскроется диалоговое окно Partial Autocorrelation Function (Частная ав- токорреляционная функция), подобное диалоговому окну, показанному на рис. 3.28. а) в поле списка переменных дважды щелкните на имени переменной Diff 1 Diff4Sales, и ее название будет помещено в поле ввода Series б) ЩЕЛКНИТЕ на кнопке ОК, и на экране появится график функции частной ав- токорреляции, показанный на рис. 9.36 11. Чтобы начать работу с моделью ARIMA(l,l,0)(0,l,2), выберите команду Stat^Time Series^Arima. 12. На экране раскроется диалоговое окно Arima, показанное на рис. 9.51.
Метод Бокса-Дженкинса (ARIMA) 541 Рис. 9.51. Диалоговое окно ARIMA приложения Minitab а) в поле списка переменных дважды щелкните на имени переменной Sales, и ее название будет помещено в поле ввода Series б) установите флажок опции Fit seasonal models (Выбрать сезонную модель) и введите значение 4 в поле ввода Period в) в группе полей Nonseasonal (Несезонные) введите значение 1 в поля ввода Au- toregressive (Авторегрессия) и Difference (Разность) и значение 0 — в поле вво- да Moving average (Скользящее среднее) г) в группе полей Seasonal (Сезонные) введите значение 0 в поле ввода Autore- gressive, значение 1 — в поле ввода Difference и значение 2 — в поле ввода Moving average д) поскольку в расчетах используются разности данных, сбросьте флажок опции Include constant term in model (Включить в модель постоянное слагаемое) е) щелкните на кнопке Forecasting (Прогнозирование), и на экране раскроется диалоговое окно ARIMA - Forecasting. Для получения прогноза на два периода вперед введите значение 2 в поле ввода Lead. Щелкните на кнопке ОК ж) щелкните на кнопке Storage (Сохранение), и на экране раскроется диалоговое окно ARIMA - Storage. Установите флажок опции Residuals (Остатки) и щелк- ните на кнопке ОК. Затем щелкните на кнопке ОК в окне ARIMA, и на экран будут выведены результаты расчетов, представленные в нижней части листин- га 9.8 з) для вычисления функции автокорреляции остатков повторите пп. 2—3, помес- тив в поле ввода Series имя переменной Res1. 13. Для получения графика временного ряда, дополненного результатами расчета про- гнозов, щелкните в диалоговом окне ARIMA на кнопке Graphs (Графики). На экран будет выведено диалоговое окно ARIMA - Graphs, показанное на рис. 9.52.
542 ГЛАВА 9 Рис. 9.52. Диалоговое окно ARIMA - Graphs при- ложения Minitab а) установите флажок опции Time series plot (including optional forecasts) (График временного ряда, включая вычисленные прогнозы) б) в этом диалоговом окне доступен альтернативный способ вычисления функции автокорреляции остатков — для этого достаточно установить флажок опции ACF of residuals (Автокорреляционная функция остатков) в) щелкните на кнопке ОК в этом окне, а затем в окне ARIMA, и на экран будет выведен график, показанный на рис. 9.38 Применение Excel Задание. В главе 3 приложение Excel использовалось для расчета коэффициентов авто- корреляции и построения коррелограмм для данных, представленных в табл. 3.1. В этом разделе будет продемонстрирована работа с надстройкой Excel — программой Kaddstat. Решение в Excel 1. Откройте файл с исходными данными, для чего в окне приложения Excel выберите команду File^Open. В раскрывшемся на экране диалоговом окне Open (Открытие документа) введите значение ТаЬЗ_1 в поле ввода File name и щелкните на кнопке Open. На экране появятся данные, приведенные в табл. 3.1. 2. Чтобы рассчитать функцию автокорреляции с помощью надстройки Kaddstat, выбе- рите команду Tools^Add-Ins (Сервис^Надстройки), и на экране раскроется диа- логовое окно Add-Ins (Надстройки). Выберите в списке надстроек значение Kadd и щелкните на кнопке ОК. На панели меню Excel появится дополнительное меню Kadd. 3. Для вычисления функции автокорреляции с помощью надстройки Kaddstat выбери- те команду Kadd ^Autocorrelation. На экране раскроется диалоговое окно Autocor- relation, показанное на рис. 9.53.
Метод Бокса-Дженкинса (ARIMA) 543 L! ..1ЯЙГ.|!*ММ11|М||1 J1 Im If i :-л» Range. :"'S-t':1 iJ I 01 ~] Header Ro« Induced Cared | ГоЬиичгН/ФиЬОаМ | Г 5md CjJ.u tu 1------П "°- F J 'Create -*-«.,51» _________________________________________ Puc. 9.53. Диалоговое окно Auto- correlation надстройки Kaddstat приложения Excel а) в поле Input Range (Диапазон ввода) укажите диапазон ячеек с исходными дан- ными $А$2:$А$13 б) в группе Send Output to (Вывести результат в) установите флажок опции Cell (Ячейка) и введите значение В2 в соседнее поле ввода в) щелкните на кнопке ОК, и на экран будут выведены результаты расчетов, пока- занные на рис. 9.54 Рис. 9.54. Результаты вычисления функции автокорреляции с помощью надстройки Kaddstat приложения Excel Рекомендуемая литература Akaike Н. A New Look at the Statistical Model Identification. IEEE Transactions Automatic Control AC-19 (1974): 716-723. Bernstein P. Against the Gods: The Remarkable Story of Risk. New York: John Wiley & Sons, 1996.
544 ГЛАВА 9 Box G.E.P., Jenkins G.M., Reinsei G.C. Time Series Analysis: Forecasting and Control, 3rd ed. Upper Saddle River, NJ: Prentice Hall, 1994. DeLurgio S.A. Forecasting Principles and Applications. New York: McGraw-Hill, 1998. Deibold F.X. Elements of Forecasting. Cincinnati, OH: South-Western, 1998. Jenkins G., McLeod G. Case Studies in Time Series Analysis. Lancaster, UK: Gwilym Jenkins & Partners Ltd., 1982. Kyle P.W. Lydia Pinkham Revisited: A Box-Jenkins Approach. Journal of Advertising Research 18 (2) (1978): 31-39. Makridakis S., Wheelwright S.C., Hyndman R.J. Forecasting Method and Applications, 3rd ed. New York: John Wiley & Sons, 1998. Montgomery D.S., Johnson L.A. Forecasting and Time Series Analysis. New York: McGraw-Hill, 1976. Newbold P., BosT. Introductory Business & Economic Forecasting, 2nd ed. Cincinnati, OH: South- Western, 1994. O’Donovan T.M. Short Term Forecasting: An Introduction to the Box-Jenkins Approach. New York: John Wiley & Sons, 1983. Pack D.J. In Defense of ARIMA Modeling. International Journal of Forecasting 6 (2) (1990): 211—218. Palda K.S. The Measurement of Cumulative Advertising Effects. Englewood Cliffs, NJ: Prentice-Hall, 1964. Pindyck R.S., Rubinfeld D.L. Economic Models and Economic Forecasts, 4lh ed. New York: McGraw-Hill, 1998. Quenouille M.H. The Joint Distribution of Serial Correlation Coefficients. Annuals of Mathematical Statistics 20 (1994): 561—571. Schwarz G. Estimating the Dimension of a Model. Annals of Statistics 6 (1978): 461—464.
WWWVI 7 У f/www Элементы субъективной оценки в прогнозировании Во всех метках прогнозирован», рассматриваемых в огои книге даЯ „ояуненни предсказаний или прогнозов тех переменных, которые представляют интерес, преду- сматривается та или иная обработка данных исторических наблюдений. Во всех преды- дущих главах обсуждение строилось на сложном математическом анализе данных наблю- дений, и при этом подразумевалось, что мнение самого прогнозиста никак не учитывает- ся. В действительности же, как подчеркивалось в главе 1, использование верной субъек- тивной оценки является важнейшим элементом всех хороших методик прогнозирования. Правильная оценка нужна как при определении степени значимости данных по отноше- нию к решаемой проблеме, так и при интерпретации результатов анализа этих данных, а в некоторых случаях она является важнейшей составляющей самого процесса анализа. В этой главе речь пойдет о некоторых важных элементах прогнозирования, расширяю- щих или дополняющих методику обработки подобных исторических данных, а в главе 11 мы обсудим некоторые вопросы, касающиеся управления процессом прогнозирования. При прогнозировании во многих случаях для получения окончательного прогноза доста- точно только проведения анализа данных наблюдений, при этом субъективная оценка или мнение аналитика в процессе не учитываются. В данной книге рассматриваются, прежде все- го, именно такие методики прогнозирования, и, как результат, они с достаточной достоверно- стью позволяют получать только средне- и краткосрочные прогнозы. Подобные прогнозы представляют существенный интерес практически на всех уровнях управления различных организаций и обычно используются для принятия наиболее критических решений. Подобные методы прогнозирования строятся на обработке данных прошлых наблю- дений, поскольку в них предполагается, что прошлое и будущее неразличимы, за исклю- чением отдельных переменных, за которыми признается способность влиять на вероят- ность будущих исходов. Эта посылка игнорирует возможность значительных сдвигов в технологической базе общества, а предположение о том, что в мире постоянно реализует- ся множество новейших разработок, полагается ошибочным. Однако взгляните, напри- мер, хотя бы на появление и повсеместное стремительное распространение быстродейст- вующих, недорогих персональных компьютеров. В некоторых случаях при прогнозировании аналитик вынужден дополнить или рас- ширить стандартную процедуру анализа данных либо с целью учета необычных обстоя-
546 ГЛАВА 10 тельств, либо в результате осознания того факта, что события прошлого уже не способны дать точного прогноза будущего. Степень субъективности принимаемых в процессе прогнозирования суждений тем больше, чем меньше количество наблюдений данных или чем менее точно имеющиеся данные описывают процесс. В определенной ситуации аналитик может прийти к заключению, что исторических данных, имеющих какое-либо отношение к прогнозируемому процессу, вовсе не существует. В таких случаях прогнозы строятся исключительно на мнении “экспертов”, привлекаемых для создания этих про- гнозов или разработки возможных сценариев будущих событий. Интересно отметить тот факт, что, согласно проведенным исследованиям, когда становят- ся доступны необходимые исторические данные, включение субъективных оценок в прогно- зы, выполненные с помощью аналитических методов, обычно приводит к снижению их точ- ности. В определенной степени это можно объяснить некоторой предвзятостью прогнози- ста — его склонностью к чрезмерному оптимизму или к недооценке возможных будущих не- определенностей. Кроме того, было показано, что включение элемента субъективной оценки в процесс прогнозирования обычно приводит к возрастанию стоимости прогнозирования.1 Если данных исторических наблюдений оказывается недостаточно или они малозна- чимы по отношению к изучаемому процессу, то для получения прогноза или, скорее, предсказания приходится опираться на субъективную оценку. Поскольку такие ситуации встречаются достаточно часто, в особенности на высших уровнях управления, были раз- работаны специальные методы повышения точности подобных прогнозов, построенные на привлечении личных суждений и мнений исполнительных кадров. Такие методики имеет смысл применять, поскольку исполнители обычно полагают, что их личная оценка превосходит любые другие методы предсказания будущего. По словам Макридакиса, “люди предпочитают делать прогнозы субъективно. Они верят, что их знания продукта, рынка и потребителя достаточно хороши и что, благодаря их личной проницательности и владению необходимой информацией, они обладают уникальными возможностями субъ- ективной оценки и прогнозирования.”2 Ниже приведено несколько вопросов. Чтобы дать ответ на любой из них, потребуется вос- пользоваться вашей способностью воображения и понадобиться обратиться к методам “мозгового штурма” — просто положиться на сбор и обработку данных имеющихся наблюде- ний здесь будет явно недостаточно. Тем не менее, обсуждаемые в этой главе методики прогно- зирования позволяют дать обоснованные ответы на любой из этих вопросов и способны пре- доставить руководству ценную информацию о будущем их фирмы и ее окружения. • Каким будет возрастное распределение населения США в 2025 году? • Какое количество граждан США будет работать дома через 25 лет? • Какие города США будут иметь наибольшее количество населения и станут круп- нейшими деловыми центрами через 20 лет? • В какой степени США будет зависеть от других государств в производстве основ- ных потребительских продуктов? • Насколько популярным будет использование телевидения и компьютерных ком- муникаций для совершения покупок через 20 лет? • Какой вид отдыха будет преобладать среди граждан США в 2025 году? ' Makridakis, 1986, с. 45. 2 Makridakis, 1986, с. 63.
Элементы субъективной оценки в прогнозировании 547 • Сколько свободного времени будет иметь средний гражданин США на протяжении нового столетия? • Начнут ли США взимать долги по обязательствам со всего мира за следующие 25 лет? Если да, то как это отразится на деловой активности в США? Методы, описываемые в этой главе, иногда называют методами субъективной оценки, поскольку личное мнение или оценка является их основным или единственным компо- нентом. Некоторые из них иногда называют методами технического прогнозирования, поскольку чаще всего они применяются для перспективной оценки технологического прогресса в неопределенном будущем. Оставшаяся часть этой главы посвящена наиболее распространенным методам прогнозирования, в которых оценка прогнозиста является основной составляющей.3 Кривые роста В методе прогнозирования с помощью кривых роста рассматриваются долгосрочные из- менения интересующей переменной и значения этой переменной проецируются на бу- дущее, при этом не анализируются механизмы, которые могли бы привести к предпола- гаемым изменениям. Например, стоимость компьютерной транзакции в новом столетии можно достаточно точно спрогнозировать, исходя из прошлых значений этой перемен- ной. При этом новые технологии, благодаря которым, собственно, и будут происходить прогнозируемые изменения, нас интересовать не будут. Можно спрогнозировать стоимость одной мили путешествия на автомобиле или же общий уровень использования автомобилей населением США. И вновь, при этом нам не потребуется анализировать каких-либо изменений в технологии производства автомоби- лей или автомобильного топлива. Поскольку перспективная оценка с помощью кривых роста чаще всего применяется для получения долгосрочных прогнозов, для представления взаимосвязи между временем и значениями интересующей переменной обычно выбираются некоторые кривые. Часто базовой кривой для оценки по методу кривых роста выбирается экспонента, поскольку поведение этой кривой отражает стабильные улучшения с ходом времени (см. обсужде- ние кривых тренда в главе 5 и на рис. 5.7). Даже несмотря на потенциальную неточность, которую следует ожидать при исполь- зовании кривых роста для предсказания будущего, этот метод может быть очень полезен в менеджменте, поскольку в этом случае внимание сосредоточивается на долгосрочных аспектах деловой активности компании. На верхнем уровне менеджмента кривые роста часто используются, например, на закрытых заседаниях или совещаниях, проводимых по методу “мозгового штурма”. Пример 10.1 Компания, занятая в сфере медицинского обслуживания людей пожилого возраста, заинте- ресована в долгосрочном прогнозировании средней продолжительности жизни в США, по- скольку это позволит ей обоснованно сформулировать долгосрочную корпоративную стра- тегию. В издании Statistical Abstract of the United States, 119'h Edition, за 1999 год опубликованы Для более систематического изучения методов прогнозирования, включающих в себя субъектив- ную оценку, см. Gergoff, Murdick, 1986.
548 ГЛАВА 10 официальные оценки для этого показателя с 1970 по 1997 год (приведены в табл. 10.1). Ука- занные данные были введены в приложение Minitab, после чего для них был построен график с указанием выборочной прямой регрессии, показанный на рис. 10.1. Таблица 10.1. Оценки средней продолжительности жизни для населения США 1970 70,8 1971 71,2* 1972 71,5* 1973 71,9* 1974 72,4* 1975 72,6 1976 72,8* 1977 73,0* 1978 73,3* 1979 73,5* 1980 73,7 1981 74,1* 1982 74,5 1983 74,6 1984 74,7 1985 74,7 1986 74,7 1987 74,9 1988 74,9 1989 75,1 1990 75,4 1991 75,5 1992 75,8 1993 75,5 1994 75,7 1995 75,8 1996 76,1 1997 76,5 ‘Значение получено методом интерполяции Источник: Statistical Abstract of the United States, 119th Edition, 1999.
Элементы субъективной оценки в прогнозировании 549 Regression Plot Expected Lit = -297.507 + 0.187356 Year Year Puc. 10.1. График средней продолжительности жизни (приложение Minitab) Компания заинтересована больше в проецировании регрессионной прямой в далекое бу- дущее, чем в изучении причин очевидного возрастания продолжительности жизни в течение нескольких последних лет. Она не заинтересована в ведении полемики по поводу того, будет ли возрастающий тренд сохраняться и в дальнейшем и какого среднего значения может дос- тичь такое возрастание. Компания хотела бы просто иметь конкретные значения, которые можно было бы подставить в предложение “Если существующие в настоящее время тенден- ции сохранятся и в будущем, то к Угоду продолжительность жизни достигнет величины У.” В качестве целевого года был выбран 2050. Подставив в регрессионное уравнение, показанное на рис. 10.1, значение А", равное 2050, найдем искомое значение Y. Оценка средней продол- жительности жизни для 2050 года составляет 86,6 лет. Очевидно, что полученное значение демонстрирует значительное возрастание продолжи- тельности жизни, достигаемое на протяжении многих предстоящих лет. Опираясь на эту оценку, компания может приступить к разработке стратегического плана, позволяющего из- влечь максимальную выгоду из ожидаемого возрастания средней продолжительности жизни. Метод Дельфи Когда эксперты собираются вместе и начинают обсуждать будущее, групповая динамика в некоторых случаях может вызвать искажение процесса, в результате чего не всем участ- никам удается достаточно глубоко продумать достигнутый в качестве консенсуса резуль- тат. Метод Дельфи впервые был использован в 50-х годах в одном из проектов компании Air-Force-funded RAND с целью устранить эффект воздействия групповой динамики на оценку прогнозистов. Согласно этому методу, в первом раунде обсуждения эксперты от- вечают в письменном виде на вопросы, поставленные перед ними исследовательской
550 ГЛАВА 10 группой. Затем эта группа обобщает мнения участников и отправляет им итоговый доку- мент. Участники могут ознакомиться с оценкой остальных и либо остаться при своем мнении, либо изменить его, основываясь на мнениях других экспертов. Этот процесс продолжается два или три раунда — пока исследователи не убедятся в том, что было изложено и рассмотрено достаточно много точек зрения. Затем участникам предлагается встретиться всем вместе, чтобы поделиться мнениями и обсудить различ- ные точки зрения. По завершении всего процесса исследовательская группа может полу- чить весьма хорошую оценку будущих перспектив, пригодную для того, чтобы построить на ней организационное планирование компании. В модифицированном варианте метода Дельфи групповая встреча в конце описан- ного процесса может быть исключена. Вполне может оказаться, что собрать всех знаме- нитых экспертов на совместную встречу будет слишком сложно, и поэтому процесс за- вершается после двух или трех письменных раундов. Еще одной вариацией классической схемы является метод Дельфи реального време- ни. В этом случае все эксперты собраны в одном месте, однако в течение письменной фа- зы размещаются по отдельности. Каждый эксперт получает сведения об ответной реак- ции других участников на предложенные точки зрения в течение нескольких минут. В ре- зультате удается провести много письменных раундов, прежде чем экспертов соберут для заключительной фазы совместного обсуждения. Еще один вариант заключается в использовании компьютерной связи в реальном времени с помощью Internet или иной сети. В подобном случае письменную фазу удается провести за сравнительно короткий промежуток времени, даже несмотря на то что участ- ники находятся в совершенно разных местах. В завершении процесса обмен мнениями можно организовать с помощью компьютеров или телефона. Преимущество метода Дельфи состоит в том, что можно пригласить известных экспертов и предложить им тщательно обсудить интересующий предмет и обдуманно ответить на точки зрения других, исключив при этом эффект групповой динамики. Если процесс будет органи- зован и проведен с необходимой тщательностью, то достигнутый результат вместе с несколь- кими альтернативными сценариями может оказаться в хорошем согласии с будущим4. Метод написания сценария Метод написания сценария предусматривает выяснение деталей неопределенного буду- щего посредством написания “сценария поведения” для окружения организации на многие годы вперед. Чтобы спровоцировать необходимые размышления на верхнем уровне менеджмента компании, в группу обсуждаемых и анализируемых факторов вклю- чаются новые технологии, потенциальные изменения состава и общего количества насе- ления, а также изменения в потребительском спросе. Обычно создается один наиболее вероятный сценарий динамики процессов, допол- няемый несколькими менее вероятными, однако все же возможными сценариями. Бла- годаря тщательному анализу состояния дел компании в случае каждого из этих возмож- ных будущих исходов, высшее руководство оказывается в более выгодных в организаци- онном плане условиях. В результате оно способно адекватно реагировать на реально про- исходящие изменения в деловом окружении, как только они случаются, и правильно Более подробное описание метода Дельфи можно найти в Parente, Anderson-Parente, 1987.
Элементы субъективной оценки в прогнозировании 551 оценивать долгосрочные последствия слабых изменений, которые в иной ситуации мог- ли бы пройти незамеченными. Таким образом, позиции организации оказываются более стабильными, поскольку она, прежде всего, стремится преследовать долгосрочную выго- ду, в противовес концентрации на немедленных прибылях при игнорировании измене- ний в том экономическом окружении, в котором она функционирует. Процесс написания сценария часто следует за фазой обсуждения, которая иногда проводится не той группой, которая создает сценарии. В этом случае обсуждения между группами можно использовать для того, чтобы сохранить или изменить существующие точки зрения с целью выработать согласованный основной вариант и альтернативные сценарии. Например, исходный сценарий может разрабатываться плановым отделом компании, а обсуждение его будет проводиться высшим исполнительным руководством. Даже если впоследствии ни для одного из сценариев полная справедливость не подтвер- дится, этот процесс активизирует у высшего руководства размышления о долгосрочных перспективах компании, а значит лучше подготовит его к адекватной оценке и своевре- менному реагированию на важные изменения в окружающей обстановке. Пример 10.2 В компании, занимающейся производством промышленных телефонных и телевизионных кабелей, было решено провести подготовку сценария развития компании к очередному со- вещанию по итогам года. Каждому участнику этого совещания предлагалось написать три ва- рианта сценария развития событий, с которыми могла бы столкнуться компания на протяже- нии 10 лет, начиная от настоящего момента: сценарий с наихудшим, наиболее правдоподоб- ным и наиболее благоприятным исходом. После сбора результатов этого письменного зада- ния и непосредственно перед совещанием президент и первый вице-президент обобщили все полученные документы в виде следующих трех сценариев, на которых они намеревались со- средоточить совместное обсуждение в течение предстоящего двухдневного совещания. 1. Продолжается быстрый рост использования сети Internet, однако наблюдается посте- пенный отказ от кабелей в пользу спутниковой связи. Даже в сфере телефонных услуг наблюдается все возрастающий интерес к беспроводным устройствам, по принципу работы напоминающим систему телевещания. В результате объем продаж компании и ее прибыль непрерывно падают и очень скоро она окажется вне бизнеса. 2. Сфера услуг Internet и персонального домашнего телевидения продолжает быстро рас- ти, что обеспечивается несколькими источниками. Хотя спутниковое обслуживание используется все шире, кабельные соединения все же продолжают оставаться важной составной частью услуг в сфере высоких технологий, в особенности в больших горо- дах, причем как в быту, так и на производстве. Сохранение компанией лидирующих позиций в развитии и расширении производства кабеля позволяет достичь неуклон- ного роста объема продаж и прибылей. 3. Вследствие технических затруднений и проблем безопасности, применение спутников в сфере услуг Internet и телевидения будет тормозиться до тех пор, пока они не станут использоваться преимущественно в сельской местности. Использование кабельных соединений будет быстро возрастать как в бытовой, так и в производственной сфере. В результате, благодаря хорошо позиционирующейся на рынке продукции и лидирую- щему положению, компания достигнет процветания и обеспечит себе полное господ- ство в этой отрасли промышленности.
552 ГЛАВА 10 Президент компании и первый вице-президент планировали всесторонне обсудить каж- дый из этих возможных сценариев. Они хотели бы выработать продуманную долгосрочную стратегию, которая учитывает все потенциальные возможности, и глубоко убеждены, что со- средоточение обсуждения на этих трех сценариях стимулирует как их работу, так и работу ос- тальных менеджеров компании. Комбинирование прогнозов Недавно разработанная схема прогнозирования для получения окончательного прогноза предусматривает комбинирование результатов двух или более существующих методов прогнозирования. Издание International Journal of Forecasting содержит специальный раз- дел, касающийся этой новой техники. Приведенные ниже краткие резюме для трех ста- тей из этого издания иллюстрируют творческий характер комбинированных прогнозов. 1. Согласно Армстронгу (Armstrong, 1989), изучение порядка 200 публикаций пока- зывает, что при комбинировании прогнозов имеется устойчивый, но все же скромный выигрыш в точности. Однако в этом исследовании не определены ус- ловия, при которых комбинирование является наиболее эффективным, а также нет рекомендаций, как следует комбинировать методы в различных ситуациях. 2. Махуд (Mahoud, 1989) указывает, что количество исследований по комбинирова- нию прогнозов достаточно велико. Тем не менее относительно мало известно о том, когда и как именно руководители осуществляют комбинирование прогнозов. К важным вопросам управления, требующим дальнейшего изучения, можно от- нести корректировку количественных прогнозов руководящим персоналом, ис- пользование экспертных систем при комбинировании прогнозов и анализ затрат на комбинирование прогнозов. 3. На протяжении многих лет методу комбинирования прогнозов посвящалось большое количество публикаций. Согласно Клемену (Clemen, 1989), отправной точкой в этих исследованиях было то, что точность прогноза может быть сущест- венно улучшена за счет комбинирования многих индивидуальных прогнозов. Эта работа включает обзор литературы по данному вопросу. Пример 10.3 Компании, производящей детали для больших сельскохозяйственных тракторов, необходимо спрогнозировать возможные объемы продаж этих деталей на следующие 10 лет. На основе этого прогноза будет выбрана стратегия сохранения конкурентоспособности фирмы в ее биз- несе. Больше всего компания обеспокоена состоянием своих производственных мощностей. Прогноз будущего состояния дел мог бы очень помочь как при разработке плана развития производства, так и в отношениях с инвесторами. После тщательного сбора данных и первого этапа прогнозирования компания оказалась перед дилеммой, какой из двух полученных прогнозов принять. Несмотря на то что для большинства годов прогнозы не слишком отличались, между ними все же имелись некоторые расхождения. Первый прогноз подготовила фирма, профессионально занимающаяся прогно- зированием и имеющая весьма солидную репутацию. Руководству компании не был известен метод, применяемый этой фирмой, однако в предоставленном документе указывалось, что используемый процесс был “математически сложным”. Второй прогноз был выработан на закрытом совещании, на котором присутствовало высшее руководство вместе с персоналом отдела маркетинга, хорошо знающим потребности своих клиентов.
Элементы субъективной оценки в прогнозировании 553 После развернутой дискуссии с руководителями компании президент решил скомбиниро- вать эти прогнозы. В ходе этого обсуждения наблюдался больший интерес к профессиональному прогнозу, в сравнении с прогнозом, сделанным внутри компании. Поэтому президент решил присвоить первому прогнозу вес 75%, а второму — 25%. В табл. 10.2 приведены оба прогноза, выраженные в тысячах единиц проданного товара, для последующих 10 лет. В последнем столб- це приведен комбинированный прогноз. Результирующий прогноз на каждый год вычислялся путем умножения первого прогноза на 0,75, а второго на 0,25 и суммирования полученных зна- чений. Отметим, что значения окончательного прогноза находятся между значениями профес- сионального прогноза и прогноза, сделанного внутри компании, однако они ближе к значениям профессионального прогноза, так как этому прогнозу был присвоен больший вес. Таблица 10.2. Пример комбинирования прогнозов Год Профессиональный прогноз Прогноз компании Окончательный прогноз 1 328 335 329,8 2 342 340 341,5 3 340 345 341,3 4 348 350 348,5 5 350 352 350,5 6 360 355 358,8 7 366 365 365,8 8 371 370 370,8 9 385 375 382,5 10 390 385 388,8 В будущем, вероятно, будут проводиться дальнейшие исследования преимуществ ме- тода комбинирования прогнозов и различных техник его применения. Назначение та- кого комбинирования состоит в улучшении точности прогнозирования с сохранением высокой рентабельности расчетов. Прогнозирование и нейронные сети Традиционные методы прогнозирования, подобные тем, которые обсуждались в этой книге, при построении модели опираются на данные прошлых наблюдений, а затем ис- пользуют найденную модель для экстраполяции значений интересующей переменной в будущее. Это предполагаемое значение и используется как прогноз, на основании кото- рого затем строится план мероприятий. В таких моделях исходно предполагается, что по- ведение исследуемой системы в будущем будет точно таким же, как и в прошлом, за ис- ключением тех переменных, которые специально выделяются в модели. Иногда в традиционных моделях делаются предположения о распределении совокуп- ности значений, которые могут проверяться или не проверяться. Например, в случае ин- тервальной оценки с использованием регрессионной модели предполагается, что гене- ральная совокупность, в основном, соответствует нормальному распределению. Используя достижения компьютерной техники, мы пытаемся в развивающихся тех- нологиях из области искусственного интеллекта повторить процессы человеческого
554 ГЛАВА 10 мозга и нервной системы. Несмотря на то что истоки этой области исследований лежат в биологии и психологии, она быстро распространяется и в иные сферы деятельности, включая бизнес и экономику. Тремя основными направлениями в области искусствен- ного интеллекта являются обработка лингвистической информации, робототехника и искусственные нейронные сети. Последнее нашло наибольшее применение в коммер- ции, включая и проблемы прогнозирования. При создании нейронной сети в компьютере программируется множество моделей, ох- ватывающих полный набор прошлых взаимоотношений между всеми переменными, спо- собными повлиять на результирующие значения зависимых переменных. Программа ней- ронной сети ассимилирует эти модели и предпринимает попытку установить существую- щие взаимосвязи, “изучая” то, как они изменялись до этого. Этот процесс изучения, назы- ваемый также обучением, напоминает практическое обучение человека той или иной работе. Некоторые исследователи в области прогнозирования отметили сходство между принци- пами функционирования нейронных сетей и традиционными методами прогнозирования, в которых предпринимается попытка найти величины, необходимые для успешного предсказа- ния зависимой переменной. Теоретическое преимущество использования нейронной сети как инструмента прогнозирования состоит в том, что здесь не нужно заблаговременно устанавли- вать взаимоотношения между величинами, поскольку метод предусматривает изучение суще- ствующих взаимосвязей на готовых моделях. Для нейронных сетей также не требуется ника- ких предположений относительно основного распределения совокупности, и, в отличие от многих традиционных методов, они могут работать с неполными данными. Достижение успеха в применении нейронной сети иногда называют полной совместимо- стью. Это означает, что программа нейронной сети быстро и без затруднений замещает су- ществующую модель, например регрессионный анализ, не нарушая работы организации. Повышение эффективности, как и достижение большей точности прогнозов, иногда может быть достигнуто с минимальным вмешательством в текущее управление. Нейронные сети особенно эффективны в тех случаях, когда исходные данные сильно коррелируют либо не- полны или рассматриваемой системе свойственна высокая степень нелинейности. Ниже приводятся примеры успешного применения нейронных сетей при решении практических задач. Эти примеры любезно предоставила компания NeuralWare, Inc., яв- ляющаяся коммерческим поставщиком программного обеспечения для нейронных сетей.5 • Завод компании Kodak в Техасе снизил затраты на 3 миллиона долларов в год, со- хранив при этом неизменными существующие объемы выпуска и уровень качества изделий. Компания собрала производственные данные за длительный период, ко- торые затем были использованы для обучения нейронной сети, назначение кото- рой состояло в предсказании качества продукции как функции различных техно- логических параметров. • Одной из классических задач при разведке нефтяных месторождений методом изуче- ния сейсмической информации является нахождение в показаниях датчиков ранних признаков ударной волны. Точность традиционных методов обработки сигналов для нахождения этих признаков оставляет желать лучшего: только 30% для одного алго- ритма. Несколько нефтедобывающих компаний применили программы нейронных сетей для корректной идентификации ранней волны, при этом у компании Amoco доля успешных обнаружений составила 95%. Это позволило компании существенно повысить качество обработки сейсмических данных при моделировании пластов. 5 NeuralWare, Inc., Репп Center West, Building IV, Suite 227, Pittsburgh, PA 15276.
Элементы субъективной оценки в прогнозировании 555 • Производитель электродвигателей для автомобильных вентиляторов при проверке готовых моторов на недопустимый уровень шума или наличие подозрительных звуков пользовался услугами квалифицированных контролеров. Нейронной сети понадобилась всего одна неделя, чтобы обучиться у старшего контролера выпол- нять это задание. Теперь испытание двигателей на наличие шумов поручено прово- дить обученной сети. Квалифицированных контролеров переключили с этого стрессового участка на решение других задач повышения качества продукции. Фи- нансовая выгода была получена за счет повышения качества продукции, что про- явилось в уменьшении количества жалоб от клиентов. • С 1989 года нейронные сети применяются кредитными компаниями для оценки пригодности клиентов с точки зрения текущего кредитования. • Некоторые компании обнаружили, что нейронные сети можно применять для под- бора показателей в области торговли. Достигнутые результаты показали, что вы- численные нейронной сетью показатели, в сочетании с соответствующей торговой стратегией, позволяют получать на рынке устойчивую прибыль. • Нейронные сети применяются в ВВС для предсказания отказов элементов систем ре- активных самолетов. Для каждого самолета собирались разнообразные данные о его состоянии, и нейронная сеть обучалась прогнозировать вероятность характерных от- казов для конкретного самолета. Эти прогнозы использовались для предварительного заказа запасных частей и упреждающего технического обслуживания самолетов. • Был разработан коммерческий продукт, прогнозирующий исход заездов на скач- ках. Пользователь должен предоставить системе данные об особенностях лошадей, участвующих в скачках. Выигрыш получаем в 80% случаев, что имеет решающий перевес при заключении пари. Ознакомившись с приведенными выше примерами успешного применения нейронных сетей на практике, уже не трудно представить себе системы, успешно прогнозирующие объемы месячных продаж, процент отсутствующих служащих или величину базисной процентной ставки. Независимость от ограничивающей необходимости предваритель- ного определения взаимосвязей и требования соблюдения предположений относительно распределения генеральной совокупности обеспечивает нейронным сетям значительный потенциал в создании точных прогнозов и способствует получению ими все более широ- кого признания на практике. Пример использования нейронной сети для целей прогно- зирования будет обсуждаться в задании 10.2, в конце этой главы. Заключительные замечания о субъективной оценке в прогнозировании Потенциальная опасность большинства методов прогнозирования, рассмотренных в предыдущих главах этой книги, заключается в том, что в них для получения прогноза осуществляется манипулирование данными имеющихся наблюдений. Это оправдывает себя, когда прогноз строится на недалекое будущее, но если необходим долгосрочный прогноз, подобным методам уже нельзя доверять. Методы, рассмотренные в этой главе, являются хорошим дополнением к арсеналу прогнозиста, когда интересы руководства за- трагивают долгосрочные прогнозы экономического окружения компании.
556 ГЛАВА 10 Несколько авторов получили всеобщее признание благодаря своим размышлениям о со- временных долгосрочных тенденциях в развитии общества и будущем планеты, предсказы- ваемом ими, а также своим мнением о качествах руководителя, необходимых в этих условиях. Среди наиболее нашумевших публикаций этих авторов можно выделить следующие. • Bill Gates. The Road Ahead. Viking, 1995. • Rowan Gibson (editor), Alvin Toffler, Heidi Toffler. Rethinking the Future: Rethinking Business, Competition, Control and Complexity, Leadership, Markets and the World. Nicho- las Breasley, 1999. • Di Kamp. The 21st Century Manager: Future-Focused Skills for the Next Millennium. Kogan Page, Ltd., 1999. • Chuck Martin. Net Future: The 7 Cybertrends That Will Drive Your Business, Create New Wealth, and Define Your Future. McGraw-Hill, 1998. • Alvin Toffler. Future Shock. New York: Random House, 1970. • Alvin Toffler. Third Wave. New York: Bantam Books, 1980. • John Naisbit. Megatrends. New York: Warner Books, 1990. • John Naisbitt and Patricia Aburedene. Megatrends 2000. New York: William Morrow, 1990. • John Naisbitt (аудиокассета). Eight Asian Megatrends That Are Reshaping The World. Si- mon & Shuster Books, 1996. • John Naisbitt. Global Paradox. Avon, 1995. • Jim Taylor, Watts Wacker, Howard Means. The 500-Year Delta: What Happens After What Comes Next. Harperbusiness, 1998. Эти авторы обладают уникальными способностями смело и открыто размышлять о будущем. Большинство формальных подходов к природе изменений, о которых они пи- шут, называется технологическим прогнозированием, которое во все большей степени про- никает во все сферы деятельности многих компаний. Это связано с тем, что сейчас каж- дый год происходит замена около 25% применявшихся ранее технологий. Очевидно, что даже очень сложные манипуляции данными наблюдений для получения прогнозов могут в таких обстоятельствах оказаться бессильными. Достаточно взглянуть, к примеру, на пе- речисленные ниже области исследований. Как только эти технологии получат широкое распространение, влияние многих фирм, пока малозаметных, станет значительным. • Искусственный интеллект • Генная инженерия • Биоэлектроника • Мультисенсорная робототехника • Лазерные технологии • Волоконная оптика • Микроволновые технологии • Расширение использования спутников • Солнечная энергетика • Сверхпроводники
Элементы субъективной оценки в прогнозировании 557 Недавно компания Price Waterhouse Coopers учредила международное издание “Технический прогноз”, доступное широкой общественности. В этом ежегодном издании анализируются ключевые информационные технологии и предлагается прогноз развития их основных направлений на следующие 1—3 года. Это пример глубокого интереса от- дельной компании к техническим достижениям и влияния этого интереса на общество в целом и эту компанию в частности. Темпы технологического развития вынуждают руководителей все острее реагировать на окружающие изменения. Однако исторические свидетельства дают, по меньшей мере, не- сколько ключей к будущему почти в каждом бизнесе. Как было подчеркнуто в главе 1, для соз- дания успешных прогнозов необходима всесторонняя подготовка в математической обработ- ке данных наблюдений, наряду с разумным использованием собственного мнения и опыта. Другие методики, полезные в прогнозировании Существует множество методик, призванных помочь ответственным лицам правильно оценить информацию, касающуюся будущего, и позволяющих принять наилучшее ре- шение из всех возможных. Эти методы часто обсуждаются в учебниках и журнальных статьях под общим заголовком “принятие решений” или “принятие решений в неопре- деленной ситуации”. Когда менеджеры сталкиваются с необходимостью принятия реше- ний в неопределенной ситуации, их способности к прогнозированию становятся крити- ческим фактором всего процесса принятия решения. Когда выполнен анализ данных наблюдений за длительный период, ответственное лицо должно принять решение относительно изменений в характере деятельности фирмы. Ины- ми словами, аналитик должен суметь органично включить результаты прогнозирования в имеющуюся у фирмы процедуру принятия решений. Ниже кратко обсуждаются некоторые элементы теории решений, которые зачастую важны на данной стадии процесса. Понятие математического ожидания описано в главе 2. Ответственные лица часто используют его в явной или неявной форме. Напомним, что это понятие касается вычис- ления среднего значения, которое будет принимать случайная численная величина в ходе большого количества испытаний. В табл. 10.3 представлено распределение вероятности случайной дискретной переменной X; каждое возможное будущее значение, принимае- мое переменнойX, показано вместе с вероятностью появления этого значения. Таблица 10.3. Распределение вероятности для случайной дискретной _______________X___________________________________Р(Х)___________________ 1 0,10 2 0,20 3 0,25 4 0,30 5 0.15 1,00
558 ГЛАВА 10 Обратите внимание на то, что сумма всех вероятностей в табл. 10.3 равна 1 или 100%, а это означает, что в таблице определены все возможные значения переменной X. Пред- положим, что переменная X из табл. 10.3 описывает количество новых важных контрак- тов, которые сможет подписать фирма в течение следующего финансового года. Матема- тическое ожидание является ответом на вопрос о том, сколько в среднем можно ожидать новых контрактов, если указанное в табл. 10.3 распределение вероятности является спра- ведливым. Для вычисления математического ожидания с таким распределением вероят- ности, как показано в табл. 10.3, можно воспользоваться уравнением 10.1. Е(Х) = ЪХ[Р(Х)\, (10.1) где Е(Х) — математическое ожидание; X — значение, которое принимает случайная величина; Р(Х) — вероятность появления величины X. Математическое ожидание для данных из табл. 10.3 вычисляется, согласно уравне- нию 10.1, следующим образом. Е(Х) = 1(0,10) + 2(0,20) + 3(0,25) + 4(0,30) + 5(0,15) = 3,2 Математическое ожидание для распределения вероятности, показанного в табл. 10.3, равно 3,2. Если А- в этом примере описывает количество новых важных контрактов в будущем финансовом году, то, считая, что в среднем шансы подписания новых кон- трактов остаются неизменными из года в год, можно ожидать, что будет подписано 3,2 новых контракта. Отметим, что в действительности значение 3,2 невозможно ни для одного года — допустимы только целочисленные значения (1, 2, 3, 4, 5,). Тем не менее значение 3,2 описывает средний исход многих испытаний. Ответственные лица часто интересуются математическими ожиданиями и используют их при планировании важ- ных численных переменных на неопределенное будущее в качестве своих наилучших прогнозов. Теория принятия решений формально опирается на элементы, заключающие в себе функцию принятия решения деловыми руководителями. Математическое ожидание час- то сочетается с более общим рассмотрением процесса принятия решения. Чтобы помочь ответственному лицу представить себе ситуацию в целом и принять обоснованное реше- ние, используется древовидная схема решений. Подобная древовидная схема решений по- казана на рис. 10.2. На рис. 10.2 отражены неопределенности, которые могут иметь место в будущих объемах продаж, и представлены варианты решений, строить ли новый завод или ремонтировать старый. Проблема заключается в следующем: если бы компания знала, что спрос по результатам не- скольких лет окажется высоким, то для нее было бы выгоднее построить новый завод; с другой стороны, если спрос в итоге окажется низким, то прибыль была бы большей, если просто отре- монтировать старый завод. Даже на таком простом примере хорошо видны преимущества древо- видной схемы: она позволяет ответственному лицу увидеть все разнообразие возможностей вы- бора, оценить неопределенности, находящиеся вне контроля компании, и ясно определить раз- меры затрат, прибылей и вероятности будущих событий. В более сложных ситуациях преимуще- ства древовидной схемы и формальной теории решений еще более очевидны.
Элементы субъективной оценки в прогнозировании 559 Прибыль $40 млн $150 млн $40 млн Рис. 10.2. Пример древовидной схемы решений $150 млн $40 млн Теорема Байеса — это статистическая концепция, которая базируется на фактах вы- борки и предназначена для предварительной проверки вероятностей. Эта концепция часто применима в ситуациях, когда вероятности событий неизвестного будущего снача- ла оцениваются, а затем модифицируются по мере накопления фактов выборки. Приме- ром является концепция изучения контрольного рынка сбыта, применяемая многими производителями потребительских товаров. Скажем, компания может предварительно оценить вероятность общественного признания нового товара как вполне высокую. Од- нако перед тем как рисковать миллионами, необходимыми для проведения маркетинго- вой кампании в национальных масштабах, она может предпринять изучение региональ- ного рынка сбыта, который рассматривается как типичный образец. Результаты этого исследования затем используются для коррекции исходных оценок возможного успеха товара, и только после этого принимается решение о внедрении товара в масштабах всей страны. Упрощенный вариант теоремы Байеса показан в уравнении 10.26. Общая формулировка теоремы Байеса дляп событий A i, Аъ ..., А„, каждое из которых может про- изойти при условии, что произойдет событие В, имеет следующий вид. , । Р(Д)р(в|д) ‘ Р(А1)Р(в\А1) + Р(А2)Р(в\А2)+... + Р(Ая)Р(в\Ая)
560 ГЛАВА 10 />(д|в) = ^С?И)£Ы> (10.2) v 1 ' Р(В) где Р(А\В) — вероятность события А при условии, что произошло событие В; Р(В) — вероятность того, что произошло событие В; В(В|Л) — вероятность события В при условии, что произошло событие Л; Р(А) — вероятность того, что произошло событие А. Пример 10.4 На рис. 10.3 показан пример применения теоремы Байеса для оценки конкретной ситуации, сложившейся на рынке сбыта. Руководству большой компании, производящей потребитель- ские товары, необходимо решить вопрос о масштабах внедрения нового продукта на рынке. Их оценки говорят о том, что продукт имеет 50%-ные шансы высоких объемов продаж в масштабах всей страны, т.е. Р(Н) = 0,50. Руководством также рассматривался вопрос об изу- чении контрольного рынка сбыта, чтобы можно было уточнить прогноз высокого или низ- кого потенциального спроса на новый продукт. На рис. 10.3 изображено дерево решений, представляющее различные ситуации на контрольном рынке сбыта. Прогноз Рис. 10.3. Дерево решений с применением теоремы Байеса по вопросу внедрения нового продукта
Элементы субъективной оценки в прогнозировании 561 Опыт показывает, что если после представления нового товара на рынке достигался вы- сокий уровень его продаж, изучение контрольного рынка также оказывалось успешным в 80% случаев, т.е. = 0,80. Кроме того, накопленный опыт показывает, что если по- сле представления нового товара на рынке уровень его продаж оказывался низким, изу- чение контрольного рынка также показывало низкий уровень продаж в 85% случаев, т.е. P(F]L) = 0,85. Опираясь на эти показатели, для определения вероятности успешного вне- дрения нового товара на общенациональном рынке на основании результатов изучения контрольного рынка сбыта можно применить теорему Байеса. На рис. 10.3 приведены расчеты двух вероятностей, представляющих определенный интерес. • Если внедрение нового товара на контрольном рынке окажется успешным, то с 84%-ной вероятностью можно утверждать, что продукт будет иметь высокий уро- вень продаж и в масштабах всей страны. Или, что то же самое, P(77|S) = 0,84 = 0,80(0,50)70,475 = P(S\H)P(H)/P(S). • Если внедрение нового товара на контрольном рынке окажется неудачным, то с 81%-ной вероятностью можно утверждать, что и в масштабах всей страны про- дукт будет иметь низкий уровень продаж. Или, что то же самое, P(L\F) = 0,81 = 0,85(0,50)70,525 = P(F]L)P(L)/P(F). В этом примере изучение контрольного рынка было призвано помочь руководству при- нять обоснованное решение о внедрении нового товара в масштабах всей страны. Точность результатов, полученных при изучении контрольного рынка, достаточна для изменения предварительной 50%-ной оценки вероятности высоких (или низких) объемов продаж но- вого товара. Если на контрольном рынке товар будет пользоваться высоким спросом, то ве- роятность высоких объемов продаж в масштабах всей страны возрастет до 84%. Если же изучение контрольного рынка даст отрицательный результат, то вероятность низких объе- мов продаж нового товара в национальных масштабах возрастет до 81%. Приведенные зна- чения вероятностей рассчитывались на основе теоремы Байеса. В данном случае принять обоснованное решение о выпуске продукта на рынок будет проще, чем если бы это реше- ние пришлось принимать без предварительного изучения контрольного рынка сбыта. Формальная статистическая процедура модификации прежних вероятностей на осно- ве новых фактов определяется в законе Байеса. Детальное рассмотрение этой процедуры можно найти в руководствах по экономической статистике, статистическому выводу или структурной теории принятия решений. Основные формулы Формула математического ожидания Е(Х) = 2Х[Р(Х)] (10.1) Теорема Байеса Р(а\В)=Р^Р^ (10.2) V 1 ' P(Bj
562 ГЛАВА 10 /a\ /ж /а\ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ Задание 10.1. Ресторан Golden Gardens Сью и Билл Голден (Sue, Bill Golden) решили открыть ресторан в одном из городов сред- него запада. Больше года они изучали район и посещали различные рестораны. В резуль- тате Сью и Билл пришли к заключению, что в этом регионе найдется место еще для од- ного ресторана, и подобрали подходящую площадку по приемлемой цене. Помимо прочего, они имели связи с несколькими первоклассными шеф-поварами и надеялись, что сумеют привлечь кого-нибудь из них в свой новый ресторан. Побеседовав с местными банкирами, они убедились в том, что необходимое финансирование, под- крепленное их собственными финансовыми ресурсами и компетентностью в ресторан- ном бизнесе, обязательно будет предоставлено. Единственной проблемой, которая все еще заботила чету Голден, была общая концеп- ция или основная идея оформления их ресторана. Они уже выявили три основные катего- рии жителей района, которые регулярно питаются вне дома, но все еще не пришли к окон- чательному решению, кому отдать предпочтение. Они много раз обсуждали этот ключевой вопрос и в конце концов решили, что полезно было бы узнать мнение кого-то другого. Ознакомившись с некоторыми методиками, используемыми при субъективной оцен- ке, они пришли к выводу, что некоторые из этих методик могли бы помочь им в приня- тии решения, касающегося выбора общей концепции их нового ресторана. Они нашли несколько друзей и коллег из других городов, готовых помочь им, однако не были увере- ны в том, как правильно использовать их способности. Вопросы 1. Какой метод использования опыта их друзей можно порекомендовать семье Голден для принятия решения о выборе концепции и общей идеи оформления их нового ресторана? 2. Какие еще методы они могли принять во внимание при изучении данной проблемы?
Элементы субъективной оценки в прогнозировании 563 Задание 10.2. Повторный взгляд на компанию Lydia Е. Pinkham Medicine7 Это задание демонстрирует практическое использование нейронных сетей для целей прогнозирования данных временных рядов. Авторы понимают, что те, кто читают эти строки, не были обеспечены необходимыми базовыми знаниями для полного понимания излагаемого материала. Однако авторы полагают, что из этой практической задачи чита- тели все же извлекут определенную пользу. Компания Lydia Е. Pinkham Medicine, выпускающая растительную смесь Lydia Pink- ham Vegetable Compound, описывалась в задании 9.4. Начиная с конца 80-х и в течение 90-х годов было предпринято много попыток ис- пользовать нейронные сети для прогнозирования данных временных рядов. Большинст- во работ было сделано в области использования электроэнергии, так как компании, про- изводящие электроэнергию, нуждались в точных почасовых прогнозах спроса на их про- дукт. Однако некоторые исследования все же были сосредоточены на более традицион- ных временных рядах из области бизнеса, таких как микро- и макроэкономические ряды, демографические данные и данные, специфичные для конкретных компаний. Фактиче- ски во всех этих работах использовалась сеть с прямой связью, которая обучалась с по- мощью обратной связи. В данном задании для предсказания объемов продаж компании Lydia Е. Pinkham будет использоваться именно такой тип нейронной сети. Результирую- щие прогнозы будут сравниваться с прогнозами, полученными на основе модели AR(2), обсуждаемой в задании 9.4. На рис. 10.4 изображена нейронная сеть по схеме 2-4-1 с прямой связью — сеть, ис- пользуемая в этом задании. Первое число в обозначении 2-4-1 указывает на количество каналов ввода информации в сеть. В данном случае имеется два входа: и У,_2. (Использование двух предыдущих периодов доя предсказания текущего согласуется с моделью AR(2); таким образом, как модель AR(2), так и модель данной нейронной сети будут использовать одинаковую “информацию” для предоставления прогноза на один шаг вперед.) Число 4 указывает на количество точек или элементов обработки данных в скрытом уровне. (Он назван скрытым потому, что не связан напрямую с “внешним ми- ром”, как входные и выходные слои.) Количество узлов в скрытом уровне выбирается в известном смысле произвольно: слишком маленькое количество скрытых узлов ограни- чивает способность сети к “моделированию” данных, а слишком большое количество приводит к тому, что сеть запоминает тренировочные (или оценочные) данные. Запоми- нание приводит к неприятным эффектам в ходе изучения выборки. В данном случае ко- личество узлов в скрытом уровне просто равно удвоенному количеству вводимых данных. Наконец, один узел на выходе дает прогноз на один шаг вперед или Y,. 7 Эти данные были предоставлены д-р Сьюзан Уайт (Susan С. White), университет Northwestern State, штат Луизиана. Более подробные сведения см. в Susan С. White. “Predicting Time Series with Neural Networks versus Statistical Models: The Lydia Pinkham Data, ” Proceedings of the 24th Annual Conference of the Decision Sciences Institute, Southwest Region, 1993, c. 108—110.
564 ГЛАВА 10 Y в момент времени t- 1 У в момент времени t- 2 Входной слой Взаимные весовые коэффициенты Слой выхода Взаимные весовые коэффициенты Скрытый слой Вычисление взвешенной Вычисление взвешенной Вычисление взвешенной Вычисление взвешенной Передача слой слой Вычисление взвешенной суммы суммы и ее преобразование Передача в скрытый в скрытый суммы и ее преобразование суммы и ее преобразование суммы и ее преобразование на выходе Прогнозируемое значение Y на момент времени t Рис. 10.4. Нейронная сеть по схеме 2-4-1 с прямой связью Нейронная сеть обрабатывает данные следующим способом: каждому соединению между двумя узлами из разных слоев присваивается определенный весовой коэффици- ент. Каждый узел в скрытом слое вычисляет взвешенную сумму всех полученных данных. (Входной слой просто передает данные скрытому слою.) Эта взвешенная сумма приво- дится к определенному виду, а точнее к выражению У= 1/(1 + е’х), где Y — это “преобразованные” данные, аХ— взвешенная сумма. Далее значение Y подается на вы- ходной слой, где каждый узел опять вычисляет взвешенную сумму. Окончательная взве- шенная сумма — это и есть выходные данные нейронной сети. Обучение сети произво- дится путем итеративной подгонки значений весовых коэффициентов.
Элементы субъективной оценки в прогнозировании 565 Модель нейронной сети Обучение сети производилось с помощью программы BrainMarker,8 коммерческого про- граммного обеспечения для компьютеров типа IBM PC, предназначенного для эмуляции нейронных сетей. В данном случае размер шага принимался равным 0,500, а устойчи- вость обучения равной 40,001. (Другие программы могут потребовать установить ско- рость обучаемости и параметр смещения.) Как и в задании 9.4, первые 42 наблюдения использовались для обучения сети, а последние 12 применялись для оценки способности сети к генерации прогноза на один шаг вперед. В применении нейронной сети к прогно- зированию данных временных рядов есть одна сложность, состоящая в определении не- обходимого времени обучения сети: переученная сеть склонна запоминать данные обуче- ния, в результате чего она будет слабо реагировать на тестовые данные. Поэтому иссле- дователь должен прекратить обучение достаточно “рано” — до того, как сеть запомнит данные. Чтобы определить эффект обучения, нейронная сеть обучалась за 10 000, 20 000, 50 000, 70 000, и 100 000 итераций. (Одна итерация соответствует одному наблюдению; это означает 250, 500, 1250, 1875, и 2500 проходов полного обучающего набора данных.) Такой подход позволяет аналитику установить момент, когда система переходит в со- стояние переобучения. (На практике система реализовывалась на платформе Intel 386SX- 20, и на обучение из 100 000 итераций потребовалось порядка 20 минут.) Результаты Значения MAD, МАРЕ и MSE для разных моделей нейронной сети приведены в табл. 10.4. Они не имеют преимущества по сравнению с результатами для модели AR(2). В настоящее время автор экспериментирует с другим типом нейронной сети — нейронная сеть на радиальных ба- зисных функциях, которая выдает результаты, сравнимые с результатами для модели AR(2). Таблица 10.4. Результаты прогнозирования объема сбыта продукции компании Lydia Е. Pinkham Medicine с помощью нейронной сети Данные оценки Тестовые данные Итерации MAD МАРЕ MSE MAD МАРЕ MSE 10000 189,7 11,06% 51923,0 182,2 11,26% 43441,1 20000 189,8 10,80% 53926,3 169,6 10,18% 37737,4 50000 195,0 11,22% 54311,3 176,3 10,51% 41529,7 75000 196,0 11,40% 54424,2 178,1 10,66% 42758,1 100000 196,5 11,53% 54725,5 181,9 11,02% 43985,4 Для более детального ознакомления с нейронными сетями см. Foundations of Neural Networks (Khanna, 1990) и Основные концепции нейронных сетей (Каллан, 2001). Вопросы 1. Найдите статью, в которой описывается применение нейронных сетей для прогно- зирования временнь/х рядов. Какой метод использовал автор и насколько успешно? BrainMarker, California Scientific Software, 1990.
566 ГЛАВА 10 2. Если у вас имеется возможность воспользоваться программой для построения ней- ронной сети, попробуйте построить сеть, которая делала бы прогнозы лучше, чем нейронная сеть по схеме 2-4-1, описанная здесь. 3. Почему нейронные сети можно понимать реальной альтернативой прочим методам прогнозирования, рассматриваемым в этой книге? Рекомендуемая литература Armstrong J.S. Combining Forecast: The End of the Beginning or the Beginning of the End? Interna- tional Journal of Forecasting 5(4), 1989, 585—592. Bopp A.E. On Combining Forecast: Some Extension and Result. Management Science 31(12), De- cember, 1986, 1492-1497. Bunn D., Wright G. Interaction of Judgmental and Statistical Forecasting Methods: Issues and Analysis. Management Science 37(5), May, 1991, 501—516. Clemen R.T. Combining Forecast: A Review and Annotated Bibliography. International Journal of Forecasting 5(4), 1989, 559-583. Cochrane J., Temle J. Shapesand Shadows of Things to Come: A Plan for Forecasting an Organization’s Technological... Information Strategy 12(3), Spring, 1966, 12. Dull R. Delphi Forecasting: Market Research for the 1990’s. Marketing News, August, 1988, 17. Edmundos R.H. Decomposition: A Strategy for Judgmental Forecasting. Journal of Business Forecast- ing 9, Summer, 1990, 305-315. GeorgoffD.M., MurdickR.G. Manager’s Guide to Forecasting. Harvard Business Review 1, Janu- ary—Fabruary, 1986, 110—120. How Good Are Neural Networks for Causal Forecasting? Journal of Business Forecasting 14(2), Sum- mer, 1995, 17. Jain C.L. A Managerial Guide to Judgmental Forecasting. New York: Graceway Publishing Co., Inc., 1987, p. 101. Jain C.L. Myths and Realities of Forecasting. Journal of Business Forecasting, Fall, 1990, 18—20. KeatingB., Wilson J.H. Forecasting— Practices and Teachings. Journal of Business Forecasting, Winter, 1987-1988,10-16. Khanna T. Foundations of Neural Networks. Reading, MA: Addison—Wesley Publishing Co., 1990. KudlowL. The Case for Market-Based Forecasting. CATO Journal 12(1), Spring, 1992, 119. Mahoud E. Combining Forecasts: Some Managerial Issues. International Journal of Forecasting 5(4), 1989, 599-600. Makridakis S. The Art and Science of Forecasting. International Journal of Forecasting 2, 1986. Parente F.J., Anderson-Parente J.K. Delphi Inquiry Systems, in Judgmental Forecasting, eds. G. Wright and P. Ayton. New York: John Wiley & Sons, 1987,129—156. Price Waterhouse World Technology Centre. Technology Forecast (Current Version). Menlo Park, CA: Price Waterhouse World Technology Centre, 1999. Walden M. How to Evaluate and Improve a Forecasting Process. Journal of Business Forecasting 15(12), Summer, 1996, 22. Willard T. Forecasting: A Key to Business Success. Futurist, July—August, 1991, 33—34. Каллан P. Основные концепции нейронных сетей. : Пер. с англ. — М. : Издательский дом “Вильямс”, 2001. Брукшир Дж.Г. Введение в компьютерные науки, 6-е издание. : Пер. с англ. — М. : Издательский дом “Вильямс”, 2001.
/A\SAWA\A J.ra A/A\/A\/A\ W/W/W/Ч TI F/W/W/W/ Управление процессом прогнозирования В главе 1 при обсуждении предмета прогнозирования упоминалось о его особой значи- мости для современных организаций. Потребность в прогнозировании в современной организации проистекает из необходимости принимать своевременное решение в неоп- ределенной ситуации. Под этим процессом составления обоснованного предположения о неопределенном будущем (прогнозирование) обычно подразумевают некий рациональ- ный процесс распространения данных имеющихся наблюдений и опыта на будущее. Сейчас, когда мы уже ознакомились с многочисленными методами прогнозирования, обсуждавшимися в предыдущих главах, представляется возможным сделать обзор основ- ных идей, изложенных в главе 1, используя эти методы для иллюстрации некоторых важ- ных вопросов. Процесс прогнозирования Одним из ключевых моментов, обсуждавшихся в главе 1, являлась важность использова- ния субъективной оценки руководителей наряду с количественными методиками для по- лучения хороших прогнозов. Правильное использование субъективной оценки руково- дителей несомненно очень важно, и теперь это утверждение можно проиллюстрировать с помощью нескольких методик прогнозирования, обсуждавшихся в предыдущих главах. Если прогнозы предназначены для ответственных лиц организации, призванных прини- мать важнейшие решения, то они должны быть точными и понятными и должны разум- но сочетать результаты количественных методов с оценками здравого смысла. Анализ временных рядов (декомпозиция) является хорошим примером методики, со- четающей необходимость использования логических суждений с анализом данных про- шлых наблюдений. Компании, применяющие программы анализа временных рядов, скажем, для обработки месячных данных и получающие в результате исторический ана- лиз тренд-циклических, сезонных и нерегулярных изменений, могут вновь объединить эти три фактора с целью получить полезный прогноз объемов продаж. Отвечающее си- туации объединение этих трех факторов требует определенных предварительных сужде- ний о характере их будущего поведения. При использовании процесса декомпозиции важно решить, сколько временных периодов следует включить в анализ.
568 ГЛАВА 11 При прогнозировании с помощью регрессионных методов, наряду со статистическим анализом имеет также место и субъективная оценка. Если применяется множественная рег- рессия, где в качестве зависимой переменной используется оценка интенсивности труда служащих, а в качестве двух независимых переменных — баллы на вступительных тестах и возраст, то может быть получено значение А-квадрат, равное 60%. К тому же /-значения для обеих переменных и F-значение регрессии могут оказаться значимыми. В результате у ана- литика возникает соблазн разделить две независимые переменные на количество претен- дентов на каждую работу и использовать результат для предсказания коэффициента выпол- нения норм выработки. Однако здесь следует обратить внимание на три дополнительных вопроса. Во-первых, достаточно ли для целей прогноза объясненных 60% изменений? Воз- можно, “интуитивная оценка” годности претендента будет лучшим методом или же следует сделать вывод, что в процессе прогнозирования необходима более высокая точность и должны быть рассмотрены другие независимые переменные. Во-вторых, можно ли предпо- ложить, что личные качества будущих претендентов на работу всегда будут весьма сходны с личными качествами тех людей, которые были выбраны для данного регрессионного изу- чения? Если эти люди будут отличаться сколько-нибудь значительно, то построенная мо- дель прогнозирования может оказаться неправильной. В-третьих, оправдываются ли расхо- ды на процесс прогнозирования получаемой в итоге выгодой? Контрольные испытания, выполняемые при поступлении в компанию, могут быть весьма дорогостоящими, в осо- бенности если они проводятся силами стороннего агентства. Поэтому их применение должно быть оправдано выгодой, полученной от прогноза. Регрессионный анализ данных временных рядов является распространенным явлением для организаций, в которых введено отслеживание важных показателей производительности на недельной, месячной или квартальной основе. Так как автокорреляция в подобных ситуа- циях является распространенной проблемой, насущной задачей становится понимание этих обстоятельств и их устранение, если результаты такого анализа важны для процесса принятия решений. К несчастью, такого понимания часто не хватает, и указанный недостаток превра- щается в проблему, неуклонно расширяющуюся с течением времени по причине снижения стоимости программного обеспечения для проведения регрессионного анализа. Методики Бокса-Дженкинса, обсуждавшиеся в главе 9, также хорошо иллюстрируют наи- более распространенные проблемы, упоминавшиеся в главе 1. Очень часто эти методики яв- ляются наилучшими методами прогнозирования, дающими более низкие ошибки при про- гнозировании во многих сложных ситуациях. Среди их недостатков можно отметить лишь то, что в некоторых случаях от аналитика требуется известная доля изощренности. Если процесс получения прогноза остается полной загадкой для ответственного лица, принимающего ре- шения, управление организации может проигнорировать прогноз невзирая на его точность. То, как кратко-, средне- и долгосрочные аспекты применения методик прогнозирова- ния связаны с разными уровнями руководства организации, может быть проиллюстриро- вано на примере методов анализа временных рядов и технологического прогнозирования. Так, менеджеров низшего уровня может заинтересовать анализ временных рядов месячных объемов продаж на основе данных за последние четыре года. Субъективно оценив будущую трендово-циклическую компоненту этих рядов, можно попытаться спрогнозировать про- дажи на следующий финансовый год и спланировать месячные объемы производства. Ме- неджер среднего уровня, с помощью той же программы для анализа временных рядов, мо- жет проанализировать годовые объемы продаж за последние восемь лет и получить прогноз продаж на последующие пять лет. В этом случае, при попытке планирования капиталовло- жений, необходимых предприятию на этот пятилетний период, любые долгосрочные мо- менты можно проигнорировать. В то же время высшее исполнительное руководство может
Управление процессом прогнозирования 569 воспользоваться технологическим прогнозированием с помощью метода Дельфи и одновременно метода составления сценариев. Их целью будет оценка текущих позиций их компании на рынке и поиск технологий или социальных изменений, которые могли бы оп- ределить ее нишу на этом рынке на следующие 20 лет, или же поиск благоприятных воз- можностей, не вполне очевидных в обыденной деятельности. В табл. 11.1 собраны методики анализа данных, обсуждаемые в этой книге. В этой таблице даются описания, области применения, оценки уровня затрат, а также показано, нужны ли компьютерные мощности для реализации каждой из методик. Для всех мето- дик есть также ссылка на главу, в которой она рассматривалась. Сводки, подобные табл. 11.1, следует рассматривать как рекомендации, а не как окончательные утвержде- ния, которые не могут быть оспорены. Таблица 11.1. Методы прогнозирования Метод Описание Применение Загрузка Необходимость Глава компьютера Каузальные модели прогнозирования Регрессионный Объясняющее про- Кратко- и средне- От низких до Обычно 6 анализ гнозирование; пред- полагает наличие причинно-следствен- ной связи между пе- ременными на входе и выходе системы срочное прогнози- рование сущест- вующих товаров и услуг; маркетинго- вые стратегии; про- изводство, набор персонала, плани- рование мощностей средних Множественная регрессия Объясняющее про- гнозирование; пред- Так же, как и выше От низких до средних Да 7 полагает наличие причинно-следствен- ной связи между бо- лее чем одной пере- менной на входе и переменной на выхо- де системы Модели прогнозирования с помощью временных рядов Метод декомпозиции Исследующее про- Среднесрочное про- От низких до Да 5 гнозирование; пред- полагает причинно- следственную связь между временем и переменной на выхо- де системы; система разлагается на со- ставные части гнозирование новых производств, проек- тирования оборудо- вания, финансиро- вания, разработки новых товаров и но- вых методов сбор- ки; краткосрочное средних прогнозирование для персонала, рек- ламы, запасов и планирования про- изводства
570 ГЛАВА 11 Продолжение табл. 11.1 Метод Описание Применение Загрузка компьютера Необходимость Глава Скользящие средние Устраняет случайно- сти из временных ря- дов; прогноз основы- вается на проециро- вании данных времен- ных рядов, сглажен- ных методом сколь- зящего среднего Краткосрочные про- гнозы такой дея- тельности, как соз- дание запасов, ка- лендарное планиро- вание, контроль, ценообразование и выбор времени для продвижения товара на рынке; использу- ется для вычисле- ния как сезонной, так и циклической компонент для ме- тода краткосрочной декомпозиции Низкие Нет 4 и 5 Экспоненциальное сглаживание Аналогично скользя- щим средним,однако значения экспонен- циально взвешены с присвоением боль- ших весов более но- вым данным Краткосрочные про- гнозы такой дея- тельности, как соз- дание запасов, ка- лендарное планиро- вание, контроль, ценообразование и выбор времени для продвижения товара на рынке Низкие Да 4 Авторегрессионые модели Применяются к эконо- мическим переменным для расчета взаимо- связей между сосед- ними наблюдениями временных рядов Кратко- и средне- срочное прогнози- рование экономиче- ских данных, вы- строенных во вре- менные ряды; Средние Да 8 и 9 ценообразование, планирование запа- сов, управление производством, биржевые операции и сбыт продукции
Управление процессом прогнозирования 571 Окончание табл. 11.1 Метод Описание Применение Загрузка Необходимость Глааа компьютера Методология Бокса- Дженкинса Не предполагают на- личия каких-либо особенных структур в данных наблюдений прогнозируемого ря- да; используют ите- ративный подход к определению воз- можных подходящих моделей из общего класса моделей и их подгонке Как и выше Высокие Да 9 Нейронные сети Используют сложные компьютерные про- граммы для усвоения значимых данных и распознавания струк- тур путем “обучения”, как это делает человек Возрастающее ис- пользование в раз- личных областях применения прогно- зирования; находит- ся в фазе развития Высокие Да Ю Контроль за процессом прогнозирования Сбор данных и выбор приемлемой методики прогнозирования являются только первым этапом в эффективном и плодотворном процессе прогнозирования. Некоторые этапы процесса прогнозирования уже были описаны в этой книге ранее с акцентом на изучении методик, наиболее часто используемых в реальном прогнозировании. Ключевые этапы процесса прогнозирования обобщенно представлены на рис. 11.1. Сбор и проверка подходящих данных наблюдений, наряду с рассуждениями от- носительно выбора методики или модели прогнозирования, описывались в этой книге ранее (глава 3). Согласно рис. 11.1, следующим этапом обычно является под- готовка прогноза интересующей величины на несколько периодов времени, для ко- торых ее реальные значения уже известны. Полученные в результате ошибки анали- зируются различными способами, как описывалось в главе 3, и указанный процесс следует продолжать до тех пор, пока не будет найдена методика с оправданным со- отношением между затратами и выгодой. Далее найденная модель используется для создания прогнозов на будущие периоды, а полученные результаты учитываются в процессе принятия решений.
572 ГЛАВА 11 Рис. 11.1. Обобщенный процесс прогнозирования
Управление процессом прогнозирования 573 Время от времени необходимо делать перерывы в процессе прогнозирования и пере- сматривать используемые процедуры. Обычно в этих случаях предпринимаются следую- щие действия. 1. Исключаются самые старые данные наблюдений, используемые в выбранной ме- тодике прогнозирования, и вместо них добавляется соответствующая порция но- вых реальных данных. 2. После обновления данных заново пересчитываются параметры используемой мо- дели прогнозирования. Например, после добавления новых данных оптимальное значение весовой константы при экспоненциальном сглаживании может изме- ниться, причем довольно значительно. После пересчета разностных данных и но- вой подгонки уравнения регрессионного анализа в его коэффициентах также мо- гут произойти заметные изменения. 3. Модель прогнозирования с новыми параметрами вновь проверяется на адекват- ность. Если достигнутая точность прогнозирования полагается достаточной, то модель продолжает использоваться вплоть до следующего периода обновления. Если точность прогнозирования оказывается неадекватной или предельно допус- тимой, то структуру новых данных нужно вновь подвергнуть изучению на предмет выбора нового метода прогнозирования. Данную процедуру следует продолжать до тех пор, пока точность выбранной модели, оцениваемая путем прогнозирова- ния на периоды, для которых реальные значения уже известны, не будет признана приемлемой. Упомянутый выше процесс обобщен на диаграмме, представленной на рис. 11.1, и образует своего рода петлю обратной связи, которая всегда имеет место при проектиро- вании систем любых типов. Иногда прогнозы непрерывно отслеживаются с использованием механизма следя- щего сигнала; это понятие рассматривалось в главе 4 при обсуждении простого экспо- ненциального сглаживания. Идея метода заключается в установлении пределов, в рамках которых ошибка, даваемая прогнозом, должна оставаться, пока процесс прогнозирова- ния считается адекватным. Пока величина ошибки остается в рамках допустимого, про- цесс прогнозирования продолжается. Как только ошибка выходит из допустимого диапа- зона, внимание руководства переключается на процесс прогнозирования и предприни- маются действия по модернизации модели прогнозирования, описанные выше. Эта кон- цепция иллюстрируется в примере 11.1. Пример 11.1 Сью Брэдли (Sue Bradley) отвечает за прогнозирование месячных продаж в своей компа- нии. Сью подобрала модель прогнозирования, величина ошибки которой вполне уст- раивает ее руководство. В данном случае стандартная ошибка в процессе прогнозирова- ния равна $935, т.е. прогноз и действительная величина месячных продаж отличаются в среднем на $935. В своих рассуждениях Сью исходила из предположения, что ошибка прогнозирования нормально распределена со средним значением, равным нулю, и стандартное отклонение со- ставляет $935. Такое предположение она сделала после изучения графика ошибок прошлых
574 ГЛАВА 11 прогнозов, из которого следует, что ошибки ложатся на колоколообразную кривую относи- тельно нуля. Используя 95%-ный доверительный интервал, она установила следующие пре- делы ожидаемой ошибки прогнозирования на каждый месяц. О ± (1,96)(935) О ±1833 Исходя из этого Сью приняла, что любой месячный прогноз будет находиться в пределах $1833 от действительного значения месячных продаж, с 95%-ной достоверностью. Если это условие будет соблюдаться, то процесс прогнозирования будет продолжаться, не привлекая ее внимания. Если ошибка окажется больше $1833, ей потребуется повторить изучение обоих параметров выбранной ею методики и, при необходимости, даже рассмотреть вопрос об ис- пользовании некоторой иной методики. Для упрощения наблюдения за процессом прогнозирования Сью составила диаграмму для отслеживания ошибок. По прошествии нескольких месяцев Сью обнаружила два графика, которые заставили ее более подробно проанализировать поведение выбранных ею процедур прогнозирования. На первом графике, представленном на рис. 11.2, показаны ошибки, поя- вившиеся недавно; их значения выглядят случайно распределенными. Последняя ошибка на этом графике, выходящая за пределы допустимого, вынудила Сью обновить базу данных но- выми величинами и переоценить параметры используемой модели прогнозирования. Неко- торое время спустя появился второй график ошибок (рис. 11.3), который также заставил Сью пристальнее взглянуть на процесс прогнозирования. Хотя на нем ни одна из ошибок не вы- шла за пределы допустимого, Сью обратила внимание на то, что последние несколько значе- ний ошибок уже не выглядят случайно распределенными. Фактически ошибки постоянно возрастают и очевидно, что скоро контроль над ситуацией будет утерян. Сью вновь обновила базу данных и после тщательного изучения структуры данных выбрала для прогнозирования другую методику. Рис. 11.2. Первый график ошибок для данных Сью Брэдли
Управление процессом прогнозирования 575 Время Рис. 11.3. Второй график ошибок для данных Сью Брэдли Еще раз об этапах прогнозирования В главе 1 несколько раз указывалось на то, что для получения достоверного и надежного прогноза результаты качественного анализа необходимо подвергать субъективной оцен- ке. Существует ряд вопросов, на которые необходимо предварительно получить ответы для правильной организации управления процессом прогнозирования. • Зачем нужен прогноз? • Кто будет пользоваться результатами прогноза и каковы их специфические требования? • Какой уровень детализации или обобщения результатов требуется и какой времен- ной диапазон должен быть охвачен? • Какие данные доступны и достаточно ли будет этих данных для построения тре- буемого прогноза? • Какова будет стоимость прогноза? • Какой может быть точность ожидаемого прогноза? • Будет ли прогноз сделан вовремя, чтобы помочь принять необходимые решения? • Ясно ли прогнозист представляет себе то, как его прогноз будет использоваться в организации? • Возможна ли обратная связь по результатам оценки прогноза для проведения соот- ветствующей коррекции процесса прогнозирования? Только когда указанные вопросы будут заданы надлежащим лицам и на них будут по- лучены ответы, можно начинать собственно процесс прогнозирования. В главе 1 этапы этого процесса были приведены в следующем порядке. Сбор данных Редукция или уплотнение данных Построение модели и ее оценка Экстраполяция выбранной модели (фактический прогноз) Оценка полученного прогноза
576 ГЛАВА 11 К этому перечню этапов после завершения прогнозирования следовало бы добавить обработку результатов обратной связи для определения, была ли достигнута требуемая точность, и выяснения, считает ли руководство компании достигнутые результаты по- лезными с точки зрения процесса принятия решений и эффективными с точки зрения затраченных средств и усилий. Хотя основной темой этой книги является построение моделей и выбор подходящего метода прогнозирования, все же авторы надеются, что им удалось сделать необходимый акцент на важности управления процессом прогнозирования. Перечисленные выше во- просы будут важны в любых конкретных ситуациях, связанных с применением прогно- зирования, и ответы на них обязательно должны быть получены, если ожидается дости- жение действительно полезных результатов. Мы настоятельно рекомендуем выполнить все задания в конце этой главы. Они приводятся для иллюстрации важности различных аспектов управления процессом прогнозирования. Служба прогнозирования Место процесса прогнозирования в управлении организацией меняется в зависимости от размеров фирмы, значения, придаваемого формальному прогнозированию, и стиля управления, применяемого руководством организации. Служба прогнозирования может быть создана как независимый департамент прогнозирования или же прогнозирование может самостоятельно выполняться в каждом отдельном руководящем звене организа- ции, безотносительно к другим функциональным подразделениям. Отдельный штат прогнозистов чаще встречается в больших организациях, чем в ма- лых. Крупные фирмы могут позволить себе нанимать подготовленных специалистов, умеющих применять сложные методы прогнозирования, и способны предоставить им необходимую компьютерную технику и программное обеспечение. Преимущество такой централизации состоит в том, что результаты выполненной экспертизы будут доступны всем подразделениям фирмы. Недостаток ее заключается в том, что достичь необходимой координации между персоналом, занятым в прогнозировании, и линейным руково- дством оказывается достаточно сложно. В результате прогнозисты будут тратить большую часть времени на переговоры с теми людьми, для которых делается прогноз, и объясне- ние им своей роли, чем на собственно прогнозирование. Иным подходом является выполнение прогнозирования в каждом подразделении фирмы независимо от других, без какой-либо координации или кооперации между ними. Преимущество такой схемы состоит в том, что полностью исключаются какие-либо не- доразумения между прогнозистами и теми, для кого делается прогноз, — это одни и те же люди. Полученные в таких условиях прогнозы чаще принимаются и используются при принятии решений. Недостаток данного подхода состоит в том, что применение сложных методов и, следовательно, достижение максимальной точности прогнозов трудно дости- жимо, поскольку снабдить весь персонал необходимым аппаратным и программным обеспечением сложно. Как правило, не удается заставить высшее руководство приобре- сти компьютеры и программы для одного подразделения, если оно знает о том, что все это уже есть в другом подразделении компании.
Управление процессом прогнозирования 577 Многие организации предпринимают попытки локализовать службу прогнозирования в структуре своих подразделений по схеме, являющейся промежуточной по отношению к ва- риантам, рассмотренным выше. Небольшой штат прогнозистов можно выделить в структу- ре фирмы как подотдел, предназначенный для обслуживания потребностей в прогнозиро- вании нескольких функциональных подразделений. Главная задача такого подотдела будет состоять в координации работ с другими подразделениями с целью создания необходимых им точных и достоверных прогнозов. Иногда обязанности по прогнозированию совмеща- ются с другими функциональными обязанностями, такими как статистическая поддержка различных служб или проведение других компьютерных расчетов. Распространение недорогих персональных компьютеров и выпуск специализиро- ванного программного обеспечения для прогнозирования породило тенденцию к смещению функций прогнозирования в структуре организации вниз. Сегодня ме- неджеры могут получить доступ к сложнейшим инструментам прогнозирования, за- тратив при этом значительно меньше средств, чем несколько лет тому назад. Однако знания, необходимые для умелого пользования этими инструментами, не приходят сами по себе вместе с компьютерами или программами. Следует понимать, что необ- ходимость корректного использования методик прогнозирования только возрастает по мере того, как вычислительные мощности переходят от “экспертов” к рядовым сотрудникам организации. Затраты на прогнозирование Оплата работы персонала плюс расходы на компьютеры и программы составляют очевидные статьи расходов в затратах на создание прогнозов. Но процесс прогнози- рования может потребовать и неочевидных затрат, вызванных дополнительным рас- ходом рабочего времени персонала и финансовых средств. Время служащих различ- ных подразделений, затраченное на сбор данных для целей прогнозирования, кон- троль над ходом процесса прогнозирования и обработку полученных результатов также следует рассматривать как затраты на прогнозирование. Общую сумму всех за- трат следует соотносить с выгодой, полученной при учете результатов прогноза в процессе принятия решения. Альтернативой созданию прогнозов средствами самой фирмы является пригла- шение сторонних консультантов. Подобная практика особенно привлекательна, когда организация нуждается скорее в однократном прогнозе, чем в постоянном прогностическом наблюдении за текущей ситуацией. Если требования для выполне- ния прогноза превышают технические возможности персонала компании, также бу- дет удобнее обратиться к услугам профессиональных консультантов. Подобное при- влечение сторонней помощи для нужд прогнозирования значительно снижает вели- чину затрат. Прогнозирование и АСУ В последнее время сложность и полезность автоматизированных систем управления со- временных предприятий и фирм значительно возросли. Их главный вклад в процесс прогнозирования состоит в широких возможностях сбора и регистрации разнообразных
578 ГЛАВА 11 данных в масштабах всей организации. Прогнозисту следует избегать самостоятельного сбора данных, если таковые уже были собраны и записаны в базу данных автоматизиро- ванной системы управления компании. Стремительное развитие компьютерных сетей, созданных в множестве различных фирм, обусловливает возрастание возможностей доступа к данным для многих пользо- вателей такой сети. Этот процесс также способствует более широкому распростране- нию программного обеспечения среди пользователей постоянно разрастающихся ком- пьютерных сетей. Достоверность накопленных в базе данных является очень важным фактором, даже если представление этих данных не вполне соответствует формату временного ряда, не- обходимого прогнозисту. Всегда выгоднее модифицировать модель прогнозирования или имеющиеся данные, чем отказываться от них и предпринимать сбор новых данных. Ко- нечно, это будет справедливо, если процесс сбора новых данных потребует значительных затрат времени. Если же данные в требуемом формате, необходимые для используемой модели прогноза, можно получить очень легко, это всегда будет предпочтительнее в сравнении с использованием данных, отличающихся формой представления или являю- щихся несвоевременными. Еще одно преимущество использования данных, накопленных в базе данных или сети компании, состоит в том, что в этом случае процесс прогнозирования становит- ся элементом общей системы. Поскольку процессы распределения информации и поддержки принятия решений уже функционируют в системе, прогнозы можно лег- ко интегрировать в процедуры принятия решений в организации. Эта ситуация рез- ко отличается от тех случаев, когда предпринимаются попытки внедрить процессы прогнозирования в уже существующий процесс принятия решений менеджерами компании. Высшее руководство и прогнозирование Если прогнозы, осуществляемые силами фирмы, становятся важным компонентом про- цесса принятия решений, необходимо учитывать несколько дополнительных факторов. Во-первых, нужно отдавать себе отчет, что опытного менеджера интересуют, прежде всего, практичные и полезные результаты. В общем случае прогнозы должны отвечать требованиям таких менеджеров; они должны давать ответы на все те вопросы, о которых шла речь в этой главе ранее. Во-вторых, чтобы быть полезными, прогнозы должны быть достаточно точными. Хо- роший менеджер быстро откажется от использования прогнозов, независимо от сложно- сти используемых при их создании методов, если эти прогнозы не будут иметь необходи- мой точности. И в-третьих, внутреннее чутье выгоды, имеющееся у всех хороших менеджеров, не- пременно нужно учитывать в ходе прогнозирования. Способность анализировать ситуа- цию в терминах необходимых затрат и получаемой выгоды является краеугольным кам- нем эффективного менеджмента, и персонал, занимающийся прогнозированием, должен это понимать. На этой почве часто возникают трудности во взаимопонимании между прогнозистами и теми руководителями, для которых этот прогноз составляется. Прогно- зисту следует помнить, что конечным результатом процесса прогнозирования должен
Управление процессом прогнозирования 579 стать продукт, выгода от использования которого в процессе принятия решений превы- сит затраты на его получение. Кроме того, появление этого прогноза должно быть свое- временным. Будущее прогнозирования Как упоминалось в главе 1, значимость прогнозирования в функционировании совре- менных организаций неуклонно возрастает из-за все большего усложнения делового ми- ра и, одновременно, все возрастающей доступности необходимого компьютерного и программного обеспечения, вызываемой постоянным снижением цен на эту продукцию. Все обостряющаяся конкуренция в сфере персональных компьютеров и программного обеспечения очевидна для всех; менее очевидными могут быть долгосрочные тенденции, которые медленно изменяют характер делового окружения и которые незаметно, но очень сильно влияют на образ действий деловых людей. Рассмотрим некоторые из “мегатрендов”, введенных Нейсбиттом (Naisbitt) в своей книге, которая так и озаглавлена (см. дополнительные ссылки на литературу в главе 10). Эти сталкивающиеся силы имеют определенное значение для делового мира и наводят на мысль о необходимости применения прогнозирования с привлечением современного оборудования и программ. Индустриальное и информационное сообщества Национальная и мировая экономика Кратко- и долгосрочные суждения Централизация и децентрализация Право выбора и/или множественность выбора Данные тенденции подчеркивают важность непрерывного совершенствования ме- неджмента для тех деловых людей, которым по долгу службы приходится предвидеть по- явление сложных проблем, с которыми их организациям предстоит столкнуться в бли- жайшие несколько лет. В частности, они придают особое значение развитию все более и более изощренных схем поведения в неопределенных ситуациях. Все это указывает на возрастание значимости сочетания хороших субъективных оценок с результатами слож- нейших методов манипуляции данными с целью достижения надежного прогнозирова- ния в бизнесе. Поскольку рассматриваемые Нейсбиттом тенденции или некоторые их комбинации продолжают оказывать все возрастающее влияние на деловой мир, на первый план вы- ступает способность руководителей быстро и адекватно реагировать на изменения в те- кущей ситуации. Поиск ответа на главный вопрос коммерции — “А что произойдет да- лее?” — приобретает все более важное значение; а ведь это и есть тот вопрос, на который призвано дать ответ бизнес-прогнозирование.
580 ГЛАВА 11 жч /дч л /лч /дч /дч /дч /дч /дч /дч /дч /дч /дч w/ w w/ w/ w w/ w w w/ w/ w/ w w/ Задание 11.1. Компания Boundary Electronics Компания Boundary Electronics является крупным поставщиком бытовой электроники. К ее наиболее ходовым товарам относятся бытовая видеотехника и спутниковые телевизи- онные системы. В связи с быстрым ростом бизнеса этой компании, ее президента, Гая Престона (Guy Preston), интересуют потенциальные перемены в состоянии рынка, кото- рые могли бы вызвать изменения в структуре продаж компании. Побеседовав со своими менеджерами о том, как им видится будущее компании, Гай выяснил две вещи. Во-первых, большинство его менеджеров слишком заняты решением повседневных проблем, связанных с постоянно растущим спросом на продукцию компа- нии, чтобы сколько-нибудь глубоко размышлять о далеком будущем. Во-вторых, выска- занные ими мнения варьируются от целиком оптимистических до полностью пессими- стических. Сам же Гай понимал, что как президент компании он обязан всерьез заду- маться о будущем той среды, в которой функционирует его компания. Поразмышляв некоторое время над этой проблемой, Гай решил провести в ближайшую субботу закрытое совещание шести членов высшего административного звена компании. Он снял в местном отеле комнату для заседаний, заказал ленч и несколько фуршетов с кофе в течение дня. Когда вся команда встретилась в субботу утром, он ознакомил присутствую- щих с той темой, которая будет обсуждаться ими в течение дня, а затем предложил каждому участнику подготовить на одной-двух страницах описание изменений в окружении компа- нии на протяжении предстоящих 20 лет для каждой из следующих ситуаций. 1. Среда, в которой функционирует компания, по существу, останется такой же, как и сейчас. Товары, пользующиеся спросом на рынке, будут лишь модификацией существующей продукции, и новые технологии появляться не будут. 2. Значительные технологические изменения приведут к тому, что существующий ряд продукции компании быстро устареет. Для удовлетворения спроса населения Америки на средства проведения досуга потребуется разработка совершенно но- вых видов продукции. 3. Каким будет наиболее вероятный сценарий изменений в окружении компании, находящийся между двумя крайними вариантами, указанными выше? Всем участникам совещания Гай предоставил один час на построение сценариев для каждой из этих трех ситуаций. В течение этого часа Гай размышлял над тем, как пройдет остаток дня и что будет достигнуто в итоге. Он надеялся, что его менеджерам удастся найти какие-нибудь свежие идеи и последующее обсуждение будет активным и интерес- ным. Помимо личных ожиданий, что при обсуждении будут выдвинуты идеи, которыми он сможет воспользоваться в будущем, Гай также полагал, что это совещание научит его менеджеров чаще бросать взгляд за рамки сиюминутных проблем и текущей выгоды и сформирует у них представление о более длительных перспективах компании.
Управление процессом прогнозирования 581 Вопросы 1. Какую, по вашему мнению, процедуру использует Гай, когда закончится час, выде- ленный на написание сценариев? 2. Существуют ли другие подходы, которыми мог бы воспользоваться Гай для дости- жения тех же целей? 3. Как вы считаете, достигнет ли Гай поставленных целей с помощью созванного им субботнего совещания? Задание 11.2. Компания Busby Associates Джил Тилсон (Jill Tilson) недавно окончила школу бизнеса при местном университете и получила работу в компании Busby Associates, являющейся крупным экспортером сель- скохозяйственной техники. Изучая документы нового работника, президент компании обратил внимание на то, что Джил прослушала курс прогнозирования, и для начала ре- шил привлечь ее к участию в проекте прогнозирования, который долгое время обсуждал- ся высшим руководством компании. Президент компании Busby Associates полагал, что существует сильная взаимосвязь между объемами продаж компании на экспорт и показателями объемов экспорта в мас- штабе всей страны. Данные о государственных объемах экспорта можно получить в пра- вительственных источниках, поэтому для проекта прогнозирования имелись надежные и представительные исходные данные. Президент компании надеялся, что если данный проект будет успешным, компания получит в свое распоряжение мощный инструмент прогнозирования собственных объемов экспортных продаж. Джил взяла в местной библиотеке последний выпуск издания Survey of Current Business и выписала квартальные данные об экспорте потребительских товаров, выраженные в миллиардах долларов. Она полагала, что эти данные хорошо представляют тенденции в общенациональном экспорте. Учитывая, что в предстоящем прогнозировании весьма ве- роятно использование методов регрессионного анализа, она также выписала данные по нескольким другим переменным, которые, по ее мнению, могли хорошо коррелировать с исследуемой величиной. В результате у Джил были собраны значениях четырех перемен- ных за период из 14 кварталов. Затем она рассчитала еще три дополнительные переменные на основании известных ей значений зависимой переменной: первые разности для Y, процентные первые разно- сти для Y и значения Y с запаздыванием на один период. Таким образом, когда Джил приступила к обдумыванию различных возможных способов прогнозирования значений интересующей ее переменной, у нее имелись исходные данные, приведенные в табл. 11.2.
582 ГЛАВА 11 Таблица 11.2. Данные квартальных временных рядов, собранные Джил Тилсон Переменная Период 1 2 3 4 5 6 7 1987 1 18,2 128,3 306,2 110,0 - - - 2 19,8 45,8 311,6 109,7 1,6 8,79 18,2 3 20,9 66,1 320,7 109,9 1,1 5,56 19,8 4 22,1 129,7 324,2 109,7 1,2 5,74 20,9 1988 1 24,0 136,4 331,0 109,4 1,9 8,60 22,1 2 26,0 140,7 337,3 110,5 2,0 8,33 24,0 3 27,7 156,9 342,6 110,6 1,7 6,54 26,0 4 29,7 148,5 352,6 110,9 2,0 7,22 27,7 1989 1 33,6 189,8 351,5 113,4 3,9 13,13 29,7 2 35,0 168,9 357,6 112,4 1,4 4,17 33,6 3 35,0 154,5 365,2 111,9 0,0 0,00 35,0 4 38,0 174,1 366,3 111,0 3,0 8,57 35,0 1990 1 40,7 191,3 369,1 111,9 2,7 7,11 38,0 2 42,0 201,2 370,0а 112,1 1,3 3,19 40,7 Оценочное значение. Переменные: 1 — потребительские товары, экспорт (млрд долл.); 2 — совокупные объемы сбережений граждан (млрд долл.); 3 — национальный доход розничной торговли (млрд долл.); 4 — ценовые индексы с фиксированным весовым коэффициентом для финансирования оборонных нужд и оснащения армии, 1982 = 100; 5 — изменение в зависимой переменной по отношению к предыдущему периоду; 6 — процентное изменение в зависимой переменной по отношению к предыдущему периоду; 7 — значение зависимой переменной с запаздыванием на один период. Источник для переменных 1-4: Survey of Current Business, 70, по. 7, July 1990, U. S. Department of Commerce. Джил ввела собранные данные в компьютерную программу, поддерживающую метод регрессионного анализа, и рассчитала корреляционную матрицу для семи переменных. После анализа полученной матрицы она отобрала для дальнейшего изучения три регрес-
Управление процессом прогнозирования 583 сионные функции с одной независимой переменной и шесть регрессионных функций с двумя независимыми переменными. Затем она выполнила соответствующие расчеты и выбрала одну регрессионную функцию, которую сочла наилучшей. В этой функции ис- пользовалась одна независимая переменная (Ус запаздыванием на один период), и для нее были вычислены следующие характеристики. г-квадрат = 0,98 t = 25,9 F = 671,6 Статистика Дарбина-Уотсона = 2,18 Таблица критических значений Дарбина-Уотсона, которой пользовалась Джил, начина- лась со значений для п = 15, однако объем ее выборки составлял только п = 13 значений. Она интерполировала имеющиеся критические значения статистики Дарбина-Уотсона (DW) и ус- тановила, что верхний предел для теста на наличие автокорреляции должен составлять 1,35. Поскольку для ее данных УПУ-статистика равна 2,18, она пришла к выводу, что в рассматри- ваемой выборке автокорреляция отсутствует. Джил сделала предварительное заключение, что ей удалось найти хорошую независимую переменную (У с запаздыванием в один период). Однако анализ результатов показал и то, что объем используемой выборки оказался слишком мал: всего лишь 13 кварталов. Джил вновь обратилась к изданию Survey of Current Business, чтобы выбрать дополнительные данные, однако была очень расстроена, обнаружив, что для тех лет, которые ее интересовали, определение зависимых перемен- ных изменилось, и в результате временные ряды оказались несовместимыми. Иначе го- воря, данные в интересующих ее рядах охватывали лишь часть изучаемого периода. Джил рассказала о возникшей проблеме своему начальнику, и после некоторого об- суждения они решили, что вместо данных об экспорте потребительских товаров в качест- ве независимой переменной можно использовать общий объем экспорта товаров. Джил выяснила, что метод определения этой переменной оставался неизменным в нескольких выпусках издания Survey of Current Business, поэтому можно собрать данные за более про- должительный период. Джил выписала данные, показанные в табл. 11.3, рассчитала зна- чения ряда с запаздыванием на один период и вновь применила регрессионный анализ, использовав значение У с запаздыванием на один период как независимую переменную. Таблица 11.3. Общий квартальный объем экспорта товаров (млрд долл.) Год Квартал У У с запаздыванием на один период 1984 1 219,3 - 2 223,1 219,3 3 225,9 223,1 4 228,0 225,9 1985 1 225,0 228,0 2 221,6 225,0 3 218,0 221,6 4 218,6 218,0
584 ГЛАВА 11 Год Квартал У Окончание табл. 11.3 Y с запаздыванием на один период 1986 1 220,7 218,6 2 221,4 220,7 3 225,7 221,4 4 230,4 225,7 1987 1 234,5 230,4 2 246,6 234,5 3 261,6 246,6 4 281,3 261,6 1988 1 306,7 281,3 2 319,2 306,7 3 327,9 319,2 4 342,8 327,9 1989 1 360,6 342,8 2 373,2 360,6 3 367,3 373,2 4 378,7 367,3 1990 1 394,2 378,7 2 394,4 394,2 Источник: Survey of Current Business, различные выпуски. В данном случае она снова получила хорошие статистические показатели в результатах регрессии, за исключением статистики Дарбина-Уотсона. Ее значение получилось рав- ным 0,96, и Джил пришла к выводу, что в ее данных присутствует заметная автокорреляция, поскольку эта величина ниже, чем наименьшее табличное значение для теста Дарбина- Уотсона. Она попробовала провести анализ с большей задержкой по У в качестве независи- мой переменной, но ей так и не удалось получить достаточно высокого значения DW, чтобы можно было с уверенностью сказать, что автокорреляция в данных устранена. Тогда Джил решила обратиться к другим методикам прогнозирования, которые позволят сделать про- гноз интересующей ее переменной — общего квартального объема экспорта товаров. В рас- четах Джил использовала временной ряд, показанный в столбце У табл. 11.3. Среди программного обеспечения, установленного на компьютерах компании Busby Associates, присутствовал пакет программ для прогнозирования Sybil/Runner, позволяю- щий использовать различные методы прогнозирования. Джил подготовила исходные данные для обработки с помощью этой программы и выполнила расчеты с использова- нием различных методов прогнозирования. Среди доступных Джил функций была и процедура, позволяющая строить графики исходных данных. График квартальных дан- ных об общем объеме экспорта товаров для 1984—1990 гг. показан на рис. 11.4.
Управление процессом прогнозирования 585 PERIOD 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Low = 218.000 VALUE 219.300 223.100 225.900 228.000 225.000 221.600 218.000 218.600 220.700 221.400 225.700 230.400 234.500 246.600 261.600 * 281.300 * 306.700 * 319.200 * 327.900 * 342.800 * 360.600 * 373.200 * 367.300 * 378.700 Н----------1----------1----------h High = 378.700 Puc. 11.4. График исходных квартальных данных об общем объеме экспорта то- варов с первого квартала 1984 года по второй квартал 1990 года (пакет про- грамм Sybil/Runner) После изучения графика, показанного на рис. 11.4, Джил решила в своих дальнейших попытках прогнозирования ограничиться только последними 16 значениями исходных данных. В своих рассуждениях она исходила из того, что начиная с периода 9 ряд прояв- ляет относительно устойчивое возрастание значений, тогда как до этого момента он де- монстрировал и возрастание, и спад. Программа Sibyl/Runner выдала предупреждение об использовании слишком малого количества исходных значений (16), однако Джил про- должила работу, проигнорировав это предупреждение. Джил начала анализ, вызвав стандартную процедуру Sibyl (Предсказательница) с ис- пользованием только последних 16 значений данных. Первые выданные программой ре- зультаты указывали на наличие в данных некоторой структуры, которая не является се- зонной. Программа применила несколько методов прогнозирования для получения прогноза некоторых выборочных значений и вывела на печать таблицу с ошибками прогнозирования, выраженными в процентах, для каждого использованного метода и каждого периода. Изучив вычисленные ошибки прогнозирования, Джил для дальнейшего анализа вы- брала три метода прогнозирования, для которых процентное значение ошибки было наименьшим. Простое экспоненциальное сглаживание Линейное экспоненциальное сглаживание Хольта, позволяющее исключить влия- ние тренда в данных Квадратичное экспоненциальное сглаживание, допускающее наличие в данных не- линейного тренда
586 ГЛАВА 11 Затем она рассчитала прогноз интересующих ее данных с помощью каждой из трех выбранных методик и получила результаты, приведенные в табл. 11.4. Таблица 11.4. Результаты прогнозирования для трех различных методов Метод прогнозирования Среднеквадратичная ошибка Оптимальные значения по- стоянных сглаживания Простое экспоненциальное сглаживание 185,5 0,999 Метод Хольта 81,0 0,722 Квадратичное экспоненциальное сглаживание 87,7 0,485 Джил обратила внимание на то, что оптимальная сглаживающая постоянная в методе экспоненциального сглаживания почти равна 1 (0,999). А это означает, что, для того что- бы отслеживать данные оптимальным образом, программа вынуждена использовать каж- дое из значений для предсказания следующего. Но это равноценно методу простого на- ивного прогнозирования, т.е. модели, в которой две последовательные разности счита- ются случайными. Поскольку для линейного экспоненциального сглаживания по методу Хольта средне- квадратичная ошибка получается наименьшей, Джил предположила, что следует вос- пользоваться именно этим методом. Она проанализировала другие результаты данного метода и выяснила, что средняя абсолютная процентная ошибка (МАРЕ) в этом случае составила 2,39%, а средняя процентная ошибка (МРЕ} — 0,34%, что вполне приемлемо. Поэтому Джил утвердилась в решении использовать линейное экспоненциальное сгла- живание по методу Хольта для дальнейшего прогнозирования. Воспользовавшись выбранным методом, она подготовила прогноз на следующие че- тыре периода на основании имеющихся данных. Вот полученные ею значения. Период Прогноз 17 401,27 18 407,30 19 413,34 20 419,38 Джил хорошо понимала, что с каждым прошедшим кварталом будут появляться но- вые данные о совокупном объеме экспорта товаров, на основании которых можно будет обновить прогнозы на будущие периоды. Затем Джил встретилась со своим руководителем, и они обсудили полученные резуль- таты. Она сообщила, что, по ее мнению, ей удалось найти подходящий метод для прогно- зирования значений данных об общем объеме экспорта товаров, представляющий собой экспоненциальное сглаживание с трендовой корректировкой. Руководитель попросил Джил объяснить ему суть используемого метода, а затем поручил ей проверить на осно- вании фактических данных об объемах сбыта компании Busby Associates предположение президента о том, что объемы экспортных поставок компании хорошо коррелируют с объемами экспорта в государственном масштабе. Если эта зависимость подтвердится, то у компании появится хороший метод прогнозирования объемов собственного экспорта, а значит и возможность планирования своей будущей деятельности.
Управление процессом прогнозирования 587 Вопросы 1. Джил не рассматривала возможность комбинирования результатов трех проанали- зированных ею методов прогнозирования. Как это можно было бы осуществить? В чем преимущества и недостатки такого подхода? 2. Оптимальными значениями постоянных сглаживания в методе линейного экспоненци- ального сглаживания Хольта являлись а = 0,722 и Р = 0,722. Когда появятся новые данные за следующие несколько кварталов, Джил, вероятно, потребуется заново обработать имеющиеся данные, чтобы проверить используемую модель на соответствие изменив- шемуся ряду. Как часто, по-вашему мнению, ей нужно это делать? 3. Возможно, что после включения в исследуемый ряд новых квартальных данных вы- бранную методику прогнозирования потребуется заменить. Должна ли Джил полно- стью повторить весь анализ, чтобы это проверить? Как часто это следует делать? 4. Коллеги предложили Джил попробовать применить методологию Бокса-Дженкинса (ARIMA). Что вы могли бы посоветовать Джил, если она решит обратиться к мето- дологии Бокса-Дженкинса? Задание 11.3. Корпорация Consumer Credit Counseling Деятельность корпорации Consumer Credit Counseling (ССС) описывалась в главах 1, (задание 1.2) и 3 (задание 3.3). Исполнительный директор корпорации ССС, Мэрв Харнишфегер, пришла к заклю- чению, что наиболее важной переменной, значение которой необходимо прогнозиро- вать, является количество новых клиентов, которые обратятся в корпорацию за остав- шуюся часть 1993 года. Мэрв предоставила Дороти Мерсер ежемесячные данные о коли- честве новых клиентов, обратившихся в корпорацию ССС за период с января 1985 года по март 1993 года (см. задание 3.3). Дороти использовала несколько способов прогнозирования значений интересующей руководство переменной. Достигнутые ею результаты описывались в конце соответст- вующих глав. Завершив работу с различными методами прогнозирования, Дороти реши- ла, что пришло время подытожить полученные результаты и выбрать оптимальный метод прогнозирования значений переменной на оставшуюся часть года. Вопрос 1. Подготовьте письменный отчет, в котором будут даны рекомендации по выбору опти- мального метода прогнозирования. Помните, что необходимо получить прогноз коли- чества будущих клиентов, который должен быть настолько точным, насколько это возможно, и который будет широко использоваться руководством организации при принятии решений. Дайте конкретные рекомендации Дороти и Мэрв и не забудьте ос- ветить все проблемы, обсуждавшиеся в этой главе, — например, вопросы затрат.
588 ГЛАВА 11 Задание 11.4. “Mr. Tux” Владелец нескольких пунктов проката, функционирующих под вывеской “Мт. Тих”, Джон Мосби, уже опробовал несколько методов прогнозирования наиболее важной для него пе- ременной — объема месячного дохода компании. Его усилия описывались в заданиях, при- веденных в конце нескольких глав этой книги. Закончив проверку результативности раз- личных методов прогнозирования, Джон решил, что пришло время обобщить достигнутые результаты и выбрать один из методов для практического применения. Он понимал, что впоследствии ему придется периодически обновлять накопленные данные и заново подби- рать метод, используемый для прогнозирования, ну а сейчас ему предстояло выбрать тот метод, который он будет использовать на протяжении ближайших нескольких месяцев. Сначала Джон подытожил результаты тех методов, которые он опробовал к настоя- щему моменту. Ниже описываются результаты применения отдельных методов прогно- зирования с указанием глав, в которых они обсуждались. • Глава 2. Использование среднего значения дохода за год как инструмента предсказания в принципе возможно, однако Джон отметил наличие в исходных данных возрастаю- щего тренда, поэтому ему требовался более надежный способ, чем простая экстраполя- ция средних значений на будущее. Кроме того, Джон был уверен в присутствии в ис- ходных данных сезонного эффекта, так как он знал, что сумма доходов его компании значительно меняется от месяца к месяцу. Поэтому применение метода вычисления среднего значения за год не позволило ему достичь положительных результатов. • Глава 3. Анализ имеющихся данных в приложении Minitab подтвердил, что в них присутствует как тренд, так и сезонные эффекты. Хотя Джон и раньше предполагал о наличии в его данных этих особенностей, он был рад видеть, что компьютерные расчеты статистически подтверждают его предположения. Выполненные расчеты также показали, что несколько коэффициентов автокорреляции находятся вне ус- тановленной предельной ошибки, указывая на то, что как тренд, так и сезонность обязательно должны учитываться в используемой модели прогнозирования. • Глава 4. Затем Джон обратился к методам экспоненциального сглаживания, позволяю- щим учитывать наличие в данных тренда и сезонных факторов, но вычисленные харак- теристики результирующей ошибки оказались неудовлетворительными. Джон пони- мал, что эти численные характеристики, — например, средняя ошибка и средняя про- центная ошибка, — были получены в результате предсказания прошлых значений его переменной. Однако поскольку эти ошибки были столь высоки, Джон решил отказать- ся от использования этих методов для предсказания неизвестного будущего. • Глава 5. Первые обнадеживающие результаты Джону удалось получить, когда он об- ратился к методу декомпозиции. С помощью этого метода он построил линию трен- да, рассчитал сезонные индексы и вычислил циклическую компоненту для своих ис- ходных данных. Теперь Джон мог доказать своим банкирам наличие сезонности в до- ходах его компании и обосновать этим свои пожелания в отношении порядка выплат по ссуде. Он также подготовил прогноз суммы доходов компании на несколько сле- дующих месяцев, сложив заново оцененные им компоненты. Однако Джон был не- сколько обеспокоен слишком широким диапазоном полученных прогнозов.
Управление процессом прогнозирования 589 • Глава 6. Следующим методом, который опробовал Джон, был метод простого рег- рессионного анализа, в котором в качестве независимой переменной использовал- ся период времени. Он полагал, что эта переменная позволит учесть наличие трен- да, который, как ему было уже точно известно, присутствовал в исходных данных. Однако этот метод не учитывает эффекта сезонности в данных, в результате чего вычисленное значение r-квадрат, равное 56,3%, оказалось неудовлетворительным. • Глава 7. Теперь Джон обратился к методу множественной регрессии, в котором для отражения наличия тренда в качестве первой независимой переменной использо- вался период времени, а для учета сезонных эффектов вводился ряд фиктивных пе- ременных (месяцы). В результате полученное значение 7?-квадрат, равное 88%, ока- залось значительно лучше по сравнению с методом простой регрессии, однако ошибка прогнозирования для последних двенадцати месяцев из имеющихся дан- ных, измеренная как средняя абсолютная величина ошибки, выраженной в про- центах (МАРЕ), оказалась равной 21%, что совершенно неприемлемо. В результате Джон вынужден был отказаться и от метода множественной регрессии. • Глава 8. Построенная Джоном сезонная авторегрессионная модель дала в результа- те значение 7?-квадрат, равное 90,6%. Этот результат уже можно было считать впол- не удовлетворительным. • Глава 9. Применение методологии Бокса-Дженкинса (ARIMA) вызывало у Джона определенные затруднения, поскольку он с самого начала не вполне ее понимал. Джон знал, что найденная им сезонная авторегрессионная модель является частным случаем модели ARIMA, но ему очень хотелось выяснить, можно ли эту модель до- полнительно улучшить. Он отдавал себе отчет в том, что должен быть в состоянии объяснить любые прогнозы, которые он предоставит инвесторам или банкирам при очередной попытке получить необходимый кредит для расширения компании, по- этому ему нужен был метод, который одновременно был бы и точным, и понятным. Размышляя над результатами своих исследований, Джон хорошо понимал, что время бежит быстро и очень скоро прогноз месячных доходов его фирмы будет просто необхо- дим. Однако он был слишком занят, чтобы попытаться модифицировать используемые им методы, подумать о комбинировании двух или более из них или заказать новое про- граммное обеспечение, поддерживающее совершенно иные методы. Задумавшись над тем, как ему следует поступить, Джон перевел взгляд на плакат с его любимым афориз- мом, висевший на противоположной стене: “Давайте будем что-то делать, даже если это не совсем то, что требуется”. Вопрос Подготовьте письменный отчет, обобщающий результаты выполненных Джоном Мосби исследований и содержащий рекомендации относительно его дальнейших дейст- вий. Не забывайте, что Джону требуется быстро подготовить прогноз месячных доходов фирмы, который должен быть настолько точным, насколько это возможно, и который он сможет использовать в дискуссии со своими инвесторами. Дайте конкретные рекоменда- ции в отношении дальнейших действий владельца компании “Mr. Tux”.
590 ГЛАВА 11 Задание 11.5. Компания Alomega Food Stores В примере 1.1 (глава 1) Джулия Рас, президент компании Alomega Food Stores, собрала данные о месячных объемах продаж своей компании вместе с несколькими другими по- казателями, которые, как она полагала, способны оказывать влияние на объем продаж. В заданиях, связанных с деятельностью компании Alomega Food Stores, приведенных в гла- вах 2, 3, 5 и 8, описаны ее усилия по использованию приложения Minitab с целью полу- чить обоснованный прогноз месячных объемов продаж компании. Джулия, предлагая достаточно хорошую собственную оценку прогнозируемой вели- чины, знала, что ее технический персонал опирается на те же данные, однако она не зна- ла, из чего они исходят в своих рассуждениях. Кроме того, ей очень хотелось найти хо- роший метод прогнозирования своими собственными усилиями. Она понимала, что как первая женщина-президент компании Alomega Food Stores она должна обойти всех по- тенциальных кандидатов на ее место и что, весьма вероятно, в команде менеджеров ком- пании имеется определенное недовольство. В особенности ее задело отрицательное заме- чание, сделанное в ходе последнего совещания Джексоном Тилсоном, исполнительным директором компании (см. пример 1.1). Анализируя результаты своих усилий, Джулия решила отказаться от метода простого регрессионного анализа (см. главу 2). Теперь ей предстояло сделать выбор между метода- ми декомпозиции (глава 5) и множественной регрессии (глава 8). Вопросы 1. Проанализируйте результаты выполненных Джулией Рас расчетов и дайте обосно- ванную рекомендацию относительно того, какой метод она должна использовать в дальнейшем. 2. Подготовьте письменное заключение, содержащее развернутое обоснование выбора, сделанного вами при ответе на предыдущий вопрос, и укажите рамки, в которых ис- пользование этого метода прогнозирования будет достаточно эффективно. 3. Какие еще методы прогнозирования могли бы вы предложить в дополнение к тем двум, на которых остановилась Джулия Рас? Для проверки результативности предло- женных вами методов воспользуйтесь приложением Minitab или другим аналогичным пакетом программ для прогнозирования. Сравните полученные результаты с результа- тами того метода, который был выбран вами при ответе на первый вопрос. Рекомендуемая литература Naisbitt J. Megatrends. New York: Warner Books, 1982.
/А\ Л А Л А L Ь /А\ /А\ Л А W W W V прило” Г/ w/ W W Вывод формул Корреляционные соотношения г, ад = 4(*-*)/y.I(1'-F)/s,] п п Х(Х-Х)(/-У) ^(xx7n)-(xx/n)25/[(xy2/n)-(xy/n)2y„ пХ(х-Х)(У-У) VnXX2 - (XX )2 7nSr2 - (ХУ )2 _ п[ХХУ - (EXXr/n) - (xxxr/n) + (ЕХХУ/п)] VnSX2 - (XX )2 VnXK2 - (SK)2 п[хХУ -(ХХХУ/и)] 7«sx2 -(xx)2V^y2 -(xr)2 _______пХХУ-ХХХУ______ 7«SX2 - (XX )2 >/пХУ2 - (ХУ )2 Метод наименьших квадратов Y d =Y-Y — Y — (Z>o + bX) <f- = [Г-(Z>0 + 6X)]2 X/ = X[r-(Z>0 + Z>X)]2 = Х(Г- b0 - 6X)2 X
592 Приложение А Частные производные § = 2Х(У-6Х-60)(-Х) ^ = 2Х(У-ЬХ-Ь0)(-1) Ob и Dq = 2Х(-ХУ + 6Х2+Ь0Х) = 2Z(-Y+bX+b0) Для достижения минимума приравниваем частные производные к нулю ^ = 0:2Х(-ХУ + ЬХ2+Ь0Х) = 0 Ц- = 0:2Х(-У + ЬХ +Ьо) = О x(-xy+z>x2+z>ox) = o Z(-Y + bX+b0)=О -XXY + b0XX+bXX2 =0 -ХУ +nb0+bZX =0 Нахождение Ьо и b, при которых значение Xd2 будет минимальным z>oxx+z>xx2=xxy nb0+bXX = ХУ nb0XX +nbXX2 =nXXY nb0XX + b (XX )2 = ХХХУ вычитание пЬХХ2 - b (XX )2 = riXXY - ХХХУ b [иХХ2 - (XX )2 ] = пХХУ - ХХХУ , иХХУ-ХХХУ b =-----------j- формула ошибки nXX —(XX) nZ>0+Z>XX =ХУ п60=ХУ-6ХХ t ХУ z>xx - b0 =--------= У -ЬХ формула пересечения с осью У И и
ш о. с:
14.75 0.00 0.00 2.01 12.57 10.00 20.50 14.50 0.00 0.00 2.53 12.57 10.00 20.00 15.13 0.00 1.00 4.29 12.69 30.00 20.00 16.00 1.00 0.00 2.50 12.96 30.00 20.00 14.50 0.00 1.00 3.32 13.47 10.00 20.00 16.25 0.00 0.00 2.95 12.96 30.00 20.00 16.88 0.00 0.00 1.85 14.28 10.00 20.50
594 Приложение Б 17.38 0.00 0.00 1.55 13.59 30.00 20.50 16.00 0.00 1.00 3.33 14.28 10.00 20.50 16.75 1.00 0.00 2.77 14.94 10.00 20.50 17.13 0.00 0.00 2.18 14.94 10.00 20.50 17.50 0.00 1.00 4.21 14.67 30.00 20.50 17.00 1.00 0.00 2.66 15.32 10.00 19.50 16.75 0.00 1.00 3.58 15.32 10.00 19.50 17.20 0.00 1.00 2.96 15.32 10.00 19.50 18.75 0.00 0.00 1.93 15.32 10.00 19.50 17.50 0.00 1.00 2.57 14.68 30.00 19.00 17.50 0.00 0.00 3.18 15.15 10.00 18.00 18.00 0.00 0.00 1.93 15.15 10.00 18.00 15.63 0.00 0.00 2.20 13.39 10.00 17.00 14.75 1.00 0.00 2.21 13.39 10.00 17.00 15.25 0.00 1.00 3.24 13.35 30.00 16.50 15.75 1.00 0.00 2.35 13.35 30.00 16.50 15.25 1.00 0.00 2.11 13.39 10.00 16.50 15.75 1.00 0.00 2.80 13.35 30.00 16.50 15.63 0.00 0.00 1.95 13.39 10.00 16.50 16.13 0.00 0.00 2.80 13.39 10.00 16.50 15.75 1.00 0.00 4.00 13.35 30.00 16.00 16.13 0.00 0.00 2.81 13.50 10.00 15.80 16.25 1.00 0.00 3.38 13.50 30.00 15.80 16.00 0.00 0.00 2.57 13.50 10.00 15.80 15.88 0.00 1.00 3.96 13.50 30.00 15.80 16.50 1.00 0.00 2.67 13.50 30.00 15.80 16.38 1.00 0.00 3.05 13.50 30.00 15.80 12.50 1.00 0.00 2.36 10.60 30.00 15.30 12.25 1.00 0.00 2.54 10.60 30.00 15.30 14.25 1.00 0.00 2.20 12.13 30.00 15.30 15.00 1.00 0.00 3.03 12.13 30.00 15.80 15.25 1.00 0.00 3.24 12.13 30.00 16.50 16.00 0.00 0.00 1.95 12.34 30.00 17.80 14.88 1.00 0.00 2.86 12.34 30.00 17.80 14.75 1.00 0.00 2.64 12.34 30.00 19.00 15.50 1.00 0.00 2.23 11.40 30.00 20.00 13.75 1.00 0.00 2.24 11.40 30.00 19.50 11.30 1.00 0.00 3.24 11.36 30.00 17.50 12.38 1.00 0.00 1.95 11.36 30.00 17.50 12.15 1.00 0.00 2.32 11.36 30.00 14.50 11.75 1.00 0.00 2.45 9.81 30.00 13.00 12.38 1.00 0.00 1.88 9.81 30.00 13.00 12.63 0.00 0.00 1.76 9.81 30.00 13.00
Исходные данные для задания 7.1 595 11.13 1.00 0.00 1.99 9.81 30.00 12.50 11.38 0.00 0.00 2.20 9.78 10.00 12.50 11.88 1.00 0.00 2.14 9.81 30.00 12.00 11.75 1.00 0.00 2.61 9.81 30.00 12.00 13.63 0.00 0.00 1.84 10.24 30.00 11.00 13.88 0.00 0.00 1.62 11.00 30.00 11.00 13.00 1.00 0.00 3.56 11.00 30.00 11.00 12.00 1.00 0.00 2.65 11.10 10.00 11.00 13.13 1.00 0.00 2.65 11.00 30.00 11.00 14.27 0.00 0.00 1.80 11.34 30.00 12.30 14.63 0.00 0.00 1.69 11.34 30.00 12.30 15.25 0.00 0.00 1.88 11.34 30.00 12.20 14.25 1.00 0.00 2.77 11.34 30.00 12.30 13.52 1.00 0.00 2.22 11.75 10.00 13.50 14.63 1.00 0.00 2.42 11.59 30.00 13.50 14.75 0.00 0.00 1.77 11.39 30.00 13.50 14.00 0.00 0.00 2.22 11.75 10.00 13.50 14.50 0.00 0.00 2.99 11.59 30.00 13.50 14.25 0.00 0.00 2.22 11.75 10.00 13.50 14.63 0.00 0.00 1.93 11.75 10.00 14.50 13.30 1.00 0.00 3.35 12.68 10.00 15.50 14.50 0.00 0.00 2.21 12.68 10.00 17.00

/awa\/a\z mf/mf/mf/v X/A\/AWA\ V MF/ MF/ MF/ Таблицы Таблица В. 1. Биномиальное распределение вероятностей Таблица В.2. Площадь областей под кривой стандартного нормального распределения вероятностей Таблица В.З. Критические значения t Таблица В.4. Критические значения х2 Таблица В.5. F-распределение Таблица В.6. Граничные значения для статистик Дарбина-Уотсона
Таблица В.1. Биномиальное распределение вероятностей р п X 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1 0 0,9500 0,9000 0,8500 0,8000 0,7500 0,7000 0,6500 0,6000 0,5500 0,5000 0,4500 0,4000 0,3500 0,3000 0,2500 0,200 0,1500 0,100 0,0500 1 0,0500 0,1000 0,1500 0,2000 0,2500 0,3000 0,3500 0,4000 0,4500 0,5000 0,5500 0,6000 0,6500 0,7000 0,7500 0,8000 0,8500 0,9000 0,9500 2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500 0,2025 0,1600 0,1225 0,0900 0,0625 0,0400 0,0225 0,0100 0,0025 1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000 0,4950 0,4800 0,4550 0,4200 0,3750 0,3200 0,2550 0,1800 0,0950 2 0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500 0,3025 0,3600 0,4225 0,4900 0,5625 0,6400 0,7225 0,8100 0,9025 3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250 0,0911 0,0640 0,0429 0,0270 0,0156 0,0900 0,0034 0,0010 0,0001 1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750 0,3341 0,2880 0,2389 0,1890 0,1406 0,0960 0,0574 0,0270 0,0071 2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750 0,4084 0,4320 0,4436 0,4410 0,4219 0,3840 0,3251 0,2430 0,1354 3 0,0001 0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250 0,1664 0,2160 0,2746 0,3430 0,4219 0,5120 0,6141 0,7290 0,8574 4 0 0,8145 0,6561 0,5220 0,4096 0,3164 0,2401 0,.1785 0,1296 0,0915 0,0625 0,0410 0,0256 0,0150 0,0081 0,0039 0,0016 0,0005 0,0001 0,0000 1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500 0,2005 0,1536 0,1115 0,0756 0,0469 0,0256 0,0115 0,0036 0,0005 2 0,0135 0,0486 0,0975 0,1536 0,2109 0,2646 0,3105 0,3456 0,3675 0,3750 0,3675 0,3456 0,3105 0,2646 0,2109 0,1536 0,0975 0,0486 0,0135 3 0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500 0,2995 0,3456 0,3845 0,4116 0,4219 0,4096 0,3685 0,2916 0,1715 4 0,0000 0,0001 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625 0,0915 0,1296 0,1785 0,2401 0,3164 0,4096 0,5220 0,6561 0,8145 5 0 0,7738 0,5905 0,4437 0,3277 0,2373 0,1681 0,1160 0,0078 0,0503 0,0313 0,0185 0,0102 0,0053 0,0024 0,0010 0,0003 0,0001 0,0000 0,0000 1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563 0,1128 0,0768 0,0488 0,0284 0,0146 0,0064 0,0022 0,0004 0,0000 2 0,0214 0,0729 0,1382 0,2048 0,2637 0,3087 0,3364 0,3456 0,3369 0,3125 0,2757 0,2304 0,1811 0,1323 0,0879 0,0512 0,0244 0,0081 0,0011 3 0,0011 0,0081 0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125 0,3369 0,3456 0,3364 0,3087 0,2637 0,2048 0,1382 0,0729 0,0214 4 0,0000 0,0004 0,0022 0,0064 0,0146 0,0283 0,0488 0,0768 0,1128 0,1562 0,2059 0,2592 0,3124 0,3601 0,3955 0,4096 0,3915 0,3281 0,2036 5 0,0000 0,0000 0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0312 0,0503 0,0778 0,1160 0,1681 0,2373 0,3277 0,4437 0,5905 0,7738 6 0 0,7351 0,5314 0,3771 0,2621 0,1780 0,1176 0,0745 0,0467 0,0277 0,0156 0,0083 0,0041 0,0018 0,0007 0,0002 0,0001 0,0000 0,0000 0,0000 1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938 0,0609 0,0369 0,0205 0,0102 0,0044 0,0015 0,0004 0,0001 0,0000
Продолжение табл. В. 1 р п X 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 2 0,0305 0,0984 0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344 0,1861 0,1382 0,0951 0,0595 0,0330 0,0154 0,0055 0,0012 0,0001 3 0,0021 0,0146 0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125 0,3032 0,2765 0,2355 0,1852 0,1318 0,0819 0,0415 0,0146 0,0021 4 0,0001 0,0012 0,0055 0,0154 0,0330 0,0595 0,0951 0,1382 0,1861 0,2344 0,2780 0,3110 0,3280 0,3241 0,2966 0,2458 0,1762 0,0984 0,0305 5 0,0000 0,0001 0,0004 0,0015 0,0044 0,0102 0,0205 0,0369 0,0609 0,0937 0,1359 0,1866 0,2437 0,3025 0,3560 0,3932 0,3993 0,3543 0,2321 6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156 0,0277 0,0467 0,0754 0,1176 0,1780 0,2621 0,3771 0,5314 0,2351 7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078 0,0037 0,0016 0,0006 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 1 0,2573 0,3720 0,3960 0,3670 0,3115 0,2471 0,1848 0,1306 0,0872 0,0547 0,0320 0,0172 0,0084 0,0036 0,0013 0,0004 0,0001 0,0000 0,0000 2 0,0406 0,1240 0,2097 0,2753 0,3115 0,3177 0,2985 0,2613 0,2140 0,1641 0,1172 0,0774 0,0466 0,0250 0,0115 0,0043 0,0012 0,0002 0,0000 3 0,0036 0,0230 0,0617 0,1147 0,1730 0,2269 0,2679 0,2903 0,2918 0,2734 0,2388 0,1935 0,1442 0,0972 0,0577 0,0287 0,0109 0,0026 0,0002 4 0,0002 0,0026 0,0109 0,0287 0,0577 0,0972 0,1442 0,1935 0,2388 0,2734 0,2918 0,2903 0,2679 0,2269 0,1730 0,1147 0,0617 0,0230 0,0036 5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641 0,2140 0,2613 0,2985 0,3177 0,3115 0,2753 0,2097 0,1240 0,0406 6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547 0,0872 0,1306 0,1848 0,2471 0,3115 0,3670 0,3960 0,3720 0,2573 7 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0037 0,0078 0,0152 0,0280 0,0490 0,0824 0,1335 0,2097 0,3206 0,4783 0,6983 8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039 0,0017 0,0007 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313 0,0164 0,0079 0,0033 0,0012 0,0004 0,0001 0,0000 0,0000 0,0000 2 0,0515 0,1488 0,2376 0,2936 0,3115 0,2965 0,2587 0,2090 0,1569 0,1094 0,0703 0,0413 0,0217 0,0100 0,0038 0,0011 0,0002 0,0000 0,0000 3 0,0054 0,0331 0,0839 0,1468 0,2076 0,2541 0,2786 0,2787 0,2568 0,2188 0,1719 0,1239 0,0808 0,0467 0,0231 0,0092 0,0026 0,0004 0,0000 4 0,0004 0,0046 0,0185 0,0459 0,0865 0,1361 0,1875 0,2322 0,2627 0,2734 0,2627 0,2322 0,1875 0,1361 0,0865 0,0459 0,0185 0,0046 0,0004 5 0,0000 0,0004 0,0026 0,0092 0,0231 0,0467 0,0808 0,1239 0,1719 0,2188 0,2568 0,2787 0,2786 0,2541 0,2076 0,1468 0,0839 0,0331 0,0054 6 0,0000 0,0000 0,0002 0,0011 0,0038 0,0100 0,0217 0,0413 0,0703 0,1094 0,1569 0,2090 0,2587 0,2965 0,3115 0,2936 0,2376 0,1488 0,0515 7 0,0000 0,0000 0,0000 0,0001 0,0004 0,0012 0,0033 0,0079 0,0164 0,0312 0,0548 0,8996 0,1373 0,1977 0,2670 0,3355 0,3847 0,3826 0,2793 8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039 0,0084 0,0168 0,0319 0,0576 0,1001 0,1678 0,2725 0,4305 0,6634 9 0 0,6302 0,3874 0,2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0,0020 0,0008 0,0003 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Продолжение табл. В. 1 р______________________________________________________________________________________________________ п х 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1 0,2986 0,3874 0,3679 0,3020 2 0,0629 0,1722 0,2597 0,3020 3 0,0077 0,0446 0,1069 0,1762 4 0,0006 0,0074 0,0283 0,0661 5 0,0000 0,0008 0,0050 0,0165 6 0,0000 0,0001 0,0006 0,0028 7 0,0000 0,0000 0,0000 0,0003 8 0,0000 0,0000 0,0000 0,0000 9 0,0000 0,0000 0,0000 0,0000 10 О 0,5987 0,3487 0,1969 0,1074 1 0,3151 0,3874 0,3474 0,2684 2 0,0746 0,1937 0,2759 0,3020 3 0,0105 0,0574 0,1298 0,2013 4 0,0010 0,0112 0,0401 0,0881 5 0,0001 0,0015 0,0085 0,0264 6 0,0000 0,0001 0,0012 0,0055 7 0,0000 0,0000 0,0001 0,0008 8 0,0000 0,0000 0,0000 0,0001 9 0,0000 0,0000 0,0000 0,0000 10 0,0000 0,0000 0,0000 0,0000 11 О 0,5688 0,3138 0,1673 0,0859 1 0,3293 0,3835 0,3248 0,2362 2 0,0867 0,2131 0,2866 0,2953 0,2253 0,1556 0,1004 0,0605 0,0339 0,3003 0,2668 0,2162 0,1612 0,1110 0,2336 0.2668 0,2716 0,2508 0,2119 0,1168 0,1715 0,2194 0,2508 0,2600 0,0389 0,0735 0,1181 0,1672 0,2128 0,0087 0,0210 0,0424 0,0743 0,1160 0,0012 0,0039 0,0098 0,0212 0,0407 0,0001 0,0004 0,0013 0,0035 0,0083 0,0000 0,0000 0,0001 0,0003 0,0008 0,0563 0,0282 0,0135 0,0060 0,0025 0,1877 0,1211 0,0725 0,0403 0,0207 0,2816 0,2335 0,1757 0,1209 0,0763 0,2503 0,2668 0,2522 0,2150 0,1665 0,1460 0,2001 0,2377 0,2508 0,2384 0,0584 0,1029 0,1536 0,2007 0,2340 0,0162 0,0368 0,0689 0,1115 0,1596 0,0031 0,0090 0,0212 0,0425 0,0746 0,0004 0,0014 0,0043 0,0106 0,0229 0,0000 0,0001 0,0005 0,0016 0,0042 0,0000 0,0000 0,0000 0,0001 0,0003 0,0422 0,0198 0,0088 0,0036 0,0014 0,1549 0,0932 0,0518 0,0266 0,0125 0,2581 0,1998 0,1395 0,0887 0,0513 0,0176 0,0083 0,0035 0,0013 0,0004 0,0703 0,0407 0,0212 0,0098 0,0039 0,1641 0,1160 0,0743 0,0424 0,0210 0,2461 0,2128 0,1672 0,1181 0,0735 0,2461 0,2600 0,2508 0,2194 0,1715 0,1641 0,2119 0,2508 0,2716 0,2668 0,0703 0,1110 0,1612 0,2162 0,2668 0,0176 0,0339 0,0605 0,1004 0,1556 0,0020 0,0046 0,0101 0,0207 0,0404 0,0010 0,0003 0,0001 0,0000 0,0000 0,0098 0,0042 0,0016 0,0005 0,0001 0,0439 0,0229 0,0106 0,0043 0,0014 0,1172 0,0746 0,0425 0,0212 0,0090 0,2051 0,1596 0,1115 0,0689 0,0368 0,2461 0,2340 0,2007 0,1536 0,1029 0,2051 0,2384 0,2508 0,2377 0,2001 0,1172 0,1665 0,2150 0,2522 0,2668 0,0439 0,0763 0,1209 0,1757 0,2335 0,0098 0,0207 0,0403 0,0725 0,1211 0,0010 0,0025 0,0060 0,0135 0,0282 0,0005 0,0002 0,0000 0,0000 0,0000 0,0054 0,0021 0,0007 0,0002 0,0000 0,0269 0,0126 0,0052 0,0018 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0012 0,0003 0,0000 0,0000 0,0000 0,0087 0,0028 0,0006 0,0001 0,0000 0,0389 0,0165 0,0050 0,0008 0,0000 0,1168 0,0661 0,0283 0,0074 0,0006 0,2336 0,1762 0,1069 0,0446 0,0077 0,3003 0,3020 0,2597 0,1722 0,0629 0,2253 0,3020 0,3679 0,3874 0,2986 0,0751 0,1342 0,2316 0,3874 0,6302 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0004 0,0001 0,0000 0,0000 0,0000 0,0031 0,0008 0,0001 0,0000 0,0000 0,0162 0,0055 0,0012 0,0001 0,0000 0,0584 0,0264 0,0085 0,0015 0,0001 0,1460 0,0881 0,0401 0,0112 0,0010 0,2503 0,2013 0,1298 0,0574 0,0105 0,2816 0,3020 0,2759 0,1937 0,0746 0,1877 0,2684 0,3474 0,3874 0,3151 0,0563 0,1074 0,1969 0,3487 0,5987 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000
Окончание табл. В. 1 р Л X 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 060 0,65 0,70 0,75 080 085 0 90 0,95 3 0,0137 0,0710 0,1517 0,2215 0,2581 0,2568 0,2254 0,1774 0,1259 0,0806 0,0462 0,0234 0,0102 0,0037 0,0011 0,0002 0,0000 0,0000 0,0000 4 0,0014 0,0158 0,0536 0,1107 0,1721 0,2201 0,2428 0,2365 0,2060 0,1611 0,1128 0,0701 0,0379 0,0173 0,0064 0,0017 0,0003 0,0000 0,0000 5 0,0001 0,0025 0,0132 0,0388 0,0803 0,1321 0,1830 0,2207 0,2360 0,2256 0,1931 0,1471 0,0985 0,0566 0,0268 0,0097 0,0023 0,0003 0,0000 6 0,0000 0,0003 0,0023 0,0097 0,0268 0,0566 0,0985 0,1471 0,1931 0,2256 0,2360 0,2270 0,1830 0,1321 0,0803 0,0388 0,0132 0,0025 0,0001 7 0,0000 0,0000 0,0003 0,0017 0,0064 0,0173 0,0379 0,0701 0,1128 0,1611 0,2060 0,2365 0,2428 0,2201 0,1721 0,1107 0,0536 0,0158 0,0014 8 0,0000 0,0000 0,0000 0,0002 0,0011 0,0037 0,0102 0,0234 0,0462 0,0806 0,1259 0,1774 0,2254 0,2568 0,2581 0,2215 0,1517 0,0710 0,0137 9 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018 0,0052 0,0126 0,0269 0,0513 0,0887 0,1395 0,1998 0,2581 0,2953 0,2866 0,2131 0,0867 10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0021 0,0054 0,0125 0,0266 0,0518 0,0932 0,1549 0,2362 0,3248 0,3835 0,3293 11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005 0,0014 0,0036 0,0088 0,0198 0,0422 0,0859 0,1673 0,3138 0,5688 12 0 0,5404 0,2824 0,1422 0,0687 0,0317 0,0138 0,0057 0,0022 0,0008 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1 0,3413 0,3766 0,3012 0,2062 0,1267 0,0712 0,0368 0,0174 0,0075 0,0029 0,0010 0,0003 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 2 0,0988 0,2301 0,2924 0,2835 0,2323 0,1678 0,1088 0,0639 0,0339 0,0161 0,0068 0,0025 0,0008 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 3 0,0173 0,0852 0,1720 0,2362 0,2581 0,2397 0,1954 0,1419 0,0923 0,0537 0,0277 0,0125 0,0048 0,0015 0,0004 0,0001 0,0000 0,0000 0,0000 4 0,0021 0,0213 0,0683 0,1329 0,1936 0,2311 0,2367 0,2128 0,1700 0,1208 0,0762 0,0420 0,0199 0,0078 0,0024 0,0005 0,0001 0,0000 0,0000 5 0,0002 0,0038 0,0193 0,0532 0,1032 0,1585 0,2039 0,2270 0,2225 0,1934 0,1489 0,1009 0,0591 0,0291 0,0115 0,0033 0,0006 0,0000 0,0000 6 0,0000 0,0005 0,0040 0,0155 0,0401 0,0792 0,1281 0,1766 0,2124 0,2256 0,2124 0,1766 0,1281 0,0792 0,0401 0,0155 0,0040 0,0005 0,0000 7 0,0000 0,0000 0,0006 0,0033 0,0115 0,0291 0,0591 0,1009 0,1489 0,1934 0,2225 0,2270 0,2039 0,1585 0,1032 0,0532 0,0193 0,0038 0,0002 8 0,0000 0,0000 0,0001 0,0005 0,0024 0,0078 0,0199 0,0420 0,0762 0,1208 0,1700 0,2128 0,2367 0,2311 0,1936 0,1329 0,0683 0,0213 0,0021 9 0,0000 0,0000 0,0000 0,0001 0,0004 0,0015 0,0048 0,0125 0,0277 0,0537 0,0923 0,1419 0,1954 0,2397 0,2581 0,2362 0,1720 0,0852 0,0173 10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0025 0,0068 0,0161 0,0339 0,0639 0,1088 0,1678 0,2323 0,2835 0,2924 0,2301 0,0988 11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0029 0,0075 0,0174 0,0368 0,0712 0,1267 0,2062 0,3012 0,3766 0,3413 12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0008 0,0022 0,0057 0,0138 0,0317 0,0687 0,1422 0,2824 0,5404 Источник: Stevenson W.J. Business Statistics: Concepts and Applications. Copyright© 1978 by William J. Stevenson, table A, c. 464—466.
602 ПРИЛОЖЕНИЕ В Таблица В.2. Площадь областей под кривой стандартного нормального распределения вероятностей Для z = 1,93 площадь выделенной области составляет 0,4732 от всей площади под кривой, принятой за 1 Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2518 0,2549 0,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,49865 0,4987 0,4987 0,4988 0,4989 0,4989 0,4989 0,4989 0,4990 0,4990 4,0 0,4999683
Таблицы 603 Таблица В.З. Критические значения t df 4,100 4,050 4,025 4,010 4,005 1 3,078 6,314 12,706 31,821 63,657 2 1,886 2,920 4,303 6,965 9,925 3 1,638 2,353 3,182 4,541 5,841 4 1,533 2,132 2,776 3,747 4,604 5 1,476 2,015 2,571 3,365 4,032 6 1,440 1,943 2,447 3,143 3,707 7 1,415 1,895 2,365 2,998 3,499 8 1,397 1,860 2,306 3,896 3,355 9 1,383 1,833 2,262 2,821 3,250 10 1,372 1,812 2,228 2,764 3,169 11 1,363 1,796 2,201 2,718 3,106 12 1,356 1,782 2,179 2,681 3,055 13 1,350 1,771 2,160 2,650 3,012 14 1,345 1,761 2,145 2,624 2,977 15 1,341 1,753 2,131 2,602 2,947 16 1,337 1,746 2,120 2,583 2,921 17 1,333 1,740 2,110 2,567 2,898 18 1,330 1,734 2,101 2,552 2,878 19 1,328 1,729 2,093 2,529 2,861 20 1,325 1,725 2,086 2,528 2,845 21 1,323 1,721 2,080 2,518 2,831 22 1,321 1,717 2,074 2,508 2,819 23 1,319 1,714 2,069 2,500 2,807 24 1,318 1,711 2,064 2,492 2,797 25 1,316 1,708 2,060 2,485 2,787 26 1,315 1,706 2,056 2,479 2,779 27 1,314 1,703 2,052 2,473 2,771 28 1,313 1,701 2,048 2,467 2,763 29 1,311 1,699 2,045 2,462 2,756 oo 1,282 1,645 1,960 2,326 2,576 Источник: Merrington М. Table of Percentage Points of the t-Distribution, Biometrika, vol. 32, 1941, c. 300.
604 ПРИЛОЖЕНИЕ В Таблица В.4. Критические значения у; 0 Ха df X 0.995 X 0.990 X 0.975 X 0.950 2 X 0.900 1 0,0000393 0,0001571 0,0009821 0,0039321 0,0157908 2 0,0100251 0,0201007 0,0506356 0,102587 0,210720 3 0,0717212 0,114832 0,215795 0,351846 0,584375 4 0,206990 0,297110 0,484419 0,710721 1,063623 5 0,411740 0,554300 0,831211 1,145476 1,61031 6 0,675727 0,872085 1,237347 1,63539 2,20413 7 0,989265 1,239043 1,68987 2,16735 2,83311 8 1,344419 1,646482 2,17973 2,73264 3,48954 9 1,734926 2,087912 2,70039 3,32511 4,168216 10 2,15585 2,55821 3,24697 3,94030 4,86518 И 2,60321 3,05347 3,81575 4,57481 5,57779 12 3,07382 3,57056 4,40379 5,22603 6,30380 13 3,56503 4,10691 5,00874 5,89186 7,04150 14 4,07468 4,66043 5,62872 6,57063 7,78953 15 4,60094 5,22935 6,26214 7,26094 8,54675 16 5,14224 5,81221 6,90766 7,96164 9,31223 17 5,69724 6,40776 7,56418 8,67176 10,0852 18 6,26481 7,01491 8,23075 9,39046 10,8649 19 6,84398 7,63273 8,90655 10,1170 11,6509 20 7,43386 8,26040 9,59083 10,8508 12,4426 21 8,03366 8,89720 10,28293 11,5913 13,2396 22 8,64272 9,54249 10,9823 12,3380 14,0415 23 9,26042 10,19567 11,6885 13,0905 14,8479 24 9,88623 10,8564 12,4011 13,8484 15,6587 25 10,5197 11,5240 13,1197 14,6114 16,4734 26 11,1603 12,1981 13,8439 15,3791 17,2919 27 11,8076 12,8786 14,5733 16,1513 18,1138 28 12,4613 13,5648 15,3079 16,9279 18,9302 29 13,1211 14,2565 16,0471 17,7083 19,7677 30 13,7867 14,9535 16,7908 18,4926 20,5992 40 20,7065 22,1643 24,4331 26,5093 29,0505 50 27,9907 29,7067 32,3574 34,7642 37,6886 60 35,5347 37,4848 40,4817 43,1879 46,4589 70 43,2752 45,4418 48,7576 51,7393 55,3290 80 51,1720 53,5400 57,1532 60,3915 64,2778 90 59,1963 61,7541 65,6466 69,1260 73,2912 100 67,3276 70,0648 74,2219 77,9295 82,3581
Таблицы 605 Окончание табл. В. 4. df 2 X 0.100 2 X 0.050 X 0.025 2 X 0.010 2 K. 0.005 1 2,70554 3,84146 5,02389 6,63490 7,87944 2 4,60517 5,99147 7,37776 9,21034 10,5966 3 6,25139 7,81473 9,34840 11,3449 12,8381 4 7,77944 9,48773 11,1433 13,2767 14,8602 5 9,23635 11,0705 12,8325 15,0863 16,7496 6 10,6446 12,5916 14,4494 16,8119 18,5476 7 12,0170 14,0671 16,0128 18,4753 20,2777 8 13,3616 15,5073 17,5346 20,0902 21,9550 9 14,6837 16,9190 19,0228 21,6660 23,5893 10 15,9871 18,3070 20,4831 23,2093 25,1882 11 17,2750 19,6751 21,9200 24,7250 26,7569 12 18,5494 21,0261 23,3367 26,2170 28,2995 13 19,8119 22,3621 24,7356 27,6883 29,8194 14 21,0642 23,6848 26,1190 29,1413 31,3193 15 22,3072 24,9958 27,4884 30,5779 32,8013 16 23,5418 26,2962 28,8454 31,9999 34,2672 17 24,7690 27,5871 30,1910 33,4087 35,7185 18 25,9894 28,8693 31,5264 34,8053 37,1564 19 27,2036 30,1435 32,8523 36,1908 38,5822 20 28,4120 31,4104 34,1696 37,5662 39,9968 21 29,6151 32,6705 35,4789 38,9321 41,4010 22 30,8133 33,9244 36,7807 40,2894 42,7956 23 32,0069 35,1725 38,0757 41,6384 44,1813 24 33,1963 36,4151 39,3641 42,9798 45,5585 25 34,3816 37,6525 40,6465 44,3141 46,9278 26 35,5631 38,8852 41,9232 45,6417 48,2899 27 36,7412 40,1133 43,1944 46,9630 49,6449 28 37,9159 41,3372 44,4607 48,2782 50,9933 29 39,0875 42,5569 45,7222 49,5879 52,3356 30 40,2560 43,7729 46,9792 50,8922 53,6720 40 51,8050 55,7585 59,3417 63,6907 66,7659 50 63,1671 67,5048 71,4202 76,1539 79,4900 60 74,3970 79,0819 83,2976 88,3794 91,9517 70 85,5271 90,5312 95,0231 100,425 104,215 80 96,5782 101,879 106,629 112,329 116,321 90 107,565 113,145 118,136 124,116 128,299 100 118,498 124,342 129,561 135,807 140,169 Hi сточник: Thompson С.М. Tables of the Percentage Points of the x2-Distribution, Biometrica, vol.32, 1941, с. 188-189.
606 ПРИЛОЖЕНИЕ В Таблица В.5. /-распределение А Например, F-значение для 8] = 3 и 82= 10, соответствующее области площадью 0,01 в правой части графика, будет равно 6,55. F-значение, соответствующее области площадью 0,05 в правой части графика, приведено обычным шрифтом. F-значение, соответствующее области площадью 0,01 в правой части графика, приведено полу- жирным шрифтом. 8г, Знаменатель: степени свободы Su Числитель: степени свободы 1 2 3 4 5 6 7 8 9 10 1 161 200 216 225 230 234 237 239 241 242 4 052 4 999 5 403 5 625 5 764 5 859 5 928 5 981 6 022 6 056 2 18,51 19,00 19,16 19,25 19,30 19,33 19,36 19,37 19,38 19,39 98,49 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40 3 10,13 9,55 9,28 9,12 9,01 8,94 8,88 8,84 8,81 8,78 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,54 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,78 4,74 16,26 13,27 12,06 11,39 10,97 10,67 10,45 10,29 10,15 10,05 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 13,74 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,63 12,25 9,55 8,45 7,85 7,46 7,19 7,00 6,84 6,71 6,62 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,34 11,26 8,65 7,59 7,01 6,63 6,37 6,19 6,03 5,91 5,82 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,13 10,56 8,02 6,99 6,42 6,06 5,80 5,62 5,47 5,35 5,26 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,97 10,04 7,56 6,55 5,99 5,64 5,39 5,21 5,06 4.95 4,85 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,86 9,65 7,20 6,22 5,67 5,32 5,07 4,88 4,74 4,63 4,54
Таблицы 607 Окончание табл. В. 5 4, Знаменатель: степени свободы 8ц Числитель: степени свободы 1 2 3 4 5 6 7 8 9 10 12 4,75 3,88 3,49 3,26 з,и 3,00 2,92 2,85 2,80 2,76 9,33 6,93 5,95 5,41 5,06 4,82 4,65 4,50 4,39 4,30 13 4,67 3,80 3,41 3,18 3,02 2,92 2,84 2,77 2,72 2,67 9,07 6,70 5,74 5,20 4,86 4,62 4,44 4,30 4,19 4,10 14 4,60 3,74 3,34 3,11 2,96 2,85 2,77 2,70 2,65 2,60 8,86 6,51 5,56 5,03 4,69 4,46 4,28 4,14 4,03 3,94 15 4,54 3,68 3,29 3,06 2,90 2,79 2,70 2,64 2,59 2,55 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 16 4,49 3,36 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 17 4,45 3,59 3,20 2,96 2,81 2,70 2,62 2,55 2,50 2,45 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 8,28 6,01 5,09 4,58 4,25 4,01 3,85 3,71 3,60 3,51 19 4,38 3,52 3,13 2,90 2,74 2,63 2,55 2,48 2,43 2,38 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 20 4,35 3,49 3,10 2,87 2,71 2,60 2,52 2,45 2,40 2,35 8,10 5,85 4,94 4,43 4,10 3,87 3,71 3,56 3,45 3,37 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 8,02 5,78 4,87 4,37 4,04 3,81 3,65 3,51 3,40 3,31 22 4,30 3,44 3,05 2,82 2,66 2,55 2,47 2,40 2,35 2,30 7,94 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 23 4,28 3,42 3,03 2,80 2,64 2,53 2,45 2,38 2,32 2,28 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 24 4,26 3,40 3,01 2,78 2,62 2,51 2,43 2,36 2,30 2,26 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,25 3,17 25 4,24 3,38 2,99 2,76 2,60 2,49 2,41 2,34 2,28 2,24 7,77 5,57 4,68 4,18 3,86 3,63 3,46 3,32 3,21 3,13 Источник: Snedecor G.W., Cochran W.C. Statistical Methods, 7th ed., Iowa State University Press, 1980, Ames, Iowa.
608 ПРИЛОЖЕНИЕ В Таблица В.6. Граничные значения для статистик Дарбина-Уотсона п Уровень значимости a=0,05 к = 1 к = 2 к = 3 k = 4 k = 5 dL du dL du dL du dL du dL du 15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2.21 16 1,10 1,37 0,98 1,54 0,86 1,73 0,74 1,93 0,62 2.15 17 1,13 1,38 1,02 1,54 0,90 1,71 0,78 1,90 0,67 2.10 18 1,16 1,39 1,05 1,53 0,93 1,69 0,82 1,87 0,71 2.06 19 1,18 1,40 1,08 1,53 0,97 1,68 0,86 1,85 0,75 2.02 20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99 21 1,22 1,42 1,13 1,54 1,03 1,67 0,93 1,81 0,83 1,96 22 1,24 1,43 1,15 1,54 1,05 1,66 0,96 1,80 0,86 1,94 23 1,26 1,44 1,17 1,54 1,08 1,66 0,99 1,79 0,90 1,92 24 1,27 1,45 1,19 1,55 1,10 1,66 1,01 1,78 0,93 1,90 25 1,29 1,45 1,21 1,55 1,12 1,66 1,04 1,77 0,95 1,89 26 1,30 1,46 1,22 1,55 1,14 1,65 1,06 1,76 0,98 1,88 27 1,32 1,47 1,24 1,56 1,16 1,65 1,08 1,76 1,01 1,86 28 1,33 1,48 1,26 1,56 1,18 1,65 1,10 1,75 1,03 1,85 29 1,34 1,48 1,27 1,56 1,20 1,65 1,12 1,74 1,05 1,84 30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83 31 1,36 1,50 1,30 1,57 1,23 1,65 1,16 1,74 1,09 1,83 32 1,37 1,50 1,31 1,57 1,24 1,65 1,18 1,73 1,11 1,82 33 1,38 1,51 1,32 1,58 1,26 1,65 1,19 1,73 1,13 1,81 34 1,39 1,51 1,33 1,58 1,27 1,65 1,21 1,73 1,15 1,81 35 1,40 1,52 1,34 1,58 1,28 1,65 1,22 1,73 1,16 1,80 36 1,41 1,52 1,35 1,59 1,29 1,65 1,24 1,73 1,18 1,80 37 1,42 1,53 1,36 1,59 1,31 1,66 1,25 1,72 1,19 1,80 38 1,43 1,54 1,37 1,59 1,32 1,66 1,26 1,72 1,21 1,79 39 1,43 1,54 1,38 1,60 1,33 1,66 1,27 1,72 1,22 1,79 40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79 45 1,48 1,57 1,43 1,62 1,38 1,67 1,34 1,72 1,29 1,78 50 1,50 1,59 1,46 1,63 1,42 1,67 1,38 1,72 1,34 1,77 55 1,53 1,60 1,49 1,64 1,45 1,68 1,41 1,72 1,38 1,77 60 1,55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77 65 1,57 1,63 1,54 1,66 1,50 1,70 1,47 1,73 1,44 1,77 70 1,58 1,64 1,55 1,67 1,52 1,70 1,49 1,74 1,46 1,77 75 1,60 1,65 1,57 1,68 1,54 1,71 1,51 1,74 1,49 1,77 80 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77 85 1,62 1,67 1,60 1,70 1,57 1,72 1,55 1,75 1,52 1,77 90 1,63 1,68 1,61 1,70 1,59 1,73 1,57 1,75 1,54 1,78 95 1,64 1,69 1,62 1,71 1,60 1,73 1,58 1,75 1,56 1,78 100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78 к — количество независимых переменных
Таблицы 609 Окончание табл. В. 6 П Уровень значимости a=0,01 k = l k = 2 k = 3 k = 4 k = 5 dL du dL du dL du di. du dL du 15 0,81 1,07 0,70 1,25 0,59 1,46 0,49 1,70 0,39 1,96 16 0,84 1,09 0,74 1,25 0,63 1,44 0,53 1,66 0,44 1,90 17 0,87 1,10 0,77 1,25 0,67 1,43 0,57 1,63 0,48 1,85 18 0,90 1,12 0,80 1,26 0,71 1,42 0,61 1,60 0,52 1,80 19 0,93 1,13 0,83 1,26 0,74 1,41 0,65 1,58 0,56 1,77 20 0,95 1,15 0,86 1,27 0,77 1,41 0,68 1,57 0,60 1,74 21 0,97 1,16 0,89 1,27 0,80 1,41 0,72 1,55 0,63 1,71 22 1,00 1,17 0,91 1,28 0,83 1,40 0,75 1,54 0,66 1,69 23 1,02 1,19 0,94 1,29 0,86 1,40 0,77 1,53 0,70 1,67 24 1,04 1,20 0,96 1,30 0,88 1,41 0,80 1,53 0,72 1,66 25 1,05 1,21 0,98 1,30 0,90 1,41 0,83 1,52 0,75 1,65 26 1,07 1,22 1,00 1,31 0,93 1,41 0,85 1,52 0,78 1,64 27 1,09 1,23 1,02 1,32 0,95 1,41 0,88 1,51 0,81 1,63 28 1,10 1,24 1,04 1,32 0,97 1,41 0,90 1,51 0,83 1,62 29 1,12 1,25 1,05 1,33 0,99 1,42 0,92 1,51 0,85 1,61 30 1,13 1,26 1,07 1,34 1,01 1,42 0,94 1,51 0,88 1,61 31 1,15 1,27 1,08 1,34 1,02 1,42 0,96 1,51 0,90 1,60 32 1,16 1,28 1,10 1,35 1,04 1,43 0,98 1,51 0,92 1,60 33 1,17 1,29 1,11 1,36 1,05 1,43 1,00 1,51 0,94 1,59 34 1,18 1,30 1,13 1,36 1,07 1,43 1,01 1,51 0,95 1,59 35 1,19 1,31 1,14 1,37 1,08 1,44 1,03 1,51 0,97 1,59 36 1,21 1,32 1,15 1,38 1,10 1,44 1,04 1,51 0,99 1,59 37 1,22 1,32 1,16 1,38 1,11 1,45 1,06 1,51 1,00 1,59 38 1,23 1,33 1,18 1,39 1,12 1,45 1,07 1,52 1,02 1,58 39 1,24 1,34 1,19 1,39 1,14 1,45 1,09 1,52 1,03 1,58 40 1,25 1,34 1,20 1,40 1,15 1,46 1,10 1,52 1,05 1,58 45 1,29 1,38 1,24 1,42 1,20 1,48 1,16 1,53 1,H 1,58 50 1,32 1,40 1,28 1,45 1,24 1,49 1,20 1,54 1,16 1,59 55 1,36 1,43 1,32 1,47 1,28 1,51 1,25 1,55 1,21 1,59 60 1,38 1,45 1,35 1,48 1,32 1,52 1,28 1,56 1,25 1,60 65 1,41 1,47 1,38 1,50 . 1,35 1,53 1,31 1,57 1,28 1,61 70 1,43 1,49 1,40 1,52 1,37 1,55 1,34 1,58 1,31 1,61 75 1,45 1,50 1,42 1,53 1,39 1,56 1,37 1,59 1,34 1,62 80 1,47 1,52 1,44 1,54 1,42 1,57 1,39 1,60 1,36 1,62 85 1,48 1,53 1,46 1,55 1,43 1,58 1,41 1,60 1,39 1,63 90 1,50 1,54 1,47 1,56 1,45 1,59 1,43 1,61 1,41 1,64 95 1,51 1,55 1,49 1,57 1,47 1,60 1,45 1,62 1,42 1,64 100 1,52 1,56 1,50 1,58 1,48 1,60 1,46 1,63 1,44 1,65 Источник: Durbin J., Watson G.S. Testing for Serial Correlation in Least Squares Regression—II, Biometrika, vol. 38, 1951, c. 159-178.

w w w v \ H k\ /А\ /A\ '/WWW Наборы и базы данных В этом приложении представлены 20 различных наборов данных, представляющих со- бой временные ряды, а также три базы данных, предназначенные для комплексного изуче- ния с помощью метода множественной регрессии. Первая база данных включает сведения о семи показателях, описывающих 25 туристических лагерей и баз отдыха в округе Спокан. Вторая база данных содержит информацию о девяти финансовых показателях д ля 256 кор- пораций США за 2000 г.1 Третья база данных содержит сведения о тринадцати показателях, связанных с заработной платой руководящих работников 50 компаний в США за 2000 г. Отдельные наборы данных Таблица Г.1. Некоторые статистические показатели для США Год Численность населения (тыс. чел.) Покупательная способность доллара в розничных ценах Федеральный минимум тарифной ставки в текущих ценах 1960 180 671 3,373 1,00 1961 183 691 3,340 U5 1962 186 538 3,304 1,15 1963 189 242 3,265 1,25 1964 191 889 3,220 1,25 1965 194 303 3,166 1,25 1966 196 560 3,080 1,25 1967 198 712 2,993 1,40 1968 200 706 2,873 1,60 1969 202 677 2,726 1,60 ' Авторы выражают глубокую признательность д-ру Линн Стефенс (Lynn Stephens) из Восточного уни- верситета шт. Вашингтон, предоставившей эти данные.
612 ПРИЛОЖЕНИЕ Г Окончание табл. Г. 1 Год Численность населения (тыс. чел.) Покупательная способность доллара в розничных ценах Федеральный минимум тарифной ставки в текущих ценах 1970 205 052 2,574 1,60 1971 207 661 2,466 1,60 1972 209 896 2,391 1,60 1973 211 909 2,251 1,60 1974 213 854 2,029 2,00 1975 215 973 1,859 2,10 1976 218 035 1,757 2,30 1977 220 239 1,649 2,30 1978 222 585 1,532 2,65 1979 225 055 1,380 2,90 1980 227 726 1,215 3,10 1981 229 966 1,098 3,35 1982 232 188 1,035 3,35 1983 234 307 1,003 3,35 1984 236 348 0,961 3,35 1985 238 466 0,928 3,35 1986 240 651 0,913 3,35 1987 242 804 0,880 3,35 1988 245 021 0,846 3,35 1989 247 342 0,807 3,35 1990 249 948 0,766 3,80 1991 252 639 0,734 4,25 1992 255 374 0,713 4,25 1993 258 083 0,692 4,25 1994 260 599 0,675 4,25 1995 263 044 0,656 4,25 1996 265 463 0,638 4,75 1997 268 008 0,623 5,15 1998 270 561 0,600
Наборы и базы данных 613 Таблица Г.2. Некоторые статистические показатели для США (продолжение) Год Доходы корпорации Eastman Kodak Депозиты валютного рынка Количество абонентов кабельного телевидения 1975 5,0 1976 5,4 1977 6,0 1978 7,0 1979 8,0 1980 9,7 400 1981 10,3 344 1982 10,8 400 21 000 1983 10,2 685 25 000 1984 10,6 705 30 000 1985 10,6 815 32 000 1986 11,5 941 37 500 1987 13,3 937 41 100 1988 17,0 926 44 000 1989 18,4 894 47 500 1990 18,9 924 50 000 1991 19,4 1045 51 000 1992 20,2 1187 53 000 1993 16,3 1219 55 000 1994 13,7 1150 57 000 1995 15,3 1135 58 000 1996 16,2 1272 60 280 1997 1397 64 050 1998 64 170 Таблица Г.З. Производство холодильников в США (тыс. шт.) Год 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 Январь 100 109 ПО 90 84 91 89 98 95 90 78 Февраль 97 100 73 77 82 89 88 79 75 91 121 Март 115 94 88 80 105 82 85 87 100 128 130 Апрель 111 97 90 99 97 108 89 90 114 120 119 Май 113 118 112 106 106 112 106 103 109 132 112
614 ПРИЛОЖЕНИЕ Г Окончание табл. Г.З Год 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 Июнь 136 134 136 140 136 126 ПО 126 142 176 158 Июль 148 153 149 159 137 156 125 155 154 205 167 Август 134 133 131 122 138 152 139 136 138 166 156 Сентябрь 117 106 108 НО 109 128 121 123 132 135 137 Октябрь 92 87 100 94 87 ПО 93 101 118 160 Ноябрь 78 80 66 72 93 99 84 97 106 138 Декабрь 82 70 75 72 86 94 90 100 125 136 Таблица Г.4. Производство пива (млн баррелей) Год 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 Январь 14,77 14,15 15,50 15,71 15,60 15,80 15,88 16,46 16,27 15,65 15,36 Февраль 14,53 14,75 14,55 15,21 15,63 15,85 15,29 15,74 15,17 16,10 15,78 Март 16,78 17,72 16,76 16,51 17,66 17,12 17,57 17,97 16,08 18,06 17,41 Апрель 18,42 16,81 17,97 17,99 17,42 17,73 17,30 17,48 17,23 18,00 17,44 Май 18,17 18,74 18,86 18,67 17,44 18,31 18,41 18,10 18,90 18,89 18,87 Июнь 18,47 18,47 18,23 18,65 18,58 18,58 18,82 18,58 19,16 18,95 18,96 Июль 18,50 19,12 18,59 18,33 18,09 18,17 18,28 18,25 19,88 18,34 18,51 Август 18,27 17,59 17,71 17,06 16,81 17,72 18,88 18,96 18,63 17,55 Сентябрь 15,71 14,58 14,54 15,26 15,82 15,78 15,28 16,08 16,11 15,66 Октябрь 15,41 15,14 14,36 15,62 15,50 15,61 15,82 16,62 16,65 16,15 Ноябрь 13,62 13,06 13,12 13,53 13,81 14,02 14,78 15,44 14,47 14,43 Декабрь 12,46 12,89 13,13 13,97 13,69 13,22 13,45 13,97 13,64 14,32 Таблица Г.5. Количество новых федеральных распоряжений в США (тыс.) Год 1994 1995 1996 1997 1998 1999 2000 Январь 154 200 223 346 518 613 628 Февраль 96 118 104 261 404 392 308 Март 73 90 107 224 300 273 324 Апрель 49 79 85 141 210 322 248 Май 36 78 75 148 196 189 272 Июнь 59 91 99 145 186 257 634 Июль 95 167 135 223 247 324 299
Наборы и базы данн ых 615 Окончание табл. Г. 5 Год 1994 1995 1996 1997 1998 1999 2000 Август 169 169 121 272 343 404 424 Сентябрь 210 289 335 445 464 677 548 Октябрь 278 347 460 560 680 858 372 Ноябрь 298 375 488 612 711 895 876 Декабрь 245 203 326 467 610 664 676 Таблица Г.6. Данные о ежедневных перевозках пассажиров на маршруте Pike Street в г. Сиэтле шт. Вашингтон за 146 дней 350 339 351 364 369 331 331 340 346 341 357 398 381 367 383 375 353 361 375 371 373 366 382 429 406 403 429 425 427 409 402 409 419 404 429 463 428 449 444 467 474 463 432 453 462 456 474 514 489 475 492 525 527 533 527 522 526 513 564 599 572 587 599 601 611 620 579 582 592 581 630 663 638 631 645 682 601 595 521 521 516 496 538 575 537 534 542 538 547 540 526 548 555 545 594 643 625 616 640 625 637 634 621 641 654 649 662 699 672 704 700 711 715 718 652 664 695 704 733 772 716 712 732 755 761 748 748 750 744 731 782 810 777 816 840 868 872 811 810 762 634 626 649 697 657 549 Данные размещены по строкам таблицы, слева направо, сверху вниз. Таблица Г.7. Сведения о ежемесячном количестве клиентов мотеля Nine Год 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Январь 563 635 647 676 748 795 843 778 895 875 Февраль 599 639 658 748 773 788 847 856 856 993 Март 669 712 713 811 814 890 942 939 893 977 Апрель 598 622 688 729 767 797 804 813 875 969 Май 580 621 724 701 729 751 840 783 835 872 Июнь 668 676 707 790 749 821 872 828 935 1006 Июль 499 501 629 594 681 692 656 657 833 832 Август 215 220 238 231 241 291 370 310 300 346 Сентябрь 556 561 613 617 680 727 742 780 791 850 Октябрь 587 603 730 691 708 868 847 860 900 914 Ноябрь 546 626 735 701 694 812 732 780 782 869 Декабрь 571 606 652 706 772 800 899 808 880 994
616 ПРИЛОЖЕНИЕ Г Таблица Г.8. Производство древесной пульпы в США (тыс. тонн) Год 1992 1993 1994 1995 1996 Январь 5276 5466 5480 5579 5681 Февраль 4919 4821 4988 5033 5254 Март 5227 5307 5272 5319 5525 Апрель 5003 5193 5254 5285 5489 Май 5004 5087 5156 5188 5320 Июнь 4949 5102 5175 5197 5417 Июль 5219 5399 5490 5604 5711 Август 5265 5301 5366 5357 5419 Сентябрь 5007 5063 5200 5133 5318 Октябрь 5079 5295 5410 5483 5409 Ноябрь 4974 5021 5123 5186 5310 Декабрь 5282 4991 5428 5472 5458 Таблица Г.9. Некоторые статистические показатели для США Год Индекс стоимостивысшего образования 1983 = 100% Количество ферм (тыс.) 1970 39,5 1971 42,1 1972 44,3 1973 46,7 1974 49,9 1975 54,3 2521 1976 57,9 2497 1977 61,7 2456 1978 65,8 2436 1979 70,6 2437 1980 77,5 2440 1981 85,9 2440 1982 94,0 2407 1983 100,0 2379 1984 104,7 2334 1985 110,5 2293 1986 115,6 2250 1987 120,3 2213
Наборы и базы данных 617 Окончание табл. Г. 9 Год Индекс стоимостивысшего образования 1983= 100% Количество ферм (тыс.) 1988 125,8 2197 1989 133,1 2171 1990 140,8 2140 1991 148,3 2105 1992 153,1 2094 1993 158,2 2040 Таблица Г. 10. Некоторые статистические показатели для США (продолжение) Год Средняя стоимость добычи природного газа (центы за млн куб. футов) Среднегодовая цена обыкновенных акций компании Moody’s Electric Utility 1972 18,6 80,20 1973 21,6 71,21 1974 30,4 48,26 1975 44,5 51,25 1976 58,0 60,10 1977 79,0 67,55 1978 90,5 63,54 1979 117,8 60,28 1980 158,8 54,80 1981 198,2 55,41 1982 245,7 63,56 1983 259,3 74,04 1984 265,5 71,16 1985 248,0 87,24 1986 194,2 111,11 1987 166,5 105,90 1988 169,0 97,99 1989 169,0 110,45 1990 172,0 112,61 1991 164,0 126,97 1992 174,0 1993 203,0
618 ПРИЛОЖЕНИЕ Г Таблица Г.11. Перевозки грузовых вагонов в компании Forest Products (тыс. шт.) Год 1992 1993 1994 1995 1996 Январь 17,6 16,9 16,1 15,6 13,2 Февраль 19,0 18,5 15,8 16,7 14,5 Март 19,1 18,6 16,0 17,2 14,7 Апрель 18,7 17,9 16,6 16,7 14,1 Май 19,1 18,0 16,2 16,3 15,2 Июнь 19,9 17,4 15,8 16,4 15,3 Июль 18,3 16,4 16,6 13,9 14,9 Август 19,1 16,5 15,8 15,9 14,0 Сентябрь 18,6 16,7 15,6 15,5 15,3 Октябрь 18,8 17,0 15,6 15,2 14,4 Ноябрь 16,7 12,4 14,4 13,9 14,2 Декабрь 17,3 16,9 14,3 14,0 15,0 Таблица Г. 12. Отношение цена/доход в промышленности США Год Квартал Цена/доход 1986 1 17,56 2 18,09 3 16,47 4 18,73 1987 1 22,16 2 21,80 3 20,82 4 14,09 1988 1 13,61 2 13,29 3 12,50 4 12,35 1989 1 12,46 2 13,30 3 14,73 4 15,40 1990 1 15,80 2 17,00
Наборы и базы данных 619 Окончание табл. Г. 12 Год Квартал Цена/доход 3 14,80 4 15,90 1991 1 18,80 2 20,40 3 23,70 4 29,20 1992 1 28,40 2 26,80 3 26,00 4 26,00 Таблица Г. 13. Средняя базовая ставка банковского процента в США за 1945-1995 гг. Дата Ставка Дата Ставка Дата Ставка Дата Ставка Дата Ставка 01.01.45 1,500 01.09.46 1,500 01.05.48 1,750 01.01.50 2,000 01.09.51 2,500 01.02.45 1,500 01.10.46 1,500 01.06.48 1,750 01.02.50 2,000 01.10.51 2,620 01.03.45 1,500 01.11.46 1,500 01.07.48 1,750 01.03.50 2,000 01.11.51 2,750 01.04.45 1,500 01.12.46 1,500 01.08.48 2,000 01.04.50 2,000 01.12.51 2,850 01.05.45 1,500 01.01.47 1,500 01.09.48 2,000 01.05.50 2,000 01.01.52 3,000 01.06.45 1,500 01.02.47 1,500 01.10.48 2,000 01.06.50 2,000 01.02.52 3,000 01.07.45 1,500 01.03.47 1,500 01.11.48 2,000 01.07.50 2,000 01.03.52 3,000 01.08.45 1,500 01.04.47 1,500 01.12.48 2,000 01.08.50 2,000 01.04.52 3,000 01.09.45 1,500 01.05.47 1,500 01.01.49 2,000 01.09.50 2,080 01.05.52 3,000 01.10.45 1,500 01.06.47 1,500 01.02.49 2,000 01.10.50 2,250 01.06.52 3,000 01.11.45 1,500 01.07.47 1,500 01.03.49 2,000 01.11.50 2,250 01.07.52 3,000 01.12.45 1,500 01.08.47 1,500 01.04.49 2,000 01.12.50 2,250 01.08.52 3,000 01.01.46 1,500 01.09.47 1,500 01.05.49 2,000 01.01.51 2,440 01.09.52 3,000 01.02.46 1,500 01.10.47 1,500 01.06.49 2,000 01.02.51 2,500 01.10.52 3,000 01.03.46 1,500 01.11.47 1,500 01.07.49 2,000 01.03.51 2,500 01.11.52 3,000 01.04.46 1,500 01.12.47 1,750 01.08.49 2,000 01.04.51 2,500 01.12.52 3,000 01.05.46 1,500 01.01.48 1,750 01.09.49 2,000 01.05.51 2,500 01.01.53 3,000 01.06.46 1,500 01.02.48 1,750 01.10.49 2,000 01.06.51 2,500 01.02.53 3,000 01.07.46 1,500 01.03.48 1,750 01.11.49 2,000 01.07.51 2,500 01.03.53 3,000 01.08.46 1,500 01.04.48 1,750 01.12.49 2,000 01.08.51 2,500 01.04.53 3,030
620 ПРИЛОЖЕНИЕ Г Продолжение табл. Г. 13 Дата Ставка Дата Ставка Дата Ставка Дата Ставка Дата Ставка 01.05.53 3,250 01.02.56 3,500 01.11.58 4,000 01.08.61 4,500 01.05.64 4,500 01.06.53 3,250 01.03.56 3,500 01.12.58 4,000 01.09.61 4,500 01.06.64 4,500 01.07.53 3,250 01.04.56 3,650 01.01.59 4,000 01.10.61 4,500 01.07.64 4,500 01.08.53 3,250 01.05.56 3,750 01.02.59 4,000 01.11.61 4,500 01.08.64 4,500 01.09.53 3,250 01.06.56 3,750 01.03.59 4,000 01.12.61 4,500 01.09.64 4,500 01.10.53 3,250 01.07.56 3,750 01.04.59 4,000 01.01.62 4,500 01.10.64 4,500 01.11.53 3,250 01.08.56 3,840 01.05.59 4,230 01.02.62 4,500 01.11.64 4,500 01.12.53 3,250 01.09.56 4,000 01.06.59 4,500 01.03.62 4,500 01.12.64 4,500 01.01.54 3,250 01.10.56 4,000 01.07.59 4,500 01.04.62 4,500 01.01.65 4,500 01.02.54 3,250 01.11.56 4,000 01.08.59 4,500 01.05.62 4,500 01.02.65 4,500 01.03.54 3,130 01.12.56 4,000 01.09.59 5,000 01.06.62 4,500 01.03.65 4,500 01.04.54 3,000 01.01.57 4,000 01.10.59 5,000 01.07.62 4,500 01.04.65 4,500 01.05.54 3,000 01.02.57 4,000 01.11.59 5,000 01.08.62 4,500 01.05.65 4,500 01.06.54 3,000 01.03.57 4,000 01.12.59 5,000 01.09.62 4,500 01.06.65 4,500 01.07.54 3,000 01.04.57 4,000 01.01.60 5,000 01.10.62 4,500 01.07.65 4,500 01.08.54 3,000 01.05.57 4,000 01.02.60 5,000 01.11.62 4,500 01.08.65 4,500 01.09.54 3,000 01.06.57 4,000 01.03.60 5,000 01.12.62 4,500 01.09.65 4,500 01.10.54 3,000 01.07.57 4,000 01.04.60 5,000 01.01.63 4,500 01.10.65 4,500 01.11.54 3,000 01.08.57 4,420 01.05.60 5,000 01.02.63 4,500 01.11.65 4,500 01.12.54 3,000 01.09.57 4,500 01.06.60 5,000 01.03.63 4,500 01.12.65 4,920 01.01.55 3,000 01.10.57 4,500 01.07.60 5,000 01.04.63 4,500 01.01.66 5,000 01.02.55 3,000 01.11.57 4,500 01.08.60 4,850 01.05.63 4,500 01.02.66 5,000 01.03.55 3,000 01.12.57 4,500 01.09.60 4,500 01.06.63 4,500 01.03.66 5,350 01.04.55 3,000 01.01.58 4,340 01.10.60 4,500 01.07.63 4,500 01.04.66 5,500 01.05.55 3,000 01.02.58 4,000 01.11.60 4,500 01.08.63 4,500 01.05.66 5,500 01.06.55 3,000 01.03.58 4,000 01.12.60 4,500 01.09.63 4,500 01.06.66 5,520 01.07.55 3,000 01.04.58 3,830 01.01.61 4,500 01.10.63 4,500 01.07.66 5,750 01.08.55 3,230 01.05.58 3,500 01.02.61 4,500 01.11.63 4,500 01.08.66 5,880 01.09.55 3,250 01.06.58 3,500 01.03.61 4,500 01.12.63 4,500 01.09.66 6,000 01.10.55 3,400 01.07.58 3,500 01.04.61 4,500 01.01.64 4,500 01.10.66 6,000 01.11.55 3,500 01.08.58 3,500 01.05.61 4,500 01.02.64 4,500 01.11.66 6,000 01.12.55 3,500 01.09.58 3,830 01.06.61 4,500 01.03.64 4,500 01.12.66 6,000 01.01.56 3,500 01.10.58 4,000 01.07.61 4,500 01.04.64 4,500 01.01.67 5,960
Наборы и базы данных 621 Продолжение табл. Г. 13 Дата Ставка Дата Ставка Дата Ставка Дата Ставка Дата Ставка 01.02.67 5,750 01.11.69 8,500 01.08.72 5,270 01.05.75 7,400 01.02.78 8,000 01.03.67 5,710 01.12.69 8,500 01.09.72 5,500 01.06.75 7,070 01.03.78 8,000 01.04.67 5,500 01.01.70 8,500 01.10.72 5,730 01.07.75 7,150 01.04.78 8,000 01.05.67 5,500 01.02.70 8,500 01.11.72 5,570 01.08.75 7,660 01.05.78 8,270 01.06.67 5,500 01.03.70 8,390 01.12.72 5,790 01.09.75 7,880 01.06.78 8,630 01.07.67 5,500 01.04.70 8,000 01.01.73 6,000 01.10.75 7,960 01.07.78 9,000 01.08.67 5,500 01.05.70 8,000 01.02.73 6,020 01.11.75 7,530 01.08.78 9,010 01.09.67 5,500 01.06.70 8,000 01.03.73 6,300 01.12.75 7,260 01.09.78 9,410 01.10.67 5,500 01.07.70 8,000 01.04.73 6,600 01.01.76 7,000 01.10.78 9,940 01.11.67 5,680 01.08.70 8,000 01.05.73 7,010 01.02.76 6,750 01.11.78 10,940 01.12.67 6,000 01.09.70 7,830 01.06.73 7,490 01.03.76 6,750 01.12.78 11,550 01.01.68 6,000 01.10.70 7,500 01.07.73 8,300 01.04.76 6,750 01.01.79 11,750 01.02.68 6,000 01.11.70 7,280 01.08.73 9,230 01.05.76 6,750 01.02.79 11,750 01.03.68 6,000 01.12.70 6,920 01.09.73 9,860 01.06.76 7,200 01.03.79 11,750 01.04.68 6,200 01.01.71 6,290 01.10.73 9,940 01.07.76 7,250 01.04.79 11,750 01.05.68 6,500 01.02.71 5,880 01.11.73 9,750 01.08.76 7,010 01.05.79 11,750 01.06.68 6,500 01.03.71 5,480 01.12.73 9,750 01.09.76 7,000 01.06.79 11,650 01.07.68 6,500 01.04.71 5,250 01.01.74 9,730 01.10.76 6,780 01.07.79 11,540 01.08.68 6,500 01.05.71 5,420 01.02.74 9,210 01.11.76 6,500 01.08.79 11,910 01.09.68 6,400 01.06.71 5,500 01.03.74 8,830 01.12.76 6,350 01.09.79 12,900 01.10.68 6,000 01.07.71 5,900 01.04.74 10,020 01.01.77 6,250 01.10.79 14,390 01.11.68 6,200 01.08.71 6,000 01.05.74 11,250 01.02.77 6,250 01.11.79 15,550 01.12.68 6,600 01.09.71 6,000 01.06.74 11,540 01.03.77 6,250 01.12.79 15,300 01.01.69 6,950 01.10.71 5,910 01.07.74 11,980 01.04.77 6,250 01.01.80 15,250 01.02.69 7,000 01.11.71 5,470 01.08.74 12,000 01.05.77 6,410 01.02.80 15,630 01.03.69 7,240 01.12.71 5,250 01.09.74 12,000 01.06.77 6,750 01.03.80 18,310 01.04.69 7,500 01.01.72 5,180 01.10.74 11,680 01.07.77 6,750 01.04.80 19,770 01.05.69 7,500 01.02.72 4,750 01.11.74 10,830 01.08.77 6,830 01.05.80 16,570 01.06.69 8,230 01.03.72 4,750 01.12.74 10,500 01.09.77 7,130 01.06.80 12,630 01.07.69 8,500 01.04.72 4,980 01.01.75 10,050 01.10.77 7,520 01.07.80 11,480 01.08.69 8,500 01.05.72 5,000 01.02.75 8,960 01.11.77 7,750 01.08.80 11,120 01.09.69 8,500 01.06.72 5,040 01.03.75 7,930 01.12.77 7,750 01.09.80 12,230 01.10.69 8,500 01.07.72 5,250 01.04.75 7,500 01.01.78 7,930 01.10.80 13,790
622 ПРИЛОЖЕНИЕ Г Окончание табл. Г. 13 Дата Ставка Дата Ставка Дата Ставка Дата Ставка Дата Ставка 01.11.80 16,060 01.11.86 7,500 01.11.83 11,000 01.11.89 10,500 01.11.92 6,000 01.12.80 20,350 01.12.86 7,500 01.12.83 11,000 01.12.89 10,500 01.12.92 6,000 01.01.81 20,160 01.01.87 7,500 01.01.84 11,000 01.01.90 10,110 01.01.93 6,000 01.02.81 19,430 01.02.87 7,500 01.02.84 11,000 01.02.90 10,000 01.02.93 6,000 01.03.81 18,050 01.03:87 7,500 01.03.84 11,210 01.03.90 10,000 01.03.93 6,000 01.04.81 17,150 01.04.87 7,750 01.04.84 11,930 01.04.90 10,000 01.04.93 6,000 01.05.81 19,610 01.05.87 8,140 01.05.84 12,390 01.05.90 10,000 01.05.93 6,000 01.06.81 20,030 01.06.87 8,250 01.06.84 12,600 01.06.90 10,000 01.06.93 6,000 01.07.81 20,390 01.07.87 8,250 01.07.84 13,000 01.07.90 10,000 01.07.93 6,000 01.08.81 20,500 01.08.87 8,250 01.08.84 13,000 01.08.90 10,000 01.08.93 6,000 01.09.81 20,080 01.09.87 8,700 01.09.84 12,970 01.09.90 10,000 01.09.93 6,000 01.10.81 18,450 01.10.87 9,070 01.10.84 12,580 01.10.90 10,000 01.10.93 6,000 01.11.81 16,840 01.11.87 8,780 01.11.84 11,770 01.11.90 10,000 01.11.93 6,000 01.12.81 15,750 01.12.87 8,750 01.12.84 11,060 01.12.90 10,000 01.12.93 6,000 01.01.82 15,750 01.01.88 8,750 01.01.85 10,610 01.01.91 9,520 01.01.94 6,000 01.02.82 16,560 01.02.88 8,510 01.02.85 10,500 01.02.91 9,050 01.02.94 6,000 01.03.82 16,500 01.03.88 8,500 01.03.85 10,500 01.03.91 9,000 01.03.94 6,060 01.04.82 16,500 01.04.88 8,500 01.04.85 10,500 01.04.91 9,000 01.04.94 6,450 01.05.82 16,500 01.05.88 8,840 01.05.85 10,310 01.05.91 8,500 01.05.94 6,990 01.06.82 16,500 01.06.88 9,000 01.06.85 9,780 01.06.91 8,500 01.06.94 7,250 01.07.82 16,260 01.07.88 9,290 01.07.85 9,500 01.07.91 8,500 01.07.94 7,250 01.08.82 14,390 01.08.88 9,840 01.08.85 9,500 01.08.91 8,500 01.08.94 7,510 01.09.82 13,500 01.09.88 10,000 01.09.85 9,500 01.09.91 8,200 01.09.94 7,750 01.10.82 12,520 01.10.88 10,000 01.10.85 9,500 01.10.91 8,000 01.10.94 7,750 01.11.82 11,850 01.11.88 10,050 01.11.85 9,500 01.11.91 7,580 01.11.94 8,150 01.12.82 11,500 01.12.88 10,500 01.12.85 9,500 01.12.91 7,210 01.12.94 8,500 01.01.83 11,160 01.01.89 10,500 01.01.86 9,500 01.01.92 6,500 01.01.95 8,500 01.02.83 10,980 01.02.89 10,930 01.02.86 9,500 01.02.92 6,500 01.02.95 9,000 01.03.83 10,500 01.03.89 11,500 01.03.86 9,100 01.03.92 6,500 01.03.95 9,000 01.04.83 10,500 01.04.89 11,500 01.04.86 8,830 01.04.92 6,500 01.04.95 9,000 01.05.83 10,500 01.05.89 11,500 01.05.86 8,500 01.05.92 6,500 01.05.95 9,000 01.06.83 10,500 01.06.89 11,070 01.06.86 8,500 01.06.92 6,500 01.06.95 9,000 01.07.83 10,500 01.07.89 10,980 01.07.86 8,160 01.07.92 6,020 01.07.95 8,800 01.08.83 10,890 01.08.89 10,500 01.08.86 7,900 01.08.92 6,000 01.08.95 8,750 01.09.83 11,000 01.09.89 10,500 01.09.86 7,500 01.09.92 6,000 01.09.95 8,750 01.10.83 11,000 01.10.89 10,500 01.10.86 7,500 01.10.92 6,000 01.10.95 8,750
Наборы и базы данных 623 Таблица Г. 14. Индекс цен за 500 обыкновенных акций в США за 1945-1995 гг. Дата Индекс Дата Индекс Дата Индекс Дата Индекс Дата Индекс 01.01.45 13,490 01.08.47 15,460 01.03.50 17,350 01.10.52 24,260 01.05.55 37,600 01.02.45 13,940 01.09.47 15,060 01.04.50 17,840 01.11.52 25,030 01.06.55 39,780 01.03.45 13,930 01.10.47 15,450 01.05.50 18,440 01.12.52 26,040 01.07.55 42,690 01.04.45 14,280 01.11.47 15,270 01.06.50 18,740 01.01.53 26,180 01.08.55 42,430 01.05.45 14,820 01.12.47 15,030 01.07.50 17,380 01.02.53 25,860 01.09.55 44,340 01.06.45 15,090 01.01.48 14,830 01.08.50 18,430 01.03.53 25,990 01.10.55 42,110 01.07.45 14,780 01.02.48 14,100 01.09.50 19,080 01.04.53 24,710 01.11.55 44,950 01.08.45 14,830 01.03.48 14,300 01.10.50 19,870 01.05.53 24,840 01.12.55 45,370 01.09.45 15,840 01.04.48 15,400 01.11.50 19,830 01.06.53 23,950 01.01.56 44,150 01.10.45 16,500 01.05.48 16,150 01.12.50 19,750 01.07.53 24,290 01.02.56 44,430 01.11.45 17,040 01.06.48 16,820 01.01.51 21,210 01.08.53 24,390 01.03.56 47,490 01.12.45 17,330 01.07.48 16,420 01.02.51 22,000 01.09.53 23,270 01.04.56 48,050 01.01.46 18,020 01.08.48 15,940 01.03.51 21,630 01.10.53 23,970 01.05.56 46,540 01.02.46 18,070 01.09.48 15,760 01.04.51 21,920 01.11.53 24,500 01.06.56 46,270 01.03.46 17,530 01.10.48 16,190 01.05.51 21,930 01.12.53 24,830 01.07.56 48,780 01.04.46 18,660 01.11.48 15,290 01.06.51 21,550 01.01.54 25,460 01.08.56 48,490 01.05.46 18,700 01.12.48 15,190 01.07.51 21,930 01.02.54 26,020 01.09.56 46,840 01.06.46 18,580 01.01.49 15,360 01.08.51 22,890 01.03.54 26,570 01.10.56 46,240 01.07.46 18,050 01.02.49 14,770 01.09.51 23,480 01.04.54 27,630 01.11.56 45,760 01.08.46 17,700 01.03.49 14,910 01.10.51 23,360 01.05.54 28,730 01.12.56 46,440 01.09.46 15,090 01.04.49 14,890 01.11.51 22,710 01.06.54 28,960 01.01.57 45,430 01.10.46 14,750 01.05.49 14,780 01.12.51 23,410 01.07.54 30,130 01.02.57 43,470 01.11.46 14,690 01.06.49 13,970 01.01.52 24,190 01.08.54 30,730 01.03.57 44,030 01.12.46 15,130 01.07.49 14,760 01.02.52 23,750 01.09.54 31,450 01.04.57 45,050 01.01.47 15,210 01.08.49 15,290 01.03.52 23,810 01.10.54 32,180 01.05.57 46,780 01.02.47 15,800 01.09.49 15,490 01.04.52 23,740 01.11.54 33,440 01.06.57 47,550 01.03.47 15,160 01.10.49 15,890 01.05.52 23,730 01.12.54 34,970 01.07.57 48,510 01.04.47 14,600 01.11.49 16,110 01.06.52 24,380 01.01.55 35,600 01.08.57 45,840 01.05.47 14,340 01.12.49 16,540 01.07.52 25,080 01.02.55 36,790 01.09.57 43,980 01.06.47 14,840 01.01.50 16,880 01.08.52 25,180 01.03.55 36,500 01.10.57 41,240 01.07.47 15,770 01.02.50 17,210 01.09.52 24,780 01.04.55 37,760 01.11.57 40,350
624 ПРИЛОЖЕНИЕ Г Продолжение табл. Г. 14 Дата Индекс Дата Индекс Дата Индекс Дата Индекс Дата Индекс 01.12.57 40,330 01.09.60 54,810 01.06.63 70,110 01.03.66 88,880 01.12.68 106,480 01.01.58 41,120 01.10.60 53,730 01.07.63 69,070 01.04.66 91,600 01.01.69 102,040 01.02.58 41,260 01.11.60 55,470 01.08.63 70,980 01.05.66 86,780 01.02.69 101,460 01.03.58 42,110 01.12.60 56,800 01.09.63 72,850 01.06.66 86,060 01.03.69 99,300 01.04.58 42,340 01.01.61 59,720 01.10.63 73,030 01.07.66 85,840 01.04.69 101,260 01.05.58 43,700 01.02.61 62,170 01.11.63 72,620 01.08.66 80,650 01.05.69 104,620 01.06.58 44,750 01.03.61 64,120 01.12.63 74,170 01.09.66 77,810 01.06.69 99,140 01.07.58 45,980 01.04.61 65,830 01.01.64 76,450 01.10.66 77,130 01.07.69 94,710 01.08.58 47,700 01.05.61 66,500 01.02.64 77,390 01.11.66 80,990 01.08.69 94,180 01.09.58 48,960 01.06.61 65,620 01.03.64 78,800 01.12.66 81,330 01.09.69 94,510 01.10.58 50,950 01.07.61 65,540 01.04.64 79,940 01.01.67 84,450 01.10.69 95,520 01.11.58 52,500 01.08.61 67,790 01.05.64 80,720 01.02.67 87,360 01.11.69 96,210 01.12.58 53,490 01.09.61 67,260 01.06.64 80,240 01.03.67 89,420 01.12.69 91,110 01.01.59 55,620 01.10.61 68,000 01.07.64 83,220 01.04.67 90,960 01.01.70 90,310 01.02.59 54,770 01.11.61 71,080 01.08.64 82,000 01.05.67 92,590 01.02.70 87,160 01.03.59 56,150 01.12.61 71,440 01.09.64 83,410 01.06.67 91,430 01.03.70 88,650 01.04.59 57,100 01.01.62 69,070 01.10.64 84,850 01.07.67 93,010 01.04.70 85,950 01.05.59 57,960 01.02.62 70,220 01.11.64 85,440 01.08.67 94,490 01.05.70 76,060 01.06.59 57,460 01.03.62 70,290 01.12.64 83,960 01.09.67 95,810 01.06.70 75,590 01.07.59 59,740 01.04.62 68,050 01.01.65 86,120 01.10.67 95,660 01.07.70 75,720 01.08.59 59,400 01.05.62 62,990 01.02.65 86,750 01.11.67 92,660 01.08.70 77,920 01.09.59 57,050 01.06.62 55,630 01.03.65 86,830 01.12.67 95,300 01.09.70 82,580 01.10.59 57,000 01.07.62 56,970 01.04.65 87,970 01.01.68 95,040 01.10.70 84,370 01.11.59 57,230 01.08.62 58,520 01.05.65 89,280 01.02.68 90,750 01.11.70 84,280 01.12.59 59,060 01.09.62 58,000 01.06.65 85,040 01.03.68 89,090 01.12.70 90,050 01.01.60 58,030 01.10.62 56,170 01.07.65 84,910 01.04.68 95,670 01.01.71 93,490 01.02.60 55,780 01.11.62 60,040 01.08.65 86,490 01.05.68 97,870 01.02.71 97,110 01.03.60 55,020 01.12.62 62,640 01.09.65 89,380 01.06.68 100,530 01.03.71 99,600 01.04.60 55,730 01.01.63 65,060 01.10.65 91,390 01.07.68 100,300 01.04.71 103,040 01.05.60 55,220 01.02.63 65,920 01.11.65 92,150 01.08.68 98,110 01.05.71 101,640 01.06.60 57,260 01.03.63 65,670 01.12.65 91,730 01.09.68 101,340 01.06.71 99,720 01.07.60 55,840 01.04.63 68,760 01.01.66 93,320 01.10.68 103,760 01.07.71 99,000 01.08.60 56,510 01.05.63 70,140 01.02.66 92,690 01.11.68 105,400 01.08.71 97,240
Наборы и базы данных 625 Дата Индекс Дата Индекс Дата Индекс Дата Индекс Дата Индекс 01.09.71 99,40 01.03.77 100,570 01.06.74 89,790 01.12.79 107,780 01.09.82 122,430 01.10.71 97,290 01.04.77 99,050 01.07.74 82,820 01.01.80 110,870 01.10.82 132,660 01.11.71 92,780 01.05.77 98,760 01.08.74 76,030 01.02.80 115,340 01.11.82 138,100 01.12.71 99,170 01.06.77 99,290 01.09.74 68,120 01.03.80 104,690 01.12.82 139,370 01.01.72 103,300 01.07.77 100,180 01.10.74 69,440 01.04.80 102,970 01.01.83 144,270 01.02.72 105,240 01.08.77 97,750 01.11.74 71,740 01.05.80 107,690 01.02.83 146,800 01.03.72 107,690 01.09.77 96,230 01.12.74 67,070 01.06.80 114,550 01.03.83 151,880 01.04.72 108,810 01.10.77 93,740 01.01.75 72,560 01.07.80 119,830 01.04.83 157,710 01.05.72 107,650 01.11.77 94,280 01.02.75 80,100 01.08.80 123,500 01.05.83 164,100 01.06.72 108,010 01.12.77 93,820 01.03.75 83,780 01.09.80 126,510 01.06.83 166,390 01.07.72 107,210 01.01.78 90,250 01.04.75 84,720 01.10.80 130,220 01.07.83 166,960 01.08.72 111,010 01.02.78 88,980 01.05.75 90,100 01.11.80 135,650 01.08.83 162,420 01.09.72 109,390 01.03.78 88,820 01.06.75 92,400 01.12.80 133,480 01.09.83 167,160 01.10.72 109,560 01.04.78 92,710 01.07.75 92,490 01.01.81 132,970 01.10.83 167,650 01.11.72 115,050 01.05.78 97,410 01.08.75 85,710 01.02.81 128,400 01.11.83 165,230 01.12.72 117,500 01.06.78 97,660 01.09.75 84,670 01.03.81 133,190 01.12.83 164,360 01.01.73 118,420 01.07.78 97,190 01.10.75 88,570 01.04.81 134,430 01.01.84 166,390 01.02.73 114,160 01.08.78 103,920 01.11.75 90,070 01.05.81 131,730 01.02.84 157,250 01.03.73 112,420 01.09.78 103,860 01.12.75 88,700 01.06.81 132,280 01.03.84 157,440 01.04.73 110,270 01.10.78 100,580 01.01.76 96,860 01.07.81 129,130 01.04.84 157,600 01.05.73 107,220 01.11.78 94,710 01.02.76 100,640 01.08.81 129,630 01.05.84 156,550 01.06.73 104,750 01.12.78 96,110 01.03.76 101,080 01.09.81 118,270 01.06.84 153,120 01.07.73 105,830 01.01.79 99,710 01.04.76 101,930 01.10.81 119,800 01.07.84 151,080 01.08.73 103,800 01.02.79 98,230 01.05.76 101,160 01.11.81 122,920 01.08.84 164,420 01.09.73 105,610 01.03.79 100,110 01.06.76 101,770 01.12.81 123,790 01.09.84 166,110 01.10.73 109,840 01.04.79 102,070 01.07.76 104,200 01.01.82 117,280 01.10.84 164,820 01.11.73 102,030 01.05.79 99,730 01.08.76 103,290 01.02.82 114,500 01.11.84 166,270 01.12.73 94,780 01.06.79 101,730 01.09.76 105,450 01.03.82 110,840 01.12.84 164,480 01.01.74 96,110 01.07.79 102,710 01.10.76 101,890 01.04.82 116,310 01.01.85 171,610 01.02.74 93,450 01.08.79 107,360 01.11.76 101,190 01.05.82 116,350 01.02.85 180,880 01.03.74 97,440 01.09.79 108,600 01.12.76 104,660 01.06.82 109,700 01.03.85 179,420 01.04.74 92,460 01.10.79 104,470 01.01.77 103,810 01.07.82 109,380 01.04.85 180,620 01.05.74 89,670 01.11.79 103,660 01.02.77 100,960 01.08.82 109,650 01.05.85 184,900
626 ПРИЛОЖЕНИЕ Г Окончание табл. Г. 14 Дата Индекс Дата Индекс Дата Индекс Дата Индекс Дата Индекс 01.06.85 188,890 01.07.87 310,090 01.08.89 346,610 01.09.91 387,200 01.10.93 463,900 01.07.85 192,540 01.08.87 329,360 01.09.89 347,330 01.10.91 386,880 01.11.93 462,890 01.08.85 188,310 01.09.87 318,660 01.10.89 347,400 01.11.91 385,920 01.12.93 465,950 01.09.85 184,060 01.10.87 280,160 01.11.89 340,220 01.12.91 388,510 01.01.94 472,990 01.10.85 186,180 01.11.87 245,010 01.12.89 348,570 01.01.92 416,080 01.02.94 471,580 01.11.85 197,450 01.12.87 240,960 01.01.90 339,970 01.02.92 412,560 01.03.94 463,810 01.12.85 207,260 01.01.88 250,480 01.02.90 330,450 01.03.92 407,360 01.04.94 447,230 01.01.86 208,190 01.02.88 258,130 01.03.90 338,470 01.04.92 407,410 01.05.94 450,900 01.02.86 219,370 01.03.88 265,740 01.04.90 338,180 01.05.92 414,810 01.06.94 454,830 01.03.86 232,330 01.04.88 262,610 01.05.90 350,250 01.06.92 408,270 01.07.94 451,400 01.04.86 237,980 01.05.88 256,120 01.06.90 360,390 01.07.92 415,050 01.08.94 464,240 01.05.86 238,460 01.06.88 270,680 01.07.90 360,030 01.08.92 417,930 01.09.94 466,960 01.06.86 245,300 01.07.88 269,050 01.08.90 330,750 01.09.92 418,480 01.10.94 463,810 01.07.86 240,180 01.08.88 263,730 01.09.90 315,410 01.10.92 412,500 01.11.94 461,010 01.08.86 245,000 01.09.88 267,970 01.10.90 307,120 01.11.92 422,840 01.12.94 455,190 01.09.86 238,270 01.10.88 277,400 01.11.90 315,290 01.12.92 435,640 01.01.95 465,250 01.10.86 237,360 01.11.88 271,020 01.12.90 328,750 01.01.93 435,230 01.02.95 481,920 01.11.86 245,090 01.12.88 276,510 01.01.91 325,490 01.02.93 441,700 01.03.95 493,150 01.12.86 248,610 01.01.89 285,410 01.02.91 362,260 01.03.93 450,160 01.04.95 507,910 01.01.87 264,510 01.02.89 294,010 01.03.91 372,280 01.04.93 443,080 01.05.95 523,810 01.02.87 280,930 01.03.89 292,710 01.04.91 379,680 01.05.93 445,250 01.06.95 539,350 01.03.87 292,470 01.04.89 302,250 01.05.91 377,990 01.06.93 448,060 01.07.95 557,370 01.04.87 289,320 01.05.89 313,930 01.06.91 378,290 01.07.93 447,290 01.08.95 559,110 01.05.87 289,120 01.06.89 323,730 01.07.91 380,230 01.08.93 454,130 01.09.95 578,770 01.06.87 301,380 01.07.89 331,930 01.08.91 389,400 01.09.93 459,240 01.10.95 582,970 Комплексные наборы данных Группа бизнесменов в г. Спокан, шт. Вашингтон, намерена создать сеть баз отдыха по всему штату. Одна из важных проблем, которые предстоит решить, заключается в опре- делении оптимальной стоимости одного дня пребывания на каждой базе отдыха. Пред- полагается, что цена должна устанавливаться на основании анализа сразу нескольких по- казателей, — например, наличия плавательного бассейна, размера общей территории ба- зы отдыха и т.д. Чтобы принять обоснованное решение, из туристического справочника (Rand McNally, Campground Guide for Washington) была выбрана приведенная в табл. Г. 15
Наборы и базы данных 627 информация о 25 уже существующих горнолыжных лагерях в шт. Вашингтон, которая за- тем была подвергнута статистическому исследованию с помощью компьютеров. Анали- зировались следующие переменные. Y— стоимость одного дня пребывания в лагере Х} — общая площадь лагеря в акрах Х2 — количество жилых помещений Х3 — наличие смывных туалетов Х4 — наличие плавательного бассейна Х5 — наличие канатных подъемников Х6 — количество дополнительных мест развлечения Таблица Г. 15. Данные о горнолыжных лагерях в штате Вашингтон Лагерь У X, х2 Х3 х4 *5 Х6 1 7,00 40 32 0 0 0 2 2 8,50 20 47 1 0 1 2 3 9,00 45 18 1 1 1 1 4 8,00 110 32 1 0 1 3 5 8,00 30 54 1 0 1 2 6 7,00 50 30 1 0 1 3 7 7,75 35 30 1 0 1 2 8 8,00 18 40 1 0 1 1 9 8,50 23 60 1 1 1 1 10 8,50 9 60 1 0 1 3 И 9,00 52 50 1 1 1 2 12 7,00 25 21 0 0 1 1 13 9,00 250 30 1 0 1 2 14 8,50 140 70 1 1 1 2 15 9,00 120 80 1 1 1 1 16 7,50 60 50 1 1 1 2 17 8,50 120 35 1 0 1 2 18 9,00 173 25 1 1 1 2 19 8,00 100 75 1 0 1 2 20 9,50 134 35 1 1 1 1 21 7,50 114 120 0 1 1 2 22 7,50 2 17 0 0 1 2 23 7,50 32 15 0 1 0 3 24 9,00 25 30 1 1 1 2 25 7,50 66 100 1 0 1 2
Таблица Г. 16. Основные экономические показатели за 2000 г. для 266 компаний США N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 1 3 221,8008 42,0000 147,9000 30,6000 2 285,2007 599,7998 118,3000 28,0000 2 1 690,6001 20,9050 93,0000 29,1000 1 057,2002 343,2000 114,9000 8,9000 3 2 197,2764 39,0000 66,8670 55,8600 1 387,0679 661,3997 95,5680 11,1820 4 2 357,8206 23,3000 59,5560 69,6080 1 743,7952 25,6320 51,9170 8,5000 5 8 129,0000 35,0000 297,0000 29,0000 7 423,0000 1 178,0000 12,8000 9,2530 6 11 851,0000 23,0000 394,0000 20,0000 10 942,0000 2 556,0000 11,6530 14,6000 7 323,8606 3,9000 2,5900 4,2880 233,5300 22,8350 3,5290 30,7320 8 660,4856 8,3780 10,9840 3,3720 582,2649 25,6250 44,9990 64,8730 9 4 351,1601 50,9120 102,7080 217,0920 4 156,8671 12,8360 66,2640 8,7790 10 985,8357 5,5000 16,6010 29,5900 874,1287 19,5000 112,3860 18,3650 11 3 802,5581 39,6000 206,1020 157,3520 2 997,2703 518,0000 139,7290 16,4130 12 2 576,0464 22,6000 50,6690 47,0790 1 885,9053 349,4910 48,8170 9,5000 13 106,0160 28,0000 1,3120 42,0000 84,6590 35,5550 22,9370 8,7330 14 5 669,8945 46,8810 103,0000 31,1000 4 424,3007 785,0000 141,3000 18,5000 15 319,6570 2,8940 4,5770 2,2090 246,6980 42,8370 87,0000 1,1000 16 511,7217 10,1000 19,5600 27,0000 286,2288 48,9990 1,8700 23,6520 17 884,6189 22,8010 58,0940 33,0000 467,4436 36,5000 16,0350 29,6320 18 166,3750 2,3000 3,9510 5,2890 111,0310 31,0000 4,0230 38,5420 19 59,1310 18,0000 1,1400 14,5000 43,7430 26,3210 90,3250 56,9820
N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 20 136,6970 3,1000 2,0090 18,4930 105,3300 15,8880 46,3000 8,6330 21 767,8799 8,1000 37,4250 18,0560 519,3948 112,1350 21,8470 2,7860 22 61,3280 1,1390 1,3880 26,3250 35,2020 17,3140 2,4270 88,5230 23 445,6387 5,8000 18,9780 12,6000 213,2880 12,1000 62,8060 1,4600 24 2 259,6316 16,0270 228,7270 27,3350 1 696,3772 421,8057 116,5990 9,6000 25 624,8040 8,7000 86,4030 2,8080 408,4707 168,0200 33,4700 9,4440 26 329,9578 4,0000 14,9460 8,3710 225,0410 20,9850 12,9790 32,0000 27 308,7327 2,1070 14,8080 43,5920 239,1300 36,5000 18,1220 1,8510 28 598,9507 5,0000 39,7150 27,8920 481,9436 45,0000 39,8230 0,7500 29 172,7920 1,5760 1,6590 23,5420 118,7090 48,2000 7,9090 26,3330 30 910,8406 7,0000 14,4610 5,5880 677,2527 7,0000 58,2130 1,8000 31 142,1830 1,6000 5,5880 72,5190 126,9660 1,6000 2,7310 57,2710 32 425,0828 6,8330 72,5190 31,8030 256,2837 6,8330 12,1440 44,1550 33 4 337,9140 36,1000 306,0220 101,4290 2 344,1631 36,1000 270,2576 16,1100 35 209,4520 2,9980 14,4690 14,6060 176,4890 2,0780 1,8970 714,9990 36 62,4180 3,8000 3,7390 7,6680 34,4700 2,9980 44,0500 121,3300 37 4 300,0000 95,5000 412,2886 157,6030 2 108,5503 5,1000 257,6807 11,6440 38 390,6829 5,1000 30,8480 10,8550 225,1080 6,3000 18,3780 33,4770
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 39 270,0127 6,3000 40,0340 22,4540 189,8000 2,0000 4,9080 43,7430 40 97,9660 2,0000 6,9940 5,2500 64,5920 31,9700 2,5900 18,9700 41 66,4090 12,5261 3,7570 1,0090 57,2310 33,2000 59,1300 14,9460 42 56,5550 3,9000 1,6240 6,9940 44,0550 53,5000 19,5600 1,6590 43 3 267,9551 31,9790 502,0398 45,6140 2 517,7566 754,8977 3,9510 57,7210 44 2 745,7439 43,9680 251,0340 16,1110 1 638,7969 45,0000 161,2000 108,1480 45 2 609,0000 33,2000 248,0001 10,0000 1 874,0000 564,0000 18,0000 83,0000 46 1 677,6016 11,6440 284,6089 87,4830 1 185,9717 24,4530 6,4840 36,1310 47 6 887,6210 53,5000 1 075,1719 84,0390 4 721,9570 1 375,7996 44,0700 231,4690 48 10 584,1990 132,1400 714,2002 22,6000 7 353,5000 3 204,2688 93,4000 377,1001 49 2 912,7644 45,8540 195,2680 45,6430 2 189,5293 879,6548 14,9460 66,0560 50 4 309,5820 66,8000 275,3079 67,3120 2 913,9036 993,3997 1,6590 40,5470 51 1 946,4766 24,4530 121,3300 6,2920 1 403,4976 546,0508 35,2020 40,0810 52 9 254,1171 151,2000 1 431,0906 121,3300 6 187,7851 2 125,2012 95,9510 334,8057 53 5 018,6914 62,8510 479,8997 1,6240 3 478,0989 1 318,0999 9,2530 144,3000 54 1 510,7798 15,3000 207,9320 63,5190 1 157,2117 13,9700 27,6660 39,7150 55 1 560,0750 22,7000 162,5190 61,9380 1 188,9126 18,4340 19,3190 24,7010 56 2 794,0000 37,4000 256,0999 7,3000 1 928,4988 780,7996 18,3650 70,1000
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 57 921,3689 13,9700 61,9380 18,4340 597,7000 45,1640 19,2020 22,6500 58 1 253,5430 13,0580 66,4310 13,9700 806,6758 236,5000 32,0000 48,6510 59 1 328,1138 13,1160 201,1960 31,2730 851,8938 1,1550 31,2730 33,5620 60 1 314,6299 27,3460 36,9330 43,0750 569,7327 6,4690 174,4610 42,1160 61 7 869,6914 113,3710 687,7998 90,2000 5 580,5976 1 931,5005 76,5000 155,9000 62 73,0550 7,8240 26,5680 20,6650 38,9980 22,8990 43,0750 99,8430 63 108,5090 87,4350 5,6630 37,3860 77,1740 36,9990 90,2000 1,6500 64 1 422,4507 16,5000 100,4700 69,8820 1 060,5420 305,7000 6,3970 25,4520 65 87,4350 7,6550 8,5150 15,3750 51,3970 11,3940 69,8820 2,7200 66 7,8240 9,5280 26,6950 7,7640 6,7860 20,5720 4,2100 52,1780 67 868,7107 15,3400 42,4040 1,2120 686,0518 200,4850 10,4000 22,7240 68 137,3950 2,8750 14,1080 9,7470 112,2350 30,7620 83,1580 1,9000 69 753,8848 6,5480 24,2870 4,2120 596,5076 13,4000 88,8250 6,4200 70 1 445,0166 27,0030 84,1490 99,9080 786,8777 1,9360 39,8650 76,1870 71 3 062,6316 49,6190 67,6310 83,1580 1 446,5227 668,9910 243,0450 74,5240 72 2 450,4285 32,6000 81,9220 88,8250 906,9639 6,7120 423,2698 90,5730 73 141,2580 1,3040 4,5050 6,7300 95,1540 3,7000 9,9040 9,7580 74 6,8030 5,1000 9,5230 1,4590 2,3980 12,2490 0,7230 11,9490
N/N Продолжение табл. Г. 16 Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 75 1 852,0896 25,4000 89,5500 57,7900 672,7947 4,5070 28,4910 148,0770 76 365,7217 4,9030 17,0620 16,7160 217,5420 3,4720 6,7300 11,8950 77 1 981,4397 28,7000 155,8530 141,2700 668,7720 634,0596 55,2940 161,3500 78 2 362,1326 40,7000 110,1000 99,8430 1 055,4187 11,3940 75,7000 113,1280 79 357,0696 5,5500 12,6430 52,1780 141,2700 2,1330 36,8860 18,9510 80 220,3790 3,7000 10,7860 9,7580 67,1220 20,5720 7,1610 6,2610 81 1 082,4927 17,9000 51,3360 52,1780 310,7820 315,8997 114,9660 65,6910 82 848,3799 17,1000 41,2990 11,9490 386,0066 16,0000 40,6150 61,6940 83 1 112,0386 16,5890 74,5790 44,6610 378,7710 7,3000 91,2150 77,3130 84 1 515,8816 37,0000 108,0460 52,3290 758,5320 469,9229 74,5950 61,8300 85 1 328,5508 19,9200 44,6810 6,2850 566,2200 323,7090 36,9560 115,5890 86 2 878,4956 58,0000 182,2670 348,1426 1 247,2339 1,1500 391,6277 85,3970 87 4 312,0507 56,6000 169,2950 66,9970 2 672,3262 6,4600 260,3870 37,6540 88 54,3250 37,3860 1,0660 2,8130 26,5960 4,7670 0,7520 44,6610 89 122,9470 57,1720 13,7480 7,5620 94,6720 17,6580 1,4590 3,8670 90 2 014,7056 31,0000 74,7910 700,4778 503,6768 45,0900 21,1460 91 969,8328 18,5170 40,8340 54,2710 448,5286 9,4450 91,2690 8,5670 92 45,3670 8,3500 1,6430 7,0670 15,7310 2,1230 5,1820 52,3290
Продолжение табл. Г. 16[ N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 93 255,1320 3,3000 10,6420 20,2520 131,6750 12,2220 42,5670 6,2850 94 1 710,4700 31,7000 91,5640 54,7540 752,5889 530,2456 239,9010 42,0600 95 365,8809 3,4800 20,0140 6,7300 177,5500 25,8740 16,7100 23,7910 96 33,2650 2,0870 1,5120 4,4840 19,7100 19,7100 1,1550 2,8890 97 53,7460 0,5250 2,0870 42,2810 16,1820 16,1800 7,6770 19,7100 98 52,8760 1,1420 2,4190 1,2160 27,1500 27,1500 6,4690 16,1820 99 9,6630 2,4190 12,7460 7,9670 5,6960 5,6950 0,4570 27,1500 100 1 451,6687 29,0000 86,6820 97,2690 505,8267 36,1200 137,7250 30,7620 101 321,3638 4,9110 13,1180 11,0840 268,0159 57,2600 1,1110 13,4000 102 156,4580 2,3500 4,5670 3,8620 114,1930 6,4800 4,7670 5,6960 103 52,1870 0,8650 1,5100 20,6490 36,5130 59,3250 18,0150 1,9360 104 447,2100 7,7670 12,7460 41,7940 280,3218 26,8120 9,4400 505,8267 105 86,8170 1,1000 1,2810 19,3850 57,2600 26,6950 2,1230 1,3420 106 1 132,3499 18,0150 16,8570 1,6970 785,0718 36,9240 25,8740 6,7120 107 217,4120 3,2000 4,4840 10,5440 142,6020 57,5790 3,2520 3,7000 108 7,7640 86,6820 1,2810 7,2210 6,4800 9,5280 20,8580 268,0159 109 1 581,8760 20,8580 142,2810 5,8820 1 280,1670 359,0999 1,1000 12,2490 110 201,4650 1,1000 7,9670 1,3370 169,2630 57,5700 7,4000 114,1930
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 111 198,9010 0,9110 9,7470 0,4290 164,1940 73,9670 1,8400 36,5130 112 1 497,0076 7,4000 131,9400 6,0210 1 098,2969 99,4080 5,1000 280,3280 113 153,2290 1,8400 11,0840 3,4390 59,2350 9,2800 8,3500 4,5070 114 367,9246 5,1000 20,6490 11,2110 230,1690 73,9670 1,2110 11,3940 115 494,4136 8,3500 19,3850 3,1490 342,9849 6,4690 3,8030 2,1000 116 52,4550 1,2120 7,2210 7,0620 26,8120 4,7670 4,0510 57,2600 117 37,3860 0,8200 1,3370 44,3730 26,6950 9,4400 5,6000 785,0718 118 57,7120 13,1190 3,4390 0,7160 36,9240 2,1230 7,5620 0,9510 119 586,4766 3,8030 44,3730 34,2780 391,3706 25,8740 2,8100 20,5720 120 476,2078 4,0510 34,2780 30,2360 244,7830 99,9080 5,8820 16,0000 121 15,3570 4,5671 16,8570 53,2830 9,5280 29,0000 6,0200 142,6020 122 393,6016 5,6000 30,2360 2,8890 265,3079 9,2800 11,2110 7,3000 123 4701,1210 7,5620 353,2830 48,6920 3 707,6846 4,9110 3,1490 6,4800 124 1 167,8340 2,8100 48,6920 8,4580 1 017,6038 2,3500 7,0620 59,2350 125 12 298,3980 50,7000 1 221,8008 10,4000 9 285,7109 1 016,5000 13,1160 64,6000 126 439,4727 1,9020 65,1100 39,8650 263,8108 51,1480 27,3460 31,2730 127 2 9127,0030 108,7000 1 897,0005 9,9040 20 032,0000 78,7700 16,5000 86,0000 128 1 993,6624 8,0000 43,4190 45,7820 1 755,5662 3,5730 31,1370 43,0750
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 129 4 660,8945 18,1000 636,1238 28,4900 3 675,6895 440,7996 3,4000 11,6000 130 976,4578 8,8280 14,8590 55,2940 879,3516 91,8000 15,3440 90,2000 131 3 834,9324 6,6610 316,7156 68,2690 3 557,4734 7,4050 2,8250 69,8820 132 9 535,7382 42,7800 1 107,3838 75,7000 7 075,1875 971,0000 6,5480 29,7730 133 657,7776 1,2640 56,1460 36,8860 565,0176 14,4700 27,0030 4,2120 134 100,4570 43,0750 44,0680 7,1610 72,7830 22,0310 49,6110 83,1580 135 60 334,5110 130,0000 4 186,9296 40,6150 45 999,0070 3 405,0000 32,6000 290,0000 136 2 150,0000 90,2110 311,7000 91,2150 1 460,7996 57,4030 1,3040 25,1000 137 18 069,0000 58,3000 1 680,0000 74,5900 13 442,0000 1 345,0000 25,4000 88,8250 138 109,7380 69,8870 32,2560 36,9560 97,0130 2,5200 4,9030 6,7300 139 592,7710 3,2520 123,7680 3,8770 420,3206 67,3300 28,7000 1,4590 140 4 642,3945 14,3280 353,5999 33,5620 4 085,0989 324,0000 40,7000 25,0000 141 2 072,4412 11,1480 270,1846 42,1160 1 640,8118 1,2400 5,5500 4,9810 142 4 509,3828 13,3540 502,2720 1,6500 2 838,0845 236,4540 2,0370 12,8000 143 34 736,0030 207,7000 1 760,7100 2,7200 26 053,9060 20,9400 3,7000 16,7160 144 1 191,0337 4,2070 255,6150 1,9000 865,6477 82,6730 0,2670 99,8430 145 312,7300 4,2120 76,5000 6,4200 452,4130 17,0050 17,9000 52,1780 146 1 553,1077 9,1500 343,9539 23,6410 988,8760 185,6600 12,5840 9,7580
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 147 6 997,7734 30,0080 956,1719 11,2330 4 886,8125 720,5000 17,1000 58,2460 148 513,1880 5,1420 41,9800 41,9800 375,3599 25,0200 11,3330 11,9490 149 28 085,0030 94,8000 2 913,0000 32,5600 20 632,0000 2 344,0000 89,0000 231,0000 150 11 062,8980 34,9740 1 774,3904 43,0250 8 259,7656 1 051,0000 16,5890 114,0000 151 23 232,4060 37,5750 1 049,6729 90,2110 19 964,6050 994,0000 37,0000 89,7370 152 14 961,5000 47,0110 1 744,0364 69,8870 10 046,0000 1 126,7310 19,9200 80,3250 153 5 197,7070 24,1450 762,2510 4,2120 3 336,7566 431,9976 7,7130 15,0520 154 7 428,2343 33,7210 601,1216 6,7310 5 714,3085 9,7320 58,0000 21,0000 155 28 607,5030 67,8410 1 344,3777 10,4000 24 787,6050 1 572,7996 56,6000 52,0000 156 87,6100 6,7310 12,7120 39,8650 74,5510 31,5580 31,0000 44,6610 157 1 165,6736 3,5310 26,6780 9,9040 1 035,7129 6,6000 18,5170 2,4490 158 567,3650 1,5420 97,4910 28,9400 480,5110 23,5230 3,300 52,3290 159 5 954,9414 16,2970 732,0000 55,9240 4 540,4609 444,8997 31,7000 18,5000 160 368,0940 2,3150 15,0860 2,7160 319,4939 10,6050 3,4800 6,2850 161 751,7327 6,2550 51,1060 13,5380 606,8318 3,5230 6,8000 9,9000 162 895,4087 10,9000 145,5140 9,3840 681,9656 26,3250 39,0000 30,6000 163 1 063,2908 16,1790 51,1480 25,7670 746,2820 12,6000 16,6980 14,6320 164 1 306,0867 19,3970 78,7700 2,7490 1 021,4856 435,2998 23,3000 13,2830
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 165 140,4440 1,9190 3,5730 55,8600 122,3210 27,3350 35,0000 29,1000 166 4 357,2812 52,1400 110,4470 12,0830 3 540,9612 1 235,0000 3,9000 55,8600 167 263,9048 3,7000 7,4050 27,2080 203,3440 2,8080 8,3780 3,2500 168 6 184,8945 94,5000 398,2000 69,6080 5 224,0000 2 550,0000 50,9120 37,1000 169 257,6509 3,3640 14,4730 7,5700 190,4190 8,3710 5,5000 69,6080 170 50,5150 52,5350 29,1000 29,0000 18,0560 43,5920 39,6000 29,0000 171 419,6470 4,3020 22,0310 20,0000 341,5906 135,6000 22,6000 20,0000 172 1 227,4490 20,0000 57,4030 4,2880 999,7520 27,8920 28,0000 9,0000 173 779,3450 8,8000 22,0670 3,3700 678,4258 229,1270 46,8810 4,2880 174 72,1760 1,3000 2,5210 29,5900 50,9650 24,8290 2,8940 3,3700 175 3 248,0076 36,0620 263,6167 19,4460 2 710,3455 974,3379 10,1000 29,5900 176 921,1270 12,6590 67,3340 10,5250 771,0059 23,5420 22,8010 157,3520 177 711,9827 12,5120 133,3850 45,0790 653,8069 351,4700 2,3000 45,0790 178 72,4110 1,0250 1,2400 42,0000 60,0820 93,0000 18,0000 42,0000 179 297,5686 4,1520 20,9420 0,8990 248,7160 123,1000 3,1000 31,1000 180 677,8489 6,0700 17,0050 31,1000 613,3047 169,2570 8,1000 2,2090 181 582,6238 1,4000 25,0290 2,2090 474,3450 66,8670 1,1390 27,0000 182 3 750,4109 38,1700 120,8280 27,0000 3 240,7886 1 132,6216 5,8000 33,0000
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 183 88,8070 2,3330 9,7320 7,2110 66,6540 59,5500 16,0270 5,2890 184 306,9397 2,8000 31,5880 33,0000 220,4980 2,5900 8,7000 14,5000 185 331,7366 5,2000 6,6000 11,0250 295,3848 10,9840 4,0000 18,4930 186 546,9500 8,9000 23,5230 5,2890 439,0479 16,0010 2,1000 18,0560 187 7,5910 30,6000 7,8900 14,5000 5,0480 50,6690 5,0000 26,3250 188 3 479,4573 41,3940 170,3720 18,4930 3 100,5391 1 177,5999 1,5760 15,0500 189 485,6138 6,6580 58,6750 3,5250 335,3318 42,0000 93,0000 1,4320 190 123,2280 2,0450 10,6050 5,2550 96,6630 20,9000 66,8670 12,6000 191 488,2327 4,6500 20,4800 1,1111 402,8457 402,8400 77,0101 22,2426 192 100,7820 1,7030 2,4430 1,6800 88,7960 4,0000 21,0000 28,3032 193 165,7970 4,7660 3,2790 88,0003 120,1080 2,0000 4,0008 18,2022 194 274,8440 3,5500 21,7900 2,9530 213,1860 3,0000 3,7521 24,2628 195 11 049,5000 166,8480 667,7998 55,5000 9 955,3984 4 485,1953 22,0007 52,5000 196 1 154,8477 14,4190 32,2360 4,0800 1 037,4727 424,4556 21,1234 30,3234 197 578,7107 11,4920 26,3000 8,0141 433,8230 1,0111 12,3456 5,3300 198 124,5440 1,8000 4,6280 1,9850 101,5300 23,6630 78,9101 36,3840 199 3 711,2029 63,4000 303,3838 4,5720 2 729,9280 22,0222 91,0111 33,0000 200 124,8600 2,0000 5,2240 2,3200 79,7770 51,0000 21,3141 2,6500
Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 201 2 466,0000 26,8650 161,7000 2,0202 2 028,7996 18,4021 3,2000 14,9000 202 2 829,2991 36,2000 156,8000 27,1000 2 261,0000 930,2000 51,1617 25,2000 203 814,8196 14,8000 48,5520 16,0111 622,9507 204,9000 18,1920 1,4150 204 4 051,7996 46,0000 349,5999 2,6000 3 036,5999 1 215,2996 21,2223 56,6000 205 67,0390 28,0005 3,5010 2,5170 54,9070 66,5620 24,2526 42,4446 206 240,5670 4,0000 5,5670 1,3220 184,1350 61,6900 2,5860 3,0470 207 45,2140 2,0000 1,4110 18,1010 38,0970 62,3201 27,2829 48,5052 208 69,9520 81,0000 33,3333 8,0033 65,4570 52,3302 30,3132 54,5658 209 54,5490 1,1270 1,7720 17,7200 42,5990 42,4444 33,3435 60,6264 210 317,4480 5,7840 12,6650 11,0330 254,1990 80,1010 36,3738 66,6870 211 847,9927 24,0000 85,0240 19,7930 664,9578 34,1021 39,4041 10,4000 212 467,9546 4,8450 13,1650 2,3810 400,5806 4,0999 42,4344 1,0011 213 126,6750 14,0007 7,7490 14,1441 109,6830 50,6410 45,4647 1,0022 214 85,7290 49,0000 2,1610 49,4949 72,8400 9,9901 48,4950 1,0033 215 680,7666 8,2200 19,2340 77,7878 578,8528 9,8175 51,5253 1,3090 216 211,3230 1,5670 4,8350 15,6180 171,4130 65,0000 54,5556 1,8201 217 254,3030 3,1000 2,7620 2,3570 205,8410 42,4381 57,5859 2,0880 218 1 396,8108 29,4160 79,9820 28,2626 1 000,2886 3,8107 16,1580 3,4510
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 219 3 981,0000 52,9000 188,3000 70,3000 3 120,5999 1 085,7996 75,8000 37,5000 220 3 943,0990 56,5320 259,5000 49,9000 3 352,3008 1 275,7002 60,6162 42,3000 221 1 260,2349 17,2880 103,0320 11,4810 1 055,9436 12,0000 63,6465 2,1133 222 973,2527 9,8850 25,4530 5,5580 848,7227 4,0877 66,6768 3,3210 223 19,9060 18,0002 5,6666 1,4100 16,5170 3,3876 69,7071 4,2242 224 66,8260 1,3200 6,1110 88,1388 48,9480 4,5222 72,7374 5,6210 225 178,7460 2,1980 5,5430 138,0000 138,5690 43,4350 75,7677 6,2155 226 26,7510 1,0560 8,8888 211,0113 17,9930 18,1111 78,7980 7,2102 227 20,5750 43,1111 7,7777 82,1003 13,9720 14,2222 81,8283 8,9712 228 51,5960 18,5216 1,6940 1,1620 38,8190 88,9922 81,0077 24,2601 229 106,1150 2,6000 4,6850 9,9210 64,0500 12,4243 77,0222 23,2810 230 8,5160 14,2421 12,0818 12,1402 5,9500 7,8246 22,4443 24,8588 231 308,8916 5,7000 15,8370 13,1402 144,7340 42,4444 47,8877 2,7060 232 753,8069 16,8750 37,4620 3,6210 491,1160 210,0050 16,4370 4,9340 233 41,2960 1,1080 2,5820 12,1213 28,1320 81,8118 12,5456 24,5293 234 145,6840 3,4190 13,3250 1,0087 105,1630 51,7100 51,8196 1,8480 235 51,3130 1,0000 1,5700 8,0025 35,9730 43,4400 21,4231 59,6085 236 21,4070 12,5358 18,7842 5,5554 12,9550 12,8888 37,8286 64,8821
Продолжение табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 237 585,6597 8,2000 56,0530 80,9960 359,8350 77,9999 13,6920 8,9610 238 516,7239 10,3000 17,9320 9,3610 376,4170 1,1007 5,6670 5,6000 239 316,8147 7,0000 3,9360 12,1314 267,2456 2,0008 86,8686 76,7686 240 509,7000 10,0000 27,0360 15,1617 375,3457 179,9240 85,8686 3,6080 241 341,3887 7,1270 7,1570 8,1819 287,6907 9,0007 86,8888 86,7795 242 33,0660 1,0872 1,9540 9,2021 24,0720 12,7210 83,1111 95,9594 243 200,5920 4,0000 5,3320 20,0290 153,5480 7,6660 82,2222 94,9388 244 184,5810 4,0500 7,2780 10,3570 142,7160 8,7770 22,6665 1,0790 245 217,7520 4,0880 7,3840 10,1146 179,1020 78,3910 44,6621 89,9012 246 386,8118 7,4040 18,4880 47,1213 302,5586 2,9990 18,1716 3,8620 247 69,1530 12,1212 1,6190 48,1415 54,4310 11,3410 15,1413 13,8125 248 81,4650 1,6220 4,1890 16,4950 70,5080 4,4555 12,1110 47,8552 249 329,5518 6,0040 12,2520 8,0540 269,6377 12,1417 9,8765 51,9185 250 36,3870 133,0000 12,7246 51,5355 27,7690 21,8283 4,3210 54,3321 251 344,7937 7,5000 24,7400 57,5982 205,0610 92,9395 8,1234 4,8200 252 22,8030 84,1000 2,1060 83,4952 10,6830 96,9899 5,6788 43,8388 253 196,3030 5,4660 5,9730 -99,9242 142,1520 97,9294 12,4582 2,2710 254 31,5660 13,7124 8,1264 10,1115 22,3750 95,0092 14,5220 66,7274
Окончание табл. Г. 16 N/N Объем продаж (млн долл.) Численность работников (тыс. чел.) Стоимость материальных ресурсов (млн долл.) Стоимость нематериальных ресурсов (млн долл.) Издержки на производство (млн долл.) Оплата труда (млн долл.) Расходы на рекламу (млн долл.) Расходы на исследования и разработки (млн долл.) 255 108,8580 1,7000 1,2870 92,4445 45,9130 92,6666 1,4330 53,5422 256 83,6260 1,2320 4,1220 55,6677 45,0950 92,5555 13,5620 22,5673 257 390,8726 6,1660 17,3310 40,5880 296,8577 58,2130 18,0000 10,0000 258 363,9839 7,0160 11,2700 11,5610 234,6320 2,7310 6,4860 86,0000 259 52,2620 0,4420 5,1030 1,1500 43,5110 12,1440 44,0700 16,0000 260 228,6110 5,6500 1,8370 41,5600 161,4700 20,5400 14,9460 3,0730 261 60,8250 1,5000 1,4910 45,3100 41,6820 1,8970 1,6590 30,7300 262 16,6890 40,5000 57,6000 9,8540 9,8450 18,3700 35,2020 63,5300 263 39,8290 62,1000 3,9900 1,5610 32,6580 4,9080 9,2530 30,0000 264 28,9020 93,4000 1,1040 36,5000 23,1410 2,5900 18,3650 10,0000 265 8,7410 27,0000 55,6000 32,1400 6,3700 59,3100 27,6600 56,6660 266 61,9446 7,0000 35,0470 43,2000 432,3777 160,6660 19,2020 6,3530 Таблица Г. 17. Заработная плата и другие данные о руководящих работниках 50 компаний в США за 2000 г. N/N Заработная плата (тыс.дрлл.) Премия (тыс. долл.) Другие выплаты (тыс. долл.) Всего выплачено (тыс. долл.) Возраст Образо- вание* Професси опальные данные Общий стаж Срок пребывания в должно- сти Рыночная стоимость фирмы (млндолл.) Процент собствен- ности в фирме Доходы фирмы (млн долл.) Объемы продаж фирмы (млндолл.) 1 173 275 5 453 64 2 3 40 26 54,5 3,14 91 872 2 1 441 429 78 1 948 55 1 1 23 23 7,6 0,55 145 1 227 3 1 646 0 89 1 735 47 2 7 5 5 21,7 0,52 -47 1 712 4 294 325 24 643 65 1 3 29 23 8,9 0,89 44 1 681
Продолжение табл. Г. 17 N/N Заработная плата (тыс.долл.) Премия (тыс. долл.) Другие выплаты (тыс. долл.) Всего выплачено (тыс. долл.) Возраст Образо- вате" Професси ональные данные Общий стаж Срок пребывания В ДОЛЖНО' сти Алючная стоимость фирмы (млн долл.) Процент собствен- ности в фирме Доходы фирмы (млн долл.) Объемы продаж фирмы (млн долл.) 5 1 254 105 102 1 461 63 1 6 23 8 3,6 0,05 201 5 673 6 325 25 7 357 54 2 5 20 1 0,5 0,06 71 1 117 7 658 0 11 669 61 2 5 2 2 0,7 0,05 -187 1 475 8 1 723 289 82 2 094 63 1 3 41 8 5,9 0,04 1 166 10 818 9 504 69 24 597 57 2 5 27 13 1,4 0,03 377 2 686 10 822 38 29 889 56 2 1 5 5 0,7 0,03 224 2 201 И 374 129 И 514 57 2 4 3 3 4,1 0,17 79 661 12 447 11 8 466 48 2 1 17 1 0,2 0,01 189 1 539 13 2 781 0 52 2 833 50 1 3 4 4 11,7 0,39 -332 11 663 14 128 282 17 427 54 1 8 31 15 71,4 10,09 55 2 366 15 1 782 0 74 1 856 60 2 7' 33 3 0,4 0,03 -507 4 864 16 1 137 423 92 1 652 60 2 1 34 14 11,5 0,06 856 14 949 17 761 20 1 782 49 2 9 18 9 1,3 0,07 14 5 061 18 505 0 108 613 56 2 9 8 1 0,1 0,02 -29 1 929 19 976 448 64 1 488 58 1 3 9 8 9,4 0,56 126 2 643 20 434 12 1 447 50 2 9 5 I 0,3 0,03 54 1 084 21 1 010 687 55 1 752 63 1 7 14 14 534,2 3,99 249 5 137 22 956 1 452 89 2 497 64 0 1 28 28 221,1 3,98 91 844 23 700 37 31 768 60 2 9 30 8 0,7 0,02 322 2 097 24 1 813 489 40 2 342 71 1 4 46 34 9,6 0,83 99 835 25 3 396 0 13 3 409 64 0 9 30 30 29,4 0,31 -99 12 021 26 2 108 38 98 2 244 64 2 5 41 5 4,0 0,04 30 4451 27 597 0 4 601 59 2 4 35 5 0,1 0,12 -85 1 911
Продолжение табл. Г. 17 N/N Заработная Премия Другие Всего Возраст Образа- Професси Общий Срок Рыночная Процент Доходы Объемы плата (тыс. выплаты выплачено ванне* опальные стаж пребывания стоимость собствен- фирмы продаж (тыс.долл.) долл.) (тыс. (тыс. данные в должно- фирмы ности (млн фирмы долл.) долл.) сти (млн долл.) в фирме долл.) (млн долл.) 28 616 862 76 1 554 61 1 8 41 17 30,6 2,23 82 1 435 25 237 221 4 462 61 2 5 25 11 16,8 1,03 27 1 314 30 571 0 16 587 55 2 4 5 5 1,6 0,17 -76 2 301 31 269 391 28 688 54 2 9 28 28 1 689,0 34,04 317 3 277 32 721 101 71 893 60 2 5 36 15 2,0 0,04 417 4 444 33 328 238 34 600 60 0 7 42 1 85,6 17,66 43 1 214 34 538 25 7 570 60 1 4 3 3 0,2 0,21 49 804 35 741 104 9 854 62 1 7 30 3 2,6 0,17 81 669 36 607 380 47 1 034 51 1 6 23 3 7,0 0,83 82 578 37 1 044 107 36 1 187 55 2 8 2 1 3,1 1,21 10 1 214 38 2409 1487 143 4 039 55 1 7 32 17 35,2 0,29 715 12 651 39 287 198 32 517 59 1 8 37 21 181,0 6,70 136 3 180 40 567 15 34 616 51 2 1 16 9 0,3 0,01 237 2 754 41 682 0 2 684 62 2 1 36 2 0,8 0,01 -1 086 12 794 42 1 226 174 56 1 456 52 1 4 30 10 6,0 0,17 98 4 439 43 952 80 56 1 088 45 2 7 11 11 2,6 0,17 48 415 44 432 0 12 444 50 2 7 25 3 0,1 0,01 -50 1 569 45 1 085 440 97 1 622 57 1 8 29 5 9,7 0,19 347 9 886 46 1 009 117 0 1 126 64 1 3 28 14 3,4 0,21 63 2 545 47 1 711 182 134 2 027 62 2 2 25 5 3,4 0,04 806 8 379 48 408 183 9 600 52 2 7 12 2 4,2 0,26 10 21 351 49 543 13 2 558 62 2 5 34 12 0,2 0,01 265 2 359 50 278 209 74 561 61 2 6 24 24 15,4 0,95 52 695 ‘0 — нет высшего образования', 1 — незаконченное высшее образование; 2 — законченное высшее образование.
Предметный указатель А ANOVA, 271; 276 ARIMA, 106; 453; 506 С Census II, 219 Е Excel, 30 F F-критерий, 276; 277 F-статистика, 291; 345 К Kaddstat, 130 м MAD, НО МАРЕ, 111 Minitab, 30; 64; 79; 90; 202; 249; 307; 384; 406; 449;539 МРЕ, 111 MSE, ПО; 269 MSR, 269 P р-значение, 51 Q Q-статистика, 92; 116 s SSE, 268 SSR, 268 T t-критерий, 277; 326 t-распределение, 47; 113; 276 t-статистика, 116; 290 V VIF,336 X X-12-ARIMA, 219; 221 Y Y-пересечение, 59 z Z-стандарт, 57 Z-стандартизация, 44 A Автокорреляционная функция, 41 Автокорреляция, 87; 91; 101; 115; 387; 388; 393; 396; 417 коэффициент, 116 остатков, 291 ошибок, 396 частная, 454 Авторегрессия, 396 модели, 408
646 Предметный указатель Аддитивное разложение, 412 Анализ, 545 временных радов, 222; 567 декомпозиция, 193 дисперсии, 324 корреляционной матрицы, 319 остатков, 277; 348 регрессионный, 416 статистический, 323 Аппроксимация,59 Б База данных, 578 Белый шум, 92 Бизнес-цикл, 86 Биномиальное распределение, 43 В Величина, 85 дискретная, 42 непрерывная, 42 нестационарная, 136 Вероятностное распределение, 42 Визуализация данных, 38 Временной рад, 85; 91; 116; 191; 387; 409; 453 автокорреляция, 387 анализ, 217 нестационарный, 453 синтез, 217 стационарный, 453 Выборка, 33 распределение, 46 среднее значение, 46 Выборочное распределение, 46; 66 Выброс, 39; 349 Г Генеральная совокупность, 33; 57; 320;351 Гетероскедастичность, 267; 409 Гистограмма, 40 Горизонтальная модель, 85 д Дальность прогнозирования, 202 Данные, 83; 319 временной рад, 37; 85; 116 запаздывание, 87 кросс-секционные, 37; 84; 116 модель поведения, 85 сезонная компонента, 116 сезонные, 412; 491 серийно коррелированные, 267 стационарный рад, 116 тренд, 116 циклическая компонента, 116 циклические, 106 экономические, 416 Декомпозиция, 193; 204; 208; 218; 225 аддитивная, 204 метод Census II, 219 мультипликативная, 204; 210 Деловой показатель, 215; 225 Дефлятирование цен, 224; 225 Диаграмма, 54 временного рада, 40 гистограмма, 40 коррелограмма, 41 рассеяния, 40; 53; 66; 274 точечная, 38 ящик, 39 Дисперсия, 34; 96 разложение, 267 Дифференциация, 396 Доверительный интервал, 48 Долларовый эквивалент, 223 Древовидная схема решений, 558 3 Зависимость горизонтальная, 41 линейная, 54; 58; 66; 257
Предметный указатель 647 нелинейная, 54 сезонная, 41 циклическая, 41 Закон Байеса, 561 Значимая вероятность, 51 Значимость регрессии, 325 И Индекс цен,223 Индикаторная переменная, 332 Интервал прогноза, 290 Интервальная оценка, 266 Интервальный прогноз, 264 Искусственный интеллект, 554 Итерационный подход, 404 К Качественный фактор, 332 Квартиль, 36 Комбинирование прогнозов, 552 Коррелограмма, 41; 90; 115 Корреляционная матрица, 318 Корреляция, 41; 56; 58; 87; 257 Z-стандарт, 57 анализ, 52 коэффициент, 56; 66; 318 серийная, 388; 392; 400; 408; 417 серийная первого порядка, 388 Коэффициент автокорреляции, 87; 88; 91; 92; 93; 96; 113 детерминации, 273; 276; 289; 290; 326 корреляции, 56; 66; 273; 290 многомерный, 327 сезонности, 162 частный, 322; 354 Коэффициент автокорреляции, 116 стандартная ошибка, 116 Кривая Гомперца, 201 Кривые роста, 547 Критерий AIC, 490 BIC, 490 Акаике, 203 Баезиана, 203 выбора модели, 490 Дарбина-Уотсона, 392; 393 наименьших квадратов, 259 серийной корреляции, 393 Л Линейная зависимость, 54; 257 Линейная регрессия, 257; 262; 267 преобразование переменных, 282 статистическая модель, 262 Логистическая кривая, 201 м Математическое ожидание, 42; 66; 557 ошибка, 262 Мегатренд, 579 Медиана, 36 Метод, 133; 557 ARIMA, 506 Census II, 219 адаптивная фильтрация, 107 адекватность, 112 Бокса-Дженкинса, 107; 454; 462; 508; 568 Брауна, 157 ведущих индикаторов, 108 Винтерса, 161 возрастающих кривых, 107 двойных скользящих средних, 144 декомпозиции, 193 Дельфи, 549; 569 качественный, 107 классическое разложение, 106 комбинирования прогнозов, 552 Кохрейна-Оркатта, 405 кривых роста, 547 множественная регрессия, 107 модели Гомперца, 107 наивный, 107; 134; 137
648 Предметный указатель наименьших квадратов, 59; 66; 196; 257;289 нелинейный, 464 написания сценария, 550 образования разностей, 96 ошибка, ПО подгонка S-кривой, 107 простых средних, 106; 138 регрессионный, 106 скользящих средних, 106; 140; 210 субъективной оценки, 547 Хольта, 113; 156 эконометрический, 106 экспоненциального сглаживания, 107; 148 Методы усреднения, 137 Многомерная регрессионная модель, 319 Многомерная регрессия, 317 статистическая модель, 320 Модель, 85; 191 AR(1), 458 AR(2), 458 ARIMA, 453; 463; 464; 489; 490; 505; 506 проверка, 465 сезонная, 492 ARMA, 461; 463 МА(1), 460 МА(2), 460 авторегрессионная, 408; 417; 458 авторегрессионная интегральная со скользящим средним, 463 аддитивных компонент, 194 Гомперца, 107 горизонтальная, 85 логарифмическая линейная, 400 мультипликативных компонент, 194 одновременных уравнений, 416 Перла-Рида, 202 регрессионная, 404 многомерная, 319 с авторегрессией и скользящим средним, 461 сезонная, 86; 87; 101 со скользящим средним, 459 тренд, 85 циклическая, 86 эконометрическая, 416; 417 Мультиколлинеарность, 318; 335; 338; 354 н Начало предсказания, 202 Неизменный доллар, 224 Нейронная сеть, 553; 563 полная совместимость, 554 обучение, 554 Нелинейная зависимость, 54 Нерегулярная компонента, 210 Нерегулярность, 193; 210 Нормальное распределение, 44; 63 Z-стандартизация, 44 О Остатки, 320; 348 автокорреляция, 291 изучение, 391 стандартизованные, 349 Отклонение, 260 Отнесение к скользящему среднему, 204 Оценка, 48; 66; 547 интервальная, 48 точечная, 48; 67 Оценочное прогнозирование, 18 Ошибка серийная корреляция, 404 Ошибка прогноза, 24; ПО; 116; 154 стандартная, 264 п Пакеты, 24; 25 прогнозирования, 24
Предметный указатель 649 статистические, 24 Переменная индикаторная, 332 независимая, 336 фиктивная, 332; 354; 412 экзогенная, 416 эндогенная, 416 Погрешность, 116 Покупательная способность, 223; 226 Пошаговая регрессия, 344; 347; 354 Принцип экономии, 464; 508 Проверка гипотез, 49; 66 модели, 465 Проверочная статистика, 275 Прогноз, 103; 217; 260 интервальный, 264 метод, 21; 106 Винтерса, 168 Хольта, 168 наивная модель, 167 наивный, 134 ошибка, НО; 116 предостережения, 351 стандартная ошибка, 329 типы, 20 точечный, 264 управление, 23 экономический, 416 этапы, 22 Прогнозирование, 192; 545; 553; 567; 571; 577 организация, 576 перспективы, 579 процесс, 567 технологическое, 556; 568 управление процессом, 575 Простое среднее, 167 Процесс прогнозирования, 567 Прямая наилучшего приближения, 259 регрессии, 289 Прямолинейная регрессия, 276 Р Разбиение изменчивости, 271 Разложение дисперсии, 267 Размах, 36 межквартилевый, 37 Разность, 396; 399 обобщенная, 396; 400; 404 Распределение биномиальное, 43; 66 выборочное, 46 нормальное, 44; 63; 67; 91; 113 Расстояние Кука, 351 Регрессионная диагностика, 348 прямая совокупности, 262 сумма квадратов, 268 Регрессионный анализ, 568 Регрессия, 319; 387; 388; 400 значимость, 326 изучение, 277 коэффициенты, 291; 320; 322 линейная, 257; 262; 267; 274; 276; 282 ложная, 389 многомерная, 108; 317; 319; 323; 354 анализ, 342; 344 множественная, 107 полиномиальная, 411 простая, 107 прямая регрессии, 259 рычаг, 348 с разностями, 399 уравнение, 260; 290; 339 фиктивная переменная, 412 частный коэффициент, 322; 354 Рычаг, 348 С Свободный член,259 Сглаживание, 148; 505 метод Брауна, 157 Винтерса, 161 Хольта, 156
650 Предметный указатель начальная величина, 152 постоянная сглаживания, 149 экспоненциальное, 106; 505 Сезонная компонента, 116 корректировка, 194 модель, 86 Сезонность, 193; 203; 208; 217; 226; 491 измерение вариаций,204 устранение, 209 числовой индекс, 204 Сезонный ряд, 105 Серийная корреляция, 388; 408; 409 ошибок, 404 Скользящее среднее, 106; 140; 144; 166; 167; 168 двойное, 144 Следящая система, 154 Следящий сигнал, 154; 167; 573 Случайная величина, 41; 66 дискретная, 41 Случайное событие, 41 Среднее значение, 33; 96 отклонение, 110; 116 Среднеквадратическая ошибка, НО; 117 Среднеквадратическое отклонение, 34 Средне квадратичное ошибок, 269 регрессии, 269 Среднеквадратичные значения, 269 Средняя ошибкав%, 111; 117 процентная ошибка, 111; 117 Стандартная ошибка оценки, 263; 289; 290; 324; 354 прогноза, 290; 329 Статистическая оценка, 48 Стационарный ряд, 96; 104; 116 Степени свободы, 35; 36; 67; 268 Субъективная оценка, 545; 547; 555 Сумма квадратов ошибок, 268 т Таблица ANOVA, 269; 324; 325 Теорема Байеса, 559 центральная предельная, 46 Теория принятия решений, 557; 558 Тест Андерсона-Дарлинга, 64 Дарбина-Уотсона, 392 Льюинга-Бокса, 143 Точечная диаграмма, 38 оценка, 67 Точечный прогноз, 264 Тренд, 41; 85; 86; 91; 96; 97; 105; 116; 136; 144; 156; 162; 193; 195; 226 квадратичный, 199 кривая Гомперца, 202 линейный, 196 логистический, 202 прогноз, 202 экспоненциальные модели, 107 У Угловой коэффициент, 259 Уравнение наилучшая регрессия, 339 регрессии, 259; 260 свободный член,259 угловой коэффициент, 259 Уровень значимости, 49 Ф Фактор роста дисперсии, 336 Фиктивная переменная, 332; 354 ц Центральная предельная теорема, 46 Циклическая компонента, 116
Предметный указатель 651 модель, 86 Циклический эффект, 106 Цикличность, 193; 210; 216 деловой показатель, 215 ч Численное суммирование, 33 Числовые индексы, 204; 225 Чистый коэффициент регрессии, 323 э Эконометрика, 318; 416 Экспоненциальное сглаживание, 107 148; 165; 167; 168 квадратичное, 107 линейное, 107 метод Винтерса, 161 метод Хольта, 156 сезонное, 107 Эластичность, 400
Научно-популярное издание Джон Э. Ханк, Дин У. Уичерн, Артур Дж. Райте Бизнес-прогнозирование. 7-е издание Литературный редактор Верстка Художественный редактор Обложка Корректоры Е.Д. Давидян О. В. Мишу тина М.А. Смолина Е.П. Дынник З.В. Александрова, Л.А. Гордиенко, Л. В. Чернокозйнская Издательский дом “Вильямс”. 101509, Москва, ул. Лесная, д. 43, стр. 656. Изд. лиц. ЛР № 090230 от 23.06.99 Госкомитета РФ по печати. Подписано в печать 27.05.2003. Формат 70X100/16. Гарнитура Times. Печать офсетная. Усл. печ. л. 46,44. Уч.-изд. л. 36. Тираж 3500 экз. Заказ № 80. Отпечатано с диапозитивов в ФГУП “Печатный двор” Министерства РФ по делам печати, телерадиовещания и средств массовых коммуникаций. 197110, Санкт-Петербург, Чкаловский пр., 15.